首页 > 分类 > Whisper
网站
PaperClip

Whisper

免费
国外

由OpenAI开发的通用语音识别模型。

PaperClip interface

Whisper

访问

关于 Whisper

由OpenAI开发的通用语音识别模型。

平台

网站

浏览 1026 , 收录与 2025-11-04 23:22:32

产品介绍

什么是Whisper?


Whisper是由OpenAI开发的一款通用语音识别模型。它训练于一个大型的多样化音频数据集,并且是一种多任务模型,可以执行多语言语音识别、语音翻译和语言识别。Whisper采用了Transformer序列到序列模型,训练于各种语音处理任务,包括多语言语音识别、语音翻译、口语语言识别和语音活动检测。这些任务被作为一串由解码器预测的标记共同表示,使得单一模型能够取代传统语音处理流程中的多个阶段。多任务训练格式使用了一组特殊标记,作为任务说明符或分类目标。

如何使用 Whisper?


Whisper可以通过命令行或在Python中使用。对于命令行使用,你可以通过指定音频文件和模型大小来转录音频。对于Python使用,你可以加载模型并使用transcribe()方法来处理音频文件。

Whisper 的核心功能

多语言语音识别

语音翻译

语言识别

语音活动检测

Whisper 的使用案例

将音频文件转录为文本

将一种语言的语音翻译为另一种语言

识别音频文件中所讲的语言