OpenAI 推出 Whisper API 将语音转换为文本以进行转录和翻译

OpenAI 今天推出了 Whisper API,以配合 ChatGPT API 的推出。 这是 Whisper 开源语音转文本模型的托管版本,该公司于 9 月发布了该模型。

Whisper 是 OpenAI 的一种语音识别系统,每秒成本为 0.006 美元,能够“稳健地”转录多种语言并将其翻译成英语。 它接受多种格式的文件,包括 M4A(MP3、MP4、MPEG)、MPEG、MPGA (MPGA)、WAV 和 WEBM。

许多组织已经开发了语音识别系统,这些系统是谷歌、亚马逊和 Meta 等科技巨头的服务和软件的核心。 OpenAI 总裁兼主席格雷格·布罗克曼 (Greg Brockman) 表示,Whisper 之所以不同,是因为它使用了来自互联网的 680,000 小时的数据进行训练,包括多语言和“多任务”数据。 这导致更好地识别口音、背景声音和技术术语。

来源和详细信息:
https://techcrunch.com/2023/03/01/openai-debuts-whisper-api-for-text-to-speech-transcription-and-translation/

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注