OpenAI在API中推出全新语音智能功能

【编者按】 OpenAI又放大招啦!这次直接把语音AI技术推到新高度——实时对话、即时翻译、同声转写,一个API全搞定!从GPT-Realtime-2的智能推理到多语言翻译模型,再到媲美“真人打字员”的语音转文字功能,简直就是给开发者塞了个全能语音助手。但别急着兴奋,技术越强大,滥用风险越高。OpenAI倒是提前装了“刹车片”,可AI越界的老剧本我们见过太多。这篇原文直击技术新亮点,咱们赶紧看看这些黑科技到底有多能打,又可能埋下哪些雷?

OpenAI于本周四宣布,其API将新增多项语音智能功能,旨在帮助开发者构建具备对话、转录及翻译能力的应用。

新发布的GPT-Realtime-2模型专为打造逼真语音交互而生。与前代相比,这款模型搭载了GPT-5级别的推理能力,能够处理用户更复杂的请求。

同步推出的GPT-Realtime-Translate翻译模型支持70余种输入语言和13种输出语言,可实现“紧随语速”的实时对话翻译。

此外,OpenAI还发布了转录模型GPT-Realtime-Whisper,可在对话过程中实时实现语音转文字。

公司指出:“这些模型将实时音频从简单的问答互动,升级为能听会道、能翻会写的智能语音界面,真正在对话中‘做事’。”

这些更新主要面向希望扩展客服能力的企业,同时适用于教育、媒体、活动和创作者平台等领域。

尽管功能强大,OpenAI也坦言存在被滥用于骚扰、诈骗等恶意行为的风险。公司已内置防护机制,一旦检测到违规内容“会立即终止对话”。

所有新语音模型均集成于Realtime API中。翻译和转录模型按分钟计费,GPT-Realtime-2则按Token消耗计费。

本文由吉伊网原创发布,未经许可,不得转载!
本文链接:http://www.jkiyi.com/kx/28255.html

联系我们

在线咨询:

邮件:sooting2000@qq.com