OpenAI在API中推出全新语音智能功能

【编者按】 OpenAI又放大招啦！这次直接把语音AI技术推到新高度——实时对话、即时翻译、同声转写，一个API全搞定！从GPT-Realtime-2的智能推理到多语言翻译模型，再到媲美“真人打字员”的语音转文字功能，简直就是给开发者塞了个全能语音助手。但别急着兴奋，技术越强大，滥用风险越高。OpenAI倒是提前装了“刹车片”，可AI越界的老剧本我们见过太多。这篇原文直击技术新亮点，咱们赶紧看看这些黑科技到底有多能打，又可能埋下哪些雷？

OpenAI于本周四宣布，其API将新增多项语音智能功能，旨在帮助开发者构建具备对话、转录及翻译能力的应用。

新发布的GPT-Realtime-2模型专为打造逼真语音交互而生。与前代相比，这款模型搭载了GPT-5级别的推理能力，能够处理用户更复杂的请求。

同步推出的GPT-Realtime-Translate翻译模型支持70余种输入语言和13种输出语言，可实现“紧随语速”的实时对话翻译。

此外，OpenAI还发布了转录模型GPT-Realtime-Whisper，可在对话过程中实时实现语音转文字。

公司指出：“这些模型将实时音频从简单的问答互动，升级为能听会道、能翻会写的智能语音界面，真正在对话中‘做事’。”

这些更新主要面向希望扩展客服能力的企业，同时适用于教育、媒体、活动和创作者平台等领域。

尽管功能强大，OpenAI也坦言存在被滥用于骚扰、诈骗等恶意行为的风险。公司已内置防护机制，一旦检测到违规内容“会立即终止对话”。

所有新语音模型均集成于Realtime API中。翻译和转录模型按分钟计费，GPT-Realtime-2则按Token消耗计费。

本文由吉伊网原创发布，未经许可，不得转载！
本文链接：http://www.jkiyi.com/kx/28255.html