OpenAI发布三款实时语音AI模型，颠覆人机交互体验！

ChatGPT的开发者OpenAI推出了三款新的语音人工智能模型。据报道，OpenAI正在为下一代AI设备做准备，这些设备可能取代智能手机，而公司正在推进操作这些设备所需的语音AI模型。

当地时间7日，OpenAI发布了三款模型：具备GPT-5级推理能力、能处理复杂请求的语音模型’GPT-RealTime-2’；提供实时语音翻译的’GPT-RealTime-Translate’；以及实时将语音转换为文本的’GPT-RealTime-Whisper’。

OpenAI解释了开发背景，表示“语音正成为使用软件最自然的方式”。例如，在开车时给出导航指示或发送邮件等情况下，语音技术必须足够先进，才能在不使用双手的情况下继续完成任务。

公司强调，“仅仅快速的响应速度或自然的语音是不够的”，并补充说，“我们正在推进实时语音技术，使其超越简单的问答水平，让AI能够遵循对话流程，进行倾听、推理、翻译和转录。”

‘GPT-RealTime-2’的设计特点是，即使用户在AI回应过程中打断或更正之前说过的话，它也能立即做出反应。与传统AI模型不同，该模型实现了类似人类之间的自然对话，无需用户和AI轮流发言。

据公司介绍，房地产平台Zillow、旅游平台Priceline和电信提供商Deutsche Telekom目前正在试点该模型。Zillow正在构建一个语音助手，可以根据语音设定的条件搜索房产并安排参观，而Deutsche Telekom则在试验客户支持的实时翻译服务。

预计OpenAI将在其自己的AI设备中使用这些语音模型。在去年以65亿美元收购了前苹果产品设计负责人乔纳森·艾维的初创公司’io’后，OpenAI一直在准备语音操作的AI设备。主要媒体猜测，这些设备可能包括智能眼镜、可别在衣服上的针形智能设备或智能音箱。

本文由吉伊网原创发布，未经许可，不得转载！
本文链接：http://www.jkiyi.com/lif/32527.html