OpenAI发布三款实时语音AI模型,颠覆人机交互体验!

ChatGPT的开发者OpenAI推出了三款新的语音人工智能模型。据报道,OpenAI正在为下一代AI设备做准备,这些设备可能取代智能手机,而公司正在推进操作这些设备所需的语音AI模型。

当地时间7日,OpenAI发布了三款模型:具备GPT-5级推理能力、能处理复杂请求的语音模型’GPT-RealTime-2’;提供实时语音翻译的’GPT-RealTime-Translate’;以及实时将语音转换为文本的’GPT-RealTime-Whisper’。

OpenAI解释了开发背景,表示“语音正成为使用软件最自然的方式”。例如,在开车时给出导航指示或发送邮件等情况下,语音技术必须足够先进,才能在不使用双手的情况下继续完成任务。

公司强调,“仅仅快速的响应速度或自然的语音是不够的”,并补充说,“我们正在推进实时语音技术,使其超越简单的问答水平,让AI能够遵循对话流程,进行倾听、推理、翻译和转录。”

‘GPT-RealTime-2’的设计特点是,即使用户在AI回应过程中打断或更正之前说过的话,它也能立即做出反应。与传统AI模型不同,该模型实现了类似人类之间的自然对话,无需用户和AI轮流发言。

据公司介绍,房地产平台Zillow、旅游平台Priceline和电信提供商Deutsche Telekom目前正在试点该模型。Zillow正在构建一个语音助手,可以根据语音设定的条件搜索房产并安排参观,而Deutsche Telekom则在试验客户支持的实时翻译服务。

预计OpenAI将在其自己的AI设备中使用这些语音模型。在去年以65亿美元收购了前苹果产品设计负责人乔纳森·艾维的初创公司’io’后,OpenAI一直在准备语音操作的AI设备。主要媒体猜测,这些设备可能包括智能眼镜、可别在衣服上的针形智能设备或智能音箱。

本文由吉伊网原创发布,未经许可,不得转载!
本文链接:http://www.jkiyi.com/lif/32527.html

联系我们

在线咨询:

邮件:sooting2000@qq.com