终于来了，OpenAI测试GPT-4o高级语音模式！

AIGC动态2年前 (2024)发布 AIGCOPEN

3,677 0 0

文章摘要

OpenAI正在对GPT-4o的高级语音模式进行测试，目前仅向部分ChatGPT Plus用户开放。测试的目的是收集关于安全性和功能方面的反馈，以便在8月初发布全面的评估报告。测试用户将通过邮件收到通知，其中一位AI专栏作者已经获得了测试资格。他希望GPT-4o能够以激情的语气解说足球比赛，尤其是在进球时刻。尽管初次尝试未能完全满足要求，但经过再次尝试，GPT-4o的表现让人联想到了黄健翔的解说风格。

GPT-4o的语音模式不仅适用于娱乐，还能用于教育，帮助用户进行口语练习并提供发音评分，这对于无法负担私人教练费用的家庭来说是一个巨大的福音。此外，GPT-4o支持多语言，包括法语、西班牙语和乌尔都语，其流畅的语音输出受到了好评。有网友认为GPT-4o相当于为每个人配备了一个专业翻译，将极大地促进全球交流，对旅游行业尤其有益，但也可能对翻译行业构成威胁。

尽管测试目前仅限于少数用户，但OpenAI计划在秋季向所有ChatGPT Plus用户开放GPT-4o的语音模式。GPT-4o是OpenAI在5月14日发布的旗舰模型，能够进行视频、音频和文本的实时推理。其语音推理模式支持超过40种语言，提供实时翻译、唱歌、口语练习、数学题解答和讲笑话等功能。尽管原定几周内开始测试，但因安全、性能和算力等问题，发布时间被推迟了两个月。

对于那些无法访问ChatGPT Plus的用户，可以考虑尝试商汤科技在2024年WAIC大会上推出的“国产版GPT-4o”——日日新5o大模型。日日新5o在理解文本、图像和视频方面表现出色，能够进行跨文本、音频、图像和视频的推理，提供更丰富和准确的回答。在全球权威测评中，日日新5.5的得分超过了GPT-4o，显示出其在英文能力、指令跟随和长文本理解等方面的显著提升。5o模型采用了混合端边云协同专家架构，并基于超过10TB tokens的高质量数据进行训练，能够在保持高性能的同时降低推理成本。