实时语音对话模型GPT-4o，OpenAI的全新突破

2025-11-13 08:01

GPT-4o在语音识别和转换方面均超越了之前的最先进水平。

多模态理解能力优于GPT-4、Gemini和Claude等模型，表现更为突出。

GPT-4o新增了语音模态，这一功能十分实用。它可以实现多种应用，例如结合audio2face技术生成虚拟人，进而打造智能主播或游戏中的智能NPC等，为用户带来更丰富的互动体验。对于这次新发布，我略感失望，不如预期。或许因为它没有带来新的认知，令人遗憾。

属性绑定能力也非常强大：

生成故事如今已非难事。

GPT-4o并非通过外挂DALLE-3生成图像，而是运用端到端的大一统模型进行生成。

举报有用（0）分享收藏

热门话题