
OpenAI
实时语音交互仅是GPT-4o(全模态全能)的冰山一角,更多精彩功能,请耐心了解。最离谱的是免费提供,实在令人费解,OpenAI究竟想做什么?目前我们仅知晓这些信息:
从这个角度看,付费Plus对我吸引力不大,还可能造成付费用户流失。对此,山姆·阿尔特曼更新了博客内容:一是...,二是...第一,免费无可厚非,值得尊敬;第二,后续结合演示详细讨论。先简单记录发布会内容,稍后更新观点。发布会形式简洁,Sam 未现身,由 Mira 简要介绍并进行实时演示,发布内容仅三句便概括完毕。演示环节,工作人员现场展示了几个案例。互动环节中,选取了观众提出的两个典型案例进行分析。根据 OpenAI 官网博客的明显标志(视频均以 1 倍速播放),这或许是在讽刺某些发布虚假录屏的产品。

山姆
过去AI配音的小说阅读器总是缺乏情感,枯燥无味。而GPT-4o能够精准识别小说的语境、情感与语调,还能灵活扮演多个角色。OpenAI或许无意间彻底颠覆了AI朗读小说的领域,使其跃升到新的高度。
OpenAI 表示,作为首个整合所有模态的模型,GPT-4o 的能力和局限仍有待深入探索,这表明其潜力巨大,未来可期。坦白讲,如今AI工具越来越易用,可大模型的原理却愈发深奥。若不懂Transformer、端到端等概念,不仅难以掌握AI能力,还会影响Prompt工程的效果。在AI时代,夯实基础才是关键。想快速掌握 GPT 的应用与原理,建议学习网络知学堂的大模型公开课。只要有编程基础,就能跟随行业专家,高效掌握大模型技术基础、Prompt 工程技巧以及微调方法,轻松创建属于自己的大模型应用方案。比如,过去 DALLE 无法写字,如今 GPT-4o 能生成带文字的图片,还支持按需编辑修改。
能将图像融合制作成海报:
能够创作出手写风格的信件或画报:
可以设计基于Logo的纪念币或徽章:
直接转换照片风格:
能够变换字体的文字
能够创建三维物体:
可以直接将Logo设计融入某个物体中:
这段工作令我联想到阿里以往的AnyText,如今一个端到端多模态模型已全面覆盖相关功能,这种全方位的整合能力,确实展现了强大的技术实力与创新奇迹。
接着,GPT-4o同时渲染聊天对话框(之前用DALLE做儿童绘本时,对话气泡是最让我头疼的部分)。
直接识别发言人,转录会议录音:
可直接依据视频概括讲座要点:
这些能力若依靠改造DALLE或Whisper恐怕不易实现,于是OpenAI直接重磅出击,推出了全模态的GPT4-4o。这次视觉模态的进步幅度与意义,丝毫不逊于实时音频对话。确凿证据显示,GPT-4o 就是 LMSys Arena 上的 im-also-a-good-gpt2-chatbot,两者实为同一模型,此前一直未被发现。
与gpt-4-turbo-2024-04-09相比,overall elo提升了57分,编程能力大幅提高了100分。
最新消息,网页版ChatGPT已升级至GPT-4o模型:
模型选择中已包含GPT-4o选项。
分享一下最近的使用感受:第一感受是速度非常快,甚至超越了GPT-4-Turbo,官方提到的提速降价确实名副其实。
测试了生成图像功能,似乎还未更新,和之前的DALLE一样不太智能,效果不如官方示例。
在 GPT-4o 的贡献者页面上,发现了 Ilya Sutskever 的名字。他是重要的参与者之一,对此项目有着显著贡献。
不知道有多少人留意到,Mira 在发布会结束时提到:今天的内容主要集中在免费用户、新的模式和新产品上。但我们同样非常关注下一个前沿领域。不久之后,我们将向大家更新我们在下一重大目标上的进展。 这番话透露出团队不仅着眼于当前的成果,还在积极探索未来的创新方向,为接下来的重大突破做准备。虽然目前的重点是让更多用户受益于新功能,但他们的视野早已投向了更遥远的未来,致力于持续推动技术与体验的革新。现在就等着看下一个大事件了,如果这两周发布狙击谷歌IO的内容,会更有趣……其他回答如下:
Copyright © 2025 IZhiDa.com All Rights Reserved.
知答 版权所有 粤ICP备2023042255号