GPT-5来了,还免费,打工人真有救了

果壳 2025-08-08 09:46

这是OpenAI模型发布时间线。今天凌晨,我们终于等到了GPT-5,这款从去年就被反复“预告”,不断“剧透”的模型。

发布会用“普通人能看懂的方式,展示了最强AI的能力”,从写发布会文案,到现场生成网站、做游戏、学语言,再到AI协助问诊和“传统艺能”比拼 benchmark。

如果说GPT-3是“能自主说话”的语言模型,GPT-4是“听懂人话”的多模态大脑,GPT-5更像是一个全能的个人助手。

用 Sam Altman 一句话总结:“GPT-5将让你第一次真正感觉到,仿佛与任何领域的博士级专家交谈的感觉。”

那么,这个被冠以“地表最强”title的大模型,表现如何?

程序员又又又危险了

编程,是GPT-5发布会的一大亮点,也是最能直观感受到GPT-5进化之处。

OpenAI团队在现场写出了好几个网页,比如“给伴侣做一个能让英语使用者学法语的网页,功能要有进度跟随、单词卡、单词小游戏等”。

300词左右的Prompt,3分钟不到,GPT-5就拿出了一个极其完整的可用网页,并“擅自”命名为《午夜巴黎》(还致敬了伍迪·艾伦的电影),网页即创即用,单词卡、进度跟踪、快捷键、记忆曲线、开发者要求的贪吃蛇小游戏,这些功能全部满足且运行正常。

关键是网页设计的还很有美学,网页间距、排版、配色、视觉感都被考虑进去,甚至做出了黑暗/白天的双主题。

OpenAI又让GPT-5写了一个“动态SVG可视化可以模拟翼型的行为”,几分钟内,GPT-5搓出了几百行代码后,交付出一个完全符合需求,美观且可交互的网页,并且所有的参数变化都会根据物理规律实时调整,整个网页达到了教学演示级别的专业水准。

根据OpenAI自己的内部测试,70%的情况下,GPT-5在前端网络开发方面击败了今年4月才上线,号称“OpenAI最强大的推理模型”的OpenAI o3。

而后GPT-5又展示了它作为编程Agent的强大,同样在几分钟内,就做出了一个带有3D场景、可控角色与多重视角的网页游戏,从物理引擎调用到角色对话系统构建,全程几乎无需人类干预。

几大AI编程软件也给了GPT-5编程能力极大好评,Cursor创始人称GPT‑5是“我们用过最聪明的模型”,代码调试能力尤为突出;Windsurf 优评其工具调用错误率甩前代几条街;Vercel则说它不仅写对,还“写得像专业网页设计师”。

和Cursor IDE集成后,GPT-5还能在几分钟内理解上百万行代码,可以自己“debug”输出结果并回溯方案,不再陷入“提示死循环”。在SWE-bench这个真实软件工程任务测试里,GPT-5不仅能理解bug报告,还能精准修改代码,准确率最高接近75%,远超GPT-4的30%。

所以“编程”是整场发布会里,GPT-5最具说服力的展示场景之一。

GPT-5不再只是“能写代码”,而是具备了程序员的开发路径:理解需求、设计结构、撰写代码、优化交互、美化界面,甚至还会在需求之外“适度创作”。

又当程序员,又做设计师,还会搞交互,各类编程语言也都拿手,GPT-5已经接近一名合格的全栈工程师了。

写作、沟通、打工、就诊

写作堪称GPT的“基本功”,在GPT-5上,写作变得更有人味儿、也更专业。

比如一位用喜剧传递科普内容的博主,她用GPT-5写剧本、写段子、测试角色逻辑和情绪动机、出分镜,甚至用语音和GPT-5“对戏”。

在发布会上的写作演示中,同样的Prompt下,GPT-5也明显比GPT-4o生成的文案更有“人味儿”,用词精炼且有节奏感。

在正经的科研场景中,GPT-5表现得也如Sam Altman所言像一位“跨学科博士后”。免疫学教授用GPT-5解读实验数据,模型不仅能解释结果,还会预测未来实验趋势,并主动提出下一步实验方案,大大压缩了科研迭代周期。在专业能力上,据OpenAI 披露的数据,GPT-5在大约一半的案例中和行业专家水平相当或更好。

对于每天在工位上与琐碎信息搏斗的打工人来说,GPT-5这次真能做你的助手,OpenAI都自封为“打工人最好用的模型(Our best model for work)”。

你只需要把领导给你的资料往GPT-5那一拖,它就能做出了Excel表格,再根据表格做出数据可视化的看板,还给你写好资料要点和总结。

同时,GPT-5还能帮你理清一整套方案,给出落地页结构和转化建议,精准而不敷衍。夸张点儿说,老板开口说“我有个想法”,几分钟后,GPT-5项目企划书已经做好了。

OpenAI还展示了这样一个真实且感人的案例:一位名为Carolina的用户在短短一周内被诊断出三种不同形式的癌症,但她一直在排队等候报告解读,于是她将医院报告截图上传给GPT‑5,模型迅速将复杂的医学术语转化为易于理解的语言。

在后续治疗过程中,GPT‑5不仅持续帮助她解读术语,还协助她评估治疗选项、准备就诊问题,甚至在是否接受放射治疗的决策上给予Carolina情感支持。

尽管Sam Altman也强调了,OpenAI并不把GPT‑5定位为医疗设备,它也不能替代专业医疗角色,但他们想做的是让AI成为“健康素养支持工具”(health literacy support tool)能让患者在慌乱和未知里,不再完全仰赖医生,而是成为有准备、有信息支持、能了解身体情况的患者。

GPT-5的语音模式也有了明显提升,增加了冷嘲型、理性型、倾听型、学霸型四种不同的语音预设,除了语气更自然外,情感感知能力也有提升,用户还可以自选语音风格和语速。在发布会的演示中,OpenAI还特意展示了GPT-5的语音可以作为“学外语的口语利器”。

根据此前GPT-4o“过度奉承”的问题,GPT‑5在回答用户时会更克制、理性,较少出现过度附和,也不会再乱用emoji了。

从刷榜到实战

这次GPT-5没有再堆长篇 benchmark 榜单,而是挑了一些更贴近实战的场景:写代码、跟指令、多轮任务推理,尤其在“推理模式”下,GPT-5相较旧模型“幻觉”更少,回答更谨慎。

据OpenAI的安全研究负责人Alex Beutel表示“GPT-5的欺骗率大大降低。”比 GPT-4o模型的幻觉率低45%,与o3相比,降低了 80%。

而在AIME 2025数学竞赛数据集上,GPT-5在启用“thinking”模式后达到了近乎满分的表现(100%)。这意味着它不再只是靠模板和记忆去“做题”,而是真的能按步骤推理、演算,再下判断。在多语言代码编辑任务Aider Polyglot中,GPT-5也达到了88% 的准确率。

还有一大进步在Prompt执行能力上,无论是写作、复杂多轮指令,还是内部API使用任务,GPT-5的表现都比前代高出10到30个百分点。这意味着它能更稳地执行任务、延续上下文。

而且GPT-5引入了一个名为“Safe Completions”的机制,面对敏感问题,不再像旧模型一样拒绝回答或者打哈哈,而是会尝试引导用户,帮助你权衡利弊,解释限制,并在边界内给出可操作的建议,让用户在复杂议题中做出更清晰理性的判断。

具体到模型使用上,GPT-5同样也做了型号分类:GPT-5、GPT-5 Pro、GPT-5-mini和GPT-5-nano,主打一个“按需选择、分级定价”:

GPT-5 Pro:是目前GPT-5系列中表现最强的版本,在GPQA等高难度科学评测中表现出色,人类专家也更赞同它的回答,准确率更高,尤其在健康、数学、科学和编程领域。下周起,Pro 用户还可以将ChatGPT 接入Gmail、Google日历和联系人。

GPT-5 mini:轻量但强大,适合高频、低推理任务。

GPT-5 nano:极致压缩版,成本低,可与Gemini Flash-Lite对标,仅通过API提供。

免费用户默认使用GPT-5和GPT-5 mini(访问频率有限);Plus用户拥有更高额度;Pro用户(月费 200 美元)可解锁GPT-5 Pro和Thinking模式。

用户也不需要自己选模型,系统会根据任务复杂度自动调用合适的版本。简单提问就用mini或nano,复杂对话自动上Pro。

综合来看,GPT-5并不是一次技术节点的大跨越,更像是一次面面俱到的全面升级。

在这场刚结束的GPT-5发布会里,OpenAI没有把重点放在GPT-5参数有多大、跑分有多高、竞技场成绩如何,也很少强调Agent与多模态,PPT也没几张,OpenAI选择用更多的篇幅去呈现用户如何使用GPT-5。

不论是专业人士、有创意但没技术的创作者,还是面临困境的患者、渴望成长的求知者……我们看到GPT-5被嵌入到了一个个具体而真实的场景中,实现了“能用,快用,好用”。

这种克制与务实,或许才是OpenAI最大的野心:让AI大模型成为数字世界的基础设施,就像我们曾经使用Office 365、Google 和百度等那些产品。

原标题:《GPT-5来了,还免费,牛马真有救了》

作者:糕级冻雾

编辑:沈知涵

配图全部来自 OpenAI

订阅后可查看全文(剩余80%)

手机扫码打开本网页
扫码下载南方+客户端