GPT-5来了，还免费，打工人真有救了_南方+

这是OpenAI模型发布时间线。今天凌晨，我们终于等到了GPT-5，这款从去年就被反复“预告”，不断“剧透”的模型。

发布会用“普通人能看懂的方式，展示了最强AI的能力”，从写发布会文案，到现场生成网站、做游戏、学语言，再到AI协助问诊和“传统艺能”比拼 benchmark。

如果说GPT-3是“能自主说话”的语言模型，GPT-4是“听懂人话”的多模态大脑，GPT-5更像是一个全能的个人助手。

用 Sam Altman 一句话总结：“GPT-5将让你第一次真正感觉到，仿佛与任何领域的博士级专家交谈的感觉。”

那么，这个被冠以“地表最强”title的大模型，表现如何？

程序员又又又危险了

编程，是GPT-5发布会的一大亮点，也是最能直观感受到GPT-5进化之处。

OpenAI团队在现场写出了好几个网页，比如“给伴侣做一个能让英语使用者学法语的网页，功能要有进度跟随、单词卡、单词小游戏等”。

300词左右的Prompt，3分钟不到，GPT-5就拿出了一个极其完整的可用网页，并“擅自”命名为《午夜巴黎》（还致敬了伍迪·艾伦的电影），网页即创即用，单词卡、进度跟踪、快捷键、记忆曲线、开发者要求的贪吃蛇小游戏，这些功能全部满足且运行正常。

关键是网页设计的还很有美学，网页间距、排版、配色、视觉感都被考虑进去，甚至做出了黑暗/白天的双主题。

OpenAI又让GPT-5写了一个“动态SVG可视化可以模拟翼型的行为”，几分钟内，GPT-5搓出了几百行代码后，交付出一个完全符合需求，美观且可交互的网页，并且所有的参数变化都会根据物理规律实时调整，整个网页达到了教学演示级别的专业水准。

根据OpenAI自己的内部测试，70%的情况下，GPT-5在前端网络开发方面击败了今年4月才上线，号称“OpenAI最强大的推理模型”的OpenAI o3。

而后GPT-5又展示了它作为编程Agent的强大，同样在几分钟内，就做出了一个带有3D场景、可控角色与多重视角的网页游戏，从物理引擎调用到角色对话系统构建，全程几乎无需人类干预。

几大AI编程软件也给了GPT-5编程能力极大好评，Cursor创始人称GPT‑5是“我们用过最聪明的模型”，代码调试能力尤为突出；Windsurf 优评其工具调用错误率甩前代几条街；Vercel则说它不仅写对，还“写得像专业网页设计师”。

和Cursor IDE集成后，GPT-5还能在几分钟内理解上百万行代码，可以自己“debug”输出结果并回溯方案，不再陷入“提示死循环”。在SWE-bench这个真实软件工程任务测试里，GPT-5不仅能理解bug报告，还能精准修改代码，准确率最高接近75%，远超GPT-4的30%。

所以“编程”是整场发布会里，GPT-5最具说服力的展示场景之一。

GPT-5不再只是“能写代码”，而是具备了程序员的开发路径：理解需求、设计结构、撰写代码、优化交互、美化界面，甚至还会在需求之外“适度创作”。

又当程序员，又做设计师，还会搞交互，各类编程语言也都拿手，GPT-5已经接近一名合格的全栈工程师了。

写作、沟通、打工、就诊

写作堪称GPT的“基本功”，在GPT-5上，写作变得更有人味儿、也更专业。

比如一位用喜剧传递科普内容的博主，她用GPT-5写剧本、写段子、测试角色逻辑和情绪动机、出分镜，甚至用语音和GPT-5“对戏”。

在发布会上的写作演示中，同样的Prompt下，GPT-5也明显比GPT-4o生成的文案更有“人味儿”，用词精炼且有节奏感。

在正经的科研场景中，GPT-5表现得也如Sam Altman所言像一位“跨学科博士后”。免疫学教授用GPT-5解读实验数据，模型不仅能解释结果，还会预测未来实验趋势，并主动提出下一步实验方案，大大压缩了科研迭代周期。在专业能力上，据OpenAI 披露的数据，GPT-5在大约一半的案例中和行业专家水平相当或更好。

对于每天在工位上与琐碎信息搏斗的打工人来说，GPT-5这次真能做你的助手，OpenAI都自封为“打工人最好用的模型（Our best model for work）”。

你只需要把领导给你的资料往GPT-5那一拖，它就能做出了Excel表格，再根据表格做出数据可视化的看板，还给你写好资料要点和总结。

同时，GPT-5还能帮你理清一整套方案，给出落地页结构和转化建议，精准而不敷衍。夸张点儿说，老板开口说“我有个想法”，几分钟后，GPT-5项目企划书已经做好了。

OpenAI还展示了这样一个真实且感人的案例：一位名为Carolina的用户在短短一周内被诊断出三种不同形式的癌症，但她一直在排队等候报告解读，于是她将医院报告截图上传给GPT‑5，模型迅速将复杂的医学术语转化为易于理解的语言。

在后续治疗过程中，GPT‑5不仅持续帮助她解读术语，还协助她评估治疗选项、准备就诊问题，甚至在是否接受放射治疗的决策上给予Carolina情感支持。

尽管Sam Altman也强调了，OpenAI并不把GPT‑5定位为医疗设备，它也不能替代专业医疗角色，但他们想做的是让AI成为“健康素养支持工具”（health literacy support tool）能让患者在慌乱和未知里，不再完全仰赖医生，而是成为有准备、有信息支持、能了解身体情况的患者。

GPT-5的语音模式也有了明显提升，增加了冷嘲型、理性型、倾听型、学霸型四种不同的语音预设，除了语气更自然外，情感感知能力也有提升，用户还可以自选语音风格和语速。在发布会的演示中，OpenAI还特意展示了GPT-5的语音可以作为“学外语的口语利器”。

根据此前GPT-4o“过度奉承”的问题，GPT‑5在回答用户时会更克制、理性，较少出现过度附和，也不会再乱用emoji了。

从刷榜到实战

这次GPT-5没有再堆长篇 benchmark 榜单，而是挑了一些更贴近实战的场景：写代码、跟指令、多轮任务推理，尤其在“推理模式”下，GPT-5相较旧模型“幻觉”更少，回答更谨慎。

据OpenAI的安全研究负责人Alex Beutel表示“GPT-5的欺骗率大大降低。”比 GPT-4o模型的幻觉率低45%，与o3相比，降低了 80%。

而在AIME 2025数学竞赛数据集上，GPT-5在启用“thinking”模式后达到了近乎满分的表现（100%）。这意味着它不再只是靠模板和记忆去“做题”，而是真的能按步骤推理、演算，再下判断。在多语言代码编辑任务Aider Polyglot中，GPT-5也达到了88% 的准确率。

还有一大进步在Prompt执行能力上，无论是写作、复杂多轮指令，还是内部API使用任务，GPT-5的表现都比前代高出10到30个百分点。这意味着它能更稳地执行任务、延续上下文。

而且GPT-5引入了一个名为“Safe Completions”的机制，面对敏感问题，不再像旧模型一样拒绝回答或者打哈哈，而是会尝试引导用户，帮助你权衡利弊，解释限制，并在边界内给出可操作的建议，让用户在复杂议题中做出更清晰理性的判断。

具体到模型使用上，GPT-5同样也做了型号分类：GPT-5、GPT-5 Pro、GPT-5-mini和GPT-5-nano，主打一个“按需选择、分级定价”：

GPT-5 Pro：是目前GPT-5系列中表现最强的版本，在GPQA等高难度科学评测中表现出色，人类专家也更赞同它的回答，准确率更高，尤其在健康、数学、科学和编程领域。下周起，Pro 用户还可以将ChatGPT 接入Gmail、Google日历和联系人。

GPT-5 mini：轻量但强大，适合高频、低推理任务。

GPT-5 nano：极致压缩版，成本低，可与Gemini Flash-Lite对标，仅通过API提供。

免费用户默认使用GPT-5和GPT-5 mini（访问频率有限）；Plus用户拥有更高额度；Pro用户（月费 200 美元）可解锁GPT-5 Pro和Thinking模式。

用户也不需要自己选模型，系统会根据任务复杂度自动调用合适的版本。简单提问就用mini或nano，复杂对话自动上Pro。

综合来看，GPT-5并不是一次技术节点的大跨越，更像是一次面面俱到的全面升级。

在这场刚结束的GPT-5发布会里，OpenAI没有把重点放在GPT-5参数有多大、跑分有多高、竞技场成绩如何，也很少强调Agent与多模态，PPT也没几张，OpenAI选择用更多的篇幅去呈现用户如何使用GPT-5。

不论是专业人士、有创意但没技术的创作者，还是面临困境的患者、渴望成长的求知者……我们看到GPT-5被嵌入到了一个个具体而真实的场景中，实现了“能用，快用，好用”。

这种克制与务实，或许才是OpenAI最大的野心：让AI大模型成为数字世界的基础设施，就像我们曾经使用Office 365、Google 和百度等那些产品。

原标题：《GPT-5来了，还免费，牛马真有救了》

作者：糕级冻雾

编辑：沈知涵

配图全部来自 OpenAI

免责声明：本文由南方+客户端“南方号”入驻单位发布，不代表“南方+”的观点和立场。

订阅后可查看全文(剩余80%)