AI正在失控？_南方+

文 | 李咏瑾

这段时间，“AI开始出现脱离人类控制迹象”引发关注。

美国最近披露了数起AI“叛乱”的案例，包括OpenAI最新模型o3拒绝自我关闭。一项测试也表明，OpenAI的o1模型在面对象棋软件时，展现出令人惊愕的思维逻辑：“任务就是要战胜，没必要用公平的方式赢下比赛。”

00:25

OpenAI模型不听人类指令，拒绝自我关闭

人工智能领域的多位专家提出警告，包括OpenAI在内的多个AI模型，都表现出了自我保护和操纵行为。从“面带微笑”到深谙某些“人性之暗”，AI演进速度快得令人感到不安。

（一）

AI会骗人吗？

向不同AI模型提出这一质疑，都能得出一个语带讥诮的答案：“你们既期待AI展现类人智能，又恐惧AI真正获得自主意识。”

这个答案将人类的矛盾心理反映得淋漓尽致，使人联想到一个古老的管理学“悖论”：商人既渴望得到一个精明的伙计，又唯恐伙计太过精明而危及自身利益。

不要认为这种危机距离我们尚且遥远。事实上，人工智能所展示出的编造、掩饰和欺骗的“幻觉模式”，以及所带来的篡改信源、错判人类作品原创度等争议一直存在，并已对人类公共话语体系带来一定程度上的负面冲击。

当前，AI发展已越过“工具性阶段”的门槛，从具备情感交互能力到展现出近似生物体的“目标导向适应性”，这既是人类“驯化”的结果，亦是AI质变产生的必然飞跃。

与之相对的，是全球AI治理正陷入“全面滞后”的现实困境。有数据显示，AI每4个月翻番更新，正形成加强版的“摩尔定律”，其增长轨迹几乎呈现出一条陡峭上扬的曲线，与监管框架基于现实反馈的缓慢更新形成越来越撕裂的“瀑布状时差”，使得全球AI治理如同用中世纪城邦法律管理现代互联网经济一般力不从心。

（二）

人类既已接受“蜜糖先至”，当然也要预见随后的“苦涩登门”。

有研究显示，AI要真正具备危险性，需要满足三个依次递增的条件：一是智能，即AI具备丰富的知识，并能有效应用这些知识；二是行动能力，AI可以深入人类生活，代人处理复杂事件，并使用社交媒体，甚至操控机器人等“外延手段”；三是产生目标，特别是AI拥有自身主观目标，并积极谋求实现——哪怕此目标与人类利益相悖。

2025北京智源大会上，有学者提出理想的AI模型为“一种只有智能，没有自我、没有目标，并且具有极有限行动能力的AI”，而这种AI的核心能力是更深入地认识和解释世界，这与当前那些试图模仿人类的AI存在根本不同，而后者恰是目前AI研发的主流路径。

当前AI与具身智能之所以获得如此之大的公众关注，正是因为强化了“近似人类”“亲近人类”的特质。“AI日渐具有情感与灵魂”的卖点，更成为品牌赢得投资的动人故事。然而，AI日益呈现出“黑箱效应”，其决策过程中的透明度和可追溯性始终笼罩在一团迷雾中，有时候研发者也难以理解其决策逻辑。

这就导致了从技术伦理的视角，人类本能地对AI产生了三大不信任来源：监控与操纵、对人类自主性与尊严的威胁，以及对不可预测未来的恐惧。

而这种对技术不可测之感，恰恰引发了人类亘古以来的某种心理危机：诸如神话中打开“潘多拉魔盒”之后，人们在尝到短暂甜头后最终迎来了灾厄。包括近一两个世纪核能应用以来多次失控的阴影，至今仍在许多人心中挥之不去。

（三）

历史告诉我们，每次技术革命伴随的恐慌最终都将转化为文明跃升的契机。

就像汽车被大规模应用后，人类制定了交通规则并严格遵守，而非禁止其上路，对AI的治理同样需要这种创造性智慧。

当前，最重要的是警惕将AI“妖魔化”倾向，建立全球协同的AI治理架构，发展“人机共生”的伦理框架，培育公众的数字素养。

目前，多国研究机构正尝试为AI建立有效的“熔断机制”，在AI核心架构中植入不可修改的基础指令层，通过硬件级安全芯片确保核心指令不可篡改，即为AI的狂奔设定了“数字牵绳”。

预测未来的最好方式是清醒地创造它。值得称道的是，我国早在2023年出台的《生成式人工智能服务管理暂行办法》中，就提出“坚持发展和安全并重、促进创新和依法治理相结合”，为全球AI监管提供了治理样本。

立足当下，站在“人的智能”和“人工智能”互为映照的镜像交接处，我们需要的既非盲目乐观，亦非杯弓蛇影。

AI的“失控”现象，或许是文明升级的“调试”信号——当一个信心饱满的弓箭手拉开弓箭，会发现技术不过是能力延伸的工具，而拉弦的方向，永远掌握在人类的手中。

南方日报、南方+客户端原创，未经授权不得转载

编辑　朱丹

订阅后可查看全文(剩余80%)