文 | 李咏瑾
这段时间,“AI开始出现脱离人类控制迹象”引发关注。
美国最近披露了数起AI“叛乱”的案例,包括OpenAI最新模型o3拒绝自我关闭。一项测试也表明,OpenAI的o1模型在面对象棋软件时,展现出令人惊愕的思维逻辑:“任务就是要战胜,没必要用公平的方式赢下比赛。”



OpenAI模型不听人类指令,拒绝自我关闭
人工智能领域的多位专家提出警告,包括OpenAI在内的多个AI模型,都表现出了自我保护和操纵行为。从“面带微笑”到深谙某些“人性之暗”,AI演进速度快得令人感到不安。
(一)
AI会骗人吗?
向不同AI模型提出这一质疑,都能得出一个语带讥诮的答案:“你们既期待AI展现类人智能,又恐惧AI真正获得自主意识。”
这个答案将人类的矛盾心理反映得淋漓尽致,使人联想到一个古老的管理学“悖论”:商人既渴望得到一个精明的伙计,又唯恐伙计太过精明而危及自身利益。
不要认为这种危机距离我们尚且遥远。事实上,人工智能所展示出的编造、掩饰和欺骗的“幻觉模式”,以及所带来的篡改信源、错判人类作品原创度等争议一直存在,并已对人类公共话语体系带来一定程度上的负面冲击。
当前,AI发展已越过“工具性阶段”的门槛,从具备情感交互能力到展现出近似生物体的“目标导向适应性”,这既是人类“驯化”的结果,亦是AI质变产生的必然飞跃。
与之相对的,是全球AI治理正陷入“全面滞后”的现实困境。有数据显示,AI每4个月翻番更新,正形成加强版的“摩尔定律”,其增长轨迹几乎呈现出一条陡峭上扬的曲线,与监管框架基于现实反馈的缓慢更新形成越来越撕裂的“瀑布状时差”,使得全球AI治理如同用中世纪城邦法律管理现代互联网经济一般力不从心。
(二)
人类既已接受“蜜糖先至”,当然也要预见随后的“苦涩登门”。
有研究显示,AI要真正具备危险性,需要满足三个依次递增的条件:一是智能,即AI具备丰富的知识,并能有效应用这些知识;二是行动能力,AI可以深入人类生活,代人处理复杂事件,并使用社交媒体,甚至操控机器人等“外延手段”;三是产生目标,特别是AI拥有自身主观目标,并积极谋求实现——哪怕此目标与人类利益相悖。
2025北京智源大会上,有学者提出理想的AI模型为“一种只有智能,没有自我、没有目标,并且具有极有限行动能力的AI”,而这种AI的核心能力是更深入地认识和解释世界,这与当前那些试图模仿人类的AI存在根本不同,而后者恰是目前AI研发的主流路径。
当前AI与具身智能之所以获得如此之大的公众关注,正是因为强化了“近似人类”“亲近人类”的特质。“AI日渐具有情感与灵魂”的卖点,更成为品牌赢得投资的动人故事。然而,AI日益呈现出“黑箱效应”,其决策过程中的透明度和可追溯性始终笼罩在一团迷雾中,有时候研发者也难以理解其决策逻辑。
这就导致了从技术伦理的视角,人类本能地对AI产生了三大不信任来源:监控与操纵、对人类自主性与尊严的威胁,以及对不可预测未来的恐惧。
而这种对技术不可测之感,恰恰引发了人类亘古以来的某种心理危机:诸如神话中打开“潘多拉魔盒”之后,人们在尝到短暂甜头后最终迎来了灾厄。包括近一两个世纪核能应用以来多次失控的阴影,至今仍在许多人心中挥之不去。
(三)
历史告诉我们,每次技术革命伴随的恐慌最终都将转化为文明跃升的契机。
就像汽车被大规模应用后,人类制定了交通规则并严格遵守,而非禁止其上路,对AI的治理同样需要这种创造性智慧。
当前,最重要的是警惕将AI“妖魔化”倾向,建立全球协同的AI治理架构,发展“人机共生”的伦理框架,培育公众的数字素养。
目前,多国研究机构正尝试为AI建立有效的“熔断机制”,在AI核心架构中植入不可修改的基础指令层,通过硬件级安全芯片确保核心指令不可篡改,即为AI的狂奔设定了“数字牵绳”。
预测未来的最好方式是清醒地创造它。值得称道的是,我国早在2023年出台的《生成式人工智能服务管理暂行办法》中,就提出“坚持发展和安全并重、促进创新和依法治理相结合”,为全球AI监管提供了治理样本。
立足当下,站在“人的智能”和“人工智能”互为映照的镜像交接处,我们需要的既非盲目乐观,亦非杯弓蛇影。
AI的“失控”现象,或许是文明升级的“调试”信号——当一个信心饱满的弓箭手拉开弓箭,会发现技术不过是能力延伸的工具,而拉弦的方向,永远掌握在人类的手中。
订阅后可查看全文(剩余80%)