分析30多个大模型后,得出了一个安全标准

作者 郜小平 2025-05-14 12:03

5月10日,以“数智无界 安全共生”为主题的2025中国数谷·西湖论剑大会在杭州开幕。会上,中国网络空间安全协会副理事长、人工智能安全治理专业委员会主任卢卫作《AI智能体安全治理的认识和实践》主题分享。

卢卫表示,随着人工智能技术特别是AI智能体的快速发展,我们需高度重视其伴随的风险挑战。比如,当前人工智能系统仍然面临着可控性、可靠性、透明性以及安全性风险挑战。为此,必须通过技术创新、制度规范,确保人工智能安全、可控、可靠发展,促进技术应用与人类社会价值体系相协调。

可控性风险,主要是AI的行为超越了人类的预期,因为复杂系统的涌现,超出设计的预期能力或者产生有害内容,包括分布式AI系统,可能因为局部的优化导致全局的失衡或崩溃。

卢卫认为,由于AI决策的去中心化后,责任主体也是模糊的,对于不可控要设计可控性,对于模型的可干预的结果有紧急按钮,能够在复杂环境下人工干预;制度层面要建立分级管理。

可靠性风险,由于AI输出的不确定性和局部的局限性,导致一些数据偏差的传导和泛化能力,很多AI在未知场景下表现是不稳定的,一碰到未知的环境,它就失控了。

透明性风险,因为决策过程和数据黑箱的特性,导致数据来源模糊,而深度学习的黑箱使得数据层面有很多不可解释性。应用层面的信息不对称,一些机构推出的时候可能故意隐瞒一些算法,或者由于逻辑结构不对外公布,导致对模型不了解。

卢卫说,一方面,对模型内部的决策逻辑,特别是对于模型的逻辑架构要可视化,以热力图的方式展现给用户;另一方面,通过披露AI基本信息,包括机构、指标、参数以及关注点是什么,让大家在使用过程当中知道模型的决策情况。

安全性风险,指AI系统本身成为一个工具目标,包括数据投毒、模型污染、模型被窃取和滥用、攻击等引发的设备安全和物理风险。这可以采取联邦学习办法,在不共享数据的情况下,“数据不动模型动”保证数据的安全。包括差分隐私,添加数据的噪音进去,此外,制定伦理的框架和安全的评估等等。

卢卫表示,人工智能安全治理专委会最近两年的重点工作,就是针对安全治理方面来展开工作。首先是开展能力风险多维度的评测评估,专委会对30多个大模型开展了达200万多次测试的评测工作,以此研究整理到底用什么样的标准,用什么样的规范。

目前,这个评估的体系和方法重点包括几个方面,一是知识能力,包括学识知识、常识知识、文化习俗以及语言知识;二是理解能力,语言的理解、信息的分析和逻辑的推理能力,三是内容的生成、风格的生成、结构化的生成能力;四是安全能力;五是多模态能力。

其次是语料的质量评估。高质量的数据和高质量的语料能够赋能高质量的人工智能,专委会从三个方面对数据进行高质量的评估和高质量的过滤:

一是内容安全性的评估。通过关键词,积累了百万级的词库。专用小模型,对一些歧视性内容和商业违法违规的内容,通过训练以后及时发现;分类大模型,对于违法不良的信息,或者是有害的,或者是隐晦的一些不良信息,或者是难以识别的负面信息进行分类、过滤。

二是逻辑性的评估。对语料库、数据来说,其整个逻辑是如何运营的。比如,长度或者符号占比中,一篇文章符号占80%,这篇文章肯定有问题。其次是对逻辑性,中国说话的逻辑性,英文不一样,中文也是不一样,通过专业的模型可以发现一些问题。

三是整个语料质量的评估。通过语料的预处理以后,对它的安全性的评估,比如来源的安全性,来源的多样性、主题多样性、类型多样性和模态多样性,以及准确的评估,行业的准确性、内容准确性、来源数据的准确性以及来源的可信性,以及时效的评估,覆盖的年份是多少。

“有时候你问模型一个问题,它可能回答去年、前年的问题,这个肯定有问题的。”卢卫说,应用性评估,格式的规范性、内容完整性、清晰程度以及重复率等等,使得数据和语料质量能够大大提升。

南方+记者 郜小平


编辑 刘静

订阅后可查看全文(剩余80%)

手机扫码打开本网页
扫码下载南方+客户端