教育部语言文字信息管理司司长刘培俊在31日下午的教育部发布会上表示,教育部门支持有关高校联合人工智能及信息服务领域头部企业,研发语言翻译、智能语音、大语言模型等产品。
这场发布会主题为介绍推进语言文字信息化发展情况。语言类大模型成为会上热点。
北京师范大学党委常委、副校长康震介绍,北京师范大学依托文学院、国际中文教育学院、人工智能学院建设的系列大语言模型,取得突出成效。北师大中国文字整理与规范研究中心秉持“师古而不复古、坚守而不保守”的学术理念,发挥古籍整理智能化关键技术优势,针对古汉语信息处理任务“低资源”“富知识”的特点,以解决领域知识学习需求为核心任务,使用1.8B(18亿)参数量,训练出理解力强、准确率高、应用场景丰富的“AI太炎”古汉语大语言模型。
康震介绍,该模型坚持自主可控和安全可信的技术路线,在确保语料来源安全、语料内容安全、语料标注安全、模型安全等基础上,能够高质量完成古典文献释读,支持字词释义、文白翻译、句读标点、用典分析等多种具有挑战性的文言文理解任务。该大语言模型处于同领域国际领先地位,受到学界、产业界的好评。截至目前,该模型已广泛应用于海内外的学术科研、基础教育、编辑出版等多个领域,辅助古籍整理、语言研究、语文教育、辞书编纂等应用场景的任务。
“当前,大语言模型技术对大规模高质量语料提出前所未有的需求。人工智能技术发展迅速,语言文字信息处理技术创新应用正经历从‘GB2312字符集’到‘万亿参数大语言模型’的范式变革。”北京大学王选计算机研究所所长汤帜在会上表示。他指出,语言文字将实现从符号存储到智能建模的质变,要聚焦关键垂直领域建设语料基础设施,构建支持大模型训练的高质量中文数据集。
刘培俊表示,目前,教育部、国家语委已经支持建设了30余项关键领域的语料库;支持布局了五个领域的自主安全可控大语言模型建设项目,下一步将根据需求稳步扩大建设范围,提升建设成效。教育部门将以建设语料基础设施为新基建,服务大语言模型以及生成式人工智能等技术前沿创新应用的制高点。
教育部语言文字应用管理司副司长王晖解读说,现在很多语料库还处于单一文本模式和领域应用阶段,在建设的理念、技术和方法、规模,以及数据多样性、时效性,尤其是与人工智能相结合的大规模应用方面还存在不足,难以满足多元化、动态化尤其是智能化的语言数据需求。
王晖表示,应立足人工智能时代大背景,突破传统语料库单一文本模式和领域应用壁垒,以大模型训练及性能评测、智能计算为核心,以新质态、多模态、多语言、大规模、全域性为突出特性,为通用领域和细分领域多场景应用及创新发展提供规范、可信、高质量的语言文化语料资源。
他介绍,教育部语言文字应用管理司2025年已经启动布局了新型国家语料库的建设工作,包括制度供给和开发建设“中华文脉新型语料库”“中华大阅读体系语料库”两个示范库,“以这两个示范库建设整体打造出标杆”。
会上,广东省委教育工委委员,省教育厅党组成员、副厅长朱建华介绍了广东的语言大模型进展:“广州大学设立粤语语料库建设与大模型评测重点实验室,为语料基础设施建设、语言智能应用等提供坚实数据支撑;支持香港科技大学(广州)发挥智算集群力量,研发涉及语言知识学习与生成、跨平台交互与服务集成建设的语言服务大模型。支持哈尔滨工业大学(深圳)研发多语言翻译模型。”
南方+记者 王诗堃
订阅后可查看全文(剩余80%)