8月28日,东莞松山湖知名药企广东东阳光药业股份有限公司(下称“东阳光药”)宣布推出全球首个药物制剂垂直领域自然语言大模型(HEC-PharmAI)(下称“大模型”),整合药物制剂设计的多学科、多流程数据,为AI药物研发注入新动能。
据悉,大模型基于DeepSeek、Qwen等通用基座大模型进行药剂领域微调生成,结合专用模型强化学习反馈循环持续优化决策逻辑,可以实现智能处方设计、工艺风险预警和生物等效性预测三大核心功能。
模型性能基准测试。
模型性能基准测试。
在大模型中输入API特性(如化学结构、溶解性、稳定性),就能输出辅料配伍与工艺参数方案;同时,基于处方与设备参数预判关键质量属性偏离风险,并进行生物等效性预测,通过体外释放曲线量化体内吸收与BE失败概率,同步拓展分子设计辅助能力,为药物固态形式选择(盐型/共晶)及难溶API载药策略提供决策支持。
制剂处方工艺问答举例。
制剂处方工艺问答举例。
在研发大模型过程中,团队致力于构建覆盖“剂型设计—处方优化—工艺开发—质量预测”全流程的药物制剂垂直大模型应用,通过“多源异质数据标准化—处方工艺智能知识库—通用大模型监督微调—专家反馈强化学习”的创新研发体系,深度整合国内外药典、FDA/EMA审评报告、药剂学经典著作及数十万条制剂处方工艺数据,构建了“剂型—辅料—工艺—性能”的多维知识图谱。
目前,大模型已成功打造药物制剂智能知识库,当中包括药剂学综合知识库和制剂处方设计专用知识库。该知识库在整合海量公开数据的基础上,融入了东阳光药积累的关键实验工艺数据,共涵盖21万余条制剂配方、1.2万余篇药剂学高质量期刊文献、2000余篇上市药物核心工艺专利和中美欧日药典。
HEC药物智能发现平台。
HEC药物智能发现平台。
知识库生成模型基于东阳光药本地部署的DeepSeek-R1大语言模型,采用高级检索增强生成技术进行知识库构建,可以显著减少大模型在制剂应用中的幻觉现象,在上下文召回率及回答正确性上均处业内领先地位。该模型打通了从处方设计到生产质控的全链条智能化,更在跨尺度处方组分与工艺参数协同设计等维度实现了技术空白突破,为制剂研发提供了可交互、可解释的下一代智能基础设施。
以大模型项目为标杆,东阳光药人工智能研发中心团队展示了如何深度利用基座大模型提升药物研发CMC环节(即药物从早期到注册的全过程)的效率。
据悉,该大模型应用整合了制剂研发中海量的异质性数据,以东阳光智算平台为支撑,综合应用文本嵌入、监督微调和智能体调用等大模型前沿技术挖掘处方工艺数据内涵,体现了AI+药物研发中“数据—算法—算力”的深度融合。
该垂类模型是“药研大模型”板块的核心模型,其研发体现了东阳光药对自然语言大模型赋能AI药物研发全流程的前沿探索。整合已经发布的“药物分子设计”和“药代动力学”两大板块,HEC药物智能发现平台现已囊括了先导化合物发现、结构优化、成药性优化和CMC赋能等诸多AI药物发现关键环节,将一站式助力药物研究者实现创新突破。
南方+记者 何绮莹
受访单位供图
订阅后可查看全文(剩余80%)