人工智能助力药物研发:上海药物所DDDC团队摘取Kaggle分子翻译国际挑战赛冠军

  药物研发需要化学、生物、药理、毒理、临床等多学科的协作和多领域知识的综合运用。通常,一个药物的研发数据多达数千至数万页,而且这些海量的原始数据是以各种各样的形式散落在不同的地方,如文献、专利、网页、图片、纸质印刷物等等。如何在海量研发原始数据中快速获取真正有参考价值的“有效数据”是药物研发人员所面临的巨大挑战。
  近日,由国际制药公司百时美施贵宝发起的“百时美施贵宝-分子翻译”(Bristol-Myers Squibb – Molecular Translation,https://www.kaggle.com/c/bms-molecular-translation)挑战比赛在著名数据科学竞赛平台Kaggle(见附注)落下帷幕。作为生物医药大数据挖掘领域里最具挑战性的问题之一,这场比赛得到了广泛关注,吸引了来自世界各地的上千名数据科学家,共计874支参赛队伍。经过三个多月的激烈角逐,最终来自中国科学院上海药物所药物发现与设计中心的研究生钟飞盛和熊嘉诚以及阿尔脉生物医药科技的刘小红博士组成的“SIMM DDDC”队伍,获得了此次大赛的第一名(见图1),团队指导是来自中国科学院上海药物研究所的郑明月研究员和蒋华良院士。
图1. Kaggle分子翻译挑战赛最终排名情况
  这次分子翻译挑战赛的目标是从图片中识别化学结构,并将其转换为文本形式的国际化合物标识(International Chemical Identifier, InChI)。在期刊和专利等出版物中,有机化合物通常以化学分子结构式的图片形式来表示。因此,自动从此类图像文件中识别成化学结构,可以使化学家快速地获取有参考价值的“化学数据”。此外,分子图像翻译得到的InChI文字化学式可以视作包含丰富语义的文本数据,可以与同样是文本形式描述的生物、药理、毒理、药代、甚至临床试验等其他数据和信息更方便的进行整合。比如,通过使用常规的自然语言处理技术就可以考虑专利中某个分子结构所处的复杂语境,从而加深AI模型对该化学结构和性质的理解。
  在分子翻译挑战赛中,施贵宝构建了一个超过四百万的分子结构图像数据集,以3:2划分训练和测试集。按照Kaggle比赛规则,在计算得分的时候有Public Leaderboard和 Private Leaderboard之分,其中测试集中的25%的数据开放给参赛选手计算得分和排名,实时显示在 Public Leaderboard上。这个结果主要作用是为选手提供及时的反馈和动态展示比赛的进行情况,供选手参考调整比赛策略。测试集的剩余75%数据用于计算参赛选手提供模型的最终得分和排名,此即为 Private Leaderboard,在比赛结束后揭晓。比赛从2021年3月2日开始后不久,“SIMM DDDC”团队在Public Leaderboard一直稳定排在前三名左右,在进入5月份之后开始稳定占据榜首位置,并且在最终截止日(6月4日)以较大领先优势同时斩获Public 和Private Leaderboard的冠军。值得一提的是,这次比赛吸引了众多专家(Expert)、大师(Master)甚至宗师(Grandmaster)级别的资深Kaggle数据科学家,而最终夺冠的“SIMM DDDC”队伍中的三名选手都是第一次参加Kaggle比赛的新手玩家(Novice)。
  “分子翻译”本质是化学结构式图像识别(Optical Chemical Structure Recognition,OCSR)这一经典问题,距今已经有三十多年的研究历史。大多数 OCSR 技术遵循基于规则的方法,其中关键步骤是图片矢量化之后将线条和节点解释为键和原子,涉及到图像分割、图像细化、线条增强、光学字符识别 (OCR) ,以及最终重建的分子图形或其他表示(见图2)。近年来,也有一些基于深度学习的解决方案。例如采用编码器-解码器架构的MSE-DUDL模型,其中编码器使用卷积神经网络,将包含化学图的图像编码到固定长度的嵌入表示,然后解码器使用循环神经网络将它们解码成文本形式的分子结构。
图2. 基于规则的化学结构式图像识别方法
  然而,真实世界中的化学结构图像不仅大小不同、格式各异,而且可能存在各种噪声。比如旧纸质文档扫描得到的电子文档普遍存在失真问题。如何处理诸如模糊、部分缺失、扭曲变形等问题是OCSR技术的难点。比如,图3是化学专家一般可以正确识别的分子结构,仅凭经验即可对缺失的化学键或原子进行补全。但这类问题对计算机模型通常非常具有挑战,模型一般很难凭空构建图片中不存在(缺失)的部分。
图3. 存在噪声的分子结构图片
  下图以一张有噪声的分子结构图片为例,显示了一款化学反应式图像识别软件和本次比赛的冠军模型的结果对比:
  
图4. 化学结构图片识别软件与本次分子翻译比赛的冠军模型的结果对比。a)一张带有噪声的分子结构图片; b)某款化学反应式图像识别软件的识别结果;c)本次比赛的冠军模型识别并重建的分子结构;d)冠军模型分子翻译输出InChI编码
  可以看出,现有的一些化学结构图片识别工具仍存在明显的局限性,尚达不到解决真实世界问题的技术需求。与此相比,此次冠军团队开发的模型可以很好的解决化学结构图片的噪声问题,并且正确的重构分子的结构图(图4c)。此外,从分子翻译输出的文本编码来看,国际化合物标识InChI具有严格的语法规则,任一字符出错都会大概率导致整体编码无效。因此,与常规化学结构式图像识别任务不同,这次挑战赛要求更高:参赛模型不仅要识别分子图像,而且要输出正确有效,符合InChI语法的分子结构(图4d)。
  数据、算法和算力是人工智能技术发展的基础要素。近年来,人工智能在算法和算力方面突飞猛进,数据已逐渐成为限制人工智能技术进一步发展的短板。在药物研发和化学研究领域,数据匮乏的问题更加明显,如何有效地提取和整合可用于AI建模的高质量数据是亟待解决的问题。上海药物所团队开发的分子翻译算法能从带有噪声的图像中准确地提取化合物结构信息,可以用于真实世界的化学和药学文献以及专利数据的自动挖掘和分析,这将极大地促进生物医药和化学大数据的构建,进而为后续人工智能算法的开发奠定坚实的基础。蒋华良院士将这种使用AI技术挖掘数据,并在此基础上构建AI算法的思路称为AI2。这一思路展示了AI通过自主“进化发展”实现从功能向能力转变的特征,是通往强人工智能道路上的积极尝试。
  附注:
  Kaggle比赛介绍:Kaggle是国际上最著名的数据科学竞赛平台之一,由于其受众广、影响深远和赛制公平,被视为是机器学习算法检验的试金石。许多企业、科研院所或政府机构会根据自己所关注的问题在kaggle平台组织竞赛,通过悬赏高额奖金向全世界的研究者寻求解决方案。该平台举办的比赛一般是为了解决某领域面临的共性问题或探索未来的发展方向,因此比赛的意义重大。其中,一些Kaggle竞赛的结果甚至为学界提供新的研究方向。以2012年Merck公司发起的“分子活性预测”挑战赛为例,在比赛中绝大部分队伍使用的是传统机器学习方法如随机森林模型,而Dahl和Hinton团队使用了当时新发展的深度神经网络。最终Hinton团队的深度学习模型从两百多只队伍中脱颖而出,赢得了这一赛事的冠军,这次比赛后来也成为人工智能领域的标志性事件之一。自此之后,利用深度神经网络预测药物分子性质受到越来越多的关注,推动了人工智能在药物研发领域的发展。近年来,Kaggle平台举办的与药物研发相关的竞赛逐渐增多,如斯坦福大学组织的“开放疫苗:COVID-19mrna疫苗降解预测”,哈佛大学组织的“药物作用机制预测”,Human Protein Atlas 组织的“人类蛋白图谱-单细胞分类”挑战赛,以及最近刚落下帷幕的有百时美施贵宝组织的 “Bristol-Myers Squib-分子翻译” 等多项竞赛。这些比赛的主题一方面彰显了机器学习社区对医药领域浓厚的兴趣,另一方面说明通过构建AI模型能切实解决该领域面临的实际问题。未来,随着数据的积累和算力、算法的进一步发展,可以预见AI在药物研发领域将起到越来越重要的作用。