点沙成金:诺道医学王则远博士发表有效利用低质量真实世界数据人工智能算法论文
发布日期: 2021/08/09 浏览次数:
图一  王则远博士在国际会议上做AMI-Net报告

 
       近日,国际医学人工智能权威杂志Artificial Intelligence in Medicine(影响因子5.326,中科院工程大类2区)在线发表了一篇真实世界研究(real world study,RWS)人工智能算法论文“A novel method for clinical risk prediction with low-quality data (一种基于低质量数据的临床风险预测新方法)”。该研究提出一种新的人工智能算法AMI-Net3,利用真实世界低质量数据中的有效信息进行临床事件风险预测,并在多个数据集上进行了验证。澳洲悉尼大学计算机科学学院、美国密歇根大学安娜堡分校计算医学和生物信息学系、中国科学院大学数学科学学院和诺道医学真实世界研究组为论文共同作者单位,诺道医学首席数据科学家王则远博士为论文第一作者。


       “真实世界研究(real world study,RWS)”近年来引起了极大关注。RWS是指在真实世界环境下收集相关数据(真实世界数据),经过数据清洗、治理,应用适宜的统计学方法,获得药物、医疗技术等干预手段的应用情况及潜在获益-风险的临床证据(真实世界证据)的研究过程。真实世界研究不仅可以用于药物、器械和医疗技术等的临床综合评价(安全性、有效性和经济性),为药物使用和监管决策提供依据,同时也可用于各种医学事件重要影响因素分析及预测模型构建,涉及疾病的病因、转归及预后,个体化/精准用药和药物不良反应等诸多方面。在药物临床综合评价方面,真实世界研究是随机对照研究(RCT)的重要补充,并且在开展特殊人群临床研究时有着独特的优势。


       真实世界研究的方法学涉及数据治理(采集标准、数据清洗和数据库构建等),医学统计学,偏倚的控制与消除等。人工智能机器学习技术可赋能真实世界研究,通过学习特征和挖掘重要变量,可作为倾向性评分消除偏倚的控制变量,亦可以构建各种临床事件的预测模型。


       开展真实世界研究的一大挑战是真实世界数据往往是不规范、不完整、不平衡的,很多情况下存在大量的缺失值,即数据在收集或者保存时由于主客观等因素所产生的数据值缺失或者属性缺失。目前应对缺失值的方法是填充法,即对原始数据的遗漏进行估测并且加以填充,这种缺失值的填充是目前数据清洗、数据治理的重要内容。待数据填充完整后,再开展下一步的数据分析和机器学习。可以把这一过程理解为“两步法”,第一步是数据的清洗填充,第二步是数据分析和机器学习。但是,当数据缺失非常严重时(例如某些医学特征的缺失率超过90%),第一步就难以完成,第二步也是很不可靠的。因此这些残缺数据往往就弃之不用了,但实际上这些残缺数据也是包含一些有效信息的,有时候还是很重要的信息,例如一些重症患者,由于客观原因很多检验检查不能开展,这种情况下已经得到的信息就更为重要。但是在做机器学习分析时,大多数情况下这种数据就像无用的“沙砾”一样被弃用了。如何把这些“沙砾”中的有效信息利用起来,如何“点沙成金”,正在成为真实世界研究机器学习方法学关注的问题。国际上有一些研究者开展了这方面的研究,基本的思路是把“两步法”变为“一步法”,即数据清洗与机器学习在“一步”中同时完成,但是已发表的文献显示,这些模型在效能上还是差强人意。


        王则远博士近年来关注真实世界研究中低质量数据如何有效利用的“点沙成金”问题,基于“一步法”思路,提出了一种基于多示例学习和注意力机制的新系列方法AMI-Net(attention based multi-instance neural network)),可从真实世界的低质量数据集中定位有效信息,从而支持模型进行最终的医疗决策,此方法将可解释性与深度特征表达相结合,为真实世界研究提供了新的思路。王则远博士已经两次在国际计算机顶会上作口头报告,并把最新研究结果发表于国际医学人工智能权威杂志Artificial Intelligence in Medicine(影响因子5.326,中科院工程大类2区)。


        论文中AMI-Net3能够在仅使用观察数据的信息嵌入空间中讲述完整的患者故事(图二),CF表示连续和序列特征,BF表示从二分类特征。通过所提出的特征嵌入方法和一种新型多示例神经网络(MINN)对已有信息进行分析,从而得到最终的输出结果。
图二
 

           整个过程在主动和辅助监督下共同训练(图三)。假设训练数据集中的每个数据是一个包(Bag),每个包都是一个示例(instance)的集合,每个包都有一个训练标记,而包中的示例是没有标记的;如果包中至少存在一个正标记的示例,则包被赋予正标记;而对于一个有负标记的包,其中所有的示例均为负标记。通过训练和学习,多示例学习(MIL)方法可以预测一个未贴标签的包的等级,提出特征嵌入方法直接对它们建模。这种策略避免了缺失值的插补,而缺失值通常会给模型带来额外的偏差和不确定性,并且在不做任何假设的情况下充分利用现有信息从而引导模型专注于信息特征,解决了低质量医疗数据中的缺失值、不均衡标签和特征冗余等问题。这种场景称为弱监督学习(WSL),MIL 就是一个典型的弱监督学习场景。为了捕获每个包中包含示例的相关信息,作者采用自然语言处理领域中的多头注意力机制(Multi-Head Attention)来捕捉医疗特征间的关联信息,然后执行一个新的多示例神经网络 (MINN) 作为底层架构。
图三


         AMI-Net3的总体架构包括模型训练的辅助监督和主动监督两部分(图四),辅助监督分别对BF和CF进行浅层神经网络分析,主要监督部分由主要计算模块和表示两层1维卷积操作组成,并使用计算机视觉领域的Focal Loss损失函数来优化AMI-Net3,从而克服极度不均衡数据的问题。作者利用真实世界研究中的三组数据集对新方法AMI-Net3进行评估,这些数据集具有不同的临床风险预测任务:药物不良反应预测、疾病复发风险预警和侵袭性真菌感染预警。综合实验结果证明了作者提出的AMI-Net3方法相对于其他比对的“一步法”模型具备更优的正确率和敏感度。AMI-Net3方法基于特征选择的嵌入空间多示例学习算法代表每个患者的特征,允许预测模型充分利用不完整的数据,并为整合来自不同深度学习领域(如 CV、NLP 和 MINN)的先进技术提供极大的灵活性。
图四


简介:
诺道医学已经开展了50余项真实世界研究案例,合作对象包括医院研究者、药厂、诊断试剂企业,在真实世界研究方面有着独特的优势。诺道医学的iPharma信息化系统已部署到多家TOP100三甲医院(上海交通大学医学院附属新华医院、海军军医大学上海长征医院、郑州大学第一附属医院、南方医科大学南方医院、中山大学孙逸仙纪念医院等),形成多中心真实世界数据网络。打通数据治理、方法学和临床资源,形成真实世界研究整体解决方案。药品上市后再评价需要国家级技术中心,对标美国FDA设在哈佛大学的Sentinel 中心,在国家药监局药品评价中心指导下,与清华大学共同研发药品上市后再评价数据治理的标准和工具,建设药物警戒信息技术与数据科学创新中心,未来将组织试点医院形成分布式数据网络。诺道医学有很强的课题申请、专利申请和论文发表能力,同合作医院共同申报并中标的科研课题包括十三五国家重点研发计划项目、国家自然科学基金重点项目等十余项;已合作申请发明专利27项,其中已授权7项;已合作发表或接收SCI论文10篇,影响因子共计60分。


诺道医学首席数据科学家王则远博士,悉尼大学计算机科学博士,美国史蒂文森理工学院(美国四大理工学院之一)数据科学硕士,先后师从美国著名数据科学家David Belanger教授(IEEE大数据委员会联合主席,AT&T贝尔实验室首席科学家)及国际推理算法著名专家Simon Poon教授。2017年度获得全球DSG数据科学大赛全球第八名、全美第一名,主持研发了诺道医学的个体化用药系统、基于交互式问答的用药决策系统、基于AI的智能文献筛选系统,并主持搭建了真实世界研究算法体系,近两年已发表SCI论文及顶级计算机会议论文8篇,拥有11项国家发明专利及2项PCT国际发明专利,擅长真实世界研究,医学统计分析及人工智能等领域。