早筛网讯:近日,求臻医学信息团队研发的一站式肿瘤精准诊疗知识挖掘平台OncoPubMiner,在国际权威生物信息学期刊BriefingsinBioinformatics(SCI影响因子:13.,中科院JCR数学与计算生物学1区Top期刊)上在线发表[1]。该平台利用自然语言处理技术(NLP,一种人工智能技术),对PubMed收录的2,万篇摘要和PMC收录的万篇全文进行了深入挖掘,识别出逾2.7亿实体-文献关系对。同时,平台创新性地设计了全流程一站式数据在线摘录功能,不仅为求臻医学实时追踪最新肿瘤学研究进展、快速更新肿瘤NGS检测结果解读知识库奠定了平台基础,也将为肿瘤患者的检测报告带来实时、全面、高质量的自动化解读。
研究背景
近年来,高通量测序技术(NGS)在精准医学领域发挥的作用日益凸显,在肿瘤精准医学领域更是方兴未艾,相关的研究论文数量也呈现指数式增长。作为开发新算法、新工具的金标准,高质量且实时更新的肿瘤精准诊疗知识库肩负着快速追踪科研进展,更好地服务于临床,辅助新研究发现的重要使命,更是实现自动化和智能化报告解读系统的基石。
诚然,现如今相关领域已有多款优秀数据库,如OncoKB[2]、CIViC[3]、JAX-CKB[4]、MyCancerGenome[5]、PMKB[6]、CGI[7]、OncoPDSS[8]等,但仍存在数据不全、缺乏持续或实时更新、数据无法批量获取等问题。因此,开发高质量且实时更新的自建知识库迫在眉睫。
研究设计
图1.OncoPubMiner平台工作流(workflow)
研究论文是科研发现的第一展示阵地,也是肿瘤精准诊疗知识数据的重要来源。本项目以文献数据挖掘为目标,从NCBI下载可公开使用(open-access)的PubMed摘要(Abstract)和PMC全文(Full-text),经过脚本处理、解析和格式转化后,利用基于人工智能的NLP技术对肿瘤精准诊疗相关的实体(如癌种、基因、变异、药物、临床意义、证据方向)进行挖掘。同时,利用业界常用的术语集(terminology)和本体(ontology),分别对自动化标注的实体进行标准化和层级化处理。最后,基于数据挖掘结果,构建一套包括文献检索、文库管理、团队搭建、表单定制、项目管理、数据摘录及审核等功能在内的全流程一站式平台。
研究结果
1.文献挖掘
该工作首先从NCBI的FTP服务器下载全量的可公开使用的数据集。所下载的XML格式的文献数据均通过Python脚本转化为BioC-JSON(untagged,