生物医学文本挖掘:命名实体识别、关系抽取与知识图谱构建
点击“AladdinEdu你的AI学习实践工作坊”注册即送-H卡级别算力沉浸式云原生集成开发环境80G大显存多卡并行按量弹性计费教育用户更享超低价。摘要生物医学文献和临床文本的爆炸式增长使得自动化信息提取成为精准医学和药物发现的关键技术。本文系统阐述生物医学文本挖掘的核心任务命名实体识别NER、关系抽取RE与知识图谱构建。从实体类型基因、疾病、药物、变异等与标注规范出发深入解析NER的方法演进基于字典、规则、传统机器学习、深度学习BiLSTM-CRF、预训练模型BioBERT详细介绍关系抽取的范式共现、监督、远程监督、基于预训练模型和提示学习探讨从三元组到知识图谱的构建流程实体对齐、关系融合、图谱存储与查询以及基于图神经网络的知识推理。通过典型应用案例药物重定位、基因-疾病关联发现展示文本挖掘的实际价值并展望大语言模型GPT-4、PubMedGPT在生物医学文本理解中的突破性进展及未来趋势。关键词文本挖掘命名实体识别关系抽取知识图谱BioBERT大语言模型1. 引言生物医学文献以指数级速度增长PubMed目前已收录超过3500万篇摘要每年新增约100万篇。此外电子健康记录EHR、临床试验报告、药物说明书等临床文本也蕴含着海量信息。这些文献和文本中包含着关于基因、蛋白质、疾病、药物、变异、通路等实体及其复杂关系如基因-疾病关联、药物-靶点相互作用、蛋白质-蛋白质相互作用的丰富知识。然而依靠人工阅读和整理这些信息是不现实的自动化文本挖掘技术应运而生。生物医学文本挖掘Biomedical Text Mining旨在从非结构化文本中自动提取结构化信息其核心任务包括命名实体识别NER识别文本中的生物医学实体如基因名称、疾病术语、药物名称并分类。关系抽取RE识别实体之间的语义关系如“EGFR基因与非小细胞肺癌相关”。知识图谱构建将提取的实体和关系整合为结构化的知识图谱支持推理和查询。这些技术已被广泛应用于药物重定位、基因功能注释、疾病机制解析、临床决策支持等领域。特别是近年来深度学习尤其是预训练语言模型和大语言模型LLM的突破极大提升了文本挖掘的准确性和泛化能力。本文将从NER、RE到知识图谱构建系统介绍生物医学文本挖掘的核心方法和最新进展。2. 生物医学命名实体识别2.1 实体类型与标注规范生物医学文本中常见的实体类型包括基因/蛋白质如BRCA1、EGFR、p53。疾病如diabetes mellitus、Alzheimer’s disease。药物如aspirin、imatinib。化学物如glucose、ethanol。变异如L858R、T790M。物种如Homo sapiens、Mus musculus。解剖部位如liver、brain。标注规范通常遵循Biocreative、JNLPBA等社区标准使用BIO/BIOES标签体系如B-GENE、I-GENE、O。2.2 基于字典和规则的方法2.2.1 字典匹配利用已知实体名称词典如Entrez Gene、UniProt、UMLS进行精确匹配或字符串模糊匹配。简单快速但无法识别新实体如新发现的基因且对词形变化如缩写、同义词处理能力弱。2.2.2 规则方法基于手工编写的正则表达式或模式如“kinase domain”常与基因名共现。可捕获特定模式但规则维护成本高泛化能力差。2.3 传统机器学习方法将NER视为序列标注问题使用特征工程词性、词形、上下文词、词典匹配特征和机器学习模型条件随机场CRF、支持向量机SVM、最大熵模型。常用工具CRF、Wapiti、NLTK。特征示例单词特征词本身、词性、是否数字、是否大写。上下文特征前后1-2个词。词典特征是否在基因字典中。优点不依赖大量手工规则泛化能力优于字典方法。局限特征工程复杂难以捕捉长距离依赖。2.4 深度学习方法2.4.1 BiLSTM-CRF双向长短期记忆网络BiLSTM捕捉序列上下文CRF层优化标签序列的全局一致性。这是2016-2019年间的NER主流架构。输入为词向量Word2Vec、GloVe或字符级CNN编码输出BIO标签序列。2.4.2 预训练语言模型BERTBidirectional Encoder Representations from Transformers及其生物医学变体大幅刷新了NER性能。通过在PubMed摘要和PMC全文上继续预训练模型学习到生物医学领域的语言特征。代表性模型BioBERT在PubMed6.5M摘要和PMC2.4M全文上预训练在多个NER、RE基准上达到最先进水平。PubMedBERT从头在PubMed上预训练优于在通用语料上预训练再微调的BERT。BlueBERT、SciBERT分别在PubMed和计算机科学文献上预训练。微调在标注数据集如NCBI疾病语料、BC5CDR、JNLPBA上微调通常只需少量标注样本即可达到高精度。优点无需复杂特征工程捕捉上下文语义能力强。局限需要GPU资源推理速度较慢。2.5 评估指标精确率Precision识别出的实体中正确的比例。召回率Recall正确识别的实体占所有真实实体的比例。F1分数精确率和召回率的调和平均数。在公开数据集上BioBERT的F1可达到90%以上如NCBI疾病语料0.92。3. 生物医学关系抽取关系抽取的目标是从文本中提取实体对之间的语义关系如“药物A治疗疾病B”、“基因C与疾病D相关”、“蛋白质E抑制蛋白质F”。3.1 关系类型与数据资源常见关系类型基因-疾病association、causation。药物-疾病treat、prevent、cause。药物-靶点interact、inhibit、activate。蛋白质-蛋白质interact、bind、phosphorylate。标注数据集BioCreativeBC5CDR化学物-疾病、BioCreative V药物-疾病。DDI药物-药物相互作用。GAD基因-疾病关联。ChemProt化学物-蛋白质相互作用。3.2 基于共现和规则的方法最简单的假设如果两个实体出现在同一个句子或摘要中则可能存在关系。这种方法召回率较高但精确率低。规则方法依赖触发词如“inhibits”、“associated with”和句法模式可提高精确率但规则覆盖不全。3.3 监督学习方法3.3.1 特征工程分类器提取实体对之间的上下文特征词袋、位置距离、词性、依赖路径使用SVM、随机森林或逻辑回归分类。代表系统BioNLP-OST。3.3.2 基于深度学习的方法BiLSTM Attention输入为实体周围的序列使用BiLSTM编码注意力机制聚焦关键部分。预训练模型微调将实体标记放入BERT输入如插入特殊标记通过[CLS]输出或实体输出做关系分类。BioBERT在关系抽取任务上同样表现优异。图卷积网络GCN利用句法依赖树构建图网络捕捉长距离依存关系。3.4 远程监督Distant Supervision利用知识库如DrugBank、STRING中的已知关系自动对齐文本生成大规模弱标注数据。代表方法OpenNRE。缺点会产生假正例对齐错误需通过注意力机制或多实例学习缓解。3.5 基于提示学习与指令微调大语言模型如GPT-3.5、GPT-4可通过提示prompt直接进行关系抽取。例如“该文本中‘EGFR’和‘lung cancer’之间的关系是什么”。通过指令微调instruction tuning模型可理解任务描述实现零样本或少样本抽取。BioGPT、PubMedGPT等生物医学大模型正在推动该方向。4. 知识图谱构建4.1 从三元组到知识图谱命名实体识别和关系抽取得到的是一系列三元组头实体关系尾实体。将这些三元组存储到图数据库中构建生物医学知识图谱。节点代表实体基因、疾病、药物等边代表关系治疗、抑制、关联等。4.2 实体对齐与融合不同来源的文本可能使用同义词或别名指代同一实体如“BRCA1”与“BRCA1基因”。通过字典匹配、字符串相似度或基于嵌入的对齐技术如基于GNN的实体对齐合并等价节点消除冗余。4.3 知识图谱的存储与查询图数据库Neo4j、JanusGraph、Amazon Neptune支持Cypher查询语言如查询“哪些药物治疗肺癌”。RDF三元组库Jena、Virtuoso支持SPARQL查询。4.4 知识推理知识图谱不仅存储已知事实还可通过推理发现新知识。推理方法包括基于规则如AMIE从图中挖掘关联规则如“如果A抑制BB与C相关则A可能治疗C”。基于图神经网络GNN如R-GCN、CompGCN学习节点和边的嵌入预测缺失的链接知识图谱补全。逻辑推理与嵌入结合如NeuralLP。4.5 典型生物医学知识图谱KG-COVID-19整合COVID-19相关文献、药物、基因、蛋白的知识图谱用于药物重定位。Hetionet整合了疾病、基因、药物、通路等21种实体类型和50余种关系用于预测新适应症。PharmKG聚焦药物-基因-疾病关联。5. 应用案例5.1 药物重定位目标从文献中发现现有药物的新适应症。流程使用BioBERT从PubMed摘要中抽取药物-疾病关系三元组。构建药物-疾病知识图谱结合药物-靶点、疾病-基因等额外关系。通过基于图卷积网络的推理预测新药物-疾病关联。实验验证如细胞实验、动物模型。结果成功预测了抗抑郁药氟西汀对神经炎症的潜在治疗作用。5.2 基因-疾病关联发现目标挖掘罕见病相关基因。流程从文献中提取基因-疾病共现和关系语句。利用远程监督扩充训练数据训练关系抽取模型。构建基因-疾病知识图谱使用知识图谱补全算法预测缺失的关联。通过GWAS数据库验证。5.3 临床试验智能检索将临床试验描述文本与知识图谱结合通过实体链接和关系查询为患者匹配符合条件的试验。6. 挑战与未来趋势6.1 当前挑战数据标注成本高高质量NER和RE标注需要领域专家成本昂贵导致监督数据稀缺。语义复杂性生物医学文本中存在嵌套实体、共指消解、否定检测如“not associated with”等复杂语言现象。跨文档知识融合知识通常分散在多篇文献中需要跨文档融合并解决冲突。动态更新文献快速更新知识图谱需持续维护和更新。6.2 未来趋势大语言模型LLM的统一框架GPT-4、PubMedGPT等模型可同时进行NER、RE和生成通过指令微调实现零样本或少样本信息提取降低对标注数据的依赖。多模态文本挖掘整合文本、图表、表格中的信息例如从论文附图中提取基因表达数据。因果推理从关联文本中挖掘因果关系构建因果知识图谱。联邦学习与隐私保护在EHR等敏感文本上利用联邦学习在不共享原始数据的情况下联合训练模型。知识增强的预训练将知识图谱注入预训练模型如KEPLER提升模型对生物医学概念的语义理解。7. 结语生物医学文本挖掘通过命名实体识别、关系抽取和知识图谱构建将海量非结构化文献转化为结构化知识为精准医学、药物发现和临床决策提供了有力工具。从基于字典的方法到深度学习再到预训练语言模型和大语言模型技术迭代不断刷新性能极限。未来大语言模型将扮演更核心的角色实现端到端的信息提取和知识推理同时与实验数据、组学数据深度融合推动生物医学知识的自动化发现。参考文献Lee, J., et al. (2020). BioBERT: a pre-trained biomedical language representation model for biomedical text mining.Bioinformatics, 36(4), 1234-1240.Gu, Y., et al. (2021). Domain-specific language model pretraining for biomedical natural language processing.ACM Transactions on Computing for Healthcare, 3(1), 1-23.Wei, C. H., et al. (2015). A large-scale benchmarking study of gene mention recognition tools.Bioinformatics, 31(18), 3020-3026.Luo, Y., et al. (2020). BioREx: Improving biomedical relation extraction by leveraging heterogeneous data.Bioinformatics, 36(Supplement_2), i813-i821.Su, C., et al. (2020). A review of biomedical knowledge graph construction and applications.Briefings in Bioinformatics, 21(6), 1965-1983.Luo, R., et al. (2022). BioGPT: generative pre-trained transformer for biomedical text generation and mining.arXiv preprint arXiv:2210.10341.点击“AladdinEdu你的AI学习实践工作坊”注册即送-H卡级别算力沉浸式云原生集成开发环境80G大显存多卡并行按量弹性计费教育用户更享超低价。