华大等NC|微生物多样性与抗菌物质发现
摘要极端环境中的微生物是新型代谢物的重要来源但其全球多样性与生物合成潜力尚未被充分挖掘。本研究从2,293个公共宏基因组和3,214个微生物分离株中重构78,213个细菌和古菌基因组构建了统一数据库——极端环境微生物组目录EEMC。EEMC扩充了全球已知的系统发育多样性涵盖32,715个代表性物种和近40亿个非冗余基因其中分别有63.00%和19.21%为此前未注释的新类群该目录还包含163,693个生物合成基因簇归为64,733个基因簇家族其中58.68%为新型簇凸显了各类极端生境中微生物群落的功能多样性。本研究进一步开发蛋白质大语言模型从EEMC中预测基因组编码的候选抗菌肽cAMPs筛选出3,032个无毒候选肽。合成的100个肽中84%具有抗菌活性所有50个受试cAMPs均表现出低细胞毒性。值得注意的是6个活性最强的cAMPs在体外对多重耐药革兰氏阴性病原菌具有显著抑制效果展现出生物医药应用潜力。综上本研究构建的EEMC为挖掘新型微生物类群与生物合成功能提供了基础资源彰显了其在药物研发中的重要价值为生物技术与生物医学的未来发展奠定基础。chenhaixingenomics.cnyinpenggenomics.cnxue.1dlut.edu.cnyuezhengenomics.cn#极端环境微生物组 #微生物多样性 #生物合成基因簇 #抗菌肽 #蛋白质大语言模型 #宏基因组结果EEMC包含20,610个未被表征的微生物新物种图1EEMC基因组的环境分布及其物种水平聚类a各生境中2,293个公共宏基因组的地理分布。b从2,293个宏基因组和3,214个可培养分离株中回收78,213个基因组所有基因组均满足完整性≥50%、污染率10%的质量标准。c78,213个基因组的质量指标分布箱线图为第1至第3四分位距内部横线为中位数小提琴图展示数据全分布。d基于95%平均核苷酸一致性ANI和30%比对覆盖率AF将EEMC基因组聚类为32,715个物种水平可操作分类单元OTU通过与TARA、GEM、GOMC的代表性基因组聚类评估EEMC物种新颖性。e前20个门中已知OTUkOTU和未分类OTUuOTU的数量与占比。f各极端环境中uOTU的数量及前10个门的组成标注各环境uOTU占比。EEMC包含近40亿个非冗余基因展现出广泛的多样性与显著的新颖性图2EEMC中非冗余基因与基因组来源基因簇概览a各极端环境中单基因的新颖性与总数。b各极端环境特有及所有环境共享的单基因数量。c维恩图展示EEMC、GEM、GOMC数据集间基因组来源基因簇的重叠情况。d各极端环境中基因组来源基因簇的新颖性与总数。e-g维恩图展示3数据集间毒力因子、抗生素抗性基因、碳水化合物活性酶相关基因簇的重叠情况。EEMC具有广泛多样的生物合成潜力包含超16.3万个生物合成基因簇图3 EEMC基因组的新颖性与系统发育组分布及其生物合成潜力a基于120个通用细菌单拷贝基因构建32,715个代表性OTU的系统发育树分支与外层标注物种门、新颖性、基因组来源、数量、BGC数量及类型。b7类极端环境中BGC类型组成、MAG与分离株基因组BGC占比、各环境BGC数量。c163,693个BGC聚类为基因簇家族GCF和基因簇簇GCC展示各类型新颖性与总数。预测抗菌活性与毒性的深度学习模型图4 抗菌肽与毒性预测深度学习模型的概览及性能a蛋白质大语言模型pLLM的数据收集与架构全局/抗G/抗G- AMP模型、毒性模型的训练数据及对11,379个RiPP的预测流程。b4种pLLM在2元标签测试集上的准确率。c-e3种模型鉴定出的抗微生物、抗G、抗G-无毒候选抗菌肽cAMP的交集分布。EEMC的cAMPs对多种病原菌具有抑菌活性图5 候选抗菌肽的实验验证与效价检测a60μM cAMP处理下菌体相对OD600热图标注抑菌有效数值。b合成cAMP与已知AMP的序列相似度分布。c20个优选cAMP对8种病原菌的最低抑菌浓度MIC。d7 个cAMP的50%细胞毒性浓度CC50。e优选cAMP的细胞毒性与溶血率检测结果。圆色谱的肽结构测定及cAMPs作用机制研究图6 肽结构的圆2色谱测定与候选抗菌肽作用机制研究a7个cAMP的AlphaFold3三维结构预测。b7 个cAMP的圆2色谱结果。c-fcAMP_81处理后病原菌的透射电镜与扫描电镜结果显示细胞膜破损。gcAMP对鲍曼不动杆菌膜完整性的影响。数据本研究生成的全部74,999个宏基因组组装基因组MAGs、83个深海自研分离株基因组、来自组装重叠群与基因组的非冗余基因集以及16,3693个生物合成基因簇BGCs均已提交至国家基因库数据库CNGBdb登录号为CNP0007106https://db.cngb.org/search/project/CNP0007106/参考代表性基因组包括基因组分类数据库GTDBR220版的113,104个、地球微生物组基因组目录GEM的22,732个、全球海洋微生物组目录GOMC的24,195个、塔拉海洋计划Tara Ocean的957个https://gtdb.ecogenomic.org/https://portal.nersc.gov/GEM/genomes/https://db.cngb.org/maya/datasets/MDB0000002https://merenlab.org/data/tara-oceans-mags/人类肠道统一基因组目录v2.0版UHGG v2.0的4,472个代表性基因组https://www.ebi.ac.uk/metagenomics/genome-catalogues/human-gut-v2-0-2代码Zenodohttps://zenodo.org/records/17613552GitHubhttps://github.com/BGI-METAI/Metagenome-AI详细总结思维导图核心数据规模参考Nat Commun. 2026 Apr 2. doi: 10.1038/s41467-026-71145-0.The Extreme Environment Microbiome Catalog (EEMC): a global resource for microbial diversity and antimicrobial discovery260402EEMC.pdf注AI辅助创作如有错误欢迎指出。内容仅供参考不构成任何建议。