2025年6月6日,万博英超狼队网官方网 田衛東教授課題組在 Genome Medicine期刊在線發表了題為《PhenoDP: Leveraging Deep Learning for Phenotype-Based Case Reporting, Disease Ranking, and Symptom Recommendation》的研究論文。該研究開發了一種新穎的表型驅動診斷工具 PhenoDP,融合大型語言模型(LLM)與對比學習技術,顯著提升了孟德爾遺傳病的診斷效率與準確率,為臨床罕見病輔助診斷提供了高效、智能的解決方案。
研究背景
單基因遺傳病(孟德爾疾病)影響全球約8%人口,早期精準診斷對改善患者預後具有重要意義。然而,由於表型信息的
完整性與疾病表征的複雜性,現有表型驅動診斷工具在疾病排序與症狀推薦上仍麵臨挑戰。PhenoDP正是為解決這些瓶頸而提出的新一代診斷輔助工具。
圖1 PhenoDP框架組成與算法流程
PhenoDP包含三大核心模塊(圖1):
Summarizer:基於蒸餾訓練的Bio-Medical-3B-CoT模型,輸入HPO術語,輸出高質量、以患者為中心的臨床摘要,提升症狀的可解釋性。
Ranker:融合IC值、Phi係數和圖卷積網絡(GCN)三種相似性計算方法,實現精準疾病排序,特別在複雜疾病中表現突出。
Recommender:基於對比學習優化的Transformer模型,智能推薦區分疾病所需的關鍵症狀,提高診斷精度與置信度。
圖2 Summarizer的知識蒸餾示意圖
性能評估與對比分析
作者在四類模擬數據和三套真實數據集(共計5996個真實病例)上係統評估了PhenoDP的性能:
模擬數據集:在所有難度類型下,PhenoDP的Top20覆蓋率和平均倒數排名(MRR)均為第一,分別比次優方法提高11.7%和12.6%。
真實數據集:在三組獨立真實患者數據中,PhenoDP的Top1準確率分別高出8.1%、8.6%、2.6%。
症狀推薦能力:在目標疾病原本排序為第2/3的病例中,使用PhenoDP推薦的新症狀後,有78.1%的病例目標疾病升至第一位,遠優於GPT-4o(53.4%)和PhenoTips(23.3%)。
圖3在真實數據集上對Ranker的評估結果
圖4對Recommender的評估結果
案例分析:免疫缺陷病IMD103
研究以IMD103為例,初始排序中該疾病與其他免疫缺陷病(如IMD25)分數接近。PhenoDP的Recommender成功推薦出區分性症狀“淋巴結病”,使IMD103得分顯著上升並拉開與相似疾病的差距;而GPT-4o和PhenoTips推薦的症狀缺乏區分度,甚至導致排序錯誤。
實用性與未來應用
PhenoDP已開源發布(https://github.com/TianLab-Bioinfo/PhenoDP),支持一鍵生成結構化報告,輸出臨床摘要、候選疾病列表與症狀推薦結果,便於醫生快速決策與後續診斷。模塊化設計還便於未來集成基因信息、電子病曆或進一步優化語義建模。
綜上,PhenoDP通過深度學習技術革新了表型驅動的診斷流程,為罕見病診斷提供了高效、精準的解決方案。該工作有望加速臨床決策,改善患者預後。
万博英超狼队网官方网 計算生物學係直博生溫寶樂為本文第一作者,田衛東教授為通訊作者。該研究得到了國家自然科學基金的支持。
原文鏈接:https://genomemedicine.biomedcentral.com/articles/10.1186/s13073-025-01496-8#Sec37