2021年10月29日,《自然-通訊》(Nature Communications)在線發表了万博英超狼队网官方网 徐書華團隊的研究成果“Refining models of archaic admixture in Eurasia with ArchaicSeeker2.0”。該項工作提出了一種基於隱馬爾科夫模型(Hidden Markov Model)的計算分析新方法ArchaicSeeker 2.0。相比於之前的方法,新方法能更有效地檢測和量化近緣種的基因交流並在更精細的尺度上重構複雜的基因交流曆史;該方法也適用於非人類物種的遺傳數據分析。研究團隊應用新方法分析了公共開放數據庫中的人群基因組數據,重塑了歐亞大陸以及大洋洲現代人類(modern humans)史前與遠古人類(archaic hominins)的基因交流模型並重構了現代人類的史前演化曆史。
人類作為地球生命演化中很晚近才出現的物種,曆史十分短暫,但是過程卻錯綜複雜。近年來的研究發現,現代人類的祖先在“走出非洲”、向全球探索的征途中,可能與先期抵達的古人類接觸並共存了相當長的時期,並且期間產生了基因交流。其中比較有代表性的古人類是目前已知的尼安德特人和丹尼索瓦人。雖然這些古人類作為物種在3萬年前都走向了滅絕,但他們的基因片段卻散布在包括我們自己在內的現存人類的基因組中。這個有趣的現象吸引了人類學、曆史學、地質學、古生物學、考古學、遺傳學等眾多領域的科學研究者,有趣的、甚至令人驚奇的發現也持續在出現。然而,幾個關鍵的問題亟待解決或缺乏令人滿意的答案:1)如何在現代人類基因組中準確地識別出這些古人類的基因片段?2)通過對這些基因片段的研究是否可以揭示出現代人類與古人類的族群交融史?3)通過對從古人類遺傳交融的分析視角,重新審視長期以來建立的人類演化模型,是否應修正或者改變我們對現代人類演化曆史的認知?4)與古人類的遺傳交融對現代人類遺傳和表型多樣性產生什麼影響?特別是這些古人類基因片段具有什麼樣的進化和醫學意義?出於對這些問題的好奇與研究熱情,研究團隊在前期研究基礎上提出了新方法ArchaicSeeker2.0,藉由該方法分析和探討了東亞、南亞、歐洲及大洋洲的現代人群與尼安德特人、丹尼索瓦人之間基因漸滲、共同演化的曆史重構等一係列重要問題。研究團隊進一步將該方法應用於分析全球人群基因組公共數據,從現代人類基因組中檢測遠古人類的基因序列並在更精細的尺度上重構史前人類在歐亞大陸的遷徙和基因交流曆史。
1. 曾經發生在史前的基因交流,站在現代人類的立場,可視為遠古人類對現代人類的基因滲入或遺傳漸滲(genetic introgression)。由於基因滲入事件發生的時間比較久遠(距今3~10萬年前),古人類的基因片段由於基因重組往往碎片化為平均長度隻有幾萬個核苷酸的DNA序列(人的基因組為30億核苷酸長度),並且極度分散於現代人類基因組中。相比於近期的族群遺傳融合(如美國黑人、南美拉丁裔人群)動輒幾百萬核苷酸大小的祖先片段,遠古人類滲入的基因片段短了近百倍,為檢測和判定工作帶來諸多困難。除此之外,經過現代人類基因庫幾萬年的重組稀釋,遠古人類基因片段總體上通常隻占現代人全基因組序列的1~2%。極低的頻率,極短的長度,和遠古人類基因組數據的缺失等諸多因素都增加了從現代人類基因組序列中搜尋和鑒定遠古人類基因片段的難度。而基於這1~2%的基因滲入信息推斷史前人類發生的曆史,則是一個更具挑戰的問題。這也是長久以來各種方法的嚐試都未取得良好效果的重要原因。研究團隊為此專門設計了一種尋找遠古人類基因滲入片段,基於滲入片段長度推斷遠古人類基因滲入曆史的方法——ArchaicSeeker 2.0(圖1)。該方法包含三個組成部分:(1)基於隱馬爾科夫模型的滲入片段搜尋算法(seeking algorithm);(2)基於最大似然估計的序列匹配算法(matching algorithm);(3)基於似然比檢驗(likelihood ratio test)和最大期望算法(EM algorithm)的演化曆史重構算法(history reconstruction algorithm)。相比於其他方法,ArchaicSeeker 2.0有如下三個優勢:首先,該方法通過滲入片段搜尋算法,可以從海量的現代人基因組數據中,快速鑒定潛在的滲古人類基因序列,並能精準判定每個片段的大小和確定邊界;其次,該方法在判定基因滲入片段的祖源過程中不依賴於是否具備已知的遠古人類基因信息;第三,基於ArchaicSeeker 2.0的曆史重構算法,不依賴於海量計算機模擬,即可有效地重構極為複雜的遺傳漸滲曆史。ArchaicSeeker 2.0的這些獨特優勢性能在計算機模擬數據和實驗數據分析中得到了係統的評估與確證。結果表明,在遠古人類基因片段的判定方麵,ArchaicSeeker 2.0達到了超過90%的準確率,而誤判率僅為約0.14%。在幾乎所有的模擬實驗中,至少 80%以上推斷的古人類片段都能被匹配至正確的祖先上。同時,ArchaicSeeker 2.0在遺傳混合事件次數、基因滲入比例和遺傳交融發生的時間估計上也有良好的表現。ArchaicSeeker 2.0對遠古人類基因滲入片段精準而高效地檢測以及對遺傳滲入曆史的準確推斷,也為研究現代人類和遠古人類的混合曆史重構提供了必備的信息和進一步分析的基礎。
圖1. ArchaicSeeker 2.0方法原理示意圖
2. 早前研究表明非洲以外的現代人類基因組中存在少量尼安德特人、丹尼索瓦人等遠古人類的滲入基因序列。然而不少關鍵的問題,如這些基因片段是何時、何地以及經由哪種遠古人類滲入現代人類基因組,尚有較大爭議。此前主流的研究結果大多基於DNA序列差異來計算混入片段和遠古人類基因組差異,即通過分子鍾計算分歧時間的方式確定滲入時間。但是,這類方法要求已測序的遠古人類為基因滲入的遠古人類的直係後代,否則估計的時間會較實際滲入時間偏早。而ArchaicSeeker 2.0方法是基於遠古人類滲入基因片段的長度分布來推斷滲入曆史,該方法不僅能有效估計基因滲入時間,也能對滲入事件發生次數進行更準確的估計。利用ArchaicSeeker 2.0方法,研究團隊對東亞、南亞、歐洲、大洋洲以及現代亞歐人類祖先烏斯特-伊斯姆人與尼安德特人、丹尼索瓦人的混合時間、次數進行估計。結合考古學證據,研究人員從時空尺度上重構了現代人類和遠古人類的遺傳交融曆史。
3. 之前關於古人類與現代人類遺傳混合的研究,大多基於現代人類“單次出非洲”的模型。然而研究團隊發現,“單次出非洲”模型與現代人類史前和其他古人類如尼安德特人、丹尼索瓦人等的混合時間與次數存在矛盾。目前的數據需要至少兩次出非洲遷移事件才能較好地解釋。一次較早的“出非洲”遷徙發生在距今約6~12萬年前,而較晚近的一次發生在距今6萬年以後。早期走出非洲的現代人類祖先,在距今約9.4萬年到11.9萬年前,在中東、南亞附近,與丹尼索瓦人發生了第一次接觸和基因交流。而後,他們繼續向東前進,一部分留在南亞,一部分向北到達東亞南部,並分別與本地的丹尼索瓦人發生遺傳交融。還有一支繼續向東南遷徙,在距今6.2萬年至6.4萬年前,穿過華萊士線(Wallace Line)到達大洋洲與已先期到達的一支丹尼索瓦人融合。近期走出非洲的現代人類,距今4.8萬年至5.9萬年前,在中東地區與尼安德特人發生第一次接觸和基因交流,之後,他們分別遷徙至歐洲、南亞、東亞,與各地尼安德特人發生了第二次族群融合。隨後,南亞對歐洲的遷徙還將極少量的丹尼索瓦人的基因序列帶入歐洲(圖2-3)。
圖2. 現代人類史前遷徙路線及其與遠古人類的基因交流模式示意圖
圖3. 現代人類演化及其與遠古人類遺傳交融模式示意圖
4 .基於ArchaicSeeker 2.0對古人類基因滲入片段精準高效地評估,研究團隊分析了全球近300個現代人群中遠古人類基因滲入序列功能及其分布特點,發現它們富集於免疫,體重(ZNF169),心肺功能(HHAT),紫外線響應和碳水化合物的代謝(HYAL1、HYAL2、HYAL3)等相關功能基因區域。除去這些遠古人類滲入片段富集區域,研究團隊還檢測到了84個完全缺乏古人類基因片段的“漸滲沙漠”區域。而在這些“漸滲沙漠”區域中,顯著富集了與皮膚發育和角化功能有關的基因。這些發現為揭示遠古人類基因序列滲入對現代人類影響提供了線索,並為接下來進一步研究滲入基因片段的生物學功能以及遠古人類遺傳漸滲對現代人類進化的影響,提供了候選基因和研究靶標。
苑鍇博士(中國科學院上海營養與健康研究所)、倪旭敏博士(北京交通大學)、劉暢,潘雨聞,鄧戀青年研究員(狗万外围充值 ),張瑞(上海科技大學)為論文共同第一作者;狗万外围充值 徐書華教授為該文的通訊作者,中國科學院上海營養與健康研究所為第一單位,万博英超狼队网官方网 為通訊作者單位。
該項工作得到了中國科學院先導專項、國家自然科學基金委、上海市科委、國家重點研發計劃、英國皇家學會牛頓基金等多項基金的資助,同時得到中國科學院動物進化與遺傳前沿交叉卓越創新中心的支持。
論文鏈接: https://www.nature.com/articles/s41467-021-26503-5