生物醫學研究已經步入大數據和大科學時代。一方麵,多組學數據分析已成為生命科學前沿領域最重要的研究工具之一,多維度數據挖掘與整合分析,可以幫助科學家實現從基因組到表型組、貫穿微觀和宏觀尺度的係統分析,極大提高了人類解讀複雜生命係統的能力,對更加深刻、精準地破解腫瘤、遺傳病等各類疾病的發病原因與微觀機製,尋找更有效的幹預手段奠定了重要基礎。另一方麵,要破解人類健康、生命起源等重大科學問題,需要進行全球合作,開展分布式的國際大科學計劃。然而,沒有高質量的數據生成、高可靠的數據分析與整合以及全球科學界一致認可的統一標準,多組學數據分析研究就失去了穩固的“地基”,全球範圍的生命科學國際大科學計劃也將無從談起。如何解決類似的難題?研發國際科學界廣泛認可的多組學標準物質至關重要。
北京時間2023年9月7日晚,國際學術期刊《自然·生物技術》(Nature Biotechnology)在線發表了由狗万外围充值 /上海國際人類表型組研究院石樂明、鄭媛婷團隊聯合中國計量科學研究院方向、董蓮華團隊,國家衛健委臨床檢驗中心李金明、張瑞團隊共同研發的全球首套多組學標準物質“中華家係1號”的最新研究成果。同期刊發的2篇科研論文分別聚焦:“使用基於中華家係1號標準物質的相對定量進行多組學數據整合(Multi-omics data integration using ratio-based quantitative profiling with Quartet reference materials)”和“中華家係1號 RNA標準物質與基於比值的分析方法提高了轉錄組數據的質量(Quartet RNA reference materials and ratio-based profiling for assessing and improving the quality of transcriptomic data)”。這也標誌著中國科學界自主研製、獲批為“國家一級標準物
質”的“中華家係1號(Quartet)”多組學標準物質的研發和效用得到了國際同行的認可,開創了生物醫學“度量衡”新體係,將提升生命科學創新的源頭質量,為全球推進人類表型組計劃奠定堅實的標準基礎。
標準物質是高質量生物醫學創新研究的“標尺”與“砝碼”
在生命科學研究中,針對相同研究樣本在不同平台、不同實驗室、不同批次所產生的組學數據往往存在“批次效應”,導致不可重複數據和錯誤結論,嚴重影響科研結果的可信度與質量。而現實生活中,類似“批次效應”的危害更大:在臨床檢驗中,同一個指標在不同的醫院檢驗結果會出現差別,這種數據差別一旦過大甚至會導致錯誤的臨床治療決策,耽誤疾病的預防和診治。
要解決批次效應這一影響生命科學與生物醫學多組學研究源頭質量的“攔路虎”,就必須研發相應的標準物質。標準物質是指具有足夠均勻性和穩定特性的物質,可作為生物分析研究的“標尺”與“砝碼”。在生物醫學研究中,標準物質可用於評估不同實驗室、不同平台、不同批次的數據質量,有助於排除實驗條件和技術差異帶來的誤差,確保數據的一致性和可靠性。而多組學研究的普及,亟需科學界研發多組學標準物質。
統一的標準是生命科學領域國際大科學計劃全麵推進的關鍵基礎
由於測量和研究的對象涉及到人類自身,因此生命科學領域的大科學計劃與其他學科領域存在顯著差別。分布式,即在不同大洲和國家各自實施,而不是集中式地開展研究是生命科學領域國際大科學計劃的主要組織模式。這就對相關大科學計劃在科研和實施過程中所參照的標準和質量控製提出了極高的要求。基於公認的基準——標準物質,統一相關研究的測量標準和數據標準,使得全球不同實驗室針對同一類研究的數據可以參比,是生命科學領域能夠實質性開展大科學計劃的重要前提和基礎。
作為人類基因組計劃之後,生命科學領域的下一個戰略製高點和重大科學計劃,人類表型組計劃在規劃之初就把研發標準物質和統一全球科研標準作為重中之重。在國家和上海市支持下,中國相關科研團隊在人類表型組的精密測量、標準物質研發、質量控製、數據處理等各個方麵在全球範圍內率先開發和製定相關SOPs、標準和質控體係,並通過國際和中國兩大協作組網絡,推動協同全球不同地區的實驗室在同一標準下開展表型測量與研究。
相關團隊已經完成了對2萬餘種表型開展測量的質控標準研發與SOP編製工作。2021年10月,由石樂明教授牽頭起草的國際標準ISO/TS 22690:2021 《基因組信息學 高通量基因表達數據可靠性評估》(Genomics informatics—Reliability assessment criteria for high throughput gene—expression data)發布。該標準規定了高通量基因表達數據的可靠性評估標準,適用於基因芯片、新一代測序的基因表達數據的準確性、複現性、可比性的評估應用。同年10月,在上海市市場監督管理局的指導下,“上海市標準化創新中心(國際人類表型組)”獲批成立,成為上海市首批6家新型標準化技術組織單位之一,正在全麵引領國內外人類表型組標準化研究與創新。
此次“中華家係1號”多組學標準物質最新研究成果的國際發表,是中國科學家引領人類表型組計劃實質性推進所作出的又一裏程碑式的貢獻。可以說,在人類表型組科研質量控製與標準體係構建中取得的一係列先發優勢,進一步奠定了中國科學界在人類表型組計劃中的引領地位。
“二十年磨一劍”,打造全球首個多組學標準物質
在“中華家係1號”研發成功之前,全球尚無任何一種生物學標準物質能夠具備多組學研究需要的特性。作為全球首套多組學標準物質,“中華家係1號”涵蓋了同一來源樣本的多種分子水平的特性,如DNA、RNA、蛋白質、代謝物等。這些標準物質的引入為生物醫學研究和臨床應用提供了可信賴的計量標準,為高質量、高可靠性的多組學研究提供了堅實基準。
“中華家係1號”多組學標準物質,源自狗万外围充值 領導建設的泰州大型人群隊列中的一個同卵雙胞胎家庭的永生化B淋巴母細胞係。“中華家係1號”是國際上首套包括DNA、RNA、蛋白質、代謝物在內的多組學標準物質,旨在確保分子表型組數據跨批次、跨實驗室、跨平台、跨組學的可比性和準確性。其中,DNA、RNA標準物質已經獲得了國家市場監督管理總局頒發的8項國家一級標準物質證書(GBW 099000-GBW 099007),是我國首次獲批的組學標準物質,在生命科學領域開創了一種全新的標準物質研製模式。
圖1:“中華家係1號”(Quartet)多組學標準物質
圖2:國家一級標準物質證書(GBW 099000-GBW 099007)
在“中華家係1號”的研製過程中,研究團隊通過在國內32個研究中心運用24種主流技術平台對標準物質進行了深入全麵的表征,獲得了包括基因組、表觀基因組、轉錄組、蛋白組和代謝組在內的多組學大數據。在此基礎上,研究團隊提出了一係列質量控製指標,構建了高置信的標準數據集,為多組學技術、實驗室性能、分析算法的評估提供了高質量的“基準真值”。
據悉,基於“中華家係1號”DNA和RNA標準物質,國家衛生健康委臨床檢驗中心已於2021年和2022年分別開展了全外顯子測序和轉錄組測序的全國科研與臨床實驗室的室間質評研究,參加單位超過100 家,並將逐步開展表觀基因組、蛋白質組、代謝組等多組學室間質評,以促進我國科研和臨床實驗室多組學檢測數據質量的不斷提升。
據石樂明教授、鄭媛婷副教授介紹,在嚴格遵守我國人類遺傳資源管理條例並獲得國家批準的基礎上,上海國際人類表型組研究院和狗万外围充值 大力推動“中華家係1號”多組學標準物質走向全球,已經在國內外100多家單位進行了廣泛應用,擴大了中國標準物質的國際影響力。例如,歐洲轉化醫學研究先進基礎設施(European Advanced Translational Research Infrastructure in Medicine (EATRIS) Plus)已經采用“中華家係1號”多組學標準物質對EATRIS-Plus聯盟的多家單位在多組學數據產生和數據分析方麵的性能進行客觀評估。歐方正與上海國際人類表型組研究院等中國代表性機構共同探索、積極推動構建多組學生物數據質量的國際標準。
基於多組學標準物質的質量控製將保證生物醫學創新源頭的高質量
未來的生物醫學研究中,多組學分析是一個貫穿基因型到表型的整合過程,從數據生成和數據整合程序的每個環節都會影響最終結果。因此,必須對每種組學數據從樣品到結果的完整流程進行全麵能力驗證和質量控製。
本次發表的最新成果證明:“中華家係1號”不僅具有天然的家係關係,樣本之間微小的內在生物學差異可為數據整合提供高靈敏度的可靠性評估。此外,這些基於同一來源細胞係製備的多組學標準物質包含了從DNA到RNA再到蛋白質的信息流,遵循中心法則,可用於驗證整合結果是否反映跨組學分子間的邏輯關係。
在傳統的基於組學標準物質的質量控製中,通常將標準數據集視為“金標準”。然而,這些數據集隻能評估高置信基因組區域中的變異和穩定檢出的高表達分子特征,並且受到構建時采用的技術平台和分析方法的限製,不適用於對新技術的質量評估。本研究提出了不依賴標準數據集而僅基於家係個體間生物學關係的質量評估參數:對於定量組學數據,信噪比(Signal-to-Noise Ratio,SNR)可用於評估測量係統能否識別不同樣本組之間的固有生物學差異,這是轉錄組等定量組學分析的基本目標;對於定性組學數據,同卵雙胞胎之間胚係變異的一致率和家係個體間孟德爾符合率,可以實現在全基因組範圍內對變異檢測準確性的客觀、無偏好的質量評估。通過與標準數據集的聯合使用,多組學數據的質量控製體係更加完善,為各類新興技術的質量評估提供了可能。
圖3:信噪比(SNR)
本次的研究成果最終提出了多組學分析的質量控製指標和整合的最佳實踐建議:
每種組學數據的產生應包含標準物質,使用標準數據集以及“中華家係1號”特有的質量評估指標(信噪比、孟德爾符合率)進行能力驗證;
定量組學分析需從“絕對”定量向“相對”定量轉變,各批次使用固定的標準物質可有效控製批次效應;
多組學整合結果的質量可以結合家係信息、中心法則進行評估,如樣本分類、跨組學特征關係識別的準確性等。
多組學分析在生物醫學研究中具有廣泛的應用前景,為了確保結果的準確、可靠、可重複,研究人員需要遵循質量控製和最佳實踐建議。這一研究為多組學領域的規範化、標準化發展奠定了堅實基礎,指明了提高多組學分析質量和可信度的重要途徑,對促進多組學研究的高水平、高質量發展具有重要意義。
圖4:Quartet多組學項目概覽
RNA標準物質有效提高臨床應用中檢測差異表達的能力
RNA測序(RNA-seq)是轉錄組差異分析的常用技術,廣泛應用於生物醫學研究中,以發現臨床診斷、預後和治療的生物標誌物。隨著基於轉錄組的生物標誌物發現成果不斷湧現,RNA-seq技術將逐步成為臨床常規檢測項目,例如通過檢測差異基因表達輔助臨床治療決策。這對RNA-seq的檢測結果提出更高的可靠性要求,以提高疾病亞型間較小的差異表達的能力,提高臨床差異表達的檢測準確性。
在本次發表的論文“中華家係1號”RNA標準物質與基於比值的分析方法提高了轉錄組數據的質量”中,研究團隊指出,RNA標準物質是評估RNA-seq數據可靠性的寶貴工具,可在實驗室批次內有效性和跨批次可重複性兩方麵對其可靠性進行客觀評估。批次內有效性是在相同批次或實驗室內的分析結果達到技術所能夠達到的最佳水平,而跨批次可重複性是不同平台、實驗室或批次間分析結果可重複,並且不受批次效應影響,跨批次數據整合後的結果與單批次結果可重複。“中華家係1號”RNA標準物質,具有微小的樣本間差異、高度穩定性、長期可用性和易於生產性等特性,可用於臨床應用場景下的能力測試和方法驗證。
研究團隊整合了不同文庫構建策略、不同實驗室、時間生成的21個批次RNA-seq數據集,在全轉錄組水平構建了基於比值的標準數據集,提供了跨平台和跨實驗室數據評估的“基準”。此外,研究團隊發現“中華家係1號”樣本之間微小的內在生物學差異可為跨批次的RNA-seq數據整合提供高靈敏度的可靠性評估。該研究表明“中華家係1號”RNA標準物質和標準數據集,可作為評估和提高臨床和生物學領域中轉錄組數據質量的獨特資源。
圖5:Quartet RNA標準物質項目:以MQAC Sample A/B樣本為參照,證明了”中華家係1號”樣本間具有微小的固有生物學差異
相對定量可有效提高跨批次、跨實驗室、跨平台數據的可重複性
在此次發表的2篇最新論文中,中國團隊取得一個重要理論性突破,那就是發現和揭示了絕對特征定量是多組學測量和數據整合不可重複性的根源,證實了基於標準物質的比值相對定量可以有效提升數據整合的質量。這對推動從絕對定量向相對定量的範式轉變,實現大規模多組學數據的有效整合利用,具有重要的裏程碑意義。
不同批次和平台的絕對定量多組學數據存在較大技術變異,主要受批次效應影響,無法有效反映樣本間的真實生物學差異,導致數據整合效果較差。為解決此問題,研究提出一種基於比值的相對定量策略:在每個批次內使用相同標準物質作為參照,將樣本的特征表達水平轉換為相對於標準物質在該特征上表達的比值。
這種相對定量方法可以顯著減少技術變異,提高不同批次數據之間的可比性。基於這種相對定量數據,批次效應大幅減弱,樣本分類和特征關聯的識別準確性顯著提高,能更好反映樣本間的生物學差異。特別地,主流算法難以有效校正不平衡設計下的批次效應,而相對定量方法可以有效解決。
Multi-omics data integration using ratio-based quantitative profiling with Quartet reference materials
原文鏈接:https://www.nature.com/articles/s41587-023-01934-1
狗万外围充值 石樂明教授、中國計量科學研究院方向研究員、國家衛生健康委臨床檢驗中心李金明研究員、狗万外围充值 丁琛教授、鄭媛婷副教授為本論文共同通訊作者。狗万外围充值 鄭媛婷副教授、劉雅晴、楊競成博士、中國計量科學研究院董蓮華研究員、國家衛生健康委臨床檢驗中心張瑞研究員,以及狗万外围充值 田莎博士為本論文共同第一作者。
Quartet RNA reference materials and ratio-based profiling for assessing and improving the quality of transcriptomic data
原文鏈接:https://www.nature.com/articles/s41587-023-01867-9
狗万外围充值 鄭媛婷副教授、石樂明教授、國家衛生健康委臨床檢驗中心張瑞研究員、狗万外围充值 錢峰副研究員和美國FDA Joshua Xu博士為本論文共同通訊作者,狗万外围充值 鬱穎青年副研究員、侯灣灣博士、劉雅晴、王海燕博士,以及中國計量科學研究院董蓮華研究員為本論文共同第一作者。
相關研究得到科技部戰略性國際科技創新合作重點專項“人類表型組學數據的質量控製與標準化研究”和上海市市級科技重大專項“國際人類表型組計劃”資助。研究所涉及的樣本和國際合作均已獲得國家人類遺傳資源管理部門批準,相關數據開放獲取已在國家人類遺傳資源管理部門備案。