代謝組學(xué)(metabolomics)可以收集、檢測和分析對生物活性和病理條件高度敏感的各種小分子代謝物,準(zhǔn)確、穩(wěn)健和低成本的代謝組學(xué)檢測方法為未來的疾病診斷提供了希望。近年來,越來越多的研究借助人工智能的方法,對組學(xué)數(shù)據(jù)進行分析并建立合適有效的檢測或驗證模型,應(yīng)用于疾病診斷、分型及療效預(yù)測。
機器學(xué)習(xí)(machinelearning, ML)與代謝組學(xué)結(jié)合診斷是當(dāng)前一個極具吸引力和前景的概念,但以往的工作主要集中在模型構(gòu)建上,而不是選擇關(guān)鍵的代謝物進行疾病檢測。近日,北京大學(xué)基礎(chǔ)醫(yī)學(xué)院尹玉新教授團隊與中科院、中國人民解放軍總醫(yī)院合作者應(yīng)用機器學(xué)習(xí)結(jié)合脂質(zhì)組學(xué)和多組學(xué)技術(shù)綜合分析胰腺導(dǎo)管腺癌(胰腺癌)的代謝特征,開發(fā)出人工智能輔助的PDAC血清代謝檢測方法,在超過1000例的大型外部驗證隊列以及包含胰腺良性病變的前瞻臨床隊列中分別實現(xiàn)了86.74%,85.00%的分類檢測準(zhǔn)確性,其檢測效能顯著優(yōu)于CA19-9與CT檢查。該項題為“Metabolic detection andsystems analyses of pancreatic ductal adenocarcinoma through machine learning,lipidomics, and multi-omics”的研究于2021年12月22日在Science Advances雜志在線發(fā)表。

在大多數(shù)醫(yī)療應(yīng)用程序中,ML方法通常是在一個數(shù)據(jù)集上進行評估的。相比之下,ML輔助代謝性PDAC檢測方法已經(jīng)由一個大型外部驗證隊列(n = 1003)進行了測試和評估,表明了該方法性能的穩(wěn)定性。處理速度快和精度高的特點使得這種PDAC檢測方法在未來的具有很好的應(yīng)用潛力。
傳統(tǒng)上,代謝組學(xué)或脂質(zhì)組學(xué)的數(shù)據(jù)維數(shù)降低和生物標(biāo)志物篩選主要是基于方差分析(ANOVA)、最小二乘判別分析(PLS-DA)。本研究創(chuàng)新性地應(yīng)用了基于支持向量機(SVM)的貪心算法(greedy algorithm),在血清脂質(zhì)組學(xué)數(shù)據(jù)的特征選擇上表現(xiàn)出了優(yōu)異的性能。
對1033例不同階段的PDAC患者進行測試發(fā)現(xiàn),該方法在大型外部驗證隊列中準(zhǔn)確率為86.74%,曲線下面積(AUC)為0.9351,前瞻性臨床隊列中準(zhǔn)確率為85.00%,AUC為0.9389。

在選擇的特征代謝物中有17種類型的脂質(zhì),包括4種溶血磷脂酰膽堿(LPC)、7種磷脂酰膽堿(PC)、3種鞘磷脂(SMs)、1種溶血磷脂酰乙醇胺(LPE)、1種磷脂酰乙醇胺(PE)和1種甘油二酯(DG)。LPC、PC和PE參與甘油磷脂代謝,SMs參與鞘脂代謝。組織蛋白質(zhì)組學(xué)和單細(xì)胞測序分析顯示,在PDAC細(xì)胞中甘油磷脂和鞘脂代謝途徑被擾亂。這些代謝產(chǎn)物的一系列變化可能反映了PDAC起始和發(fā)育過程中脂質(zhì)代謝及相關(guān)信號轉(zhuǎn)導(dǎo)途徑的改變、癌細(xì)胞的增殖和凋亡抵抗。本研究中將ML分析的血清脂質(zhì)組學(xué)、組織蛋白質(zhì)組學(xué)、單細(xì)胞測序等技術(shù)相結(jié)合,從外周循環(huán)血液和組織空間脂質(zhì)組學(xué)的整合角度來表征PDAC的脂質(zhì)代謝特征。

本工作建立了代謝組學(xué)結(jié)合ML和貪心算法的方法,利用ML細(xì)化了靶向代謝組學(xué)的疾病檢測程序。目前除CA19-9外,PDAC診斷尚無可用的基于液體的檢測方法。然而,CA19-9檢測亦有明顯局限性,如良性胰膽疾病患者由于膽道梗阻也會表現(xiàn)為CA19-9升高,易被誤診為胰腺癌。ML輔助的代謝性PDAC檢測方法具有準(zhǔn)確、高靈敏度、微創(chuàng)(以血清為基礎(chǔ))和無放射性的特點,可能有助于臨床醫(yī)生更全面、更準(zhǔn)確地進行PDAC診斷以及后續(xù)治療。因此,將其納入目前的診斷方法可能對PDAC高危患者的常規(guī)診斷程序起到補充作用。
「當(dāng)然,這項研究的一些局限性。」
該模型選取的特征還不能區(qū)分PDAC的早期或晚期階段,也不能用來預(yù)測PDAC患者的預(yù)后。并且該方法主要是基于東亞人群進行,是否適用于其他人群中PDAC的檢測還有待進一步研究。運用代謝組學(xué)數(shù)據(jù)還必須考慮到其他代謝性疾病如肥胖、糖尿病與PDAC之間的關(guān)系,否則ML輔助代謝性PDAC檢測方法的性能可能會受到代謝相關(guān)混雜因素的影響。該方法,還應(yīng)結(jié)合CA19-9、腹部超聲、CT等現(xiàn)有的檢測手段,對PDAC篩查和檢測結(jié)果做出謹(jǐn)慎解釋。