數(shù)據(jù)質(zhì)控分析
BPC Overlay 圖
在儀器進行數(shù)據(jù)采集的過程中,我們將插在樣品中間的QC樣品做overlay,確定保留時間和峰強度基本保持不變??v軸表示峰強度,橫軸表示出峰時間,左上角標明樣品名稱,每個顏色的線條表示一個樣本的出峰情況,overlay越好,表明一致性越好。
QC樣本在PCA分析中的表現(xiàn)
樣本PCA分析,主要是對數(shù)據(jù)進行降維分析,可以檢測實驗組間的差異性及組內(nèi)的重復性1。PCA分析計算有關(guān)代謝物組成的主成分,在二維圖中,我們?nèi)∏皟蓚€主成分PC1,PC2來表示樣本,空間分布差異越小,表示兩個樣本的數(shù)據(jù)越接近。圖中每個點代表一個實驗樣本,并以不同顏色區(qū)分不同分組。當儀器穩(wěn)定時,QC樣本相對集中在一起,不存在隨時間變動的情況。
QC樣本的相關(guān)性分析
為考察研究樣本多次生物學實驗的重復性,基于組間實驗共定量代謝物的強度值進行相關(guān)性分析,橫坐標和縱坐標分別為該組實驗樣品代謝物強度值取log2,任意兩組重復實驗共定量代謝物強度值的pearson相關(guān)系數(shù)如圖所示。相關(guān)系數(shù)均大于0.80,表示QC一致性較好。
樣本重復相關(guān)性評估
樣本重復性可通過組內(nèi)樣本相關(guān)性表示。通常,組內(nèi)樣本的person相關(guān)性系數(shù)越大,表明獲得的差異代謝物結(jié)果越可靠。相關(guān)系數(shù)越接近1,表明兩樣本重復性越強。
基礎數(shù)據(jù)分析
PCA分析
PCA主要是對數(shù)據(jù)進行降維分析,可以檢測實驗組間的差異性及組內(nèi)的重復性。在二維圖中,取前兩個主成分PC1,PC2來表示樣本,空間分布差異越小,表示兩個樣本的數(shù)據(jù)越接近。圖中每個點代表一個實驗樣本,并以不同顏色區(qū)分不同分組。重復性較好的實驗,同一組內(nèi)的不同樣本應該聚集在一個相對集中的范圍內(nèi),并可以與其他組的數(shù)據(jù)聚集區(qū)域區(qū)分開。
OPLS-DA
為了消除與分類不相關(guān)的噪音信息,同時也為了篩選導致分類差異的可信代謝物,選取正交偏最小二乘判別分析(orthogonal partial least-squares discrimination analysis,OPLS-DA)3過濾與分類不相關(guān)的信號,即正交信號,獲得OPLS-DA模型,對模型的質(zhì)量用交叉驗證法進行檢驗(即用一部分樣本數(shù)據(jù)制作分組模型,另外一部分數(shù)據(jù)用來測試已分組的模型),得到的R2Y和Q2分別代表模型可解釋的變量和可預測度,可對模型的優(yōu)劣進行判別。通過模型分析可以對代謝物進行VIP打分篩選,VIP分數(shù)越高的代謝物,對分組的貢獻越大。
S-plot圖
S-plot圖的橫坐標表示主成份與代謝物的協(xié)相關(guān)系數(shù),縱坐標表示主成份與代謝物的相關(guān)系數(shù)。S-plot圖一般用來挑選與OSC過程中主要成分相關(guān)性較強的代謝物,也可以挑選與Y相關(guān)性強的代謝物。通常,越靠近兩個角的代謝物重要性越強,越值得被關(guān)注。
OPLS-DA置換檢驗
Permutation Test是對模型進行200次的隨機驗證。該圖橫坐標表示與模型的相似度,縱坐標為R2Y與Q2,R2在Y軸的截距小于0.4,Q2在Y軸的截距小于0.05,可認為模型沒有出現(xiàn)過擬合,但有時候由于樣本量較少,認為兩條擬合線的斜率大于0即可。
個性化數(shù)據(jù)分析
差異代謝物venn圖
利用venn圖可以清晰明了的看出各組差異分析中的代謝物檢出情況,中間部分的代謝物表示在每組差異比較組中均檢測到。圖中每一個顏色代表一組差異分析,數(shù)字表示該組差異分析中檢出的差異代謝物,中間部分為所有分組中的共有差異代謝物
差異代謝物云圖
云圖可直觀顯示差異代謝物的整體分布情況,圖中每一個點代表一個代謝物,橫坐標表示每個代謝物的保留時間(Retention Time, RT),縱坐標表示質(zhì)核比(m/z),顯著上調(diào)的代謝物用紅色點表示,顯著下調(diào)的代謝物用綠點表示,p值大小由顏色深淺表示,圓圈的半徑表示差異變化倍數(shù)。
差異代謝物層次聚類分析
聚類分析是模式識別和數(shù)據(jù)挖掘中普遍使用的一種方法,是基于數(shù)據(jù)的知識發(fā)現(xiàn)的有效方法4。在縱軸方向,對代謝物進行聚類,用顏色的深淺表示代謝物豐度的高低,橫軸為樣本信息。基于樣本中篩選出的差異代謝物,根據(jù)類別進行繪圖。
差異代謝物相關(guān)性熱圖分析
對VIP值前50的差異代謝物進行person相關(guān)分析,紅色表示正相關(guān),藍色表示負相關(guān)。
代謝通路分析
KEGG富集氣泡圖
將統(tǒng)計分析獲取的每組正負離子模式下的差異代謝物并集的compound name輸入MBROLE 2.0軟件中,將差異代謝物與數(shù)據(jù)庫比對,獲得差異代謝物參與的通路富集結(jié)果。將數(shù)據(jù)通過氣泡圖形式表示,如下圖,每個氣泡代表一個pathway。橫坐標值越大,表示該通路中差異代謝物富集程度越高。點的顏色代表超幾何檢驗的p-value值,值越小,說明檢驗的可靠性越大、越具有統(tǒng)計學意義。點的大小代表相應通路中差異代謝物的數(shù)目,越大,該通路內(nèi)差異代謝物就越多。
KEGG富集通路圖
在KEGG通路圖中,圓圈代表代謝物,其中紅色圓圈為注釋到的差異代謝物。
差異代謝物分類
根據(jù)KEGG pathway數(shù)據(jù)庫(https://www.kegg.jp/kegg/pathway.html)對注釋到的代謝通路進行分類,結(jié)果如下: