代谢组学研究中,差异代谢物的筛选是数据分析重要的一环,但由于代谢组数据具有多维且某些变量间高度相关的特点,所以分析方法有很多,如PCA、PLS-DA以及OPLS-DA分析等。

1. 代谢组学常用的显著性检验方法:

p值是一个概率,反映某一事件发生的可能性大小,用于区分该变量是否具有统计显著性,通常认为p<0.05具有统计学意义。常用的检验方法有t-test、方差分析(Analysis of Variance, ANOVA)。t检验一般适用于两组差异比较,在多维的情况下就要用到ANOVA方差分析。

(图片来源于网络,侵删)

2. 单变量分析方法-差异倍数分析在代谢组学两两比较中是较为常见的,但多组比较为什么没有呢?

差异倍数(Fold Change,简称FC值)分析即根据代谢物的相对定量或绝对定量结果,计算某个代谢物在两组间表达量的差异。差异倍数作为上下调的一个标准,假设比较组为AvsB,计算方式为:FC=B/A,FC大于1为上调,小于1为下调(这个标准不是固定的,也可以设置的更为严格一点,比如调整为1.2倍、1.5倍或者2倍,这三种阈值在代谢组研究相关文章中是较为常见的)。我们说上下调,一般都是指和某一组相比,另一组上调或者下调,三组或者多组的时候是无法定义和哪组相比其他几组高或者低的,因此差异倍数是在两两比较中产生的。

3. 多元统计分析

多元统计分析分为无监督分析方法和有监督分析方法。在代谢组学分析中无监督分析有主成分分析(PCA),而有监督分析方法主要是偏最小二乘判别分析(PLS-DA)和正交偏最小二乘判别分析(OPLS-DA)。

因无外加人为因素,得到的PCA模型反映了代谢组数据的原始状态,有利于掌握数据的整体情况并对数据从整体上进行把握,并从中揭示出数据集中观测数据的分组、趋势以及离群。对明显不同于大部分样品的离群样品,可加以甄别或剔除。另外,如果存在质控样品,PCA还可进行质控,如果质控样品分布点越靠近,则说明系统稳定,检测质量没有问题。

与PCA只有一个数据集不同,PLS-DA在分析时必须对样品进行指定并分组,这样模型会自动加上另外一个隐含的数据集Y。因为PLS-DA在建模时对样品进行了指定和分组,所以能更大地区分组间差异,但这也导致数据的PLS-DA模型存在过拟合(overfitting)的问题, 会造成模型失真, 在实际数据分析时应注意验证模型有效性和可靠性。

OPLS-DA使用正交信号校正技术,将X矩阵信息分解成与Y相关和不相关的两类信息,然后过滤掉与分类无关的信息,相关的信息主要集中在第一个预测成分,有效减少模型的复杂性和增强模型的解释能力,从而较大程度查看组间差异。OPLS-DA 得分图,从横坐标的方向可以看到组间的差异;从纵坐标上看出组内的差异(组内样本间的差异)。

4. 代谢组学常用到的差异代谢产物的数据分析方法:

单变量分析方法是简单常用的实验数据分析方法。在进行两组样本间的差异代谢物分析时,常用的单变量分析方法包括差异倍数分析(Fold Change Analysis,FC Analysis)、T 检验,以及综合前两种分析方法的火山图(Volcano Plot)。

多元统计分析中无监督分析有主成分分析(PCA),而有监督分析方法主要是偏最小二乘判别分析(PLS-DA)和正交偏最小二乘判别分析(OPLS-DA)。

VIP(Variable important in projection)是(O)PLS-DA模型变量的变量权重值,来衡量各代谢物的表达模式对各组样本分类判别的影响强度和解释能力,挖掘具有生物学意义的差异代谢物。

由于代谢组数据具有多维且某些变量间高度相关的特点,运用传统的单变量分析无法快速、充分、准确地挖掘数据内潜在的信息,因此一般采用多元统计分析方法,可以在较大程度保留原始信息的基础上将高维复杂的数据进行“简化和降维”,建立可靠的数学模型对研究对象的代谢谱特点进行归纳和总结。因此代谢组学推荐使用单维和多维的方法进行结合,有助于我们从不同角度观察数据,得出结论。所以选择P值小于0.05与VIP值大于1作为常见的差异代谢物筛选标准。

5. 代谢组学中LC-MS与GC-MS数据的区别:

1)LC-MS根据电离方式不同,可分为电喷雾离子源(ESI)和大气压化学电离源(APCI) 2 种工作方式;GC-MS有电子轰击电离(EI)、正化学电离(CI)、负化学电离(NCI)3种电离方法,其中前两者较常用。

2)LC-MS是在正、负离子两种模式下工作的,得到的数据形式也是不一样的,而对代谢物的统计学分析时也是分开的,但在代谢通路分析时(或者合并分析时),会将正负离子结合,有重复时选择两种模式中响应较高的一个模式。

3)GC-MS通常只能在单一离子模式下工作,得到的数据模式非负即正,可根据实际的离子源进行判断,因此在分析时工作量就少了一半。再加上由于扫描离子范围的差别,LC-MS获得的数据量明显更多。

相比于GC-MS,LC-MS一般无需衍生处理,分析平行性更好,更适合大规模样本的分析。代谢数据有着典型的高维度、高噪声等特性,并且存在数量级的差异,因此还需要对数据进行样本间和代谢物间的归一化处理,以确保各样本之间和代谢物之间可平行比较。归一化的方法:内标归一化、总峰面积归一化和QC归一化。简单来说,就是对代谢数据集进行一系列的数值处理,把数据拉到一个特定范围里,转换为可用于进一步统计分析的可用形式。