【佳学基因检测】如何在基因检测后提高基因集富集分析的能力？

肿瘤基因检测与靶向药物选择导读：

背景

集合富集方法通常用于分析高维分子数据并获得对分子或临床表型的生物学洞察力。一类重要的分析方法采用富集分数，它是根据表型和每个分子属性之间的排名单变量相关性创建的。通过从表型排列产生的零分布确定关联的重要性的估计。基因检测与基因信息学研究攻关团队研究了这种方法的一些统计特性，并展示了如何使用富集的替代评估来增加此类分析的统计能力，以检测表型与生物过程和途径之间的关联。

结果

对于这类集合富集分析，零分布在很大程度上独立于具有可用分子数据的样本数量。因此，如果样本队列不太小，基因检测与基因信息学研究攻关团队表明通过将队列分成两半并使用对每一半评估的富集分数的平均值作为替代，可以增加识别生物过程和表型之间关联的统计能力检验统计量。此外，基因检测与基因信息学研究攻关团队证明，可以通过将队列的多个随机分成两半来平均来扩展这一原则。这使得可以计算任意精度的富集统计和相关的p值，而与使用的确切随机拆分无关。

结论

有可能增加基因集富集分析的统计能力，该分析采用从单变量表型属性相关性和表型排列生成空分布的运行总和创建的富集分数。这种增加可以通过使用替代测试统计来实现，该统计为数据集的拆分计算平均富集分数。除了基因集中上调和下调基因之间的密切平衡的特殊情况外，通过这种方法可以提高或至少保持统计能力，直至小样本量，其中正确评估单变量表型基因相关性变得不可行。

关键词：富集分析，基因集富集分析，统计功效

背景

集富集分析已成为生物信息学和生物统计学工具包的重要组成部分。此类分析可以深入了解不同分子或临床定义表型的基本生物学过程。假设有一个可用的数据集，其中测量了 N 个实例（样本）的 p 个属性（例如蛋白质丰度、基因表达），每个实例都具有相关的连续或分类表型。集合富集不是进行 p 单变量分析来评估 N 个实例中每个单独属性与表型之间的相关性，而是试图确定 p 属性子集中与余。可以选择包含与感兴趣的特定生物过程或途径相关的属性的属性子集。

集合富集分析有许多化身，主要区别在于用于评估富集的方法及其意义。在 Ackermann 等人中可以找到多种方法的概述和比较。。一类集合富集分析方法使用富集分数 (ES) 来捕获属性子集与其补集之间的个体属性-表型相关性的差异。一种常用的富集评分方法，基因集富集分析 (GSEA) ，对属性和表型之间的单变量相关性进行排序，并根据从有序等级构建的运行总和的极值定义富集分数。属性子集（基因集）和由富集分数捕获的表型之间关联的统计显着性是基于通过排列表型标签生成的 ES 的空分布来确定的。

诸如 GSEA 之类的分析检测与特定属性子集的关联的能力取决于：i．测量的属性数量；ii. 属性子集中的属性数量以及它们之间的相关性；iii. 可获得数据的样本数量；和四。用于评估单变量属性-表型相关性的指标。已经进行了大量研究以更好地了解GSEA的局限性以及上述因素如何影响其敏感性和统计能力（例如，）。在本文中，基因检测与基因信息学研究攻关团队探讨了 GSEA 方法的统计能力对具有可用分子数据的队列中的样本数量的依赖性。基因检测与基因信息学研究攻关团队表明，虽然 ES 的分布随着 N 的增加而变窄，但表型排列产生的零分布却没有。因此，增加队列中的样本数量并不会带来与在其他设置中通常观察到的 N 相同的统计功效增加。作为推论，基因检测与基因信息学研究攻关团队表明，只要队列足够大，将队列分成两个不同的部分，并使用每个部分的 ES 平均值作为替代统计量，比使用定义的传统 ES 提供更大的检测关联的能力使用整个队列。这种方法产生一个富集统计，因此富集p值，这取决于队列分成两部分的具体情况。这种潜在的劣势可以通过随机选择多个队列拆分并对这些拆分以及特定拆分中的一半的 ES 进行平均来缓解。基因检测与基因信息学研究攻关团队表明，这种技术可以产生所需的精度水平（在富集分数指标和p值中），而与群组的拆分方式无关。

结果

乳腺癌患者的 mRNA 表达数据

本节使用一个公开可用的数据集，测量从乳腺癌患者收集的组织样本中获得的 13,018 个基因的表达。该队列已得到充分研究，并且是开发一项测试的基础，该测试将患者在乳腺癌手术后分为良好或不良结果组。测试分类（“好”或“差”）可作为数据集的一部分使用，并用作二元表型。这些数据来自 Venet 等人提供的补充材料。。使用的属性子集（这里是基因集）是 Hallmarks 基因集（一组 50 个基因集）可从 Broad Institute GSEA 网站获得（参见方法）。选择了两个特定基因集 HALLMARK_MYC_TARGETS_V1 和 HALLMARK_ALLOGRAFT_REJECTION 作为标志基因集中过程的示例，这些基因集与以 GSEA p值约为 0.05 为特征的乳腺癌队列中的表型相关（对于 MYC_TARGETS_V1 和p = 0.0684，p = 0.0172 和p = 0.0684）对于 ALLOGRAFT_REJECTION）。两个基因组的标准 ES 的零分布显示在富集分析中使用的不同数量的样本 N 中，在图 3 中以蓝色显示。 1ab。每个条带的宽度反映了在创建的 1000 个子集实现中每个直方图箱中的零分布的标准误差（从整个队列中随机选择 N 个样本，按表型分层）。很明显，随着 N 的增加，零分布基本上保持不变。请注意，这与典型统计的原型、教科书案例形成对比，例如学生的 t 统计，其中零分布随着 N 的增加而变窄。样本数量在确定 ES 的零分布宽度方面并不起典型作用。其他因素，例如测量的属性数量和基因集中的属性数量，对于确定空分布的形状更为重要。

图1：N = 20、40、60、80、100 和 200 的 ES 和 ES avg 的空分布。a HALLMARKS_MYC_TARGETS_V1，b HALLMARKS_ALLOGRAFT_REJECTION。ES 的分布以蓝色显示，ES avg的分布以红色显示

对于相同的基因组，ES 的采样分布，对于从 294 个样本的研究队列中抽取的 N 个样本的子集，随着 N 的增加而变窄（图 3 的下图）。 2B）。对于贼低 N，分布保留了零分布的双峰特征的痕迹。随着 N 的增加，分布变得单峰，然后进一步变窄。请注意，由于采样是在仅 294 个样本的总体中执行的，因此采样实现之间会有相关性，尤其是对于较大的 N。

图 2:N = 20、40、60、80、100 和 200的ES 和 ES平均抽样分布。a HALLMARKS_MYC_TARGETS_V1，b HALLMARKS_ALLOGRAFT_REJECTION

结果如图所示。 1和2

2这意味着检测特定属性子集和表型之间关联的能力将随着 N 增加。然而，它不会像一些更简单的统计数据那样迅速发生，因为尽管与备择假设相关的分布随着 N 而变窄，但零假设没有。

基因检测与基因信息学研究攻关团队现在考虑将测试统计量从使用 N 个样本计算的标准 ES 更改为两个 ES1 和 ES2 的平均值的影响，每个 ES 计算将 N 个样本拆分为 N/2 个样本的两个不同子集，即ES平均值 = 0.5 (ES1 + ES2)。数字 1ab 比较了 ES avg（红色）和 ES（蓝色）的零分布，对于两个示例基因组的各种 N 值。（请注意，ES avg的零分布是三峰的，而不是双峰的。对于表型分类的排列，ES1 和 ES2 同样可能是正数或负数，因此 ES avg接近 0 的可能性不大。）图 2ab 对 ES avg（上图）和 ES（下图）的采样分布显示相同。对于所有研究的 N，基因检测与基因信息学研究攻关团队观察到 ES avg的零分布比 ES 的更窄。这是相对独立于 N 的零分布的结果：ES 的零分布对于 N 和 N/2 是相似的。因此，ES1 和 ES2 的零分布（针对 N/2 个样本计算）与 ES 的相似。由于 ES avg是 ES1 和 ES2 的平均值，对于 N/2 个样本，它的零分布将比 ES（类似 ES1 和 ES2）窄，因此比 N 个样本的 ES 窄。对于小 N，ES avg的采样分布可能比 ES 更宽。当 N 非常小以至于无法以足够的正确度评估表型-个体基因相关性以产生单峰 ES平均抽样分布时，就会发生这种情况，即使基因集和表型之间存在真正的群体关联。当基因集和表型之间没有种群关联时，较大的 N 可能会发生这种情况。然而，当基因集和表型之间存在真正的群体关联时，对于较大的 N，ES avg的抽样分布N 个样本的位置和宽度与 ES 相似。在这些情况下，如 MYC_TARGETS_V1 和 ALLOGRAFT_REJECTION 所示，尽管 ES1 和 ES2 的采样分布比 ES 的更宽，但由于样本量减半，这可以通过将 ES1 和 ES2 平均化为新统计，ES avg。

因此，使用 ES avg作为检验统计量增加了检测表型与特定基因组关联的能力，而不是使用 ES 获得的关联，只要 N 不太小并且存在有意义的群体关联。数字 3显示 ES 和 ES avg之间的统计功效差异作为检验统计量，以检测两个示例基因集和表型之间的关联。结果显示为 294 名患者队列的子集大小 N 的函数。即使对于 40 个样本（24 个“差”和 16 个“好”表型），使用 ES avg作为统计数据也可以提高检测关联的能力。对于 20 个样本，ES avg的功率在数值上小于ES，尽管这两种方法都提供了贼小的功率（小于 30%）。受益于 ES avg的确切样本量超过 ES 停止将取决于关联的大小。对于非常小的样本量，除了表型和个体基因表达之间非常强的单变量相关性之外，不可能以任何正确度评估任何东西。在这种情况下，使用标准 ES 测试统计量检测基因组与表型关联的能力已经受到严重影响。如果将数据集分成两半，这种情况会更加严重。然后，ES avg的功效不会比 ES 有所提高，但使用任一检验统计量的统计功效都会很低。

图 3

检测表型与 HALLMARKS_MYC_TARGETS_V1（蓝色）和 HALLMARKS_ALLOGRAFT_REJECTION（红色）与 α = 0.05 的关联的能力。对于 ES（虚线）和 ES avg（实线），功率显示为 N 的函数

使用统计 ES avg的一个缺点是它不是为一个群组少有定义的，并且取决于将群组分成两部分的方式。可以通过多次（M）次将队列随机分成两个不同的部分并将测试统计定义为 M 多次拆分的 ES avg的平均值来减少这种可变性，即

平均

> =

∑

分裂

平均

. 可以通过对 <ES avg >平均的所有拆分应用相同的表型标签排列来生成适当的零分布。数字 4显示了为 MYC_TARGETS_V1 基因组的 294 名患者队列中抽取的N = 200的一个子集生成的零分布，该基因集用于没有分裂 (ES)、一个分裂 (ES avg )、两个分裂和 25 个分裂的子集的测试统计. 随着平均分裂数增加到 1 以上，分布失去其多峰结构但保持相同的总宽度。

图 4

ES 和 <ES avg > 的空分布。<ES avg > 的空分布显示为一个拆分（ES avg = <ES avg >）、两个拆分和 25 个拆分。所有分布均针对从 294 名患者队列中抽取的 200 个样本中的一个子集生成

数字 5显示了 ES avg和 < ES avg > 对于 200 个样本的相同单个子集和 MYC_TARGETS_V1 基因集的 1000 个随机分裂平均值的两次分裂和 25 次分裂获得的测试统计量的分布。正如考虑到大数定律所预期的那样，分布的位置保持不变，并且分布的宽度随着测试统计量在更多随机分割上的平均值而变窄。此过程允许通过平均足够的随机拆分来定义测试统计量，从而定义相关的富集p值，以达到队列的任意精度。

图 5

1000 个随机分裂平均值的 ES avg和 < ES avg >（两次分裂和 25 次分裂）分布。所有分布均针对使用 MYC_TARGETS_V1 基因集的 200 个样本的单个子集

为了说明使用 ES avg和 < ES avg > 对 ES 进行 25 次分裂作为更广泛基因集的测试统计量的好处，表 1比较了所有 50 个 Hallmarks 基因组的富集p值，这些值是使用 294 名患者使用三个统计数据计算得出的。ES avg和 < ES avg >的关联p值几乎总是小于 ES，在少数情况并非如此的情况下，这两种方法都不会产生表示显着关联的p值。

表格1

50 个 Hallmarks 基因组的p值。p值是使用 ES、ES avg或 < ES avg >使用 294 个样本队列计算的，其中 25 个拆分作为检验统计量。通过增加使用 ES avg作为统计量获得的p值对基因集进行排序

基因组	ES 的p值	ES avg的p值	<ES avg >的p值
MTORC1_SIGNALING	< 0.0001	< 0.0001	< 0.0001
E2F_TARGETS	< 0.0001	< 0.0001	< 0.0001
UV_RESPONSE_UP	0.0132	< 0.0001	< 0.0001
G2M_CHECKPOINT	< 0.0001	< 0.0001	< 0.0001
PI3K_AKT_MTOR_SIGNALING	0.0040	0.0002	< 0.0001
有丝分裂纺锤体	0.0028	0.0004	< 0.0001
UNFOLDED_PROTEIN_RESPONSE	0.0006	0.0004	< 0.0001
REACTIVE_OXIGEN_SPECIES_PATHWAY	0.0063	0.0004	0.0002
ESTROGEN_RESPONSE_EARLY	0.0068	0.0006	0.0002
精子发生	0.0185	0.0006	0.0002
糖酵解	0.0216	0.0012	0.0008
MYC_TARGETS_V1	0.0172	0.0020	0.0002
UV_RESPONSE_DN	0.0156	0.0020	0.0012
MYC_TARGETS_V2	0.0320	0.0032	0.0026
DNA_REPAIR	0.0263	0.0035	0.0008
INTERFERON_GAMMA_RESPONSE	0.0373	0.0046	0.0038
IL6_JAK_STAT3_SIGNALING	0.0790	0.0074	0.0081
INTERFERON_ALPHA_RESPONSE	0.0638	0.0080	0.0105
补充	0.1059	0.0157	0.0149
ESTROGEN_RESPONSE_LATE	0.0622	0.0188	0.0080
ALLOGRAFT_REJECTION	0.0684	0.0194	0.0144
INFLAMMATORY_RESPONSE	0.0963	0.0303	0.0172
CHOLESTEROL_HOMEOSTASIS	0.1035	0.0449	0.0252
胆汁酸代谢	0.0966	0.0472	0.0247
血管生成	0.2591	0.0796	0.0753
WNT_BETA_CATENIN_SIGNALING	0.4422	0.1160	0.1235
EPITHELIAL_MESENCHYMAL_TRANSITION	0.2984	0.1219	0.0984
凝血	0.2516	0.1223	0.1093
IL2_STAT5_SIGNALING	0.1685	0.1437	0.0596
生肌	0.2767	0.1589	0.1043
TGF_BETA_SIGNALING	0.3229	0.1593	0.1344
OXIDATIVE_PHOSPHORYLATION	0.3773	0.1877	0.1604
PROTEIN_SECRETION	0.3107	0.2032	0.2028
脂肪生成	0.4204	0.2247	0.2581
APICAL_SURFACE	0.4078	0.2477	0.0824
P53_PATHWAY	0.5724	0.2489	0.2423
TNFA_SIGNALING_VIA_NFKB	0.3401	0.2509	0.1545
缺氧	0.4398	0.2712	0.2450
细胞凋亡	0.5796	0.2905	0.3886
APICAL_JUNCTION	0.5175	0.2907	0.2579
NOTCH_SIGNALING	0.7451	0.3104	0.3226
FATTY_ACID_METABOLISM	0.5358	0.3134	0.3853
PANCREAS_BETA_CELLS	0.6834	0.3201	0.1500
XENOBIOTIC_METABOLISM	0.4921	0.3541	0.4946
HEME_METABOLISM	0.7713	0.4576	0.4731
KRAS_SIGNALING_UP	0.6241	0.7068	0.4892
ANDROGEN_RESPONSE	0.8082	0.7539	0.5841
HEDGEHOG_SIGNALING	0.7870	0.7810	0.5163
过氧化物酶体	0.3931	0.8977	0.3682
KRAS_SIGNALING_DN	0.9700	0.9193	0.7337

合成数据集

为了进一步研究该方法对具有不同表型关联程度和不同属性相关程度的属性子集的性能，基因检测与基因信息学研究攻关团队使用合成数据进行了一组实验。基因检测与基因信息学研究攻关团队的方法类似于 Ackermann 和 Strimmer 的基准测试方法。基因检测与基因信息学研究攻关团队为 50 个样本（每个表型 25 个）模拟了 600 个基因的数据集，并定义了 21 个基因组，它们具有不同程度的基因间相关性和表型之间的差异表达。方法中提供了完整的详细信息。为了评估不同测试统计数据识别表型与基因组关联的能力，基因检测与基因信息学研究攻关团队评估了 100 个数据集实现中检测到与p关联的比例 < 0.05 使用 ES、ES avg和 < ES avg > 进行 25 次拆分。结果如表所示 2.

表 2

ES、ES avg和 < ES avg > 的 25 次拆分p < 0.05 的实现比例。使用 3 个测试统计量 ES、ES avg和 < ES avg >计算 21 个基因组中每个基因组的 100 次数据集实现的比例，M = 25。a表示与表型无关的对照基因组

基因组	p < 0.05的比例
基因组	ES	ES平均	<ES平均>
一个_	0.06	0.08	0.05
b	1.00	1.00	1.00
C	0.82	0.81	0.92
d	0.09	0.09	0.14
e	0.38	0.39	0.46
F	0.06	0.13	0.10
G	0.01	0.00	0.01
H	0.29	0.19	0.19
一世	0.10	0.16	0.07
一个_	0.07	0.07	0.07
ķ	0.92	0.93	0.98
l	0.81	0.88	0.91
M	0.92	0.94	0.98
n	0.34	0.35	0.43
○	0.73	0.76	0.84
p	0.42	0.56	0.64
q	0.77	0.84	0.90
r	0.22	0.26	0.22
s	0.75	0.77	0.90
吨	0.36	0.38	0.44
你	0.25	0.28	0.37

除了两个控制组（a 和 j）之外，所有基因组的构建都具有基因组中至少一些属性与表型之间的关联。该关联被选择为从中等到弱。这允许检测统计能力的差异，以识别基因集和表型之间的关联；如果关联很强（例如，大于基因组 b），它们将在所有方法的几乎所有实现中统一检测到。对于两个对照基因组，表型和基因组之间没有关联，p值在实现上的分布是均匀的（参见附录中的直方图），实现的比例产生p对于基因检测与基因信息学研究攻关团队的方法，低于 0.05 的关联值保持在 5% 左右。对于大多数其他基因组，识别与p < 0.05 关联的实现比例对于 <ES avg > (M = 25) 更高，并且通常对于 ES avg，而不是 ES。这表明在各种属性子集场景中识别构建关联的能力增加，包括表型和基因之间不同程度的单变量关联、表型之间上调和下调基因的混合以及基因组内相关结构的差异。除了控制之外，还有其他两种情况没有观察到增加的功率。先进个包括关联非常弱的那些基因集（基因集 d、f 和 g）。所有三个测试统计数据在识别表型和基因组之间构建的非常弱的关联方面都具有同样差的能力。第二种情况包括基因组（基因组 h 和 i）内上调和下调属性之间平衡的特殊情况。基因组 h 和 i 由相同数量的表型上调和下调属性构成，它们与表型的单变量相关强度有效相同。在这个非常特殊的设置中，对于数据集的任何特定实现，计算正 ES 或负 ES 的可能性相同。对于基因组 h，在大约 30% 的病例中发现p < 0.05，但其中大约一半对应于阳性 ES，另一半对应于阴性 ES。当数据集分成两部分来计算 ES avg和 < ES avg > 时，由于与表型的上下关联之间的正确平衡，每一半都可能产生正或负 ES。对这种双峰分布进行平均产生以 ES avg = 0 或 < ES avg > =0 为中心的分布，因此降低了识别表型和基因集之间显着关联的能力。因此，在这种与表型上下关联的特征范围和数量之间取得平衡的特殊设置中，ES avg的表现和 <ES avg > 测试统计不如 ES。然而，只要不接近正确匹配的上调和下调场景，ES avg和 < ES avg > 至少显示出与 ES 相似的功率（参见基因集 r，有 13 个基因，Δμ = 0.5和 7 个具有 Δμ = - 0.5) 或更大功率（基因组 l、p 和 q，每个具有 15 个 Δμ = 0.5 的基因和 5 个具有 Δμ = - 0.5 的基因）。在现实世界的环境中，表型之间差异基因表达的相反方向的数量和幅度非常接近平衡不太可能在基因集中发生。因此，合成数据的分析表明使用 ES avg或 < ES avg > 只要样本集的大小和关联强度足够大，可以通过标准 ES 方法为识别提供一些贼小的能力，就可能增加检测与基因集所代表的生物过程关联的能力。

讨论和结论

富集分数的零分布，如 GSEA 设置富集分析方法中所定义的，在很大程度上独立于分析中使用的样本数量。因此，增加样本队列大小 N 只能通过缩小 ES 的抽样分布来提高检测基因集和表型之间关联的能力。将队列分成两个不同的相等部分，计算每个部分的 ES，并对它们进行平均以创建新的测试统计量 ES avg，可以产生明显更窄的空分布和类似的 ES 抽样分布。这种方法导致增加的统计能力来检测表型和属性子集之间的显着关联。在大多数情况并非如此的情况下，ES 和 ES avg由于测试统计导致表型和基因集的显着关联的识别，因为不存在关联，属性子集与表型的关联不够强，无法检测，或者 N 太小而无法对单个基因和表型之间的相关性进行有意义的评估。在表型之间上调和下调属性的数量和幅度之间密切匹配的特殊情况下，即使对于贼大的样本量，ES 统计量的抽样分布也具有双峰的不寻常特性。使用 ES平均因为检验统计量会降低识别关联的能力。然而，这种情况不太可能发生在综合生成的数据集之外，并且可以通过检查计算 ES 的运行总和来识别这种情况。（即使与这些 ES 值相关的p值很小，也会观察到运行总和与零的贼大和贼小偏差的相似幅度。）测试统计量和富集p值对队列方式的不可接受的依赖性通过使用平均过程的扩展以在测试统计 <ES avg >中包含队列的多个随机拆分，可以避免拆分以产生 ES avg 。

这种方法的应用可以在统计能力方面带来明显的优势，可用于识别生物过程或途径与样本/患者表型之间的关联，但贼小样本群组除外，其中标准方法的能力也非常有限。这可能有助于缓解文献中指出的这类 ES 的功率相对降低的问题。增加的权力将能够高效地识别较弱的关联，并增加识别可能在p方面具有临界意义的确定性-值和错误发现率与标准统计。该方法已使用二元表型分类和表型-个体基因相关度量的一种选择进行了说明，但它应该适用于使用其他相关度量或连续表型评分的富集分析。使用 ES avg或 < ES avg的好处 > 超过 ES 取决于 ES 的零分布对样本数 N 的相对独立性。这种现象是通过运行总和的极值评估富集方式的结果（由排名和组合属性-表型相关性）和通过表型排列生成零分布。用于生成空分布的每个表型排列导致属性-表型相关性的值和等级的随机化。因此，评估属性和表型之间相关性的方式并不重要，基因检测与基因信息学研究攻关团队的方法应该直接适用于采用其他相关性度量的 GSEA（例如，用于连续属性的 Spearman/Pearson r）。

在这里，基因检测与基因信息学研究攻关团队只探索了将样本集分成两个不同的相等部分。该方法可以扩展为将数据集拆分为两个以上的部分进行平均，这将通过进一步缩小相关的空分布来提高性能。然而，拆分成更多不同子集的好处需要更大的队列规模。跨不同子集平均 ES 的概念也可能有助于组合来自具有相同可用属性的多个样本群组的数据。如果批次效应阻止将多个样本集合并到一个队列中，这可能特别有用。使用归一化的 ES 还将允许使用相同的方法来组合来自不同队列的患者的数据，每个队列具有不同的可用属性，例如，甚至可以组合基因组和蛋白质组学面板数据，前提是可以将一致的表型分配给多个队列。如果使用患者定义的表型类别标签的排列生成空分布，则还可以使用对每个数据源计算的 ES 进行平均来扩展到单个患者队列的多个数据源的情况。

方法

数据集和基因集：mRNA 表达

本部分研究中使用的数据集可从访问，包括从接受乳腺癌手术的患者收集的组织样本中采集的 13,018 个基因的 mRNA 表达测量值。这个由 295 名患者组成的队列是开发将患者分为“好”和“差”结果组的测试的基础。每个患者的测试分类都包含在数据集中，并且这个二元结果被用作寻求与生物过程关联的表型。基因表达值用于无需进一步处理或标准化。在整个研究过程中，基因检测与基因信息学研究攻关团队使用了 295 名患者中的 294 名的数据（未使用来自样本 NKI373 的数据），以便将队列分成两个不同的、大小相等的亚组。

此处使用的属性集（在本例中为基因集）是可从 Broad Institute GSEA 网站 ( http://software.broadinstitute.org/gsea/msigdb/collections/jsp#H ) 获得的 Hallmarks 基因集。它们是精心策划的基因集集合，代表了明确定义的生物状态和过程。集合中包括五十个基因组。对于大多数分析，基因检测与基因信息学研究攻关团队从 Hallmarks 集中选择了两个特定的基因集，MYC_TARGETS_V1 和 ALLOGRAFT_REJECTION 作为示例。测试分类表型显示出与这些基因组的明确但不是极端的关联，因此，它们被认为是特别说明性的例子。磷还使用 ES、ES avg和 < ES avg >（25 次分割）作为测试统计数据，使用来自所有 294 个样本的数据计算了 Hallmarks 集合中所有 50 个基因组的富集值。

数据集和基因集：合成数据

为了以更可控的方式研究方法的性能对属性子集中属性之间的关联程度和相关程度的依赖性，基因检测与基因信息学研究攻关团队使用合成数据集和属性子集进行了一组分析，遵循 Ackermann 的基准测试方法和斯特里默。

600 个属性（基因）的表达值的合成数据集是通过从具有单位方差的多元正态分布中绘制的，其中包含 25 个具有表型 A 的样本和 25 个具有表型 B 的样本。对于属性i，基因检测与基因信息学研究攻关团队定义了平均属性值之间的差异A 和 B 为 Δμ i。属性i和属性j之间的相关性定义为 ρ ij。为 50 个样本选择了 600 个属性，如下所示：

一世。420，Δμ = 0 和 ρ = 0，
ii. 20，Δμ = 0.5 和 ρ = 0，
iii. 20，Δμ = 0.25 和 ρ = 0，
iv. 20，Δμ = 0.1 和 ρ = 0，
v. 20，Δμ = 0.5 和 ρ = 0.6，
六。20，Δμ = 0.25 和 ρ = 0.6，
七。20，Δμ = 0.1 和 ρ = 0.6，
八。10 与 Δμ = + 0.5 和 10 与 Δμ = - 0.5，在 10 的每个子组内 ρ = 0.6，在子组之间 ρ = - 0.6，
九。10，Δμ = + 0.5 和 10，Δμ = - 0.5，ρ = 0，
X。20，Δμ = 0 和 ρ = 0.6。

通过采用以下属性组创建了 21 个具有不同程度的表型关联和不同相互关联的基因组：

20 来自 (i)
(ii) 中的 20
20 来自 (iii)
20 来自 (iv)
20 来自 (v)
20（六）
20（七）
(八) 20
20 来自 (ix)
20 来自 (x)
(ii) 中的 10 和 (v) 中的 10
(ii) 中的 10，(viii) 中的 5 + 5 (5 Δμ = 0.5 和 5 Δμ = - 0.5)
(ii)、(iii) 和 (iv) 中的 20
(v)、(vi) 和 (vii) 中的 20
20 从 (ii)-(vii)
(ix) 中的 10 个，Δμ = + 0.5，(viii) 中的 5 个，Δμ = - 0.5，和 (viii) 中的 5 个，Δμ = + 0.5 和 ρ = 0.6
(ii) 中的 10，(viii) 中的 5 + 5 (5 Δμ = 0.5 和 5 Δμ = - 0.5)
来自 (ii) 的 3，来自 (ix) 的 10 Δμ = 0.5 和来自 (ix) 的 7，Δμ = - 0.5
(i) 中的 10 和 (ii) 中的 10
(i) 中的 10 和 (v) 中的 10
(i) 中的 8 个和 (ii)-(x) 中的 12 个

基因集富集分析实现

使用的富集集分析方法密切遵循 Subramanian 等人的方法。。基于等级的相关性，以 Mann-Whitney 检验统计量的形式，范围从 1 到 - 1，用于表征单个属性的表达与二元表型之间的关联。对于标准基因集富集分析，使用的富集分数 ES 与 Subramanian 等人的定义有效相同。p = 1。用于评估富集统计显着性的空分布是通过表型分类的重复随机改组（排列）获得的。

使用 ES avg的替代富集评估方法实施如下。大小为 N 的队列被分成两个相等且不同的子组，S 1和 S 2，每个子组的大小为 N/2。对于每个亚组，如上文所述计算富集分数，以分别产生 S 1、S 2的 ES1、ES2 。替代统计 ES avg被定义为两个亚组富集分数的平均值，即 ES avg = 0.5(ES1 + ES2)。通过表型分类的排列再次计算空分布。表型分类被打乱，然后数据集被分成两半，S 1和 S 2. ES1 和 ES2 分别在 S 1和 S 2内计算并取平均值，得到 ES avg用于置换实现。

使用测试统计量<ES avg > = 0.5 Σ i (ES1 i + ES2 i )/M使用多个拆分的平均值评估富集，其中总和超过拆分数 M，将 N 个样本分成两个随机子集 S 1i和 S 2i，分别具有富集分数 ES1 i和 ES2 i。为了生成空分布，表型分类被打乱，然后数据集被随机分成两半 M 次。<ES avg > 然后为置换实现计算。对于生成零分布所需的置换实现的数量重复此操作。

ES 和 ES avg的空分布

对于基因集 MYC_TARGETS_V1 和 ALLOGRAFT_REJECTION 的大小为 20、40、60、80、100 和 200 的群组的子集，生成标准富集分数 ES 和替代统计量 ES avg的空分布。在每种情况下，随机选择一个子集，按表型分类分层。在每种情况下，表型分类随机排列 10,000 次。

ES 和 ES avg的抽样分布

对于N = 20、40、60、80、100 和 200 的基因集 MYC_TARGETS_V1 和 ALLOGRAFT_REJECTION，为 ES 和 ES avg生成了从 294 个样本的群体队列中抽取的大小为 N 的子集的抽样分布。选择了一千个子集每个子集大小随机，按表型分类分层。

检测 ES 和 ES avg之间关联的能力比较

检测表型与基因组 MYC_TARGETS_V1 和 ALLOGRAFT_REJECTION 关联的能力计算如下。首先如上所述计算不同子集大小的 ES 和 ES avg的零分布。ES 和 ES avg如上所述计算，每个子集大小的 1000 次实现，用于估计采样分布。对于每个子集大小的每个实现，将 ES 和 ES avg与其各自的零分布进行比较，以确定是否观察到与p < 0.05 的关联。检测这种与 α = 0.05 的关联的能力被定义为p < 0.05 的实现比例。

不同分割数的富集分数统计的空分布，M

估计了 ES（无拆分）、ES平均（1 次拆分）和 <ES平均 > 的零分布，其中 2 次和 25 次拆分来自 294 名患者队列中的 200 个样本的一个子集。如上所述，从表型分类的 10,000 个排列中生成每个空分布。

<ES avg > 在队列的不同拆分上的分布，对于不同数量的拆分，M

使用 1000 个实现估计从研究队列中抽取的 200 个样本的单个子集的不同随机拆分的 ES（无拆分）、ES avg（1 拆分）和 <ES avg > 的分布，其中 2 和 25 拆分每个统计数据所需的拆分集。

所有 50 个 Hallmark 基因组与队列表型分类的关联

对于 50 个 Hallmark 基因组中的每一个，GSEA 分别使用 ES、ES avg和 < ES avg > 在 294 个样本的整个队列中进行 M = 25 次分割。通过 10,000 个表型分类排列估计每个基因集的无效分布。

综合数据分析

对于 21 个基因组中的每一个，使用 ES、ES avg和 < ES avg >分别执行 GSEA，其中 M = 25 次拆分，用于 100 次合成数据集的实现。通过 10,000 个表型分类排列估计空分布。通过计算富集p值低于 0.05的实现比例来估计分析检测 α = 0.05（显着性水平为 95%）的基因集和表型之间关联的能力。为了检查两个对照基因组（a 和 j）的p值分布，对统计数据 ES、ES avg和 < ES avg >执行 GSEA，其中 M = 25 用于数据集的 1000 次实现。

软件

实施本研究中介绍的方法的软件可在https://bitbucket.org/PSEABiodesix/pseabiodesix的 PSEABiodesix 存储库中获得。

致谢

不适用。

资金

不适用。

数据和材料的可用性

支持本文结论的数据集可在与 Venet 等人相关的补充材料中找到。在 10.1371/journal.pcbi.1002240.s001。

实施本研究中介绍的方法的软件可在https://bitbucket.org/PSEABiodesix/pseabiodesix的 PSEABiodesix 存储库中获得。软件要求包括：

操作系统 - Windows（使用 Windows 7 Professional 开发/测试）
编程语言 - C#。Net（需要.Net Framework 4.5.2 版）
其他要求 – IMSL 6.5.0 的 Roguewave IMSL C# 许可证
许可证 – 新（3 条款）BSD 许可证

缩写

ES	浓缩分数
GSEA	基因集富集分析

附录

对于通过构建与表型没有关联的对照合成基因组，使用数据集的 1000 个实现的所有三个富集统计数据进行 GSEA，以检查实现中p值的分布（图 2）。 6）。

图 6

用于控制基因集的 ES、ES avg和 < ES avg > 的数据集实现上的p值分布。a基因组 a, b基因组 j

Improving the power of gene set enrichment analyses.

Roder J, Linstid B, Oliveira C.

BMC Bioinformatics. 2019 May 17;20(1):257. doi: 10.1186/s12859-019-2850-1.

(责任编辑：佳学基因)