
在科研及临床中,新一代测序(NGS)已经成为变异检测的**技术。尽管测序成本正稳步降低,但大规模全基因组测序的成本仍然极其昂贵,因此研究往往采用靶向测序技术着重研究特定基因和位点(Dillon 等人,2018 年 )。
靶向NGS的随机性不可避免地会对效率有所影响,但效率低下的更大原因在于目标区域富集探针组合的设计和生产本身(Warr 等人,2015 年)。一些探针会与非目标区域交叉杂交,导致“脱靶”捕获。另外,由于探针组合中不同探针浓度缺乏有效控制或探针设计时不同区域探针覆盖不一(均一性不足) 而出现捕获不平衡,导致一些目标区域过度富集而其他目标区域富集不足。为确保获得高可信度的数据,研究者必须增加测序数据量,以提高低覆盖深度区域的覆盖度。然而,这一策略会导致对已经充分覆盖的区域过度测序,从而提升测序成本,降低测序效率。
这种“浪费性测序”的程度体现在均一性及中靶率上,这两项指标可反映靶向测序的整体效率。在本白皮书中,我们使用市售外显子试剂盒常见的中靶率和均一性进行数学建模,来研究这两个指标对整体效率的相对影响。我们的研究表明,尽管大多数市售探针组合在其说明书中只提及了中靶率,但均一性对靶向测序的效率具有更重要的贡献。
评估测序要求
测序实验设计的基本目的是确定每个样本需要多少测序片段 (reads) 才能获得可用于分析的数据(覆盖深度)。每个样本所需的测序片段数决定了测序的成本、可行性、每次测序的样本数,以及研究能够得出有意义的结论的把握度。
理想的测序实验会产生仅涵盖目标区域且均匀分布的测序片段,即实现了完美的均一性和靶向捕获 (on-target capture),在基因组的其余区域则不会产生测序数据(图 1A)。在这种理想情况下,测序效率为****,CM(实际平均覆盖深度)与CD(期望的覆盖深度)相等。然而,不均一及脱靶捕获是不可避免的,而且会导致覆盖深度在不同目标区域各不相同(图 1B)。
为确保大部分目标区域的覆盖深度达到 CD,通常会增加测序量,使CM >> CD(图 1B)。然而,这一策略会浪费大量测序数据。CM/CD比值表示为确保一定比例的目标区域达到CD所需的过度测序量:比值越大,获取足够可用数据所需的过度测序量越大。因此,优化靶向NGS的效率涉及在不影响测序结果的前提下将CM /CD比值*小化。
图1. 测序片段分布
均一性和Fold-80指标
均一性描述了基因组目标区域的数据分布。均一的覆盖可减少所有目标区域达到足够的覆盖深度所需的测序量。均一性是体现CM分布的度量,根据覆盖深度分布的平均值和分位数估计而得到(图2)。
Fold-80 碱基罚分是衡量均一性的一个实用指标。Fold-80是确保80%的目标碱基达到CM所需的额外测序倍数,通过被广泛采用的Picard流程计算得到。
例如:如果1M 测序片段的CM为30X,那么Fold-80为 2.0 则表示需要2M数据时才能确保80%的目标碱基达到30X覆盖深度,Fold-80为1.4则表示测序量需要增至1.4 M才能确保80%的目标碱基达到30X覆盖深度。
假设为正态分布,Fold-80与变异系数(标准偏差与CM的比值)成正比,且大于 1.0(Fold-80 为 1.0 表示完全均一且无方差,图 1A)。较高的Fold-80分值具有较宽的覆盖深度分布和较低的均 一性,而较低的Fold-80分值表示均一性较高(所有目标碱基具有相似的覆盖深度)。
图 2. 均一性影响分布形状。
中靶率
中靶率表示比对至目标区域的测序数据比率;反之,脱靶率表示比对至其他区域的测序数据比率(图 1B)。中靶率通常表示为覆盖目标区域的测序碱基数与测序仪得到的比对上的碱基总数的比值(图 3)。
图 3. 中靶率
优化均一性与中靶率的相对影响
均一性 (Fold-80) 和中靶率共同决定了靶向测序的效率,但它们各自的影响有多大呢?
只要探针组合的文库制备条件一致,中靶率的变化通常就很小,可以看作是测序过程中的“税收”(Chilamakuri 等人,2014 年)。当具有完美的均一性(Fold-80 为 1.0)时,中靶率与CM成反比。例如,假设期望的覆盖深度(CD ) 为 10X且具有完美的均一性,那么中靶率为80%意味着CM应为12.5倍。相反,较小的 Fold-80 改善即可显著提高效率。改善均一性会降低过度测序目标区域的覆盖深度,提高测序不足目标区域的覆盖深度。
为了检验中靶率和均一性的相对影响,我们模拟了3,003个具有不同均一性、平均覆盖深度和中靶率的正态分布。在保持均一性恒定的前提下,提高中靶率(图 4A)后平均覆盖深度 (CM) 值升高,从而增加了超过期望覆盖深度 (CD)的碱基比例。如前所述,在中靶率恒定的前提下,通过增加测序不足区域的覆盖率并减少过度测序区域的比例来改善Fold-80分值,可以提高测序数据的利用率(图4B)。在这种情况下,虽然平均覆盖深度 (CM) 值保持不变,但是超过期望覆盖深度 (CD) 的碱基比例增加了。在这两幅图中,低于CD的曲线间区域表示可用于分析的碱基数的差异。
图4C示出了中靶率、Fold-80分值和平均覆盖度变化的综合影响。不同颜色的曲线分别代表不同的Fold-80,曲线宽度代表中靶率在80%(各曲线的下限)至 ****(上限)范围时覆盖的可用于分析的碱基百分比。在各曲线中,当CM为30 X时,将中靶率从80%提高至****(基本消除了所有非靶向测序)能使可用于分析的碱基比例增加1–2%相比之下,将Fold-80从1.7降低至1.4能更显著地增加可用于分析的碱基比例,增加值为5–6%。
这些数据表明,即使脱靶率可降至为零,对靶向NGS效率的提升来说,改善 Fold-80分值(均一性)的效果仍比提高中靶率要大 得多。
图 4. 均一性与中靶率对所覆盖深度的影响
结论
靶向NGS中,均一性(Fold-80)和中靶率均为评估测序效率的重要指标。这两项指标大多为探针组合本身的固有特性,优化探针组合可以减少获得高可信度数据所需的测序量。
要选出*有效的目标富集体系,需要仔细权衡均一性的实际范围和提供的中靶率。虽然中靶率很重要,但本文研究表明:改善 Fold 80 分值(均一性)对靶向 NGS 的效率具有更显著的影响。
注:文章来源于Twist Bioscience白皮书《覆盖均一性在高效靶向新一代测序中的重要性大于中靶率》