使用HISAT StringTie和Ballgown进行的转录本表达水平分析(中译)(一)

警告
本文最后更新于 2022-03-08,文中内容可能已过时。
1
2
本文章基于 DeepL 进行初步翻译,后人工调整部分语法和句式以使其通顺易读。
具有相应基础知识的读者可以阅读此篇文章以横向扩充知识:

RNA-seq数据分析—方法学文章的实战练习

作者: Mihaela Pertea1,2, Daehwan Kim1, Geo M Pertea1, Jeffrey T Leek3 & Steven L Salzberg1–4

美国马里兰州巴尔摩市约翰-霍普金斯医学院McKusick-Nathans遗传医学研究所计算生物学中心。美国马里兰州巴尔摩市约翰霍普金斯大学惠特工程学院计算机科学系。约翰霍普金斯大学彭博公共卫生学院生物统计学系。美国马里兰州巴尔的摩市约翰霍普金斯大学生物统计系。生物医学工程系,约翰霍普金斯大学,巴尔的摩,马里兰州,美国。通讯作者:S.L.S.([email protected])。

2016年8月11日在线发布于Nature; doi:10.1038/nprot.2016.095

高通量mRNA测序(RNA-seq)已经成为测量和比较各种物种和条件下的基因表达水平的标准方法。RNA-seq实验产生了非常大的、复杂的数据集,需要快速、准确和灵活的软件来将原始读数数据减少到可理解的结果。HISAT(转录本拼接排列的分层索引)、StringTie和Ballgown是免费的、开源的软件工具,用于全面分析RNA-seq实验。它们一起允许科学家将reads与基因组对齐,组装包括新剪接变体的转录本,计算这些转录本在每个样本中的丰度,并比较实验以确定差异表达的基因和转录本。该协议(Protocol)描述了处理大量原始测序reads并创建基因转录本、表达水平以及差异表达基因及转录本的清单的所有必要步骤。该协议的执行时间取决于计算资源,但通常需要不到45分钟的计算机时间。HISAT、StringTie和Ballgown可以从以下网站获得: 网页链接

介绍

RNA-seq实验从一组细胞中捕获总的mRNA,然后对该RNA进行测序,以确定哪些基因在这些细胞中是活跃的,或表达的。使用高通量测序机(high-throughput sequencing machines),一个实验可以一次捕获数千个基因的表达水平,而且精确度很高。 这些实验产生了大量的原始测序reads,即使是中等规模的实验,其数量也通常在数千万以上。每个基因产生的reads可以作为基因丰度的衡量标准,通过适当的设计,RNA-seq可以检测哪些基因在两个或多个条件下表达水平明显不同。RNA-seq数据可以很容易地检测出未包括在标准注释(standard annotation)中的基因和基因变体,包括非编码RNA基因。使用适当的软件,RNA-seq也可以用来发现单一基因的不同异构体受到不同的调节和表达的条件。

RNA-seq实验必须用准确、高效的软件进行分析,这些软件是精心设计的,可以处理大多数实验产生的非常大的测序量。分析管道(Analysis Pipeline)在概念上可以分为四个主要任务:(i) 将reads与基因组进行比对;(ii) 将比对结果组装成全长的转录本。(iii) 对每个基因和转录本的表达水平进行定量分析;以及(iv)计算不同实验条件下所有基因的表达差异。我们中的一些人以前开发了两个软件工具,TopHat2Cufflinks5,它们一起可以完成所有这四项任务,如在早期的协议中所述。最近,我们又开发了三个新的软件工具完成同样的任务,同时运行速度更快,使用的内存更少,提供更准确的整体结果。HISAT将RNA-seq读数与基因组进行比对,并发现转录本的剪接位点,同时运行速度远远超过TopHat2,所需的计算机内存也比其他方法少很多。StringTie将排列组合成完整和部分的转录本,必要时创建多种异构体(isoform),并估计所有基因和转录本的表达水平。BallgownStringTie中获取转录本和表达水平,并应用严格的统计方法来确定哪些转录本在两个或多个实验之间有差异表达。我们在此描述了一个使用这些工具进行RNA-seq数据分析的协议;图1 显示了该协议中使用的软件,并强调了每个工具所执行的主要步骤。所有的工具都在网上有完整的文档,并由开发者积极维护。

图1|"新Tuxedo “协议的概述。在一个涉及多个RNA-seq数据集的实验中,首先使用HISAT将reads映射到基因组上(步骤1和2)。参考基因和转录物的注释文件可以作为输入,但这是可选的,如虚线所示。然后将比对结果传递给StringTie(第3步),由它对每个样品中的转录本进行组装和量化。(在另一个协议中,步骤2的排列被直接传递到步骤6,跳过所有的组装步骤。第6步将只估计已知的、有注释的转录本的丰度)。初步组装后,组装好的转录物被一个特殊的StringTie模块合并在一起(第4步),它为所有的样本创建了一个统一的转录本集。StringTie可以在这两个步骤中使用注释文件,如虚线所示。然后,gffcompare程序将基因和转录本与注释进行比较,并报告这一比较的统计数据(第5步)。在第6步,StringTie处理reads排列和合并的转录本或参考注释(通过标有 “OR “的标签)。利用这一输入,StringTie在必要时重新估计丰度,并创建新的转录本表以输入到Ballgown。然后,Ballgown比较所有条件下的转录本,并生成差异表达的基因和转录本的表格和图(步骤7-21)。图中的黑线和蓝色弧线分别代表程序的输入和输出。可选的输入用虚线表示。

协议概述

RNA-seq实验可用于测量许多现象。为了简单起见,这里描述的协议旨在用于许多用户的设计密切对应的类似实验。我们考虑一个比较两种生物条件的实验,如病例与对照、野生型与突变型或疾病与正常的比较。对于每个条件,我们包括六个重复,注意到三个是有效统计结果的最小重复数。该软件将支持许多其他设计,包括时间过程实验( time-course experiments)和两个以上条件的比较。 本协议中使用的例子数据包括人类RNA-seq样本,尽管该协议适用于任何有测序基因组(sequenced genome)的物种,包括小鼠、大鼠、果蝇、拟南芥、酵母和许多其他物种。(一些程序参数可能需要调整以优化内含子较小的基因组的结果)。实验产生的数据文件非常大,这也是高通量RNA-seq实验经常出现的情况;因此,为了让新手更快、更简单地使用该协议,我们提取了一个映射到人类X染色体的reads子集,这是一个基因相对丰富的染色体,横跨151兆字节(Mb),约占基因组的5%。该协议描述了对这些reads的端到端(end-to-end analysis)分析,但它同样适用于完整的数据集,对于这些数据集,它需要明显更多的计算时间。

这个协议从收集到的所有样本的原始RNA-seq reads开始,并产生一些有用的输出,包括每个样品的基因、转录物和表达水平的列表(lists),显示两种条件下差异表达的基因的表格(table),以及伴随的统计学意义的测量(accompanying statistical measures of significance)。首先,用HISAT将每个样品的reads映射到参考基因组上(图1)。用户可以提供一个有注释的基因位置的文件作为选项,HISAT将使用该文件,但它也将检测注释中缺少的剪接位点(splice sites)。接下来,排列组合被传递给StringTie进行转录组装。StringTie分别对每个数据集的基因进行组装,在组装时估计每个基因和每个异构体的表达水平。在组装完每个样本后,全套的组装被传递给StringTie的合并功能,它将把在任何样本中发现的所有基因结构合并在一起。这一步是必要的,因为一些样本中的转录本可能只被reads 部分覆盖,因此在最初的StringTie运行中,它们只有部分版本被组装起来。合并步骤创建了一套在所有样本中都一致的转录本,这样转录本就可以在后续步骤中进行比较。合并后的转录本会被再一次反馈给StringTie,这样它就可以用合并后的结构重新估计转录本的丰度。重新估计使用与原始组装相同的算法,但对于转录本结构因合并步骤而改变,可能需要重新分配readsStringTie还为每个转录本提供Ballgown需要的额外读数数据。最后,Ballgown从StringTie获取所有的转录本和丰度,按实验条件分组,并确定哪些基因和转录本在不同条件下有差异表达。Ballgown包括作为R/Bioconductor软件包一部分的绘图工具,可以帮助实现结果的可视化。

这个协议不需要编程的专业知识,但它确实需要熟悉Unix命令行界面和运行基本R Scripts的能力。用户需要能够适应从命令行运行程序和在Unix环境中编辑文本文件的操作。

替代性分析包

HISAT、StringTie和Ballgown提供了一个完整的分析包(“新Tuxedo “包),它从原始读取数据开始,为每个RNA-seq样本产生基因列表和表达水平,以及为整个实验产生差异表达基因列表。其他RNA-seq分析包已经被开发出来,可以代替这些工具,或与这些工具结合使用,最明显的是TopHat2和Cufflinks系统(最初的’Tuxedo’包)。对齐步骤(The alignment step)需要一种允许reads跨越内含子且不需要注释文件的拼接对齐算法,对此有几种替代工具可供选择。来自这些其他工具的对准可以作为StringTie的输入。对于转录组的组装和量化步骤,也已经开发出了替代方法。一些方法可以重建转录本,不使用参考基因组,这是一个可以从这个协议中考虑的另一个问题。其他RNA-seq分析程序可以通过使用注释文件的、已知的基因来量化转录本;通过跳过转录本组装步骤,这些程序具有大量的速度优势。我们注意到,即使目前的研究已经相当成熟的生物体,如人类、小鼠和果蝇,蛋白质编码基因、剪接变体和非编码RNA基因的注释也远未完成,这些替代程序不能报告任何新的转录本或剪接变体。

在所有样品组装完毕后,我们的方案使用StringTie来合并转录本,但也可以使用Cufflinks软件包中的cuffmerge程序来代替。 最后,已经开发了多种用于计算差异表达的工具,这些工具可以作为Ballgown的替代品。这些替代程序的输入要求各不相同,它们可能需要进行数据格式的转换,然后才能与这里的程序一起使用。这种自由选择(customization)超出了本协议的范围,我们建议用户遵循下面描述的协议。我们还注意到,尽管这里介绍的方案可以检测差异表达的转录本和基因,但它并不是为了检测差异外显子的使用情况,而其他几个程序(DEXseq23、rMATS24和MISO25)是专门为解决这一问题而开发的。

软件与协议的局限性

HISAT、StringTie和Ballgown并不是对RNA-seq数据进行基因和转录物表达分析的唯一方法,它们也不会处理所有RNA-seq实验。例如,一些RNA-seq实验可能需要对原始RNA-seq数据进行预处理,以去除污染物、适配体、低质量序列和其他假象(contaminants, adaptors, low-quality sequences and other artifacts)。本协议不包括这种预处理,但诸如FASTX工具包FastQC等工具可以确保向初始拼接比对步骤提供高质量的数据。我们假定了RNA-seq数据是在Illumina测序仪上产生的,但如果是来自第三代序列的数据量大,错误率高的reads,比如来自Pacific Biosciences或牛津Nanopore的测序数据,可能需要不同的软件,尤其是在对齐步骤。

Ballgown可以用来从几个汇编程序中加载数据。 包括StringTie、Cufflinks5和RSEM17;但其他转录组组装方法产生的输出结果与Ballgown不兼容。这些方法也主要是在转录本水平上使用,尽管Bioconductor对象允许应用任何Bioconductor包进行基因或外显子水平的分析。请注意,Ballgown的默认参数是在假设样本量不大的情况下创建的,范围从三个到几百个。然而,如果用户想以本协议所描述以外的方式应用该软件,可以对参数进行调整,以适应广泛的特定情况。

Buy me a coffee~
支付宝
微信
0%