跳到主要内容

全基因组序列数据的转座因子检测

摘要

在过去的5年中,用于检测全基因组序列数据中转座因子插入的软件工具的数量稳步增加。其中一些方法具有适合特定用例的独特特性,但通常它们遵循一个或多个通用方法集。本文从转座因子生物学和全基因组测序的研究现状出发,对其检测和筛选方法进行了综述。我们证明,目前最先进的方法仍然不能产生高度一致的结果,并提供资源,以协助转座元素检测方法的未来发展。

背景

27年前,Haig Kazazian, Jr.发表了对人类活性LINE-1逆转录的开创性观察[1],而自汇编的人类基因组参考序列首次发表以来的14年里,我们对人类转座因子的含量有了一个全基因组的看法,尽管主要来自一个个体[2]。因为LINEs、Alus和SVAs的拷贝数正在积极增加,估计每100个Alu活产约有2-5个新插入[3.- - - - - -5],而L1约为0.5-1 / 100 [4- - - - - -7],绝大多数转座因子插入不存在于参考基因组组装中,并且在人类群体中作为分离结构变异被检测到,这是理所当然的。

从目前可用的高通量测序平台的结果中鉴定转座元件插入(te)是一个挑战。有许多有针对性的方法可用于对te与其插入位点之间的连接进行测序,并已在其他地方进行了综述[8- - - - - -10]。同样,有几种方法用于转座因子的鉴定和基因组组装的注释,也在其他地方进行了综述[11- - - - - -15]。本文综述了从全基因组序列(WGS)数据中发现和/或分型转座因子的方法。目前可用的大部分WGS数据来自Illumina平台,由数百万到数十亿对100-150 bp的读数组成,其中一对中的每个读数代表一个较长片段的末端(图2)。1).检测小的突变,单碱基或多碱基替换,插入和缺失小于一个读长,可以通过准确地对准参考基因组,然后检查与参考序列偏差的对齐的碱基列来实现。结构变异的检测更加困难,主要是因为使用当前的全基因组测序方法,重排与参考基因组的存在必须从短序列中推断,而短序列通常不会跨越重排影响的整个间隔。通常,从短对端读数据中进行结构变异检测是通过三种方法的结合来解决的:从不一致的读对映射推断,2。2 .“分裂”读取共享共同对齐结点的聚类;序列组装及已组装组的重新比对[16]。

图1
图1

读取映射模式通常与插入检测相关联。面板一个显示了与参考TE序列(灰色矩形,顶部)的读取映射模式,以及相同读取到参考基因组序列(橙色矩形,底部)的映射。读取被表示为典型的成对末端读取,其中每个扩增子的末端被表示为矩形,扩增子的未测序部分被表示为连接矩形的条形。用于识别TE插入位置的读取信息用虚线框表示,到TE引用的其他读取映射用浅蓝色框表示。在信息性reads中,映射到TE参考的reads或部分reads被标记为蓝色,映射到参考基因组序列的reads被标记为黄色。这个示例插入的确切位置由红色三角形和虚线表示。支持这两个连接序列的reads的组装在“consensus”箭头的右侧,一个例子有TSD,一个没有。如果存在TSD,则插入断端相对于参考基因组是交错的,参考序列的重叠对应于TSD。如果不存在TSD(并且插入时没有碱基被删除),则从TE参考的5'端和3'端获得的结将完全匹配。面板b显示了基因组中不一致读取映射的典型模式-圆圈中的彩色片段代表染色体,每个黑色链接表示支持红色三角形所示位置插入的不一致读取映射。与插入位点不对应的端点映射到参考基因组中不同位置的TE元件

转座元件代表了大多数长度超过几百个碱基对的结构插入[17],并且需要在SV检测通常需要的基础上进行进一步的审查,这是由它们的插入机制通知的。本综述主要关注哺乳动物基因组中非长末端重复(LTR)逆转录转座子的检测,但许多概念应该推广到其他物种中的其他转座子元件类型。关于插入的机制,哺乳动物中的非ltr逆转录转位是由长穿插元件(LINEs)的活性驱动的,这些元件通过mrna介导的一系列事件进行复制,称为靶引反转录(TPRT) [18]。在设计检测反转录转座子插入的方法时,必须认识到TPRT的许多重要特征。首先,一个信息必须被转录,3'聚腺苷酸化似乎是与L1核糖核粒子(RNP)相关的聚a结合蛋白识别的必要特征[19- - - - - -22]。这并不一定意味着信息必须是Pol II转录的:例如,Alu元素是Pol III转录物[23]。插入是经过处理的转录本:培养细胞反转录试验依赖于这一事实,因为在这些试验中存在一个与报告基因方向相反的内含子,当构建体转录时,该内含子被剪接出来[24]。此外,加工假基因的检测使用编码外显子之间剪接的存在作为定义特征[2526]。在插入的L1和SVA序列的3'端通常观察到聚腺苷化,并且在Alu插入的3'端也存在较短的A尾。

靶位重复(Target-site duplication, TSD)是TPRT的一个特征,在检测新插入时需要考虑。ORF2内切酶的切割是交错的,这意味着有一定距离,通常为7-20个碱基对[27],在上链和下链的切割位点之间。一些软件工具已开发出来,专门用于检测放射性废物[2829]。一旦插入位点在TPRT结束时通过可能包括宿主DNA修复但不完全了解的机制被完全分解,切割位点之间的序列出现在新插入的任何一个位点上。虽然没有TSDs的插入也会发生,这是由于在目标位点同时发生的缺失(约10%的插入)[30.31],或通过不依赖核酸内切酶的途径[32],绝大多数通过TPRT发生的新插入都有TSDs,在鉴定新插入时,这些通常可以通过序列分析方法很容易地识别出来。

转导序列的插入是转座元件插入的另一个特征,可以通过计算来检测,这在应用或设计插入检测方法时是重要的考虑因素。当直接与转座因子相邻的序列作为TE信息的一部分在上游或下游转录时,TE RNA和非TE RNA都将被逆转录并作为DNA序列整合到插入位点[33- - - - - -35]。由于LINE插入通常被截断为5' [3637],有时转导序列是具有严重5'截断的信息所剩下的全部。因此,在某些情况下,插入可能不包含可识别的转座元件序列,但其机制可以从poly-A尾部和TSDs的存在中推测出来[38]。

由于TPRT机制的一种称为“双引物”的变体,大约五分之一的LINE插入将具有元件的5'端反转,其中两个ORF2分子从不同方向逆转录L1 RNA,导致插入具有5'端反转。(39]。在设计识别这些序列插入的方法时,这是一个重要的考虑因素,因为5'端的相对方向是不可预测的,如果不考虑这一点,过滤假定的插入位点可能会导致从5'端检测LINE的假阴性率高出20%。

最后,可能转座元件插入影响检测方法的最重要特征是它们在参考基因组中的重复性:由于通过TPRT进行重复的复制和粘贴操作,人类基因组中存在来自每种活性转座元件的数千个元件。这是使准确检测转座元件插入变得困难的关键因素:定位到插入位点的读对将具有映射到整个参考基因组中插入元件类型实例存在的不同位置的成对末端(图2)。1 b).基因组中一个元素的许多拷贝的存在也会通过引入假阳性来混淆该元素的新拷贝的检测,在假阳性中,看似新的插入可能实际上只是存在于参考基因组中的现有转座元件的映射人工制品。

审查

对于全基因组序列(WGS)数据,有三种基本的方法来寻找非参考插入,这些方法通常一起使用,并整合每种方法的支持:不一致读对聚类、分裂读映射和序列组装。值得一提的是,并非所有这些都适用于每一种WGS方法;根据文库制备方法或测序技术,不一定存在读对。目前,最广泛的WGS方法是通过Illumina HiSeq技术使用配对末端读取。在未来,随着长读序列测序方法的成熟,可能需要新的插入检测计算方法,或以前的检测毛细管序列或比较全基因组组装的插入的方法[4]可能会被重新利用。

不一致的读对映射

不一致的读对是指与库准备参数不一致的读对。在文库制备过程中,对基因组DNA进行物理或化学剪切,选择特定大小的片段进行文库制备和测序。给定预期的碎片大小分布,任何明显超出该范围的东西都可能被认为是不协调的。在测序和比对后,根据配对reads之间的距离分布,可以确定哪些片段大小明显超出预期范围。此外,给定文库准备方法和测序平台,读取对末端的预期方向是已知的。例如,Illumina的读对是“正向反向”的,这意味着相对于参考基因组,一对中的第一个读对将是“正向”的,第二个读对将是“反向”的。与此模式不一致的读取可能被认为是不一致的。最后,一端与另一端映射到不同染色体或结构的读取对被认为是不一致的。

当使用不一致的读对来通知结构变体发现时,通常必须存在多个表示相同非参考连接的读对。对于具有唯一可映射序列的两个区域之间的事件,如染色体融合、缺失、复制等,支持事件的集合读对两端的位置应该是一致的。由于转座元件存在于分散在整个基因组中的许多拷贝中,通常一端将被“锚定”在独特的序列中,而另一端可能映射到位于整个基因组中各种重复元件中的多个远端位置(图2)。1 b).一般来说,有两种方法来分析一端映射到重复序列的不一致读取。一种是将所有的reads映射到参考重复序列库中,收集只有一端与参考重复序列完全一致的reads,并将这些一端重复序列的非重复末端重新映射到参考基因组中(图2)。1).第二种方法是使用参考基因组可用的重复注释来标记一对的一端与重复序列对应而另一端与重复序列不对应的位置(图2)。1 b).在任何一种情况下,一旦“一端重复”reads被识别,非重复末端的阅读对被聚类的基因组坐标,并可能通过各种标准筛选有关的映射质量,一致性的阅读方向,潜在的基因组特征,等等。例如,当超过30%的聚类读取的映射质量为0时,transpseq过滤器调用[40],而Jitterbug排除映射质量分数低于15的读取[41]。大多数工具在参考基因组转座因子注释周围的窗口中过滤掉插入调用。值得注意的是,不一致的读映射本身并不能在插入序列和参考序列之间产生精确的连接,因此,通过不一致的读映射定位的位点通常通过局部序列组装和分裂读映射来改进。

Split-read映射

分裂读取是指一个片段映射到参考基因组中的某个位置,其余片段映射到第一个远端的一个或多个位置,或者未映射(即与参考基因组中的任何内容不匹配)。该术语也可指可被分裂成彼此远端的多个映射位置的较长组装组。检测分裂读数的能力高度依赖于校准器的选择。一些短读校正器(例如BWA MEM [42])具有部分对齐(“软”或“硬”剪辑)读取的能力,并为剪辑部分提供备用映射位置,作为次要或补充对齐。用于低吞吐量和长读取的校准器(BLAT [43],最后[44],爆炸[45])是检测分裂读取的自然选择,特别是从较长的组装序列中。由于分裂读段是在碱基对分辨率上确定确切插入位置的手段,因此对分裂读段的分析对于确定TPRT活性的特征至关重要,包括转导、靶位点复制、内切酶切割位点和非模板碱基的添加。此外,可以利用支持插入的reads之间的重叠,并使用序列组装来尝试生成更长的序列contigs,以更好地解决插入和参考基因组之间的连接,从本质上创建非常长的分裂reads,其具有跨越插入序列的5'和3'连接的潜力。这对于阐明转导序列和详细研究连接处的非模板碱基结合特别有用。一般来说,高度建议TE检测方法结合裂读分析,因为这是检测具有核苷酸分辨率的5'和3'连接的主要手段,因此是检测过滤假阳性和生物学推断所必需的许多TE插入标记的主要手段。

过滤假定的插入

考虑到从短读数据中检测结构变异的挑战,再加上将序列插入到已经包含数千个相似的分散副本的背景中检测的难度,任何旨在以合理的灵敏度检测转座因子插入的方案都必须实现过滤器来控制假阳性。

大多数方法使用支持插入的读次数作为第一个截止值——要么作为参数,要么作为局部序列深度的函数。对于WGS数据,在过滤插入时可以独立考虑拆分读和不一致读支持。目标等位基因片段(即预期存在插入的细胞片段)是一个重要的考虑因素:在组织或肿瘤历史中较晚出现的体细胞插入可能比每个单核细胞中预期存在1-2个拷贝的种系插入得到更少的reads支持。除了reads的数量外,reads的质量还需要考虑它们的对齐和碱基质量。在考虑软剪切读映射时,剪切碱基的碱基质量(例如phred分数)尤为重要:如果剪切碱基质量较差,则很可能它们不代表转座元素序列,可以忽略。高质量序列与插入位点周围的基因组或与共识转座元件的错配率高(例如> - 5%)的映射通常与假阳性相关,但这种切断应根据TE插入相对于参考TE序列的预期差异来实施。如果可用的TE引用不能很好地表示预期的插入(例如,引用是从不同的物种构造的),则应该放松此过滤器。

筛选转座因子插入时的第二个主要考虑因素是插入位点基因组的性质。与任何对参考基因组进行注释或突变检测的尝试一样,可映射性(或可对齐性)的概念很重要[4647]。如果序列与一个且仅一个位置对齐,则认为它是“可映射的”(或“可对齐的”)。对于参考基因组的给定片段,可映射性可以通过考虑唯一映射k-mers(即长度序列)的数量来计算k)对应于常见的读取长度(例如35bp, 50bp, 100bp),可能允许一些数量的不匹配。过滤插入重叠的带注释的转座元件经常被完成,并且可以作为可映射性的代理,因为相对于非重复基因组,TE序列通常具有相对较少的独特k-mers。

如前所述,通常建议过滤映射到参考基因组中所代表的同一亚家族的TE坐标上的TE插入。这是由于最近的转座元素插入的低可映射性,这是由于它们与活动共识元素的相似性,这可以使用如上所述的可映射性过滤器来解决,并且它还可以防止由于插入站点和插入元素之间的相似性而产生的工件。最后,在目标是检测体细胞或新的生殖系插入的情况下,一个良好的已知非参考插入位点数据库是必不可少的。现有为此目的发布的资源包括dbRIP [48]和eu1db [49]。由于前者已多年未更新,而后者仅考虑L1插入,因此本文将从大多数报告非参考人类反转录转座子插入的当前研究相关的补充表中获得的已报道的非参考插入坐标的简单列表作为附加文件1表S1(见附加文件)1用于表图例)。

非人类分析的注意事项

表中列出的许多方法1已成功地应用于除人类以外的物种,以及除非ltr元件以外的转座因子品种。例如Retroseq [50]已经应用于小鼠基因组中,除了检测LINE (L1Md)和SINE (B1/B2)元素的小鼠品种外,还检测IAP和MusD等LTR元素[51]。T-lex [52]和T-lex2 [53已被应用于果蝇检测各种不同的TE家族。虽然人类非ltr TE具有普遍存在于人类基因组中的插入位点偏好,但其他TE家族具有更具体的整合位点偏好。例如,Ty1 LTR逆转录因子强烈倾向于在Pol III转录的tRNA基因附近整合,并且似乎与核小体相关[54],而Tf1元素(也是ltr)更倾向于Pol II启动子附近的无核小体区域[55]。Hermes元件(一种DNA转座子)也倾向于无核小体区域,并具有特征性的TSD序列基序(nTnnnnAn) [56]。非ltr逆转录因子也可以有很强的插入位点偏好,一个突出的例子是来自家蚕,靶向28S核糖体基因[57]并被用于剖析非ltr整合所涉及的生化步骤[18]。这些在插入位点插入近基因组特征和已定义序列特征的不同倾向,可用于从WGS数据中筛选非人类TE家族的插入检测,并结合已经涵盖的具有较弱插入位点偏好的非ltr元件的一般方法。此外,目前提出的非ltr逆转录转位的一些特征可能不适用于其他TE类别和家族,如果假设的插入不恰当地过滤某些特征,可能会导致假阴性。例如,一些DNA转座子(例如Spy)不会产生目标位点复制,因此需要TSD的软件将错过这些[58]。其他te具有固定的TSD长度,例如玉米中的Ac/Ds转座子,McClintock在20世纪50年代最初描述了它[59],创建一个8 bp的TSD [6061],因此,允许Ac/ d预测其他TSD大小的检测器可能更容易出现假阳性。

表1从WGS数据中检测转座因子插入的软件

比较的方法

当检测突变,特别是体细胞突变时,不同的方法和/或不同的参数化会产生明显不同的结果[62- - - - - -64],转座元素检测也不例外[5]。介绍新工具的出版物通常包括由新工具的作者运行的许多相互竞争的方法的比较。虽然有价值,但这些实验可能无法反映用作比较基础的数据集的竞争工具的最佳参数化,而由于开发了一种新方法,作者将对自己的工具进行更好的参数化,从而导致新工具的通常结果优于先前发表的方法。

为了说明不同方法在相同数据上运行的TE插入呼叫的差异程度,我们比较了最近三项研究的体细胞TE检测。在每种情况下,使用两种不同的方法对相同的数据调用突变,产生大量的重叠和同等(如果不是更大量的话)的非重叠。重要的是,这些调用是由各自TE检测方法的开发人员生成的。坐标和样本身份由各自研究的补充信息获得,其中一个[65]需要通过lifover从hg18坐标转换为hg19坐标。插入坐标以+/- 100 bp填充,并通过BEDTools v2.23进行比较。Lee等。[65[茶]和赫尔曼等人。]40] (TranspoSeq)共享7个样本,Tubio等。[66[traffic]和Helman et al. (TranspoSeq)共享15个样本。Lee et al.和Helman et al.之间没有样本共享。跨共享样本的transpseq和Tea结果之间的总体Jaccard距离为0.573(附加文件)2和附加文件3.(表S2a),而transseq和traffic之间的距离为0.741(附加文件2和附加文件3.(见表S2b),表明与transseq和traffic相比,transseq和Tea似乎产生了更相似的结果。交叉的插入调用和特定于方法的调用的求和计数产生如图所示的重叠部分。2.虽然这种比较有些粗略和高级,但很明显,这两种方法的结果有很大的不同:在这两种比较中,单个程序识别的插入比两个程序都识别的插入多。鉴于所有三项研究都报告了高验证率(大于94%),其中样品可用于验证,这可能反映了在保持高特异性的同时调整高灵敏度方法的困难。这也表明,在需要高灵敏度的情况下,将所有三种(或更多)方法的调用组合在一起的集成方法可能更可取。

图2
图2

躯体插入检测方法的交叉。使用指定的软件工具对同一数据进行出版物中报道的插入位点之间的重叠和不重叠。在每对研究之间共享的比较中包含的样本数量被指出

除了已经强调的工具外,还有数量迅速增加的工具,其共同目标是从WGS数据中检测转座因子插入。如表所示1这些方法包括专门针对转座元件的专用方法,以及与参考基因组相比识别各种结构改变的更一般的方法,包括转座元件插入。表格1并不打算代表当前现有方法的详尽清单- OMICtools网站(http://omictools.com/)目前支持最新的TE检测工具数据库,Bergman实验室网站还提供了转座因子检测工具列表,其中包括针对各种应用的工具,其中一部分与从WGS数据中检测TE相关[11]。

结论

转座元素插入是可以从WGS数据中识别的结构变体的一个子集。尽管通用的SV发现方法有时支持TE检测,但那些对研究插入机制的特定特性和减少与高拷贝数相关的误报感兴趣的人经常使用专门的软件。过去5年开发的TE发现方法主要针对短读对端WGS数据,这些数据通常在Illumina平台上生成,并结合使用对端、分裂读和序列组装方法来识别插入。技术和方法的发展将改变转座因子插入位点的确定方式。长读测序有可能提高TE插入的分辨率,特别是那些位于重复区域的插入[67],并改进有关插入本身序列的可用信息。目前这项技术已经成功新创微生物基因组组装[68],但对于人类基因组来说,高序列覆盖率[69]和多种测序方法的结合[70]和复杂的误差校正模型[71考虑到目前与长读测序技术相关的高错误率,可能需要得到一个好的共识序列。随着时间的推移,预计吞吐量会增加,错误率会降低,这是一个可行的选择。即使长读单分子测序方法的相对较高的错误率仍然存在,关键可能是通过更高的通量获得个体基因组的良好全基因组组装。在方法上,当新的测序技术或新的比对方法和格式获得广泛接受时,将发布新的软件工具。利用当前测序技术的其他新软件工具也将继续开发和发布——也就是说,重要的是,新方法比许多现有方法提供了一些可证明的、实质性的改进,而且考虑到目前在同一数据上不同工具之间观察到的低一致性,似乎确实有改进的空间。对于那些寻求开发额外方法的人来说,改进对软件工程和可用性的关注也是受欢迎的。从WGS数据中检测转座元素插入的子领域目前缺乏标准,新工具的作者可以根据这些标准对其方法进行基准测试。最近的一些工具已经在高覆盖率的三元组上进行了测试,例如NA12878/NA12891/NA12892,这可能是朝着正确方向迈出的一步,因为这些工具是高质量的,并且随时可用。建立或扩展标准化数据集,例如已为变体调用开发的数据集[7273将是朝着正确方向迈出的又一步。除此之外,还有一个类似于通过CASP预测蛋白质结构的“活基准”[74]或者更具体地说,通过ICGC-TCGA DREAM体细胞突变召唤挑战目前存在的情况[64将为现有的和新的TE插入检测方法提供一个公开可用的“试验场”。

缩写

L1:

LINE-1/长穿插元素-1

LTR:

长终端重复

RNP:

Ribonuclear粒子

SV:

结构变体

股东价值分析:

sin VNTR

TE:

转座因子

TPRT:

目标引物逆转录

TSD中:

目标站点复制

VNTR:

可变数目串联重复

WGS:

全基因组测序

参考文献

  1. Kazazian HH, Wong C, Youssoufian H, Scott AF, Phillips DG, Antonarakis SE。由L1序列从头插入引起的A型血友病代表了一种新的人类突变机制。大自然。1988;332(6160):164 - 6。doi:10.1038 / 332164 a0

    PubMed中科院文章谷歌学者

  2. 国际人类基因组测序联盟。人类基因组的初步测序和分析。自然。2001;409(6822):860 - 921。doi:10.1038 / 35057062

    文章谷歌学者

  3. 刘国强,刘国强,刘国强。估计人类Alu基因的反转位率。基因。2006;373:134-7。doi:10.1016 / j.gene.2006.01.019

    PubMed中科院文章谷歌学者

  4. 邢军,张勇,韩凯,Salem AH, Sen SK, Huff CD,等。移动元素产生结构变异:一个完整的人类基因组分析。基因学报,2009;19(9):1516-26。doi:10.1101 / gr.091827.109

    PubMed中科院公共医学中心文章谷歌学者

  5. 王志强,王志强,王志强,Strömberg MP,王志强,王志强,王志强,等。千人基因组计划:人类可移动元件插入多态性的综合图谱。科学通报,2011;7(8):1002236。doi:10.1371 / journal.pgen.1002236

    文章谷歌学者

  6. Ewing AD, Kazazian HH。高通量测序揭示了人类个体基因组中人类特异性L1含量的广泛差异。基因工程学报,2010;20(9):1262-70。doi:10.1101 / gr.106419.110

    PubMed中科院公共医学中心文章谷歌学者

  7. Huang CRL, Schneider AM, Lu Y, Niranjan T, Shen P, Robinson MA,等。移动穿插重复序列是人类基因组中主要的结构变异。细胞。2010;141(7):1171 - 82。doi:10.1016 / j.cell.2010.05.026

    PubMed中科院公共医学中心文章谷歌学者

  8. Beck CR, Garcia-Perez JL, Badge RM, Moran JV。结构变异和疾病中的LINE-1元素。[j] .中国生物医学工程学报。2011;12(2):357 - 357。doi:10.1146 / annurev -染色体组082509 - 141802

    PubMed中科院公共医学中心文章谷歌学者

  9. 福克纳GJ。反转录转座子:从受孕到死亡的移动性和诱变性。生物化学学报,2011;585(11):1589-94。doi:10.1016 / j.febslet.2011.03.061

    PubMed中科院文章谷歌学者

  10. 邢军,王晓东,王晓东,等。生物信息学的研究进展。趋势研究,2013;29(5):280-9。doi:10.1016 / j.tig.2012.12.002

    PubMed中科院公共医学中心文章谷歌学者

  11. 伯格曼m, Quesneville H.发现和检测基因组序列中的转座因子。生物信息学报。2007;8(6):382-92。doi:10.1093 /龙头/ bbm048

    PubMed中科院文章谷歌学者

  12. 萨哈S,布里奇斯S,马格巴努ZV,彼得森DG。从头算重复查找程序的经验比较。核酸学报,2008;36(7):2284-94。doi:10.1093 / nar / gkn064

    PubMed中科院公共医学中心文章谷歌学者

  13. Cordaux R, Sen SK, Konkel MK, Batzer MA。灵长类动物运动单元分析的计算方法。方法:中华医学杂志。2010;28(6):1337 - 1351。doi:10.1007 / 978-1-60327-367-1

    PubMed中科院公共医学中心文章谷歌学者

  14. 在测序基因组中识别重复序列和转座因子:如何在程序的密林中找到你的路。遗传。2010;104(6):520 - 33所示。doi:10.1038 / hdy.2009.165

    PubMed中科院文章谷歌学者

  15. Hoen DR, Hickey G, Bourque G, Casacuberta J, Cordaux R, Feschotte C,等。对可转置元素注释方法进行基准测试的调用。暴徒的DNA。2015; 13。doi:10.1186 / s13100 - 015 - 0044 - 6

    PubMed公共医学中心文章谷歌学者

  16. Alkan C, Coe BP, Eichler EE。基因组结构变异发现与基因分型。学报,2011;12(5):363-76。doi:10.1038 / nrg2958

    PubMed中科院公共医学中心文章谷歌学者

  17. Korbel JO, Urban AE, Affourtit JP, Godwin B, Grubert F, Simons JF,等。配对末端图谱揭示了人类基因组中广泛的结构变异。科学。2007;318(5849):420 - 6。doi:10.1126 / science.1149504

    PubMed中科院公共医学中心文章谷歌学者

  18. Luan DD, Korman MH, Jakubczak JL, Eickbush TH。R2bm RNA的逆转录由染色体靶位点的缺口引发:一种非ltr逆转录转位的机制。细胞。1993;72(4):595 - 605。doi:10.1016 / 0092 - 8674 (93) 90078 - 5

    PubMed中科院文章谷歌学者

  19. Roy-Engel AM, Salem A-H, Oyeniran OO, Deininger L, Hedges DJ, Kilroy GE,等。Active Alu元素“A-Tails”:大小很重要。中国生物医学工程学报,2002;12(9):1333 - 1344。doi:10.1101 / gr.384802

    PubMed中科院公共医学中心文章谷歌学者

  20. dewanieux M, Heidmann T. poly(A)尾巴长度在Alu反转位中的作用。基因组学,2005;86(3):378 - 81。doi:10.1016 / j.ygeno.2005.05.009

    PubMed中科院文章谷歌学者

  21. 戴L, Taylor MS, O 'Donnell KA, Boeke JD。Poly(A)结合蛋白C1对于高效的L1逆转录和影响L1 RNP的形成至关重要。中国生物医学工程学报,2012;32(21):432 - 436。doi:10.1128 / MCB.06785-11

    PubMed中科院公共医学中心文章谷歌学者

  22. 杜淑娟,刘勇,刘勇,等。3 ' poly(A)链在1号线逆转录中的应用。Mol Cell, 2015。doi:10.1016 / j.molcel.2015.10.012

    PubMed谷歌学者

  23. Fuhrman SA, Deininger PL, LaPorte P, Friedmann T, Geiduschek EP。真核RNA聚合酶ⅲ对人Alu家族普遍重复元件转录的分析。核酸学报,1981;9(23):6439-56。doi:10.1093 / nar / 9.23.6439

    PubMed中科院公共医学中心文章谷歌学者

  24. Moran JV, Holmes SE, Naas TP, DeBerardinis RJ, Boeke JD, Kazazian HH。培养的哺乳动物细胞的高频反转位。细胞。1996;87(5):917 - 27所示。

    PubMed中科院文章谷歌学者

  25. 李建军,李建军,李建军,等。人类LINE反转录转座子基因的研究进展。生物学报;2000;24(4):363-7。doi:10.1038/74184

    中科院文章谷歌学者

  26. 张震,Harrison PM, Liu Y . Gerstein M.保存了数百万年的进化:人类基因组中加工假基因的综合目录。中国生物医学工程学报,2003;13(12):2541-58。doi:10.1101 / gr.1429003

    PubMed中科院公共医学中心文章谷歌学者

  27. Kazazian HH, Moran JV。L1逆转录转座子对人类基因组的影响。神经病学报,1998;19(1):19 - 24。doi:10.1038 / ng0598-19

    PubMed中科院文章谷歌学者

  28. Szak ST, Pickeral OK, Makalowski W, Boguski MS, Landsman D, Boeke JD。人类基因组L1插入的分子考古学。中国生物医学工程学报,2002;3(10):0052。

    文章谷歌学者

  29. Lucier J- f, Perreault J, Noël J- f, Boire G, Perreault J- p。RTAnalyzer:一个用于寻找新的逆转录转座子和检测L1逆转录转座子特征的web应用程序。核酸研究。2007;35增刊2:269-74。doi:10.1093 / nar / gkm313

    文章谷歌学者

  30. 刘国强,刘国强,刘国强。在LINE-1逆转录后产生的基因组缺失。细胞。2002;110(3):315 - 25所示。doi:10.1016 / s0092 - 8674 (02) 00828 - 0

    PubMed中科院文章谷歌学者

  31. Symer DE, Connelly C, Szak ST, Caputo EM, Cost GJ, Parmigiani G,等。人l1逆转录转位与体内遗传不稳定性有关。细胞。2002;110(3):327 - 38。doi:10.1016 / s0092 - 8674 (02) 00839 - 5

    PubMed中科院文章谷歌学者

  32. Morrish TA, Garcia-Perez JL, Stamato TD, Taccioli GE, Sekiguchi J, Moran JV。哺乳动物端粒中不依赖核内切酶的LINE-1逆转录。大自然。2007;446(7132):208 - 12所示。doi:10.1038 / nature05560

    PubMed中科院文章谷歌学者

  33. Moran JV, DeBerardinis RJ, Kazazian HH。通过L1逆转位进行外显子改组。科学。1999;283(5407):1530 - 4。doi:10.1126 / science.283.5407.1530

    PubMed中科院文章谷歌学者

  34. Goodier JL, Ostertag EM, Kazazian HH。3 ' -侧翼序列的转导在L1逆转录转位中很常见。植物学报,2000;9(4):653-7。doi:10.1093 /物流/ 9.4.653

    PubMed中科院文章谷歌学者

  35. Pickeral OK, Makalowski W, Boguski MS, Boeke JD。由LINE-1反转录转位驱动的频繁人类基因组DNA转导。中国生物医学工程学报,2000;10(4):411 - 515。doi:10.1101 / gr.10.4.411

    PubMed中科院公共医学中心文章谷歌学者

  36. 李建军,李建军,李建军,等。定义KpnI族段的开始和结束。中华微生物学杂志。1984;3(8):1753-9。

    PubMed中科院公共医学中心谷歌学者

  37. 李建军,李建军,李建军,等。人内源性逆转录病毒的转录因子分析。基因。2002;300(2):189 - 94。doi:10.1016 / s0378 - 1119 (02) 01047 - 8

    PubMed文章谷歌学者

  38. 刘建军,刘建军,刘建军,等。由非参考LINE-1反转录转座子产生的致病性孤儿转导。植物学报,2012;33(2):369-71。doi:10.1002 / humu.21663

    PubMed中科院公共医学中心文章谷歌学者

  39. Ostertag EM, Kazazian HH。双启动:在L1逆转录转位中产生反转的一种被提议的机制。基因工程学报,2001;11(12):2059-65。doi:10.1101 / gr.205701

    PubMed中科院公共医学中心文章谷歌学者

  40. 贺建军,李建军,李建军,李建军,等。基于基因测序的人类肿瘤细胞逆转录转位的研究进展。基因工程学报,2014;24(7):1053-63。doi:10.1101 / gr.163659.113

    PubMed中科院公共医学中心文章谷歌学者

  41. 张建军,张建军,张建军,等。转座子插入基因的克隆与分析。BMC基因组学。2015; 16(1): 768。doi:10.1186 / s12864 - 015 - 1975 - 5

    PubMed公共医学中心文章谷歌学者

  42. 李华。用BWA-MEM比对序列读段、克隆序列和组装序列。arXiv: 1303.3997 (q-bio)。2013;arXiv: 1303.3997

  43. 肯特WJ。blat -类似blast的对齐工具。基因工程学报,2002;12(4):656-64。doi:10.1101 / gr.229202

    PubMed中科院公共医学中心文章谷歌学者

  44. 王晓明,王瑞平,王晓明,王晓明。种子基因组序列比较研究。基因工程学报,2011;21(3):487-93。doi:10.1101 / gr.113985.110

    PubMed中科院公共医学中心文章谷歌学者

  45. Altschul SF, Gish W, Miller W, Myers EW, Lipman DJ。基本的局部对齐搜索工具。中华生物医学杂志。1990;21(3):391 - 391。doi:10.1016 / s0022 - 2836 (05) 80360 - 2

    PubMed中科院文章谷歌学者

  46. Derrien T, estell J, Marco Sola S, Knowles DG, Raineri E, Guigó R,等。基因组图谱的快速计算与应用。PLoS ONE。2012; 7(1): 30377。doi:10.1371 / journal.pone.003037

    文章谷歌学者

  47. 基因组暗物质:基因组图谱可绘性评分说明的短读图谱的可靠性。生物信息学。2012;28(16):2097 - 105。doi:10.1093 /生物信息学/ bts330

    PubMed中科院公共医学中心文章谷歌学者

  48. 王杰,宋丽,Grover D, Azrak S, Batzer MA, Liang P. dbRIP:一个高度集成的人类反转录转座子插入多态性数据库。植物学报,2006;27(4):323-9。doi:10.1002 / humu.20307

    PubMed公共医学中心文章谷歌学者

  49. Mir AA, Philippe C, Cristofari G. euL1db:人类L1hs反转录转座子插入的欧洲数据库。核酸学报,2015;43(数据库版):43 - 7。doi:10.1093 / nar / gku1043

    文章谷歌学者

  50. 基恩TM,黄凯,亚当斯DJ。RetroSeq:从下一代测序数据中发现转座因子。生物信息学。2013;29(3):389 - 90。doi:10.1093 /生物信息学/ bts697

    PubMed中科院公共医学中心文章谷歌学者

  51. 王凯,李建军,李建军,李建军,等。18个小鼠品系的转座因子选择所形成的基因组景观。基因工程学报,2012;13(6):45。doi:10.1186 / gb - 2012 - 13 - 6 - r45

    文章谷歌学者

  52. 王志强,王志强,王志强,González .基于基因序列的基因序列分析方法。核酸学报,2011;39(6):36。doi:10.1093 / nar / gkq1291

    文章谷歌学者

  53. fans - lavier A-S, Barrón MG, Petrov DA, González J. T-lex2:基于单次或混合新一代测序数据的转座因子基因分型、频率估计和重新注释。核酸学报,2015;43(4):22。doi:10.1093 / nar / gku1250

    文章谷歌学者

  54. Mularoni L, Zhou Y, Bowen T, Gangadharan S, Wheelan SJ, Boeke JD。反转录转座子Ty1整合靶向特异性定位tRNA热点的不对称核体DNA片段。中国生物医学工程学报,2012;22(4):693-703。doi:10.1101 / gr.129460.111

    PubMed中科院公共医学中心文章谷歌学者

  55. 郭勇,李海龙。反转录转座子整合的高通量测序提供了pombe Schizosaccharomyces靶活性的饱和剖面。基因工程学报。2010;20(2):239-48。doi:10.1101 / gr.099648.109

    PubMed中科院公共医学中心文章谷歌学者

  56. 刘建军,刘建军,刘建军,刘建军。DNA转座子Hermes在体内无核小体区插入DNA。自然科学进展,2010;37(5):566 - 572。doi:10.1073 / pnas.1016382107

    PubMed中科院公共医学中心文章谷歌学者

  57. 熊毅,艾克布什TH。位点特异性核糖体DNA插入元件R1bm属于一类非长端重复反转录转座子。中国生物医学工程学报,1998;8(1):114 - 114。doi:10.1128 / MCB.8.1.114

    PubMed中科院公共医学中心文章谷歌学者

  58. 韩明军,徐华娥,张华华,Feschotte C,张哲。Spy:一种新的真核DNA无靶位复制转座子。生物学报,2014;6(7):1748-57。doi:对10.1093 / gbe / evu140

    PubMed公共医学中心文章谷歌学者

  59. McClintock B.玉米变基因座的起源和行为。美国国家科学院项目。1950年,36(6):344 - 55。

    PubMed中科院公共医学中心文章谷歌学者

  60. 王文杰,王文杰,王文杰,等。玉米adh1位点ds控制元件突变的分子分析。科学(纽约,纽约)。1984, 223(4642): 1265 - 8。doi:10.1126 / science.223.4642.1265

    中科院文章谷歌学者

  61. Döring HP, Tillmann E, Starlinger P.玉米转座因子解离的DNA序列。大自然。1984;307(5947):127 - 30。doi:10.1038 / 307127 a0

    PubMed文章谷歌学者

  62. O 'Rawe J,姜涛,孙刚,吴勇,王伟,胡军,等。多种变异调用管道的低一致性:外显子组和基因组测序的实际意义。基因组医学,2013;5(3):28。doi:10.1186 / gm432

    PubMed公共医学中心文章谷歌学者

  63. Kim SY, Speed TP。比较体细胞突变呼叫者:超越维恩图。生物医学工程学报。2013;14:19 9。doi:10.1186 / 1471-2105-14-189

    PubMed公共医学中心文章谷歌学者

  64. Ewing AD, Houlahan KE, Hu Y, Ellrott K, Caloian C, Yamaguchi TN,等。ICGC-TCGA梦想体细胞突变呼叫挑战的参与者,Kellen, m.r., Norman, t.c., Haussler, D, Friend, s.h., Stolovitzky, G, Margolin, a.a., Stuart, j.m., Boutros, p.c.:结合肿瘤基因组模拟与众包来基准体细胞单核苷酸变异检测。地理学报,2015;12(7):623-30。doi:10.1038 / nmeth.3407

    PubMed中科院文章谷歌学者

  65. 李磊,杨磊,吴国明,李建平,等。癌症基因组图谱研究网络:人类癌症中体细胞逆转录的景观。科学。2012;337(6097):967 - 71。doi:10.1126 / science.1222077

    PubMed中科院公共医学中心文章谷歌学者

  66. 李勇,李彦宏,李彦宏,李彦宏,李彦宏,李彦宏,李彦宏,等。癌症中的移动DNA。癌症基因组中L1反转录介导的非重复DNA的广泛转导。科学。2014;345(6196):1251343。doi:10.1126 / science.1251343

    PubMed公共医学中心文章谷歌学者

  67. Chaisson MJP, Huddleston J, Dennis MY, Sudmant PH, Malig M, Hormozdiari F,等。利用单分子测序解决人类基因组的复杂性。大自然。2015;517(7536):608 - 11所示。doi:10.1038 / nature13907

    PubMed中科院公共医学中心文章谷歌学者

  68. 洛曼NJ,奎克J,辛普森JT。仅使用纳米孔测序数据重新组装完整的细菌基因组。地理学报,2015;12(8):733 - 35。doi:10.1038 / nmeth.3444

    PubMed中科院文章谷歌学者

  69. 阿玛尔R,佩顿TA,托尔蒂D,施连A,巴德尔GD。长读纳米孔测序用于检测HLA和CYP2d6变异和单倍型。F1000Research。2015.doi:10.12688 / f1000research.6037.2

    PubMed公共医学中心谷歌学者

  70. Madoui M-A, Engelen S, Cruaud C, Belser C, Bertrand L, Alberti A,等。基因组组装使用纳米孔引导长和无错误的DNA读取。生物医学工程学报,2015;16:327。doi:10.1186 / s12864 - 015 - 1519 - z

    PubMed公共医学中心文章谷歌学者

  71. Jain M, Fiddes IT, Miga KH, Olsen HE, Paten B, Akeson M. MinION纳米孔测序仪的改进数据分析。自然科学学报,2015;12(4):351-6。doi:10.1038 / nmeth.3290

    中科院文章谷歌学者

  72. 李建军,李建军,李建军,等。SMaSH:人类基因组变异调用的基准工具包。生物信息学。2014;30(19):2787 - 95。doi:10.1093 /生物信息学/ btu345

    PubMed公共医学中心文章谷歌学者

  73. Zook JM, Catoe D, McDaniel J, Vang L, Spies N, Sidow A,等。7个人类基因组的广泛测序,以表征基准参考物质。bioRxiv。2015;026468.doi:10.1101/026468

  74. 张建军,张建军,张建军,等。蛋白质结构预测方法的研究进展[J] .中国生物医学工程学报,2014;32(2):557 - 557。doi:10.1002 / prot.24452

    中科院文章谷歌学者

  75. 吴杰,李卫平,Ward A, Walker JA, Konkel MK, Batzer MA,等。Tangram:移动元素插入检测的综合工具箱。BMC Genomics. 2014;15:795。doi:10.1186 / 1471-2164-15-795

    PubMed中科院公共医学中心文章谷歌学者

  76. Hormozdiari F, Hajirasouliha I, Dao P, Hach F, Yorukoglu D, Alkan C,等。下一代VariationHunter:转座子插入发现的组合算法。生物信息学,2010,26(12):350 - 7。doi:10.1093 /生物信息学/ btq216

    文章谷歌学者

  77. Hormozdiari F, Alkan C, Ventura M, Hajirasouliha I, Malig M, Hach F,等。人类基因组中重复序列的发现和鉴定。基因工程学报,2011;21(6):840-9。doi:10.1101 / gr.115956.110

    PubMed中科院公共医学中心文章谷歌学者

  78. 刘建军,张建军,张建军,基因组测序与分析程序与平台,张建军,丁磊,等。基因转录物的反转录导致哺乳动物基因组的结构变异。基因组生物学,2013;14(3):22。doi:10.1186 / gb - 2013 - 14 - 3 - r22

    文章谷歌学者

  79. Quinlan AR, Clark RA, Sokolova S, Leibowitz ML, Zhang Y, Hurles ME,等。小鼠基因组中结构变异断点的全基因组定位和组装。中国生物医学工程学报,2010;20(5):623-35。doi:10.1101 / gr.102970.109

    PubMed中科院公共医学中心文章谷歌学者

  80. 罗柏SMC, Lu L, Valencia E, Burnette JM, Okumoto Y, Wessler SR,等。使用RelocaTE和unassemble短reads来制作水稻转座因子产生多样性的高分辨率快照。G3(贝塞斯达)。2013年,3(6):949 - 57。doi:10.1534 / g3.112.005348

    文章谷歌学者

  81. 蒋晨,陈晨,黄志,刘锐,Verdier J. tis,基于新一代测序数据的转座子插入位点精确鉴定。生物信息学报。2015;16:72。doi:10.1186 / s12859 - 015 - 0507 - 2

    PubMed公共医学中心文章谷歌学者

  82. 林海罗RS,伯格曼CM。全基因组重测序揭示了黑腹果蝇转座因子的天然靶位偏好。PLoS ONE。2012; 7(2): 30008。doi:10.1371 / journal.pone.0030008

    文章谷歌学者

  83. 李建军,李建军,李建军,等。TE-Locate:一种利用新一代测序数据定位和分组转座因子的工具。生物学(巴塞尔)。2012; 1(2): 395 - 410。doi:10.3390 / biology1020395

    中科院谷歌学者

  84. 陈凯,陈磊,范鑫,Wallis J,丁磊,Weinstock G. TIGRA:一种面向断点装配的迭代图路由装配器。基因工程学报,2014;24(2):310-7。doi:10.1101 / gr.162883.113

    PubMed公共医学中心文章谷歌学者

  85. Thung DT, de light J, Vissers LEM, Steehouwer M, Kroon M, de Vries P,等。Mobster:准确检测下一代测序数据中的移动元素插入。中国生物医学工程学报,2014;15(10):488。doi:10.1186 / s13059 - 014 - 0488 - x

    PubMed公共医学中心文章谷歌学者

  86. 庄军,王军,Theurkauf W,翁哲。TEMP:一种分析群体转座因子多态性的计算方法。核酸学报,2014,42(11):6826-38。doi:10.1093 / nar / gku323

    PubMed中科院公共医学中心文章谷歌学者

  87. Gilly A, Etcheverry M, Madoui M-A, Guy J, Quadrana L, Alberti A,等。TE-Tracker:通过全基因组重测序系统识别转位事件。生物信息学报,2014;15:377。doi:10.1186 / s12859 - 014 - 0377 - z

    PubMed公共医学中心文章谷歌学者

  88. Kroon M, Lameijer EW, Lakenberg N, Hehir-Kwa JY, Thung DT, Slagboom PE,等。使用无数据库方法检测高通量测序数据中的分散重复。生物信息学。2015;621.doi:10.1093 /生物信息学/ btv621

  89. 苏丹PH, Rausch T, Gardner EJ, Handsaker RE, Abyzov A, Huddleston J,等。2504个人类基因组结构变异的综合图谱。大自然。2015;526:75 - 81。doi:10.1038 / nature15394

    PubMed中科院文章谷歌学者

下载参考

致谢

我要感谢澳大利亚研究委员会(DE150101117)和Mater基金会的支持,并感谢Geoff Faulkner对本文的审阅。

作者信息

作者及单位

作者

相应的作者

对应到亚当·d·尤因

额外的信息

相互竞争的利益

作者宣称他们没有相互竞争的利益。

附加文件

附加文件1:

补充表图例。补充表1和表2的描述和参考。(PDF 48kb)

附加文件2:表S1。

已知的或预测的种系插入列表,来自几份出版物。(BED 1239kb)

附加文件3:表S2。

抽样水平检验TE检测方法之间的交叉点。(xlsx6kb)

权利和权限

开放获取本文遵循知识共享署名4.0国际许可协议(http://creativecommons.org/licenses/by/4.0/),它允许在任何媒体上不受限制地使用、分发和复制,前提是您要适当地注明原作者和来源,提供到知识共享许可协议的链接,并注明是否进行了修改。创作共用公共领域免责声明(http://creativecommons.org/publicdomain/zero/1.0/)适用于本文中提供的数据,除非另有说明。

转载及权限

关于本文

通过CrossMark验证货币和真实性

引用本文

全基因组序列数据中的转座因子检测。移动DNA6, 24(2015)。https://doi.org/10.1186/s13100-015-0055-3

下载引用

  • 收到了

  • 接受

  • 发表

  • DOIhttps://doi.org/10.1186/s13100-015-0055-3

关键字

  • 方法
  • 测序
  • 生物信息学
Baidu
map