15株加沙乌木(Diospyros celebica采用改良的CTAB法提取印度尼西亚中苏拉威西、西苏拉威西和南苏拉威西三个省的Pickering Punch采集的Bakh.)叶片(n = 11)和木芯(n = 4) [5],其中CTAB缓冲液含有CTAB 10%、Tris HCl、NaCl 5 M、EDTA 0.5 M、PVP 1%、β-巯基乙醇和dH2O. DNA质量用Gel Doc EZ系统(Bio-Rad,美国)进行电泳评估,DNA浓度用NanoPhotometer NP80 (IMPLEN,德国)进行测量。
基因组DNA文库的制备遵循纳米孔原生条形码基因组DNA方案(expn - nbd104和SQK-LSK109),版本NBE_9065_v109_revJ_23May2018。测序在两轮中使用两个流细胞(FLO-MIN106)完成。数据文件1中列出了每个流细胞的样本列表,以及本研究中使用的原生条形码(NBD01-NBD12)。
使用MinION设备和MinKnow v3.6.5对基因组DNA样本进行测序。在没有更多的孔主动测序DNA后,测序终止。采用高精度基调用模式对FAST5文件中的信号和输出的FASTQ文件进行基调用。样本根据每个条形码进行分离,然后将条形码设置为从读取数据自动修剪(数据集1)。所有样本使用猫在Linux Mint终端上使用NanoStat v1.2.1进行分析,评估读取质量和读取统计量。同时,利用NanoPlot v1.31.0 [6](数据文件2)。我们获得了302 567次读取,99.5%的读取质量> Q7(纳米孔默认通过质量)。统计检验后,所有读取质量均采用NanoFilt v2.7.1过滤[6].Q-score < 7,小于500bp的Reads被过滤掉-headcrop而且-tailcrop申请了10个。读取过滤产生了134 220个读取,然后使用Canu v2.0进行校正、修剪和从头组装[7可以选择基因组大小=800米。另一个De novo long-reads汇编程序使用SMARTdenovo比较植物DNA的contig组装体[8]最小读取长度(−J) 2 000.SMARTdenovo从Canu修正阶段开始使用修正的reads步骤,因此预期结果比Canu汇编更好。Canu和SMARTdenovo的contig组合分别为358 (N50 6.5 kb, GC 39.91%)和39 (N50 12.7 kb, GC 41.14%)。然后使用medaka_consensus v1.0.3根据单个测序读取对汇编草案进行了优化(更正)[9]与纳米孔测序参数模型(−米)r941_min_high_g330(数据文件3)。使用QUAST v5.0.2计算得到的抛光装配统计信息[10],并引用Diospyros celebica叶绿体(数据文件4)和Diospyros莲花基因组(数据文件5)。该统计计算告知了有多少参考基因组片段被contig组装所覆盖。然后选择经过抛光的contigs,使用LINKS v1.8.7 [11Canu和SMARTdenovo的支架分别为266个(N50 11.3 kb, GC 39.91%)和33个(N50 17.8 kb, GC 41.14%)。两种汇编程序(Canu 141.6 kb, SMARTdenovo 145 kb)中最长的支架组件使用QUAST v5.0.2 with进行验证d . celebica检查支架所覆盖的基因组片段(数据文件7)。然后使用GeSeq平台for Organellar Genomes对这些支架组装进行注释[12],生成了GenBank注释(数据文件8)及其可视化(数据文件9)。