背景
萤火虫是甲虫纲内的一类昆虫,它们是生物发光的最有名和最受欢迎的昆虫之一。世界范围内有100多个品种的2,000多个物种,但随着生活环境的大面积破坏,萤火虫面临灭绝的危险。目前公共数据库中关于萤火虫的信息很少,为了提高对萤火虫的认识和探索其生活史复杂性状的机制,由华农、未来组等联合对萤火虫基因组进行了测序。
样品
野外采集的野生幼虫育成的雌性成虫
测序
文库插入片段为400 bp的Illumina平台共47.4 Gb原始数据,过滤后剩余41.9 Gb的高质量数据。
插入片段为20 Kb的Sequel平台数据共57.8 Gb,其中reads的平均长度和N50分别9.5 Kb和15.6 Kb。
组装矫正
利用二代数据评估基因组大小约785 Mb。
组装利用Falcon软件,进过纠错后剩余36 Gb数据,平均长度为10.3 Kb,N50为13.9 Kb。组装基因组大小1.1Gb,N50为2.3Mb。接下来通过Arrow和Pilon对组装结果进行矫正。
由于这个测序样品杂合度很高,这也是组装出1.1 Gb基因组比预估基因组大了约315 Mb,因此对组装基因组进行冗余处理,最终组装基因组大小760.4Mb,Contig N50为3.04 Mb,最长的重叠群长度为13.69 Mb。基因完整性评估通过BUSCO评估的结果很好,结果如下表。
接下来通过转录组进行评估,有98%的unigenes可以比对到基因组上。
预测得到44.88%的重复序列,60.68%的重复序列是TE, DNA转座子占15.25%。
最终预测得到23,092个蛋白质编码基因,与其他现有公布的鞘翅目基因组相比,萤火虫的基因数量相当于光肩星天牛基因(22,035个),基因数量大于T. castaneum(16,526个基因)。最终有88.44%的基因能注释到各大数据库。
总结
这是第一个萤火虫科的基因组,也是通过Sequel平台所测数据组装的高质量参考基因组。该基因组为研究萤火虫的性通讯和生物发光等复杂性状的机制提供了核心资源,可以为萤火虫的生物多样性提供更好的保护。
参考文章
Long-read sequence assembly of the firefly Pyrocoelia pectoralis genome.
点击以下「关键词」,查看往期内容:
TCGA | 小工具 | 数据库 |组装| 注释 | 基因家族 | Pvalue
基因预测 |bestorf | sci | NAR | 在线工具 | 生存分析 | 热图
生信不死 | 初学者 | circRNA | 一箭画心| 十二生肖 | circos
舞台|基因组 | 黄金测序 | 套路 | 杂谈组装 | 进化 | 测序简史