小鬼的有参转录组测序分析专题（一）-行业观点-衍因科研协作平台

小鬼的有参转录组测序分析专题（一）

admin 218 2025-01-14 18:07:43 编辑

又来老生常谈了，网上随便一搜，已经有了很多关于二代测序数据分析的流程和代码，视频，其中也有很多写得很详细很优秀的教程。但我保证，这一次，我一定给你一个最完整的教程，整理好各种数据资源，从头走到尾。

【有参转录组测序分析专题】将要讲解流程的内容如下：

【有参转录组测序分析专题1】各种数据格式介绍

在开始进入正题之前，小编觉得很有必要先介绍一下各种数据格式，将要介绍的数据格式有：

l fq文件

l fa文件

l sam文件

l bam文件

l gft文件

l gff文件

l bed文件

l vcf文件

此次介绍fq和fa文件，如有错误，还请各位大侠批评指正！

一，FASTQ文件

FASTQ是基于文本的，保存生物序列（通常是核酸序列）和其测序质量信息的标准格式。其序列以及质量信息都是使用一个ASCII字符标示，最初由Sanger开发，目的是将FASTA序列与质量数据放到一起，目前已经成为高通量测序结果的事实标准。基于边合成边测序（Sequencing By Synthesis，SBS）技术，Illumina HiSeq高通量测序平台对cDNA文库进行测序，产出大量的高质量Data，称为原始数据（Raw Data）。Raw Data通常以FASTQ格式提供，每个测序样品的Raw Data包括两个FASTQ文件，分别包含所有cDNA片段两端测定的Reads。

fq以4行为一个单位，表示一条测序所得的read（这里针对Illunima测序平台）

行：序列的名称

第二行：序列的碱基

第三行：序列的名称，可以和行一样，或使用+号代替

第四行：碱基质量

具体如下：

1，行序列名称双端测序

Read1 @A00224:163:HHJLGDSXX:2:1101:13819:1000 1:N:0:ACGAGAAC

Read2 @A00224:163:HHJLGDSXX:2:1101:13819:1000 2:N:0:ACGAGAAC

begin with @

A00224

the unique instrument name

163

the run id

HHJLGDSXX

the flowcell id

flowcell lane

1101

the number within the flowcell lane

13819

x'-coordinate of the cluster within the tile

1000

y'-coordinate of the cluster within the tile

the member of a pair,1or 2(paired-end or mate-pair reads only)

Y if the read is filtered,N otherwise

0 when none of the control bits are on,otherwise it is an even number

ACGAGAAC

index sequence

2，第二行序列，为ATCG碱基序列，一般rawdata为150bp x 2

Read1 NCCCCGAAAAAAGGAGGGTGGGAAGGGAAAGAGGGCAAGAGGGAGAGAAAGAAGGGAGAGAGGAAGATCGGAAGAGCACACGTCTGAACTCCAGTCACACGAGAACCCCGTATAATCTCGTATGCCGTCTTCTGCTTGAAAAGGGGGGGG

TCCTCTCTCCCTTCTTTCTCTCCCTCTTGCCCTCTTTCCCTTCCCACCCTCCTTTTTTCGGGGGAGATCGGAAGAGCGTCGTGTAGGGAAAGAGTGGTGGTTGGGGGGGGGGGGGGGTGGTGGTAAGGGGGGGGGGGGGGGGGGGGGGGG

3，第三行以“+”开头，随后为Illumina测序识别符（选择性部分）；

4，第四行碱基质量（Phred值）

测序仪通过判断荧光信号的颜色来判断碱基的种类，ATCG分别对应红黄蓝绿，信号强弱不同，在这种情况下对每个结果的判断的正确性都存在一个概率值，这个值被储存为ASCII码形式，转化方式如下：

将该碱基判断错误概率值P取log10之后再乘以-10，得到的结果为Q。

比如，P=1%，那么对应的Q=-10*log10（0.01）=20（这个计算公式illumina平台使用，Solexa系列测序仪使用不同的公示来计算质量值：Q=-10log(P/1-P)）

把这个Q加上33或者64转成一个新的数值，称为Phred，最后把Phred对应的ASCII字符对应到这个碱基。

如Q=20，Phred = 20 + 33 = 53，53在ASCII码表里对应的ASCII符号是”5”

碱基质量值与碱基识别出错的概率的对应关系表：

碱基质量值

碱基识别出错的概率

碱基识别精度

碱基质量值

碱基识别出错的概率

碱基识别精度

10%

90%

99%

0.1%

99.9%

0.01%

99.99%

一般测序结果都要看Q20和Q30。

二，fa文件

fasta格式，又称Pearson格式，主要发明人是威廉·皮尔森（William Raymond Pearson）和戴维德.李普曼（David J. Lipman），威廉·雷蒙德·皮尔森是美国弗吉尼亚大学的生物化学与分子遗传学教授，戴维德.李普曼在1989年至2017年期间担任NCBI主任，他也是BLAST算法的发明人之一。1985年3月，双方在科学期刊Science上合作发表了相关成果。

它是一种基于文本用于表示核苷酸序列或氨基酸序列的格式。在这种格式中碱基对或氨基酸用单个字母来编码，且允许在序列前添加序列名及注释。

特点：

1,首先以大于号“>”开头，接着是序列的标识符；

2,换行后是序列的描述信息。换行后是序列信息，文件每行的字母一般不应超过80个字符。

3,序列中允许存在空格，换行，空行，直到下一个大于号或文件结束，表示该序列的结束。

比如，我们去NCBI的GenBank数据库查询一个gene，就选非常有名的BRCA1吧，物种为Homo sapiens，看一下这个格式：

‘>’后面跟着GenBank数据库的ID，’L78833.1’，这个基因全长有117143 bp，位于17q21

，图片只展示了部分碱基。紧接着显示了物种人类，然后就是对这个fa的描述信息。

核苷酸序列字符对应的关系：

A --> adenosine

T --> thymidine

C --> cytidine

G --> guanine

U --> uridine

R --> G A (purine)

Y --> T C (pyrimidine)

K --> G T (keto)

W --> A T (weak)

S --> G C (strong)

B --> G T C

H --> A C T

D --> G A T

M --> A C (amino)

N --> A G C T (any)

V --> G C A

- -->gap of indeterminate length

氨基酸序列对应关系表：

alanine

aspartate or asparagine

cystine

aspartate

glutamate

phenylalanine

glycine

histidine

isoleucine

lysine

leucine

methionine

asparagine

proline

glutamine

arginine

serine

threonine

selenocysteine

valine

tryptophan

any

tyrosine

glutamate or glutamine

translation stop

gap of indeterminate length

2019遇见更好的自己

NC重磅！CellChat：单细胞通讯分析工具！

805 2024-12-18

小鬼的有参转录组测序分析专题（一）

SMART蛋白质结构域注释的20年(附用法）

2025基因组设计软件实测指南：AI大模型驱动效率跃迁

NC重磅！CellChat：单细胞通讯分析工具！

推荐阅读

浙大团队开发出「三组分LNP」，可实现真正意义上的mRNA靶向递送，无外溢风险！

提高酶切反应特异性和效率的关键策略：加入酶切位点保护碱基

Nature、Cell连发的多个基因编辑新工具/技术，有何厉害之处？

Science重磅 | Recode开发肺部干细胞SORT-LNP，介导长达1.8年的基因编辑效果！

国内首个mRNA-LNP团体标准征求意见稿！涉及细胞治疗～

Science重磅团队再次发文～SORT LNP递送siRNA，靶向肝外器官沉默基因！

利用mRNA 瞬时构建 TCR-T 细胞，治疗晚期难治性高 MSI 结直肠癌患者！

过表达GSNOR增强线粒体活性，从而增强 CAR-T 细胞干性和抗肿瘤功能！

克隆 PCR 产物

聚合酶链式反应

热门文章

如何利用时间序列分析工具实现数据可视化与异常检测的完美结合，实时分析将引领数据科学的未来趋势

如何通过科研用人工智能工具与技术创新提升科研管理效率？

如何通过智能科研工具包提升数据分析效率与准确性，AI技术又将如何改变科研的未来？

探索人工智能工具如何在科研中提升效率并引领未来科学计算的趋势

利用AI技术提升科研实验结果可视化效果，探索科学绘图的未来趋势与挑战

单酶切和双酶切的区别，了解这两者的特点

如何通过智能科研工具提升研究效率与数据分析助力科研创新

SMART蛋白质结构域注释的20年(附用法）

深度学习与生物医药AI大模型如何重塑药物研发的未来？

如何在NCBI上查找基因的CDS序列

最新文章

分子生物学名词解释核心概念与蛋白质组学解读

分子生物学实验技术：体系分类、优化策略与应用案例

分子生物学试剂：保存条件、失效判断与应用指南

《医学分子生物学杂志》学术前沿与投稿指南

分子生物学实验的核心技术与应用

现代分子生物学的主要研究领域

分子生物学技术的主要分类与应用场景

生物化学与分子生物学的学科概述与核心研究内容

分子生物学软件的核心功能与优势

分子生物学工具：核心功能、应用场景与发展趋势解析

热门标签