小鬼的有参转录组测序分析专题(一)

admin 89 2025-01-14 编辑

又来老生常谈了,网上随便一搜,已经有了很多关于二代测序数据分析的流程和代码,视频,其中也有很多写得很详细很优秀的教程。但我保证,这一次,我一定给你一个最完整的教程,整理好各种数据资源,从头走到尾。

 

【有参转录组测序分析专题】将要讲解流程的内容如下:

 

【有参转录组测序分析专题1】各种数据格式介绍

在开始进入正题之前,小编觉得很有必要先介绍一下各种数据格式,将要介绍的数据格式有:

l fq文件

l fa文件

l sam文件

l bam文件

l gft文件

l gff文件

l bed文件

l vcf文件

此次介绍fq和fa文件,如有错误,还请各位大侠批评指正!

一,FASTQ文件

FASTQ是基于文本的,保存生物序列(通常是核酸序列)和其测序质量信息的标准格式。其序列以及质量信息都是使用一个ASCII字符标示,最初由Sanger开发,目的是将FASTA序列与质量数据放到一起,目前已经成为高通量测序结果的事实标准。基于边合成边测序(Sequencing By Synthesis,SBS)技术,Illumina HiSeq高通量测序平台对cDNA文库进行测序,产出大量的高质量Data,称为原始数据(Raw Data)。Raw Data通常以FASTQ格式提供,每个测序样品的Raw Data包括两个FASTQ文件,分别包含所有cDNA片段两端测定的Reads。

fq以4行为一个单位,表示一条测序所得的read(这里针对Illunima测序平台)

第一行:序列的名称

第二行:序列的碱基

第三行:序列的名称,可以和第一行一样,或使用+号代替

第四行:碱基质量

具体如下:

1,第一行 序列名称 双端测序

Read1 @A00224:163:HHJLGDSXX:2:1101:13819:1000 1:N:0:ACGAGAAC

Read2 @A00224:163:HHJLGDSXX:2:1101:13819:1000 2:N:0:ACGAGAAC

 

@

begin with @

A00224

the unique instrument name

163

the run id

HHJLGDSXX

the flowcell id

2

flowcell lane

1101

the number within the flowcell lane

13819

x'-coordinate of the cluster within the tile

1000

y'-coordinate of the cluster within the tile

1

the member of a pair,1or 2(paired-end or mate-pair reads only)

N

Y if the read is filtered,N otherwise

0

0 when none of the control bits are on,otherwise it is an even number

ACGAGAAC

index sequence

 

2,第二行 序列,为ATCG碱基序列,一般rawdata为150bp x 2

Read1 NCCCCGAAAAAAGGAGGGTGGGAAGGGAAAGAGGGCAAGAGGGAGAGAAAGAAGGGAGAGAGGAAGATCGGAAGAGCACACGTCTGAACTCCAGTCACACGAGAACCCCGTATAATCTCGTATGCCGTCTTCTGCTTGAAAAGGGGGGGG

Read2

TCCTCTCTCCCTTCTTTCTCTCCCTCTTGCCCTCTTTCCCTTCCCACCCTCCTTTTTTCGGGGGAGATCGGAAGAGCGTCGTGTAGGGAAAGAGTGGTGGTTGGGGGGGGGGGGGGGTGGTGGTAAGGGGGGGGGGGGGGGGGGGGGGGG

 

3,第三行以“+”开头,随后为Illumina测序识别符(选择性部分);

4,第四行碱基质量 (Phred值)

测序仪通过判断荧光信号的颜色来判断碱基的种类,ATCG分别对应红黄蓝绿,信号强弱不同,在这种情况下对每个结果的判断的正确性都存在一个概率值,这个值被储存为ASCII码形式,转化方式如下:

将该碱基判断错误概率值P取log10之后再乘以-10,得到的结果为Q。

比如,P=1%,那么对应的Q=-10*log10(0.01)=20(这个计算公式illumina平台使用,Solexa系列测序仪使用不同的公示来计算质量值:Q=-10log(P/1-P))

把这个Q加上33或者64转成一个新的数值,称为Phred,最后把Phred对应的ASCII字符对应到这个碱基。

如Q=20,Phred = 20 + 33 = 53,53在ASCII码表里对应的ASCII符号是”5”

碱基质量值与碱基识别出错的概率的对应关系表:

碱基质量值

碱基识别出错的概率

碱基识别精度

碱基质量值

碱基识别出错的概率

碱基识别精度

10

10%

90%

20

1%

99%

30

0.1%

99.9%

40

0.01%

99.99%

一般测序结果都要看Q20和Q30。

 

二,fa文件

fasta格式,又称Pearson格式,主要发明人是威廉·皮尔森(William Raymond Pearson)和戴维德.李普曼(David J. Lipman),威廉·雷蒙德·皮尔森是美国弗吉尼亚大学的生物化学与分子遗传学教授,戴维德.李普曼在1989年至2017年期间担任NCBI主任,他也是BLAST算法的发明人之一。1985年3月,双方在科学期刊Science上合作发表了相关成果。

 

它是一种基于文本用于表示核苷酸序列或氨基酸序列的格式。在这种格式中碱基对或氨基酸用单个字母来编码,且允许在序列前添加序列名及注释。

 

特点:

1,首先以大于号“>”开头,接着是序列的标识符;

2,换行后是序列的描述信息。换行后是序列信息,文件每行的字母一般不应超过80个字符。

3,序列中允许存在空格,换行,空行,直到下一个大于号或文件结束,表示该序列的结束。

 

比如,我们去NCBI的GenBank数据库查询一个gene,就选非常有名的BRCA1吧,物种为Homo sapiens,看一下这个格式:

‘>’后面跟着GenBank数据库的ID,’L78833.1’,这个基因全长有117143 bp,位于17q21

,图片只展示了部分碱基。紧接着显示了物种人类,然后就是对这个fa的描述信息。

 

核苷酸序列字符对应的关系:

A --> adenosine  

T --> thymidine

C --> cytidine

G --> guanine         

U --> uridine       

R --> G A (purine)

Y --> T C (pyrimidine)

K --> G T (keto)

W --> A T (weak)

S --> G C (strong)

B --> G T C

H --> A C T

D --> G A T

M --> A C (amino)

N --> A G C T (any)

V --> G C A

- -->gap of indeterminate length

氨基酸序列对应关系表:

A

alanine

B

aspartate or asparagine

C

cystine

D

aspartate

E

glutamate

F

phenylalanine

G

glycine

H

histidine

I

isoleucine

K

lysine

L

leucine

M

methionine

N

asparagine

P

proline

Q

glutamine

R

arginine

S

serine

T

threonine

U

selenocysteine

V

valine

W

tryptophan

X

any

Y

tyrosine

Z

glutamate or glutamine

*

translation stop

-

gap of indeterminate length

 

2019遇见更好的自己

小鬼的有参转录组测序分析专题(一)

上一篇: 质粒构建工具推荐,实验室必备的分子克隆利器
下一篇: 英文版基因组名词解释
相关文章