又来老生常谈了,网上随便一搜,已经有了很多关于二代测序数据分析的流程和代码,视频,其中也有很多写得很详细很优秀的教程。但我保证,这一次,我一定给你一个最完整的教程,整理好各种数据资源,从头走到尾。
【有参转录组测序分析专题】将要讲解流程的内容如下:
【有参转录组测序分析专题1】各种数据格式介绍
在开始进入正题之前,小编觉得很有必要先介绍一下各种数据格式,将要介绍的数据格式有:
l fq文件
l fa文件
l sam文件
l bam文件
l gft文件
l gff文件
l bed文件
l vcf文件
此次介绍fq和fa文件,如有错误,还请各位大侠批评指正!
一,FASTQ文件
FASTQ是基于文本的,保存生物序列(通常是核酸序列)和其测序质量信息的标准格式。其序列以及质量信息都是使用一个ASCII字符标示,最初由Sanger开发,目的是将FASTA序列与质量数据放到一起,目前已经成为高通量测序结果的事实标准。基于边合成边测序(Sequencing By Synthesis,SBS)技术,Illumina HiSeq高通量测序平台对cDNA文库进行测序,产出大量的高质量Data,称为原始数据(Raw Data)。Raw Data通常以FASTQ格式提供,每个测序样品的Raw Data包括两个FASTQ文件,分别包含所有cDNA片段两端测定的Reads。
fq以4行为一个单位,表示一条测序所得的read(这里针对Illunima测序平台)
第一行:序列的名称
第二行:序列的碱基
第三行:序列的名称,可以和第一行一样,或使用+号代替
第四行:碱基质量
具体如下:
1,第一行 序列名称 双端测序
Read1 @A00224:163:HHJLGDSXX:2:1101:13819:1000 1:N:0:ACGAGAAC
Read2 @A00224:163:HHJLGDSXX:2:1101:13819:1000 2:N:0:ACGAGAAC
@
begin with @
A00224
the unique instrument name
163
the run id
HHJLGDSXX
the flowcell id
2
flowcell lane
1101
the number within the flowcell lane
13819
x'-coordinate of the cluster within the tile
1000
y'-coordinate of the cluster within the tile
1
the member of a pair,1or 2(paired-end or mate-pair reads only)
N
Y if the read is filtered,N otherwise
0
0 when none of the control bits are on,otherwise it is an even number
ACGAGAAC
index sequence
2,第二行 序列,为ATCG碱基序列,一般rawdata为150bp x 2
Read1 NCCCCGAAAAAAGGAGGGTGGGAAGGGAAAGAGGGCAAGAGGGAGAGAAAGAAGGGAGAGAGGAAGATCGGAAGAGCACACGTCTGAACTCCAGTCACACGAGAACCCCGTATAATCTCGTATGCCGTCTTCTGCTTGAAAAGGGGGGGG
Read2
TCCTCTCTCCCTTCTTTCTCTCCCTCTTGCCCTCTTTCCCTTCCCACCCTCCTTTTTTCGGGGGAGATCGGAAGAGCGTCGTGTAGGGAAAGAGTGGTGGTTGGGGGGGGGGGGGGGTGGTGGTAAGGGGGGGGGGGGGGGGGGGGGGGG
3,第三行以“+”开头,随后为Illumina测序识别符(选择性部分);
4,第四行碱基质量 (Phred值)
测序仪通过判断荧光信号的颜色来判断碱基的种类,ATCG分别对应红黄蓝绿,信号强弱不同,在这种情况下对每个结果的判断的正确性都存在一个概率值,这个值被储存为ASCII码形式,转化方式如下:
将该碱基判断错误概率值P取log10之后再乘以-10,得到的结果为Q。
比如,P=1%,那么对应的Q=-10*log10(0.01)=20(这个计算公式illumina平台使用,Solexa系列测序仪使用不同的公示来计算质量值:Q=-10log(P/1-P))
把这个Q加上33或者64转成一个新的数值,称为Phred,最后把Phred对应的ASCII字符对应到这个碱基。
如Q=20,Phred = 20 + 33 = 53,53在ASCII码表里对应的ASCII符号是”5”
碱基质量值与碱基识别出错的概率的对应关系表:
碱基质量值
碱基识别出错的概率
碱基识别精度
碱基质量值
碱基识别出错的概率
碱基识别精度
10
10%
90%
20
1%
99%
30
0.1%
99.9%
40
0.01%
99.99%
一般测序结果都要看Q20和Q30。
二,fa文件
fasta格式,又称Pearson格式,主要发明人是威廉·皮尔森(William Raymond Pearson)和戴维德.李普曼(David J. Lipman),威廉·雷蒙德·皮尔森是美国弗吉尼亚大学的生物化学与分子遗传学教授,戴维德.李普曼在1989年至2017年期间担任NCBI主任,他也是BLAST算法的发明人之一。1985年3月,双方在科学期刊Science上合作发表了相关成果。
它是一种基于文本用于表示核苷酸序列或氨基酸序列的格式。在这种格式中碱基对或氨基酸用单个字母来编码,且允许在序列前添加序列名及注释。
特点:
1,首先以大于号“>”开头,接着是序列的标识符;
2,换行后是序列的描述信息。换行后是序列信息,文件每行的字母一般不应超过80个字符。
3,序列中允许存在空格,换行,空行,直到下一个大于号或文件结束,表示该序列的结束。
比如,我们去NCBI的GenBank数据库查询一个gene,就选非常有名的BRCA1吧,物种为Homo sapiens,看一下这个格式:
‘>’后面跟着GenBank数据库的ID,’L78833.1’,这个基因全长有117143 bp,位于17q21
,图片只展示了部分碱基。紧接着显示了物种人类,然后就是对这个fa的描述信息。
核苷酸序列字符对应的关系:
A --> adenosine
T --> thymidine
C --> cytidine
G --> guanine
U --> uridine
R --> G A (purine)
Y --> T C (pyrimidine)
K --> G T (keto)
W --> A T (weak)
S --> G C (strong)
B --> G T C
H --> A C T
D --> G A T
M --> A C (amino)
N --> A G C T (any)
V --> G C A
- -->gap of indeterminate length
氨基酸序列对应关系表:
A
alanine
B
aspartate or asparagine
C
cystine
D
aspartate
E
glutamate
F
phenylalanine
G
glycine
H
histidine
I
isoleucine
K
lysine
L
leucine
M
methionine
N
asparagine
P
proline
Q
glutamine
R
arginine
S
serine
T
threonine
U
selenocysteine
V
valine
W
tryptophan
X
any
Y
tyrosine
Z
glutamate or glutamine
*
translation stop
-
gap of indeterminate length
2019遇见更好的自己