DNA各种序列格式介绍-分子生物学知识-衍因科技

DNA各种序列格式介绍

admin 522 2024-12-18 11:24:06 编辑

1.Plain格式

A sequence in plain format may contain only IUPAC characters and spaces (no numbers!).Note: A file in plain sequence format may only contain one sequence, while most other formats accept several sequences in one file.An example sequence in plain format is:ACAAGATGCCATTGTCCCCCGGCCTCCTGCTGCTGCTGCTCTCCGGGGCCACGGCCCTGGAGGGTGGCCCCACCGGCCGAGACAGCGAGCATATGCAGGAAGCGGCAGGACTCCTGACTTTCCTCGCTTGGTGGTTTGAGTGGACCTCCCAGGCCAGTGCCGGGCAAGCTCGGGAGGTGGCCAGGCGGCAGGAAGGCGCACCCCCCCAGCAATCCGCGCGCTGCAGGAACTTCTTCTGGAAGACCTTCTCCTCCTGCAAATAAAACCTCACCCATTTTAATTACAGACCTGAA

Plain sequence序列格式，只含有IUPAC字符和空格，不含有数字，并且一个Plain格式的文件只能含有一条序列。

2.EMBL格式

A sequence file in EMBL format can contain several sequences.One sequence entry starts with an identifier line (“ID”), followed by further annotation lines. The start of the sequence is marked by a line starting with “SQ” and the end of the sequence is marked by two slashes (“//”).An example sequence in EMBL format is:ID AB000263 standard; RNA; PRI; 368 BP.XXAC AB000263;XXDE Homo sapiens mRNA for prepro cortistatin like peptide, complete cds.XXSQ Sequence 368 BP;acaagatgcc attgtccccc ggcctcctgc tgctgctgct ctccggggcc acggccaccg 60ctgccctgcc cctggagggt ggccccaccg gccgagacag cgagcatatg caggaagcgg 120caggaataag gaaaagcagc ctcctgactt tcctcgcttg gtggtttgag tggacctccc 180aggccagtgc cgggcccctc ataggagagg aagctcggga ggtggccagg cggcaggaag 240gcgcaccccc ccagcaatcc gcgcgccggg acagaatgcc ctgcaggaac ttcttctgga 300agaccttctc ctcctgcaaa taaaacctca cccatgaatg ctcacgcaag tttaattaca 360gacctgaa 368//

EMBL格式文件可以包含多条序列，每个序列条目都以”ID”开始，紧跟一些注释信息，序列的开始标记为”SQ”，结束标记为”//”。

3.FASTA格式

A sequence file in FASTA format can contain several sequences.Each sequence in FASTA format begins with a single-line description, followed by lines of sequence data.The description line must begin with a greater-than (“>”) symbol in the first column.An example sequence in FASTA format is:>AB000263 |acc=AB000263|descr=Homo sapiens mRNAACAAGATGCCATTGTCCCCCGGCCTCCTGCTGCTGCTGCTCTCCGGGGCCACGGCCCCTGGAGGGTGGCCCCACCGGCCGAGACAGCGAGCATATGCAGGAAGCGGCAGGAACTCCTGACTTTCCTCGCTTGGTGGTTTGAGTGGACCTCCCAGGCCAGTGCCGGGCCAAGCTCGGGAGGTGGCCAGGCGGCAGGAAGGCGCACCCCCCCAGCAATCCGCGCGCCTGCAGGAACTTCTTCTGGAAGACCTTCTCCTCCTGCAAATAAAACCTCACCCATGTTTAATTACAGACCTGAA

FASTA格式文件可以包含多条序列，每条序列之前都有以”>”开始的一行，该行包含一些序列的描述信息。

4.GCG格式

A sequence file in GCG format contains exactly one sequence, begins with annotation lines and the start of the sequence is marked by a line ending with two dot (“..”) characters. This line also contains the sequence identifier, the sequence length and a checksum. This format should only be used if the file was created with the GCG package.An example sequence in GCG format is:ID AB000263 standard; RNA; PRI; 368 BP.XXAC AB000263;XXDE Homo sapiens mRNA for prepro cortistatin like peptide, complete cds.XXSQ Sequence 368 BP;AB000263 Length: 368 Check: 4514 ..1 acaagatgcc attgtccccc ggcctcctgc tgctgctgct ctccggggcc acggccaccg61 ctgccctgcc cctggagggt ggccccaccg gccgagacag cgagcatatg caggaagcgg121 caggaataag gaaaagcagc ctcctgactt tcctcgcttg gtggtttgag tggacctccc181 aggccagtgc cgggcccctc ataggagagg aagctcggga ggtggccagg cggcaggaag241 gcgcaccccc ccagcaatcc gcgcgccggg acagaatgcc ctgcaggaac ttcttctgga301 agaccttctc ctcctgcaaa taaaacctca cccatgaatg ctcacgcaag tttaattaca361 gacctgaa

GCG格式文件只含有一条序列，以一些注释信息行开始，序列以”..”行开始，该行还包含序列的标识，以及长度等。

5.GenBank格式

A sequence file in GenBank format can contain several sequences.One sequence in GenBank format starts with a line containing the word LOCUS and a number of annotation lines. The start of the sequence is marked by a line containing “ORIGIN” and the end of the sequence is marked by two slashes (“//”).An example sequence in GenBank format is:LOCUS AB000263 368 bp mRNA linear PRI 05-FEB-1999DEFINITION Homo sapiens mRNA for prepro cortistatin like peptide, complete cds.ACCESSION AB000263ORIGIN1 acaagatgcc attgtccccc ggcctcctgc tgctgctgct ctccggggcc acggccaccg61 ctgccctgcc cctggagggt ggccccaccg gccgagacag cgagcatatg caggaagcgg121 caggaataag gaaaagcagc ctcctgactt tcctcgcttg gtggtttgag tggacctccc181 aggccagtgc cgggcccctc ataggagagg aagctcggga ggtggccagg cggcaggaag241 gcgcaccccc ccagcaatcc gcgcgccggg acagaatgcc ctgcaggaac ttcttctgga301 agaccttctcc ctcctgcaaa taaaacctca cccatgaatg ctcacgcaag tttaattaca361 gacctgaa//

GenBank格式文件可以包含多个序列，每个序列条目都以”LOCUS”开始，紧跟多行注释信息，序列开始标记为”ORIGIN”，序列结束标记为”//”。

6.IG格式

A sequence file in IG format can contain several sequences, each consisting of a number of comment lines that must begin with a semicolon (“;”), a line with the sequence name (it may not contain spaces!) and the sequence itself terminated with the termination character ’1′ for linear or ’2′ for circular sequences.An example sequence in IG format is:; comment; commentAB000263ACAAGATGCCATTGTCCCCCGGCCTCCTGCTGCTGCTGCTCTCCGGGGCCACGGCCACCGCCTGGAGGGTGGCCCCACCGGCCGAGACAGCGAGCATATGCAGGAAGCGGCAGGAATAAGCTCCTGACTTTCCTCGCTTGGTGGTTTGAGTGGACCTCCCAGGCCAGTGCCGGGCCCCTCAAGCTCGGGAGGTGGCCAGGCGGCAGGAAGGCGCACCCCCCCAGCAATCCGCGCGCCGGGCTGCAGGAACTTCTTCTGGAAGACCTTCTCCTCCTGCAAATAAAACCTCACCCATGAATGTTTAATTACAGACCTGAA1

IG格式序列文件可以包含多个序列，每个序列条目都以多个comment行开始，且comment行以”;”开始，comment行下面是包含序列名称的一行，序列以数字1结束，第2条序列以2结束，以此类推。

7.IUPAC字符

To represent ambiguity in DNA sequences the following letters can be used (following the rules of the International Union of Pure and Applied Chemistry (IUPAC)):A = adenineC = cytosineG = guanineT = thymineU = uracilR = G A (purine)Y = T C (pyrimidine)K = G T (keto)M = A C (amino)S = G CW = A TB = G T CD = G A TH = A C TV = G C AN = A G C T (any)

单酶切和双酶切的区别，了解这两者的特点

3409 2025-01-17

DNA各种序列格式介绍

如何利用时间序列分析工具实现数据可视化与异常检测的完美结合，实时分析将引领数据科学的未来趋势

单酶切和双酶切的区别，了解这两者的特点

如何在NCBI上查找基因的CDS序列

推荐阅读

浙大团队开发出「三组分LNP」，可实现真正意义上的mRNA靶向递送，无外溢风险！

提高酶切反应特异性和效率的关键策略：加入酶切位点保护碱基

Nature、Cell连发的多个基因编辑新工具/技术，有何厉害之处？

Science重磅 | Recode开发肺部干细胞SORT-LNP，介导长达1.8年的基因编辑效果！

国内首个mRNA-LNP团体标准征求意见稿！涉及细胞治疗～

Science重磅团队再次发文～SORT LNP递送siRNA，靶向肝外器官沉默基因！

利用mRNA 瞬时构建 TCR-T 细胞，治疗晚期难治性高 MSI 结直肠癌患者！

过表达GSNOR增强线粒体活性，从而增强 CAR-T 细胞干性和抗肿瘤功能！

克隆 PCR 产物

聚合酶链式反应

热门文章

质粒构建软件：核心作用、产品推荐与实践指南

如何利用时间序列分析工具实现数据可视化与异常检测的完美结合，实时分析将引领数据科学的未来趋势

生物医药科研物料管理智能升级指南2023：突破三大合规痛点

2025基因组设计软件实测指南：AI大模型驱动效率跃迁

单酶切和双酶切的区别，了解这两者的特点

SMART蛋白质结构域注释的20年(附用法）

如何通过科研用人工智能工具与技术创新提升科研管理效率？

如何通过智能科研工具包提升数据分析效率与准确性，AI技术又将如何改变科研的未来？

AI赋能生物医药项目管理｜3大案例解析降本增效新范式

利用AI技术提升科研实验结果可视化效果，探索科学绘图的未来趋势与挑战

最新文章

分子克隆工具越来越多，真正能提高效率的到底是什么

自动引物设计工具正在改变实验室做 PCR 的方式

序列编辑工具不是简单改几个碱基，而是决定后续分析能不能站得住

生物医药实验室物料管理做不好，最先被拖慢的不是仓库而是研发进度

蛋白质翻译工具让核酸序列分析更快更准

基因组设计工具怎么选？从靶点设计到实验落地，一篇讲透核心思路

序列分析软件如何助力分子生物学研究？从功能选型到落地应用的系统方法

电子实验记录本哪个好用？2026年7款ELN软件横向对比与选型建议

分子生物学软件选型指南：从序列分析到实验室数字化

2026年分子生物学软件全面指南：从序列分析到云端协作

热门标签