Format FASTA
Définition et description
- Une séquence en format FASTA commence avec une ligne simple de description de la séquence, les lignes suivantes correspondent à la séquence elle même (nucléotidique ou protéique).
- Le format FASTA peut être utilisé en entrée lors de l'utilisation de logiciels bioinformatiques, tels que BLAST, ClustalW, IMGT/V-QUEST etc.
- La ligne de description est caractérisée par le symbole supérieur (>) par lequel elle débute suivi d'un identificateur (choisi par l'utilisateur) ne contenant pas d'espace. Il est recommandé d'avoir une longueur de ligne inférieure à 80 caractères. Les blancs sont ignorés, les points (.), les tirets hauts (-), ou les tirets bas (_) doivent être utilisés pour représenter des gaps. Un fichier FASTA peut contenir de nombreuses séquences en format FASTA (sans ligne vide entre les séquences).
Exemples de séquences nucléotidiques en format FASTA
-
dans IMGT reference directory:
>M29672_IGHV1S1*01_Rajeri
GCGGTCGTGCTGAATCAGAAACCGACC...GAGGCGGCAAAGTCTGGAGAGTCCCTCAAACTGACCTGTGTAACCAGCG
GGTTCAGCCTCAGCAGCTCCAAC............GTGCATTGGGTGAAACAAGTCCCCGGGAAAGGGCTGGAGTGGGT
GGCGATCATGTGGTATGATGATGACAAA.........GATTACGCGCCTGCCTTCAGC...GGCCGATTCACTGTTTCC
AGG......GACAGCAGCAATGTCTATCTCCAAATGACCAACCTGAGTCTGGCCGACACGGCCACCTATTACTGTGCGDans cet exemple,la ligne de description contient le numéro d'accès IMGT/LIGM-DB de la séquence (M29672), le nom de l'allèle (TRDJ1*01), l'abbréviation de l'espèce (Rajeri) pour Leucoraja erinacea (l'abbréviation utilisée par IMGT contient les trois premières lettres du gène du nom latin suivies des trois premières lettres de l'espèce du nom latin).
-
dans IMGT/LIGM-DB:
>M29672|REIGHA|R.erinacea Ig rearranged H-chain mRNA (V-D-J-C region). cccattcctggagtgtccaagtgtgtgtccgtgctcagagtgatgggggtcgctgtttat ctctgtctccttctgttctgtctgccaggcgttcgatccgcggtcgtgctgaatcagaaa ccgaccgaggcggcaaagtctggagagtccctcaaactgacctgtgtaaccagcgggttc agcctcagcagctccaacgtgcattgggtgaaacaagtccccgggaaagggctggagtgg gtggcgatcatgtggtatgatgatgacaaagattacgcgcctgccttcagcggccgattc actgtttccagggacagcagcaatgtctatctccaaatgaccaacctgagtctggccgac acggccacctattactgtgcggcagccatggggggctctatatactggcttgagtactgg ggtgcaggaacctcgctgacagtgacttcagaggatgtggttttgccttcagtccacatc acctcttcctgcaacacggaatctggccaagagatcagcatcctctgtctggtcaaggac tacctgcctgaggtcatcagtcagacatggtccaccagcagtggggtcatcaacaatgga ataacaaagtacccaccagtgttgggacaaaacaagaagtacacaatgagcagcttgctg cgagtctctgtagcagattggaacaggaaaacctactactgcaaggcagggtacaagccg gacaacatggtgaaaacggagatccagaagcctcaagccccacagctcatcccccttgtt ccatctccggagactctccacaatcaaacaactgctgtcctgggctgcatgatatctgga ttctctcctgacaatattaaagtttcctggaaaaaagctggacttaatcaagcgggcgtc gttctcccatccactccgagaactaacggtggatttgaaacagttgcttacctgccgttg aatgtggaggaatggaccaacaaacaggaatatacttgtgaagtgacccacgcaccttcc ggcttcagcgacaagatcaacatgagatatcaagagggtggaaaatgtcccggctgttcg aagtgtctgccgaagttcatctaccagagtaatctcaatgtgtcgttctcagatggttct acccagcagtatcattgttgggcaggaaagtgtgaaataaagtaattggctgc
Dans cet exemple, la ligne de description contient le numéro d'accès IMGT/LIGM-DB de la séquence (M29672), le mnémonique (REIGHA), la définition (extraite de la base de données EMBL).
-
dans IMGT/GENE-DB:
>AE000658|TRAV4*01|Homo sapiens|F|V-REGION cttgctaagaccacccag...cccatctccatggactcatatgaaggacaagaagtgaac ataacctgtagccacaacaacattgctacaaatgattat...............atcacg tggtaccaacagtttcccagccaaggaccacgatttattattcaaggatacaagaca... ...............aaagttacaaacgaa.....................gtggcctcc ctgtttatccctgccgacagaaagtccagcactctgagcctgccccgggtttccctgagc gacactgctgtgtactactgcctcgtgggtgaca
Dans cet exemple, la ligne de description contient le numéro d'accès IMGT/LIGM-DB de la séquence (AE000658),le nom de l'allèle (TRAV4*01), l'espèce (Homo sapiens), la fonctionnalité de l'allèle (F pour Fonctionnel), le label de la région codante (V-REGION). Le mot "partial" est ajouté ensuite lorsque la région codante est incomplète en 5' ou en 3'.