Saltar para o conteúdo

Formato FASTA

Origem: Wikipédia, a enciclopédia livre.

Em bioinformática, o formato FASTA é um formato baseado em texto para representar tanto sequencias de nucleótidos quanto sequencias de peptídeos, no qual os nucleotídeos ou aminoácidos são representados usando códigos de uma única letra.[1][2] O formato também permite sequências de nomes e comentários precedendo as sequências. O formato se origina do FASTA, pacote de software, mas agora se tornou um padrão na área de bioinformática. A simplicidade do formato FASTA torna mais fácil manipular e analisar sequências usando ferramentas de processamento de texto e linguagens de script como Python, Ruby, e Perl.

Uma sequência em formato FASTA começa com uma descrição de uma única linha, seguida por linhas de dados em sequência.

A linha de descrição se distingue a partir da sequência dos dados por um símbolo maior-que (">") na primeira coluna. A palavra que segue o símbolo ">" é o identificador da sequência, e o resto da linha é a descrição (ambos são opcionais). Não deve haver nenhum espaço entre o ">" e a primeira letra do identificador. Recomenda-se que todas as linhas do texto sejam mais curtas do que 80 caracteres. A sequência termina se uma outra linha de partida com um ">" aparece, o que indica o início de outra sequência. Um exemplo simples de uma sequência em formato FASTA:

>gi|5524211|gb|AAD44166.1| cytochrome b [Elephas maximus maximus]
LCLYTHIGRNIYYGSYLYSETWNTGIMLLLITMATAFMGYVLPWGQMSFWGATVITNLFSAIPYIGTNLV
EWIWGGFSVDKATLNRFFAFHFILPFTMVALAGVHLTFLHETGSNNPLGLTSDSDKIPFHPYYTIKDFLG
LLILILLLLLLALLSPDMLGDPDNHMPADPLNTPLHIKPEWYFLFAYAILRSVPNKLGGVLALFLSIVIL
GLMPFLHTSKHRSMMLRPLSQALFWTLTMDLLTLTWIGSQPVEYPYTIIGQMASILYFSIILAFLPIAGX
IENY

O formato FASTA/Pearson original é descrito na documentação para o conjunto de programas FASTA. Ele pode ser baixado com qualquer distribuição gratuita do FASTA (ver fasta20.doc, fastaNV.doc ou fastaNV.me - onde NV é o número da versão).

Uma sequência em formato FASTA é representada como uma série de linhas, que não devem ter mais do que 120 caracteres e, geralmente, não excedem 80 caracteres. Isso provavelmente ocorreu visando permitir a pré-alocação de tamanhos fixos de linhas no software: naquele momento em que a maioria dos usuários contava com terminais DEC VT (ou compatíveis) só se podia mostrar 80 ou 132 caracteres por linha. A maioria das pessoas preferia a fonte maior nos modos 80 caracteres e por isso tornou-se comum recomendar o uso de 80 caracteres ou menos (geralmente 70) para as linhas FASTA.

A primeira linha em um arquivo FASTA começa ou com um símbolo ">" (maior que) ou um ";" (ponto e vírgula) e é tomada como um comentário. Linhas subsequentes começando com um ponto e vírgula são ignoradas pelo software. Uma vez que o único comentário utilizado era o primeiro, rapidamente se tornou uso comum armazenar uma descrição sumária da sequência, muitas vezes começando com um número único de acesso à biblioteca, e com o tempo tornou-se comum sempre usar ">" para a primeira linha e não usar mais comentários iniciando por ";" (que de qualquer forma seriam ignorados).

Após a linha inicial (usada para uma descrição única da sequência) vem a sequência em si no padrão de código de uma letra. Outra coisa além de um código válido é ignorada (incluindo espaços, tabulações, asteriscos, etc ..). Originalmente, era também comum terminar a sequência com um caracter "*" (asterisco) (em analogia com o uso de sequências formatadas PIR) e, pelo mesmo motivo, deixar uma linha em branco entre a descrição e a sequência.

Algumas sequências de exemplo:

   ;LCBO - Prolactin precursor - Bovine
   ; a sample sequence in FASTA format
   MDSKGSSQKGSRLLLLLVVSNLLLCQGVVSTPVCPNGPGNCQVSLRDLFDRAVMVSHYIHDLSS
   EMFNEFDKRYAQGKGFITMALNSCHTSSLPTPEDKEQAQQTHHEVLMSLILGLLRSWNDPLYHL
   VTEVRGMKGAPDAILSRAIEIEEENKRLLEGMEMIFGQVIPGAKETEPYPVWSGLPSLQTKDED
   ARYSAFYNLLHCLRRDSSKIDTYLKLLNCRIIYNNNC*
   >MCHU - Calmodulin - Human, rabbit, bovine, rat, and chicken
   ADQLTEEQIAEFKEAFSLFDKDGDGTITTKELGTVMRSLGQNPTEAELQDMINEVDADGNGTID
   FPEFLTMMARKMKDTDSEEEIREAFRVFDKDGNGYISAAELRHVMTNLGEKLTDEEVDEMIREA
   DIDGDGQVNYEEFVQMMTAK*
   >gi|5524211|gb|AAD44166.1| cytochrome b [Elephas maximus maximus]
   LCLYTHIGRNIYYGSYLYSETWNTGIMLLLITMATAFMGYVLPWGQMSFWGATVITNLFSAIPYIGTNLV
   EWIWGGFSVDKATLNRFFAFHFILPFTMVALAGVHLTFLHETGSNNPLGLTSDSDKIPFHPYYTIKDFLG
   LLILILLLLLLALLSPDMLGDPDNHMPADPLNTPLHIKPEWYFLFAYAILRSVPNKLGGVLALFLSIVIL
   GLMPFLHTSKHRSMMLRPLSQALFWTLTMDLLTLTWIGSQPVEYPYTIIGQMASILYFSIILAFLPIAGX
   IENY

Um formato FASTA de sequências múltiplas seria obtido pela concatenação de vários arquivos FASTA de uma única sequência. Isto não implica uma contradição com o formato pois apenas a primeira linha em um arquivo FASTA pode começar com um ";" ou ">", daí obrigando todas as sequências subsequentes iniciar com um ">", a fim de ser tomadas como diferentes (e ainda forçando a reserva exclusiva de ">" para a linha de definição da sequência). Assim, os exemplos acima podem também ser tomados como um arquivo multisequencial se tomados em conjunto.

Conversores de formato

[editar | editar código-fonte]

Arquivos FASTA podem ser convertidos em lote para ou de um formato MultiFASTA usando ferramentas, algumas das quais estão disponíveis como software gratuito (freeware). Ferramentas também estão disponíveis para a conversão de lotes a partir de formatos de [cromatograma] (ABI/SCF) para FASTA.

Linha de cabeçalho

[editar | editar código-fonte]

A linha de cabeçalho, que começa com '>', dá um nome e/ou um identificador exclusivo para a sequência, e muitas vezes lotes de outras informações também. Muitos banco de dados de sequência diferentes usam cabeçalhos padronizados, o que ajuda quando se quer extrair automaticamente as informações do cabeçalho. A linha de cabeçalho pode conter mais de um cabeçalho, separados por um caracter ^A (Control-A).

No formato original FASTA Pearson, um ou mais comentários, distinguidos por um ponto e vírgula no início da linha, podem ocorrer após o cabeçalho. A maioria dos bancos de dados e aplicações de bioinformática não reconhecem esses comentários e seguem a especificação NCBI FASTA. Um exemplo de um arquivo de sequências múltiplas FASTA segue:

>SEQUENCE_1
MTEITAAMVKELRESTGAGMMDCKNALSETNGDFDKAVQLLREKGLGKAAKKADRLAAEG
LVSVKVSDDFTIAAMRPSYLSYEDLDMTFVENEYKALVAELEKENEERRRLKDPNKPEHK
IPQFASRKQLSDAILKEAEEKIKEELKAQGKPEKIWDNIIPGKMNSFIADNSQLDSKLTL
MGQFYVMDDKKTVEQVIAEKEKEFGGKIKIVEFICFEVGEGLEKKTEDFAAEVAAQL
>SEQUENCE_2
SATVSEINSETDFVAKNDQFIALTKDTTAHIQSNSLQSVEELHSSTINGVKFEEYLKSQI
ATIGENLVVRRFATLKAGANGVVNGYIHTNGRVGVVIAAACDSAEVASKSRDLLRQICMH

Representação de sequências

[editar | editar código-fonte]

Após a linha de cabeçalho e comentários, uma ou mais linhas devem seguir descrevendo a sequência: cada linha de uma sequência deve ter menos de 80 caracteres. Sequências podem ser sequências de proteínas ou sequências de ácidos nucleicos, e elas podem conter lacunas ou caracteres de alinhamento (ver alinhamento de sequências). Sequências devem ser representados nos códigos padrão IUB/IUPAC para aminoácidos e ácidos nucleicos, com as seguintes exceções: minúsculas são aceitas e são mapeadas em letras maiúsculas; um único hífen ou traço pode ser usado para representar um caracter de lacuna; e em sequências de aminoácidos, U e * são letras aceitáveis (veja abaixo). Dígitos numéricos não são permitidos, mas são usados ​​em alguns bancos de dados para indicar a posição na sequência.

Os códigos de ácido nucléico suportados são[3]:

Código de Ácido Nucleico Significado
A Adenosina
C Citosina
G Guanina
T Timidina
U Uracila
R G A (puRina)
Y T U C (Pirimidina - do inglês pYrimidine)
K G T U (Cetona - do inglês Ketone)
M A C (grupo aMina)
S G C (Interação forte -do inglês Strong interaction)
W A T U (Interação fraca -do inglês Weak interaction)
B G T U C (não A) (B vem após A)
D G A T U (não C) (D vem após C)
H A C T U (não G) (H vem após G)
V G C A (não T, não U) (V vem após U)
N A G C T U (qualquer - aNy)
X mascarado
- lacuna de comprimento indeterminado

Os códigos suportados (24 aminoácidos e 3 códigos especiais) são:

Código do Aminoácido Significado
A Alanina
B Ácido aspártico (D) ou Asparagina (N)
C Cisteína
D Ácido aspártico
E Ácido glutâmico
F Fenilalanina
G Glicina
H Histidina
I Isoleucina
J Leucina (L) ou Isoleucina (I)
K Lisina
L Leucina
M Metionina
N Asparagina
O Pirrolisina
P Prolina
Q Glutamina
R Arginina
S Serina
T Treonina
U Selenocisteína
V Valina
W Triptofano
Y Tirosina
Z Ácido glutâmico (E) ou Glutamina (Q)
X qualquer
* parada de tradução (stop)
- lacuna de tamanho indeterminado


Extensão de arquivo

[editar | editar código-fonte]

Não existe um padrão de extensão de nome de ficheiro para um arquivo de texto contendo sequências formatadas em FASTA. A tabela abaixo mostra cada extensão e seu respectivo significado.

Extensão Significado Notas
fasta FASTA genérico Qualquer arquivo fasta genérico. Outras extensões podem ser fa, seq, fsa
fna ácido nucléico fasta Para regiões codificantes do genoma específico, use ffn, mas por outro lado fna é útil para ácidos nucléicos especificados genericamente.
ffn FASTA nucleotídeos de regiões codificadoras Contém regiões de codificação para um genoma.
faa aminoácido fasta Contém aminoácidos. Um arquivo fasta de múltiplas proteínas pode ter uma extensão mais específica mpfa.
frn FASTA ARN não-codificante Contém regiões de ARN não-codificante para um genoma, no alfabeto ADN por exemplo tARN, rARN

Referências

  1. Markel, Scott; León, Darryl (2003). Sequence Analysis in a Nutshell. A guide to Common Tools and Databases. Beijing: O'Reilly. p. 3-5. 286 páginas. ISBN 0-596-00494-X 
  2. Korf, Ian;Yandell, Mark;Bedell, Joseph (2003). Blast. Beijing: O'Reilly. 339 páginas. ISBN 0-596-00299-8 
  3. «IUPAC code table». NIAS DNA Bank. Consultado em 24 de outubro de 2011. Arquivado do original em 11 de agosto de 2011 

Ligações externas

[editar | editar código-fonte]