Saltar para o conteúdo

Sequência conservada: diferenças entre revisões

Origem: Wikipédia, a enciclopédia livre.
Conteúdo apagado Conteúdo adicionado
Etiqueta: Inserção de predefinição obsoleta
Etiqueta: Inserção de predefinição obsoleta
Linha 49: Linha 49:


Alinhamentos de múltiplas sequências podem ser usados para visualizar sequências conservadas. O formato [[Clustal|CLUSTAL]] inclui uma chave de texto simples para anotar as colunas conservadas do alinhamento, denotando a sequência conservada (*), mutações conservativas (:), mutações semi-conservativas (.), mutações não conservativas ( )<ref>{{cite web |url=http://www.ebi.ac.uk/Tools/msa/clustalw2/help/faq.html#23 |website=Clustal |title=Clustal FAQ #Symbols |accessdate=8 December 2014}}</ref> Os logotipos de sequência também podem mostrar uma sequência conservada representando as proporções de caracteres em cada ponto no alinhamento por altura.<ref name="Weblogo">{{cite web |title=Weblogo |url=http://weblogo.berkeley.edu/ |publisher=UC Berkeley |accessdate=30 December 2017}}</ref>
Alinhamentos de múltiplas sequências podem ser usados para visualizar sequências conservadas. O formato [[Clustal|CLUSTAL]] inclui uma chave de texto simples para anotar as colunas conservadas do alinhamento, denotando a sequência conservada (*), mutações conservativas (:), mutações semi-conservativas (.), mutações não conservativas ( )<ref>{{cite web |url=http://www.ebi.ac.uk/Tools/msa/clustalw2/help/faq.html#23 |website=Clustal |title=Clustal FAQ #Symbols |accessdate=8 December 2014}}</ref> Os logotipos de sequência também podem mostrar uma sequência conservada representando as proporções de caracteres em cada ponto no alinhamento por altura.<ref name="Weblogo">{{cite web |title=Weblogo |url=http://weblogo.berkeley.edu/ |publisher=UC Berkeley |accessdate=30 December 2017}}</ref>

===Alinhamento de genoma ===

[[Arquivo:ECR_browser_showing_conserved_OTX2_gene_in_vertebrates.png|thumb|500px|right|Esta imagem do navegador ECR<ref>{{cite web |url=https://ecrbrowser.dcode.org |title=ECR Browser |website=ECR Browser |accessdate=9 January 2018}}</ref> mostra o resultado do alinhamento de diferentes genomas de vertebrados com o genoma humano no gene [[Ortodenticle homeobox 2 |OTX2]]. Topo: Anotações genéticas de [[Exão|éxons]] e [[Intrão|íntrons]] do gene OTX2. Para cada genoma, similaridade de sequência (%) em comparação com o genoma humano é plotado. As faixas mostram os genomas de [[Danio rerio|peixe-zebra]], [[cão]], [[Gallus gallus domesticus|galinha]], [[Xenopus tropicalis|sapo com garras ocidental]], [[Didelphidae|gambá]], [[Mus|camundongo]], [[Macaca mulatta|macaco-rhesus]] e [[chimpanzé]]. Os picos mostram regiões de alta similaridade de sequência em todos os genomas, mostrando que essa sequência é altamente conservada.]]

Alinhamentos do genoma inteiro (abreviados na literatura em [[Língua inglesa|inglês]] como WGAs, de '''''w'''hole '''g'''enome '''a'''lignments'') também pode ser usado para identificar regiões altamente conservadas entre as espécies. Atualmente a precisão e [[escalabilidade]] de ferramentas WGA permanece limitada devido à complexidade computacional de lidar com rearranjos, regiões de repetição e o grande tamanho de muitos genomas eucarióticos.<ref>{{cite journal |last1=Earl |first1=Dent |last2=Nguyen |first2=Ngan |last3=Hickey |first3=Glenn |last4=Harris |first4=Robert S. |last5=Fitzgerald |first5=Stephen |last6=Beal |first6=Kathryn |last7=Seledtsov |first7=Igor |last8=Molodtsov |first8=Vladimir |last9=Raney |first9=Brian J. |last10=Clawson |first10=Hiram |last11=Kim |first11=Jaebum |last12=Kemena |first12=Carsten |last13=Chang |first13=Jia-Ming |last14=Erb |first14=Ionas |last15=Poliakov |first15=Alexander |last16=Hou |first16=Minmei |last17=Herrero |first17=Javier |last18=Kent |first18=William James |last19=Solovyev |first19=Victor |last20=Darling |first20=Aaron E. |last21=Ma |first21=Jian |last22=Notredame |first22=Cedric |last23=Brudno |first23=Michael |last24=Dubchak |first24=Inna |last25=Haussler |first25=David |last26=Paten |first26=Benedict |title=Alignathon: a competitive assessment of whole-genome alignment methods |journal=Genome Research |date=December 2014 |volume=24 |issue=12 |pages=2077–2089 |doi=10.1101/gr.174920.114}}</ref> Contudo, WGAs de 30 ou mais bactérias intimamente relacionadas ([[procarionte]]s) agora são cada vez mais viáveis.<ref>{{cite journal |last1=Rouli |first1=L. |last2=Merhej |first2=V. |last3=Fournier |first3=P.-E. |last4=Raoult |first4=D. |title=The bacterial pangenome as a new tool for analysing pathogenic bacteria |journal=New Microbes and New Infections |date=September 2015 |volume=7 |pages=72–85 |doi=10.1016/j.nmni.2015.06.005}}</ref><ref>{{cite journal |last1=Méric |first1=Guillaume |last2=Yahara |first2=Koji |last3=Mageiros |first3=Leonardos |last4=Pascoe |first4=Ben |last5=Maiden |first5=Martin C. J. |last6=Jolley |first6=Keith A. |last7=Sheppard |first7=Samuel K. |last8=Bereswill |first8=Stefan |title=A Reference Pan-Genome Approach to Comparative Bacterial Genomics: Identification of Novel Epidemiological Markers in Pathogenic Campylobacter |journal=PLoS ONE |date=27 March 2014 |volume=9 |issue=3 |pages=e92798 |doi=10.1371/journal.pone.0092798}}</ref>


{{referências}}
{{referências}}

Revisão das 16h31min de 3 de agosto de 2018

Um alinhamento de sequências múltiplo de cinco proteínas histona H1 de mamíferos
Sequências são os aminoácidos para resíduos 120-180 das proteínas. Os resíduos que são conservados em todas as seqüências são destacados em cinza. Abaixo de cada sítio (i.e., posição) do alinhamento da sequência proteica é uma chave que denota sítios conservados (*), sítios com substituições conservativas (:), sítios com substituições semi-conservativas (.), e sítios com substituições não-conservativas ( ).[1]

Em biologia evolutiva, sequências conservadas são sequências similares ou idênticas em ácidos nucleicos (DNA e RNA) ou proteínas através das espécies (sequências ortólogas) ou dentro de um genoma (sequências parálogas). Conservação indica que uma sequência foi mantida por seleção natural.[2][3][4][5][6]

Uma sequência altamente conservada é aquela que permaneceu relativamente inalterada desde muito tempo atrás na árvore filogenética, e, portanto, muito longe no tempo geológico.[7][8][9] Exemplos de sequências altamente conservadas incluem componentes do RNA de ribossomos presentes em todos os domínios da vida,[10][11][12] as sequências homeobox difundidas entre eucariotas,[13][14] e o tmRNA em bactérias.[15][16] O estudo da conservação de sequências se sobrepõe aos campos de genômica, proteômica, biologia evolucionária, filogenética, bioinformática e matemática.

História

A descoberta do papel do DNA na herança, e observações por Frederick Sanger de variações entre insulinas animais em 1949,[17] fez com que os primeiros biólogos moleculares estudassem taxonomia de uma perspectiva molecular.[18][19] Estudos nos anos 1960 usaram hibridização de DNA e técnicas de reatividade cruzada de proteínas para medir a similaridade entre proteínas ortólogos, tais como a hemoglobina[20] e citocromo c.[21] Em 1965, Émile Zuckerkandl e Linus Pauling introduziram o conceito de relógio molecular,[22] propondo que taxas constantes de mutação poderiam ser usadas para estimar o tempo desde que dois organismos divergiram. Enquanto as filogenias iniciais se aproximavam do registro fóssil, observações que alguns genes pareciam evoluir a taxas diferentes levaram ao desenvolvimento de teorias de evolução molecular.[18][19] A comparação de 1966 de Margaret Dayhoff de sequências de ferrodoxina mostrou que seleção natural agiria para conservar e otimizar sequências de proteínas essenciais à vida.[23]

Mecanismos

Ao longo de muitas gerações, as sequências de ácidos nucleicos no genoma de uma linhagem evolutiva pode mudar gradualmente ao longo do tempo devido a mutações aleatórias deleções.[24][25] Sequências também podem recombinar ou ser deletadas devido a rearranjos cromossômicos. Sequências conservadas são aquelas que persistem no genoma apesar de tais forças, e têm taxas de mutação mais lentas do que a taxa de mutação de fundo.[26]

Conservação pode ocorrer em sequências de ácidos nucleicos codificantes e não codificantes. Acredita-se que sequências de DNA altamente conservadas tenham valor funcional, embora o papel de muitas sequências de DNA não codificadoras altamente conservadas seja pouco compreendido. A extensão em que uma sequência é conservada pode ser afetada por variações pressões seletivas, sua robustez à mutação, tamanho da população e deriva genética.[27][28] Muitas sequências funcionais também são modulares, contendo regiões que podem ser sujeitas a pressões seletivas, tais como domínios proteicos.[29][30]

Sequência codificante

Em sequências codificantes, o ácido nucleico e a sequência de aminoácidos podem ser armazenados em diferentes extensões, como a degeneração do código genético significa que mutações sinônimas em uma sequência codificante não afeta a sequência de aminoácidos de seu produto proteico.[31][32][33][34][35][36]

Sequências de aminoácidos podem ser preservadas mantendo a estrutura ou função de uma proteína ou domínio. Proteínas conservadas sofrem menos substituições de aminoácidos, ou são mais propensos a substituir aminoácidos com propriedades bioquímicas semelhantes. Dentro de uma sequência, os aminoácidos que são importantes para enovelamento, estabilidade estrutural, ou que formem uma sítio de ligação podem ser mais altamente conservados.[37][38][39]

A sequência de ácido nucléico de um gene codificador de proteína também pode ser conservada por outras pressões seletivas. O viés de uso de códon em alguns organismos pode restringir os tipos de mutações sinônimas em uma sequência. Sequências de ácidos nucleicos que causam estrutura secundária no mRNA de um gene codificador pode ser selecionado contra, como algumas estruturas podem afetar negativamente a tradução, ou conservado onde o mRNA também atua como um RNA não codificante funcional.[40][41]

Não codificante

Sequências não codificantes importantes para regulação gênica, como os sites de ligação ou reconhecimento de ribossomas e fatores de transcrição, pode ser conservado dentro de um genoma. Por exemplo, o promotor de um gene conservado ou operon também pode ser conservado. Tal como acontece com as proteínas, os ácidos nucleicos que são importantes para a estrutura e função de RNA não codificante (ncRNA) também pode ser conservado. No entanto, a conservação de sequências em ncRNAs é geralmente pobre em comparação com sequências de codificação de proteína, e em vez disso, pares de bases que contribuem para a estrutura ou função são muitas vezes conservados.[42][43]

Identificação

Sequências conservadas são tipicamente identificadas por abordagens de bioinformática baseadas em alinhamento de sequências. Avanços em sequenciamento de DNA de alto rendimento e espectrometria de massa de proteínas tem aumentado substancialmente a disponibilidade de sequências de proteínas e genomas inteiros para comparação desde o início dos anos 2000.[44][45][46][47][48]

Pesquisa de homologia

Sequências conservadas podem ser identificadas por pesquisa de homologia, usando ferramentas tais como BLAST, HMMER e Infernal.[49] As ferramentas de busca de homologia podem tomar um ácido nucléico individual ou uma sequência de proteínas como entrada, ou usar modelos estatísticos gerados a partir de alinhamentos múltiplos de sequências de sequências relacionadas conhecidas. Modelos estatísticos tais como perfil-HMMs, e modelos de covariância de RNA os quais também incorporam informações estruturais,[50] podem ser úteis ao procurar sequências relacionadas mais distantemente. As sequências de entrada são então alinhadas contra um banco de dados de sequências de indivíduos relacionados ou outras espécies. Os alinhamentos resultantes são então classificados com base no número de aminoácidos ou bases correspondentes, e no número de intervalos ou deleções gerados pelo alinhamento. Substituições conservativas aceitáveis podem ser identificadas usando matrizes de substituição tais como PAM e BLOSUM. Alinhamentos de alta pontuação são assumidos como sendo de sequências homólogas. A conservação de uma sequência pode então ser inferida pela detecção de homólogos altamente similares em uma ampla faixa filogenética.[51][52][53][54][55][56][57][58]

Alinhamento de múltiplas sequências

Um logotipo de sequência para o motivo de ligação LexA de bactéria gram-positiva. Como a adenosina na posição 5 é altamente conservada, parece maior do que outros caracteres.[59]

Alinhamentos de múltiplas sequências podem ser usados para visualizar sequências conservadas. O formato CLUSTAL inclui uma chave de texto simples para anotar as colunas conservadas do alinhamento, denotando a sequência conservada (*), mutações conservativas (:), mutações semi-conservativas (.), mutações não conservativas ( )[60] Os logotipos de sequência também podem mostrar uma sequência conservada representando as proporções de caracteres em cada ponto no alinhamento por altura.[59]

Alinhamento de genoma

Ficheiro:ECR browser showing conserved OTX2 gene in vertebrates.png
Esta imagem do navegador ECR[61] mostra o resultado do alinhamento de diferentes genomas de vertebrados com o genoma humano no gene OTX2. Topo: Anotações genéticas de éxons e íntrons do gene OTX2. Para cada genoma, similaridade de sequência (%) em comparação com o genoma humano é plotado. As faixas mostram os genomas de peixe-zebra, cão, galinha, sapo com garras ocidental, gambá, camundongo, macaco-rhesus e chimpanzé. Os picos mostram regiões de alta similaridade de sequência em todos os genomas, mostrando que essa sequência é altamente conservada.

Alinhamentos do genoma inteiro (abreviados na literatura em inglês como WGAs, de whole genome alignments) também pode ser usado para identificar regiões altamente conservadas entre as espécies. Atualmente a precisão e escalabilidade de ferramentas WGA permanece limitada devido à complexidade computacional de lidar com rearranjos, regiões de repetição e o grande tamanho de muitos genomas eucarióticos.[62] Contudo, WGAs de 30 ou mais bactérias intimamente relacionadas (procariontes) agora são cada vez mais viáveis.[63][64]

Referências

  1. «Clustal FAQ #Symbols». Clustal. Consultado em 8 de dezembro de 2014 
  2. Conserved Sequence - www.informatics.jax.org
  3. N Stojanovic, L Florea, C Riemer, D Gumucio, J Slightom, M Goodman, W Miller, and R Hardison; Comparison of five methods for finding conserved sequences in multiple alignments of gene regulatory regions. Nucleic Acids Res. 1999 Oct 1; 27(19): 3899–3910. PMCID: PMC148654 PMID: 10481030
  4. Troy CS, MacHugh DE, Bailey JF, Magee DA, Loftus RT, Cunningham P, Chamberlain AT, Sykes BC, Bradley DG. Genetic evidence for Near-Eastern origins of European cattle. Chapter 4 Principles and Methods of Sequence Analysis. Nature, 2001, vol. 410, p. 1091
  5. Koonin EV, Galperin MY. [https://www.ncbi.nlm.nih.gov/books/NBK20255/ Sequence - Evolution - Function: Computational Approaches in Comparative Genomics. Boston: Kluwer Academic; 2003.
  6. Gregory M. Cooper and Christopher D. Brown; Qualifying the relationship between sequence conservation and molecular function; Genome Res. 2008. 18: 201-205. doi: 10.1101/gr.7205808
  7. Chris Simon, Francesco Frati, Andrew Beckenbach, Bernie Crespi, Hong Liu, Paul Flook; Evolution, Weighting, and Phylogenetic Utility of Mitochondrial Gene Sequences and a Compilation of Conserved Polymerase Chain Reaction Primers; Annals of the Entomological Society of America, Volume 87, Issue 6, 1 November 1994, Pages 651–701 - PDF
  8. Nikola Stojanovic, Liliana Florea, Cathy Riemer, Deborah Gumucio, Jerry Slightom, Morris Goodman, Webb Miller, Ross Hardison; Comparison of five methods for finding conserved sequences in multiple alignments of gene regulatory regions; Nucleic Acids Research, Volume 27, Issue 19, 1 October 1999, Pages 3899–3910
  9. Juan Antonio Torres Acosta, Larry C. Fowke, and Hong Wang; Analyses of phylogeny, evolution, conserved sequences and genome-wide expression of the ICK/KRP family of plant CDK inhibitors; Ann Bot. 2011 May; 107(7): 1141–1157. doi: 10.1093/aob/mcr034 PMCID: PMC3091803 PMID: 21385782
  10. Ofengand J., Bakin A., Nurse K. (1993) The Functional Role of Conserved Sequences of 16S Ribosomal RNA in Protein Synthesis. In: Nierhaus K.H., Franceschi F., Subramanian A.R., Erdmann V.A., Wittmann-Liebold B. (eds) The Translational Apparatus. Springer, Boston, MA. DOI 10.1007/978-1-4615-2407-6 46 Springer, Boston, MA Print ISBN 978-1-4613-6021-6
  11. Prinz A, Behrens C, Rapoport TA, Hartmann E, Kalies K-U. Evolutionarily conserved binding of ribosomes to the translocation channel via the large ribosomal RNA. The EMBO Journal. 2000;19(8):1900-1906. doi:10.1093/emboj/19.8.1900.
  12. George E. Fox; Origin and Evolution of the Ribosome; Cold Spring Harb Perspect Biol. 2010 Sep; 2(9): a003483. doi: 10.1101/cshperspect.a003483 PMCID: PMC2926754 PMID: 20534711
  13. Fongang B, Kong F, Negi S, Braun W, Kudlicki A. A Conserved Structural Signature of the Homeobox Coding DNA in HOX genes. Scientific Reports. 2016;6:35415. doi:10.1038/srep35415.
  14. Graça Celeste Gomes Rocha, Régis Lopes Corrêa, Anna Cristina Neves Borges, Claudio Bustamante Pereira de Sá and Márcio Alves-Ferreira; Identification and characterization of homeobox genes in Eucalyptus; Genetics and Molecular Biology, 28, 3 (suppl), 511-519 (2005)
  15. Kapoor S, Samhita L, Varshney U. Functional Significance of an Evolutionarily Conserved Alanine (GCA) Resume Codon in tmRNA in Escherichia coli. Journal of Bacteriology. 2011;193(14):3569-3576. doi:10.1128/JB.01446-10.
  16. Schönhuber W, Le Bourhis G, Tremblay J, Amann R, Kulakauskas S. Utilization of tmRNA sequences for bacterial identification. BMC Microbiol. 2001 Sep 7;1:20.
  17. Sanger, F. (24 de setembro de 1949). «Species Differences in Insulins». Nature. 164 (4169): 529–529. doi:10.1038/164529a0 
  18. a b Marmur, J; Falkow, S; Mandel, M (outubro de 1963). «New Approaches to Bacterial Taxonomy». Annual Review of Microbiology. 17 (1): 329–372. doi:10.1146/annurev.mi.17.100163.001553 
  19. a b Pace, N. R.; Sapp, J.; Goldenfeld, N. (17 de janeiro de 2012). «Phylogeny and beyond: Scientific, historical, and conceptual significance of the first tree of life». Proceedings of the National Academy of Sciences. 109 (4): 1011–1018. PMC 3268332Acessível livremente. doi:10.1073/pnas.1109716109 
  20. Zuckerlandl, Emile; Pauling, Linus B. (1962). «Molecular disease, evolution, and genetic heterogeneity». Horizons in Biochemistry: 189–225 
  21. Margoliash, E (outubro de 1963). «PRIMARY STRUCTURE AND EVOLUTION OF CYTOCHROME C». Proc Natl Acad Sci U S A. 50 (4): 672–679. PMC 221244Acessível livremente. doi:10.1073/pnas.50.4.672 
  22. Zuckerkandl, E; Pauling, LB (1965). «Evolutionary Divergence and Convergence in Proteins». Evolving Genes and Proteins: 96–166. doi:10.1016/B978-1-4832-2734-4.50017-6 
  23. Eck, R. V.; Dayhoff, M. O. (15 de abril de 1966). «Evolution of the Structure of Ferredoxin Based on Living Relics of Primitive Amino Acid Sequences». Science. 152 (3720): 363–366. doi:10.1126/science.152.3720.363 
  24. Kimura, M (17 de fevereiro de 1968). «Evolutionary Rate at the Molecular Level». Nature. 217 (5129): 624–626. doi:10.1038/217624a0 
  25. King, J. L.; Jukes, T. H. (16 de maio de 1969). «Non-Darwinian Evolution». Science. 164 (3881): 788–798. doi:10.1126/science.164.3881.788 
  26. Kimura, M; Ohta, T (1974). «On Some Principles Governing Molecular Evolution» (PDF). Proc Natl Acad Sci USA. 71 (7): 2848–2852. PMC 388569Acessível livremente. PMID 4527913. doi:10.1073/pnas.71.7.2848 
  27. Zhang, Jianzhi, and Jian-Rong Yang. “Determinants of the Rate of Protein Sequence Evolution.” Nature reviews. Genetics 16.7 (2015): 409–420. PMC. Web. 21 July 2018.
  28. Christian D. Huber, Bernard Y. Kim, Clare D. Marsden, Kirk E. Lohmueller; Determining the factors driving selective effects of new nonsynonymous mutations; Proceedings of the National Academy of Sciences Apr 2017, 114 (17) 4465-4470; DOI: 10.1073/pnas.1619508114
  29. Schmidt, Edward E., and Christopher J. Davies. “The Origins of Polypeptide Domains.” BioEssays : news and reviews in molecular, cellular and developmental biology 29.3 (2007): 262–270. PMC. Web. 21 July 2018.
  30. Kaessmann, Henrik. “Origins, Evolution, and Phenotypic Impact of New Genes.” Genome Research 20.10 (2010): 1313–1326. PMC. Web. 21 July 2018.
  31. Rogozin, Igor B. et al.; Purifying and directional selection in overlapping prokaryotic genes; Trends in Genetics, Volume 18, Issue 5, p228–232, 1 May 2002.
  32. Wayne Delport, Konrad Scheffler, and Cathal Seoighe; Models of coding sequence evolution; Brief Bioinform. 2009 Jan; 10(1): 97–109.
  33. Eugene V. Koonin and Artem S. Novozhilov; Origin and evolution of the genetic code: the universal enigma; IUBMB Life. 2009 Feb; 61(2): 99–111. doi: 10.1002/iub.146
  34. Michael F. Lin, Pouya Kheradpour, Stefan Washietl, Brian J. Parker, Jakob S. Pedersen and Manolis Kellis; Locating protein-coding sequences under selection for additional, overlapping functions in 29 mammalian genomes; Genome Res. 2011. 21: 1916-1928. doi: 10.1101/gr.108753.110
  35. Fabienne F. V. Chevance, Soazig Le Guyon, and Kelly T. Hughes; Josep Casadesús, Editor; The Effects of Codon Context on In Vivo Translation Speed; PLoS Genet. 2014 Jun; 10(6): e1004392.
  36. Vincent P. Mauro and Stephen A. Chappell; A critical analysis of codon optimization in human therapeutics; Trends Mol Med. 2014 Nov; 20(11): 604–613. doi: 10.1016/j.molmed.2014.09.003
  37. Einat Sitbon and Shmuel Pietrokovski; Occurrence of protein structure elements in conserved sequence regions; BMC Struct Biol. 2007; 7: 3. doi: 10.1186/1472-6807-7-3
  38. Birgit Pils, Richard R Copley, and Jörg Schultz; Variation in structural location and amino acid conservation of functional sites in protein domain families; BMC Bioinformatics. 2005; 6: 210. doi: 10.1186/1471-2105-6-210
  39. Kristoffer Illergård; On the effects of structure and function on protein evolution; : Department of Biochemistry and Biophysics, Stockholm University; y US-AB, Stockholm 2010. ISBN 978-91-7155-980-7
  40. Chamary, JV; Hurst, Laurence D (2005). «Evidence for selection on synonymous mutations affecting stability of mRNA secondary structure in mammals». Genome Biology. 6 (9): R75. doi:10.1186/gb-2005-6-9-r75 
  41. Wadler, C. S.; Vanderpool, C. K. (27 de novembro de 2007). «A dual function for a bacterial small RNA: SgrS performs base pairing-dependent regulation and encodes a functional polypeptide». Proceedings of the National Academy of Sciences. 104 (51): 20454–20459. PMC 2154452Acessível livremente. doi:10.1073/pnas.0708102104 
  42. Johnsson, Per; Lipovich, Leonard; Grandér, Dan; Morris, Kevin V. (March 2014). «Evolutionary conservation of long non-coding RNAs; sequence, structure, function». Biochimica et Biophysica Acta (BBA) - General Subjects. 1840 (3): 1063–1071. PMC 3909678Acessível livremente. doi:10.1016/j.bbagen.2013.10.035  Verifique data em: |data= (ajuda)
  43. Freyhult, E. K.; Bollback, J. P.; Gardner, P. P. (6 December 2006). «Exploring genomic dark matter: A critical assessment of the performance of homology search methods on noncoding RNA». Genome Research. 17 (1): 117–125. doi:10.1101/gr.5890907  Verifique data em: |data= (ajuda)
  44. Adam J. Liska, Andrej Shevchenko; Expanding the organismal scope of proteomics: Cross-species protein identification by mass spectrometry and its implications; Proteomics 2003, 3, 19–28
  45. Searle BC, Dasari S, Turner M, Reddy AP, Choi D, Wilmarth PA, McCormack AL, David LL, Nagalla SR. High-throughput identification of proteins and unanticipated sequence modifications using a mass-based alignment algorithm for MS/MS de novo sequencing results. Anal Chem. 2004 Apr 15;76(8):2220-30.
  46. Bianca Habermann, Jeffrey Oegema, Shamil Sunyaev, and Andrej Shevchenko; The Power and the Limitations of Cross-Species Protein Identification by Mass Spectrometry-driven Sequence Similarity Searches; Molecular & Cellular Proteomics 3.3, 2004. pg 238-249
  47. William R. Pearson; An Introduction to Sequence Similarity (“Homology”) Searching; Curr Protoc Bioinformatics. 2013 Jun; 0 3: 10.1002/0471250953.bi0301s42. doi: 10.1002/0471250953.bi0301s42
  48. Rute R.da Fonseca, et al; Next-generation biology: Sequencing and data analysis approaches for non-model organisms; Marine Genomics, Volume 30, December 2016, Pages 3-13
  49. Nawrocki, E. P.; Eddy, S. R. (4 September 2013). «Infernal 1.1: 100-fold faster RNA homology searches». Bioinformatics. 29 (22): 2933–2935. doi:10.1093/bioinformatics/btt509  Verifique data em: |data= (ajuda)
  50. Eddy, SR; Durbin, R (11 June 1994). «RNA sequence analysis using covariance models.». Nucleic Acids Research. 22 (11): 2079–88. PMC 308124Acessível livremente. PMID 8029015. doi:10.1093/nar/22.11.2079  Verifique data em: |data= (ajuda)
  51. Dayhoff, M. O. (1978). Survey of new data and computer methods of analysis. Atlas of protein sequence and structure, 5.
  52. Winona C. Barker, Lynne K. Ketcham, Margaret O. Dayhoff; A comprehensive examination of protein sequences for evidence of internal gene duplication; Journal of Molecular Evolution; December 1978, Volume 10, Issue 4, pp 265–281.
  53. Roger L. Blanken, Lynn C. Klotz, Alan G. Hinnebusch; Computer comparison of new and existing criteria for constructing evolutionary trees from sequence data; Journal of Molecular Evolution; December 1982, Volume 19, Issue 1, pp 9–19.
  54. Henikoff, S. and Henikoff, J. G. (1992). Amino acid substitution matrices from protein blocks. Proceedings of the national academy of sciences of the united states of america, 22(89):10915–10919.
  55. John H. Gillespie; The Causes of Molecular Evolution; Oxford University Press, 1994. pg 43
  56. Society of General Physiologists. Symposium; Molecular Evolution of Physiological Processes: Society of General Physiologists, 47th Annual Symposium; Rockefeller Univ. Press, 1994. pg 121
  57. Thiago de Souza Rodrigues; Codificação de Seqüências de Aminoácidos e sua Aplicação na Classificação de Proteínas com Redes Neurais Artificiais; Tese submetida à Banca Examinadora designada pelo Programa de Pós-Graduação em Bioinformática da Universidade Federal de Minas Gerais, como requisito parcial à obtenção do título de Doutor em Bioinformática. Universidade Federal de Minas Gerais Instituto de Ciências Biológicas Programa de Pós-Graduação em Bioinformática. Belo Horizonte Abril, 2007.
  58. John Oakeshott, Max J. Whitten; Molecular Approaches to Fundamental and Applied Entomology; Springer Science & Business Media, 2012. pg 206
  59. a b «Weblogo». UC Berkeley. Consultado em 30 December 2017  Verifique data em: |acessodata= (ajuda)
  60. «Clustal FAQ #Symbols». Clustal. Consultado em 8 December 2014  Verifique data em: |acessodata= (ajuda)
  61. «ECR Browser». ECR Browser. Consultado em 9 January 2018  Verifique data em: |acessodata= (ajuda)
  62. Earl, Dent; Nguyen, Ngan; Hickey, Glenn; Harris, Robert S.; Fitzgerald, Stephen; Beal, Kathryn; Seledtsov, Igor; Molodtsov, Vladimir; Raney, Brian J.; Clawson, Hiram; Kim, Jaebum; Kemena, Carsten; Chang, Jia-Ming; Erb, Ionas; Poliakov, Alexander; Hou, Minmei; Herrero, Javier; Kent, William James; Solovyev, Victor; Darling, Aaron E.; Ma, Jian; Notredame, Cedric; Brudno, Michael; Dubchak, Inna; Haussler, David; Paten, Benedict (December 2014). «Alignathon: a competitive assessment of whole-genome alignment methods». Genome Research. 24 (12): 2077–2089. doi:10.1101/gr.174920.114  Verifique data em: |data= (ajuda)
  63. Rouli, L.; Merhej, V.; Fournier, P.-E.; Raoult, D. (September 2015). «The bacterial pangenome as a new tool for analysing pathogenic bacteria». New Microbes and New Infections. 7: 72–85. doi:10.1016/j.nmni.2015.06.005  Verifique data em: |data= (ajuda)
  64. Méric, Guillaume; Yahara, Koji; Mageiros, Leonardos; Pascoe, Ben; Maiden, Martin C. J.; Jolley, Keith A.; Sheppard, Samuel K.; Bereswill, Stefan (27 March 2014). «A Reference Pan-Genome Approach to Comparative Bacterial Genomics: Identification of Novel Epidemiological Markers in Pathogenic Campylobacter». PLoS ONE. 9 (3): e92798. doi:10.1371/journal.pone.0092798  Verifique data em: |data= (ajuda)