Bioinformática estrutural

Origem: Wikipédia, a enciclopédia livre.
Estrutura protéica 3D. Estruturas como essa são assuntos comuns nas análises de bioinformática

Bioinformática estrutural é um ramo da bioinformática focado no estudo de estruturas de moléculas, como por exemplo, DNA, RNA, proteínas e outros compostos menores.[1] Um dos grandes desafios dessa área é compreender como essas moléculas interagem, as suas funções e observar suas estruturas. Algumas técnicas utilizadas são o alinhamento e comparação de sequências. Atualmente uma das grandes aplicações da bioinformática estrutural é o desenvolvimento de novos fármacos, que tem crescido devido ao grande investimento de grandes empresas.

Introdução[editar | editar código-fonte]

Estrutura proteica[editar | editar código-fonte]

A estrutura de uma proteína está diretamente relacionada à sua função. Logo, obter uma estrutura com alta precisão é de grande importância para compreensão do papel de uma determinada proteína estudada. Além disso, a presença de grupos químicos em locais específicos permite identificar que proteínas atuem como enzimas, catalisando várias reações químicas.[2]

Em geral, as estruturas proteicas são classificadas em quatro níveis: primário (sequências), secundário (conformação local da cadeia polipeptídica), terciário (estrutura tridimensional da proteína) e quaternário (associação de múltiplas estruturas polipeptídicas). A bioinformática estrutural trata principalmente das interações entre estruturas, levando em consideração suas coordenadas espaciais. Assim, a estrutura primária é melhor analisada nos ramos tradicionais da bioinformática. No entanto, a sequência implica restrições que permitem a formação de conformações locais conservadas da cadeia polipeptídica, como alfa-hélice, folhas beta e alças (estrutura secundária[3]). Além disso, interações fracas estabilizam a dobra de proteínas, como por exemplo as ligações de hidrogênio. Logo, identificá-las é de grande importância. As interações podem ser intracadeias, isto é, quando ocorrem entre partes do mesmo monômero de proteína (estrutura terciária) ou inter-cadeias, isto é, quando ocorrem entre estruturas diferentes (estrutura quaternária).

Visualização da estrutura[editar | editar código-fonte]

Visualização da estrutura do BACTERIOPHAGE T4 LYSOZYME (PDB ID: 2LZM). (A) Cartoon; (B) Linhas; (C) Superfície; (D) Sticks.

A visualização da estrutura de proteínas é uma questão de grande importância para a bioinformática estrutural.[4] Ela permite que os usuários observem representações estáticas ou dinâmicas das moléculas, permitindo também a detecção de interações que poderiam ser usadas para inferir sobre os mecanismos moleculares estudados.

Os tipos mais comuns de visualização são:

  • Cartoon: esse tipo de visualização destaca as diferenças de estrutura secundária em proteínas. Em geral, as hélices α são representadas como uma espécie de parafuso, as fitas-β como setas e loops como fios.
  • Linhas: cada resíduo de aminoácido é representado por linhas finas, o que permite a visualização de toda a estrutura dos resíduos com um baixo custo para a renderização gráfica.
  • Superfície: nesta visualização, é mostrada a forma externa da molécula.
  • Sticks: cada ligação covalente entre átomos de aminoácidos é representada como um bastão. Esse tipo de visualização é o mais usado para visualizar interações entre aminoácidos.

Estrutura de DNA[editar | editar código-fonte]

A estrutura clássica de dupla hélice do DNA foi inicialmente descrita por Watson e Crick (e contribuições de Rosalind Franklin). A molécula de DNA é composta por três substâncias: um grupo fosfato, uma pentose e uma base nitrogenada (adenina, timina, citosina ou guanina). A estrutura de dupla hélice do DNA é estabilizada por ligações de hidrogênio formadas entre pares de bases: adenina com timina (A-T) e citosina com guanina (C-G). Muitos estudos estruturais de bioinformática têm sido propostos visando entender as interações entre o DNA e pequenas moléculas (usados na produção de novos medicamentos).

Interações[editar | editar código-fonte]

Interações são contatos estabelecidos entre partes de moléculas em diferentes níveis. Eles são responsáveis ​​pela estabilização das estruturas proteicas e desempenham uma gama variada de atividades. Em bioquímica, as interações são caracterizadas pela proximidade de grupos de átomos ou regiões de moléculas que apresentam um efeito um sobre o outro, como forças eletrostáticas, ligação de hidrogênio e efeito hidrofóbico. As proteínas podem executar vários tipos de interações, como interações proteína-proteína, interações proteína-peptídeo, interações proteína-ligante e interação proteína-DNA.

Contatos entre dois resíduos: Q196-R200 (PDB ID: 2X1C) [5]

Cálculo de contatos[editar | editar código-fonte]

O cálculo de contatos é uma tarefa de grande importância na bioinformática estrutural, sendo vital para a previsão correta de estruturas e do enovelamento de proteínas, estabilidade termodinâmica, interações proteína-proteína e proteína-ligante, além de análises de docking e dinâmica molecular.[6]

Tradicionalmente, os métodos computacionais usam a distância de corte entre os átomos (também chamada de cutoff) para detectar possíveis interações.[7] Tal detecção é realizada com base na distância euclidiana e ângulos entre átomos de determinados tipos. No entanto, a maioria dos métodos baseados em distância euclidiana simples não pode detectar contatos ocluídos. Portanto, métodos livres de corte, como a triangulação de Delaunay, ganharam destaque nos últimos anos. Além disso, a combinação de um conjunto de critérios, por exemplo, propriedades físico-químicas, distância, geometria e ângulos, tem sido usada para melhorar a determinação de contatos por meios computacionais.[6]

Banco de dados de proteínas (PDB)[editar | editar código-fonte]

Número de estruturas no PDB. (A) Crescimento anual da base de dados. (B) Tipos de métodos usados na obtenção dos dados: cristalografia de raios-X (cinza), espectroscopia de ressonância magnética (amarelo) e crio-microscopia eletrônica (laranja). (B) Fonte: https://www.rcsb.org/stats/growth

O Protein Data Bank (PDB) é um banco de dados de estruturas tridimensionais de macromoléculas biológicas, como proteínas, DNA e RNA. O PDB é gerenciado por uma organização internacional denominada Worldwide Protein Data Bank (wwPDB ou na tradução "Banco Mundial de Dados de Proteína"), composta por várias organizações locais: PDBe, PDBj, RCSB e BMRB. Eles são responsáveis ​​por manter cópias dos dados do PDB disponíveis na Internet, sem nenhum custo.

O número de dados de estruturas tridimensionais disponíveis no PDB tem aumentado a cada ano, sendo obtidos principalmente por métodos experimentais de cristalografia de raios-X, espectroscopia de ressonância magnética ou por crio-microscopia eletrônica.

Formato de dados[editar | editar código-fonte]

O formato PDB (.pdb) é um antigo formato de arquivo de texto usado para armazenar informações de estruturas tridimensionais usadas pelo PDB. Devido a restrições na concepção da estrutura de formato, o formato PDB não permite grandes estruturas contendo mais de 62 cadeias ou 99999 registros de átomos.[8]

Recentemente, o PDB lançou o formato PDBx/mmCIF (arquivo de informações cristalográficas macromoleculares).[9] Desde 2014, o formato PDB foi substituído como distribuição padrão do arquivo PDB pelo formato de arquivo PDBx/mmCIF (.cif). Embora o formato PDB contenha um conjunto de registros identificados por uma palavra-chave de até seis caracteres, o formato PDBx / mmCIF usa uma estrutura baseada em chave e valor, em que a chave é um nome que identifica algum recurso e o valor é a informação variável.[10]

Comparação de estruturas[editar | editar código-fonte]

Alinhamento estrutural[editar | editar código-fonte]

Alinhamento estrutural é um método de comparação entre estruturas tridimensionais com base em sua conformação.[11] Esse método pode ser usado para inferir a relação evolutiva entre um conjunto de proteínas, mesmo com baixa similaridade de sequência. Alinhamento estrutural implica em sobrepor uma estrutura 3D sob uma segunda, girando e transladando átomos para posições correspondentes (em geral, usando os átomos de Cα ou mesmo os átomos pesados ​​do esqueleto C, N, O e Cα). Geralmente, a qualidade do alinhamento é avaliada com base no RMSD (root-mean-square deviation ou na tradução "desvio quadrático médio quadrático") das posições atômicas, ou seja, a distância média entre os átomos após a sobreposição:

onde δi é a distância entre o átomo i e um átomo de referência correspondente na outra estrutura ou a coordenada média dos N átomos equivalentes.

Em geral, o resultado do RMSD é medido na unidade angstrom (Å), que é equivalente a 10−10 m, ou 0,1 nanômetro (nm), ou 100 picômetros (pm). Quanto mais próximo de zero o valor do RMSD, mais semelhantes são as estruturas.

Assinaturas estruturais baseadas em gráficos[editar | editar código-fonte]

Assinaturas estruturais, também chamadas de fingerprints, são representações de padrões de macromoléculas que podem ser usadas para inferir semelhanças e diferenças. Comparações entre um grande conjunto de proteínas usando RMSD ainda são um desafio devido ao alto custo computacional dos alinhamentos estruturais. Assim, assinaturas estruturais baseadas em padrões de distância gráfica entre pares de átomos têm sido usadas para determinar vetores de identificação de proteínas e detectar informações não triviais. Além disso, álgebra linear e o aprendizado de máquina têm sido usados ​​para agrupar assinaturas de proteínas, detectar interações proteína-ligante, prever ΔΔG e propor mutações baseadas na distância euclidiana.[12][13]

Modelagem de proteínas e outras macromoléculas[editar | editar código-fonte]

Estruturas tridimensionais de macromoléculas podem ser obtidas por vários métodos, como por exemplo cristalografia de raios-X, espectroscopia de ressonância magnética ou por crio-microscopia eletrônica. Entretanto, esses processos podem apresentar altos custos e, às vezes, algumas estruturas dificilmente podem ser estabelecidas, como por exemplo as proteínas da membrana. Assim, abordagens computacionais surgem como uma alternativa para determinar estruturas 3D de macromoléculas. Os métodos de previsão de estrutura são classificados em modelagem comparativa e modelagem de novo.

Modelagem comparativa[editar | editar código-fonte]

A modelagem comparativa, também conhecida como modelagem por homologia, é o método para construção de estruturas tridimensionais a partir da sequência de aminoácidos de uma proteína alvo (target) e um modelo com estrutura tridimensional conhecida (template). A literatura descreve que proteínas evolutivamente relacionadas tendem a apresentar uma estrutura tridimensional conservada.[14] Além disso, sequências de proteínas relacionadas à distância com identidade menor que 20% podem apresentar diferentes enovelamentos.[15] Portanto, para modelagem por comparação recomenda-se que as sequências apresentem pelo menos 25% de identidade.

Modelagem de novo[editar | editar código-fonte]

Em bioinformática estrutural, a modelagem de novo, também conhecido como modelagem ab initio, refere-se a abordagens para obter estruturas tridimensionais a partir de sequências sem a necessidade de uma estrutura 3D conhecida. Apesar dos novos algoritmos e métodos propostos nos últimos anos, a previsão da estrutura proteica de novo ainda é considerada uma das questões ainda pendentes na ciência moderna.[16]

Avaliação de estruturas[editar | editar código-fonte]

Após a modelagem da estrutura, é necessária uma etapa adicional de validação da estrutura. Isso é necessário pois muitos algoritmos e ferramentas de modelagem comparativa e 'de novo' usam heurísticas para tentar montar a estrutura 3D, o que pode gerar muitos erros. Algumas estratégias de validação consistem em calcular pontuações de energia e compará-los com estruturas determinadas experimentalmente. Por exemplo, a função DOPE é uma pontuação de energia usada pela ferramenta MODELLER para determinar o melhor modelo.[17]

Outra estratégia de validação é calcular ângulos φ e ψ do backbone de todos os resíduos do modelo da proteína e construir um gráfico de Ramachandran. A cadeia lateral de aminoácidos e a natureza das interações do backbone da proteína restringem esses dois ângulos e, assim, a visualização das conformações permitidas pode ser realizada com base no gráfico de Ramachandran. Uma alta quantidade de aminoácidos alocados em posições não permissivas do gráfico é uma indicação de uma modelagem de baixa qualidade.

Docking molecular[editar | editar código-fonte]

Docking de um ligante (verde) em uma proteína (preto).

O acoplamento molecular (também chamado de ancoramento molecular, docking molecular ou simplesmente de docking) é um método usado para prever as coordenadas de orientação de uma molécula (ligante) quando conectada a outra (receptor ou alvo). O acoplamento molecular visa prever possíveis poses (modos de ligação) do ligante quando ele interage com regiões específicas, geralmente restritas por uma caixa, no receptor. As ferramentas de ancoragem podem usar campos de força para estimar uma pontuação para classificar as melhores poses que favorecem melhores interações.

Em geral, protocolos de docking são usados ​​para prever as interações entre pequenas moléculas e proteínas. No entanto, o docking também pode ser usado para detectar associações e modos de ligação entre proteínas, peptídeos, DNA ou RNA, carboidratos e outras macromoléculas.

Triagem virtual[editar | editar código-fonte]

A triagem virtual (virtual screening) é uma abordagem computacional usada para triagem rápida de grandes bibliotecas de compostos para descoberta de medicamentos. Normalmente, a triagem virtual usa algoritmos de encaixe para classificar pequenas moléculas com maior afinidade com um receptor alvo.

Nos últimos tempos, várias ferramentas têm sido usadas para avaliar o uso da triagem virtual no processo de descoberta de novos medicamentos. No entanto, problemas como falta de informações, entendimento impreciso das propriedades das moléculas semelhantes a drogas, funções fracas de pontuação ou estratégias de acoplamento insuficientes dificultam o processo de docking. Assim, a literatura tem descrito que a triagem virtual ainda não é considerada uma tecnologia madura.[18]

Dinâmica molecular[editar | editar código-fonte]

Exemplo de uma dinâmica molecular de uma proteína β-glicosidase[19]

Dinâmica molecular é um método computacional para simular interações entre moléculas e seus átomos durante um determinado período de tempo.[20] Tal método permite observar o comportamento das moléculas e suas interações, considerando o sistema como um todo. Para calcular o comportamento dos sistemas e, assim, determinar as trajetórias, uma dinâmica molecular pode usar a equação de movimento de Newton, além de usar métodos de mecânica molecular para estimar as forças que ocorrem entre as partículas (campos de força).

Ligações externas[editar | editar código-fonte]

  • Informática Biomédica- Faculdade de Filosofia, Ciências e Letras de Ribeirão Preto - Universidade de São Paulo.
  • Programa de pós-graduação em bioinformática
  • Programa de pós-graduação em bioinformática UFMG

Referências[editar | editar código-fonte]

  1. Chandra, Nagasuma; Anand, Praveen; Yeturu, Kalidas (dezembro de 2010). «Structural bioinformatics: Deriving biological insights from protein structures». Interdisciplinary Sciences: Computational Life Sciences (em inglês). 2 (4): 347–366. ISSN 1913-2751. doi:10.1007/s12539-010-0045-6 
  2. Gu, Jenny.; Bourne, Philip E. (2009). Structural bioinformatics 2 ed. Hoboken, N.J.: Wiley-Blackwell. OCLC 799881918 
  3. Kocincová, Lucia; Jarešová, Miroslava; Byška, Jan; Parulek, Július; Hauser, Helwig; Kozlíková, Barbora (fevereiro de 2017). «Comparative visualization of protein secondary structures». BMC Bioinformatics (em inglês). 18 (S2). 23 páginas. ISSN 1471-2105. PMC 5333176Acessível livremente. PMID 28251875. doi:10.1186/s12859-016-1449-z 
  4. Shi, Maoxiang; Gao, Juntao; Zhang, Michael Q. (3 de julho de 2017). «Web3DMol: interactive protein structure visualization based on WebGL». Nucleic Acids Research (em inglês). 45 (W1): W523–W527. ISSN 0305-1048. PMC 5570197Acessível livremente. PMID 28482028. doi:10.1093/nar/gkx383 
  5. «Proteus | PROTein Engineering Supporter |». proteus.dcc.ufmg.br. Consultado em 26 de fevereiro de 2020 
  6. a b Martins, Pedro M.; Mayrink, Vinícius D.; de A. Silveira, Sabrina; da Silveira, Carlos H.; de Lima, Leonardo H. F.; de Melo- Minardi, Raquel C. (2018). «How to compute protein residue contacts more accurately?». Pau, France: ACM Press. Proceedings of the 33rd Annual ACM Symposium on Applied Computing - SAC '18 (em inglês): 60–67. ISBN 978-1-4503-5191-1. doi:10.1145/3167132.3167136 
  7. da Silveira, Carlos H.; Pires, Douglas E. V.; Minardi, Raquel C.; Ribeiro, Cristina; Veloso, Caio J. M.; Lopes, Julio C. D.; Meira, Wagner; Neshich, Goran; Ramos, Carlos H. I. (15 de fevereiro de 2009). «Protein cutoff scanning: A comparative analysis of cutoff dependent and cutoff free methods for prospecting contacts in proteins». Proteins: Structure, Function, and Bioinformatics (em inglês). 74 (3): 727–743. doi:10.1002/prot.22187 
  8. «PDBx/mmCIF General FAQ» 
  9. wwPDB.org. «wwPDB: File Formats and the PDB» (em inglês) 
  10. «PDBx/mmCIF Dictionary Resources» 
  11. «Structural alignment (genomics)» (em inglês) 
  12. Pires, Douglas EV; de Melo-Minardi, Raquel C; dos Santos, Marcos A; da Silveira, Carlos H; Santoro, Marcelo M; Meira, Wagner (dezembro de 2011). «Cutoff Scanning Matrix (CSM): structural classification and function prediction by protein inter-residue distance patterns». BMC Genomics (em inglês). 12 (S4): S12. ISSN 1471-2164. doi:10.1186/1471-2164-12-S4-S12 
  13. Mariano, Diego; Santos, Lucianna; Machado, Karina; Werhli, Adriano; de Lima, Leonardo; de Melo-Minardi, Raquel (15 de janeiro de 2019). «A Computational Method to Propose Mutations in Enzymes Based on Structural Signature Variation (SSV)». International Journal of Molecular Sciences (em inglês). 20 (2). 333 páginas. ISSN 1422-0067. doi:10.3390/ijms20020333 
  14. Kaczanowski, Szymon; Zielenkiewicz, Piotr (março de 2010). «Why similar protein sequences encode similar three-dimensional structures?». Theoretical Chemistry Accounts (em inglês). 125 (3-6): 643–650. ISSN 1432-881X. doi:10.1007/s00214-009-0656-3 
  15. Chothia, C.; Lesk, A.M. (abril de 1986). «The relation between the divergence of sequence and structure in proteins.». The EMBO Journal (em inglês). 5 (4): 823–826. doi:10.1002/j.1460-2075.1986.tb04288.x 
  16. «So Much More to Know». Science (em inglês). 309 (5731): 78b–102b. 1 de julho de 2005. ISSN 0036-8075. doi:10.1126/science.309.5731.78b 
  17. Webb, Benjamin; Sali, Andrej (setembro de 2014). «Comparative Protein Structure Modeling Using MODELLER». Current Protocols in Bioinformatics (em inglês). 47 (1): 5.6.1–5.6.32. doi:10.1002/0471250953.bi0506s47 
  18. Dhasmana, Anupam; Raza, Sana; Jahan, Roshan; Lohani, Mohtashim; Arif, Jamal M. (2019). «High-Throughput Virtual Screening (HTVS) of Natural Compounds and Exploration of Their Biomolecular Mechanisms». Elsevier (em inglês): 523–548. ISBN 978-0-12-814619-4. doi:10.1016/b978-0-12-814619-4.00020-3 
  19. Costa LS, Mariano DC, Rocha RE, Kraml J, Silveira CH, Liedl KR, et al. (setembro de 2019). «Molecular Dynamics Gives New Insights into the Glucose Tolerance and Inhibition Mechanisms on β-Glucosidases». Molecules. 24 (18). 3215 páginas. PMC 6766793Acessível livremente. PMID 31487855. doi:10.3390/molecules24183215 
  20. Alder, B. J.; Wainwright, T. E. (agosto de 1959). «Studies in Molecular Dynamics. I. General Method». The Journal of Chemical Physics (em inglês). 31 (2): 459–466. ISSN 0021-9606. doi:10.1063/1.1730376