Interação proteína-proteína: diferenças entre revisões

Origem: Wikipédia, a enciclopédia livre.
Conteúdo apagado Conteúdo adicionado
m formatação das referências 1 e 2
formatação das referências
Linha 1: Linha 1:
{{Formatar referências}}
{{Formatar referências}}
A '''rede de interação proteína-proteína''' (IPP ou PPI do termo inglês "Protein-Protein Interaction") codifica as interações entre as proteínas de um organismo e auxilia no mapeamento do seu [[Interactoma|interatôma]].<ref name="predictingPPImolecular">{{Citar periódico |url=https://www.researchgate.net/publication/301288053_Predicting_Protein-Protein_Interactions_from_the_Molecular_to_the_Proteome_Level |título=Predicting Protein-Protein Interactions from the Molecular to the Proteome Level |autor=Keskin, Ozlem; Tuncbag, Nurcan; Gursoy, Attila |periódico=Chemical reviews |data=2016 |volume=116 |número=8 |doi=10.1021/acs.chemrev.5b00683 |acessodata=20 de junho de 2020}}}}</ref> Nessa rede duas proteínas estão conectadas se existe evidência de que elas interagem. As [[proteínas]] são alguns dos componentes biológicos de um [[organismo]], elas exercem diversas funções biológicas a partir das suas interações e são centrais para a maioria dos processos biológicos celulares do organismo,<ref name="barabasiPPI">{{Citar periódico |url=https://barabasi.com/f/153.pdf |título=Functional and topological characterization of protein interaction networks |autor=Yook, Soon-Hyung; Oltvai, Zoltan; Barabasi, Albert-Laszlo |data=2004 |periódico=Proteomics |volume=4 |páginas=928-42 |doi=10.1002/pmic.200300636 |acessodata=20 de junho de 2020}}}}</ref><ref name="predictingPPImolecular"/> desde o metabolismo até resposta a estímulos. O mapeamento completo das [[Interações proteína-proteína|interações de proteínas]] que podem ocorrer no sistema complexo de um organismo é chamado de interatôma e faz parte do estudo da [[Interatômica]], que compreende todo o conjunto de interações moleculares que ocorre em uma determinada célula. Para entender um [[sistema complexo]] é necessário entender como seus componentes se interagem e as redes são ótimos modelos para codificar essas interações.<ref name="howcomplete">[https://doi.org/10.1186/gb-2006-7-11-120], Hart, G.T., Ramani, A.K. & Marcotte, E.M. How complete are current levedura and human protein-interaction networks?. Genome Biol 7, 120 (2006)</ref> Uma rede é um catálogo dos componentes de um sistema, geralmente chamados de nós ou vértices, e das interações diretas entre eles, chamadas conexões ou arestas.<ref name="netscienceBarabasi">[http://networksciencebook.com/], Barabasi, Albert-Laszlo & Pósfai, Márton. (2015) Network Science</ref> A representação matemática de uma rede é chamada de [[grafo]] segundo a [[Teoria dos Grafos]].
A '''rede de interação proteína-proteína''' (IPP ou PPI do termo inglês "Protein-Protein Interaction") codifica as interações entre as proteínas de um organismo e auxilia no mapeamento do seu [[Interactoma|interatôma]].<ref name="predictingPPImolecular">{{Citar periódico |url=https://www.researchgate.net/publication/301288053_Predicting_Protein-Protein_Interactions_from_the_Molecular_to_the_Proteome_Level |título=Predicting Protein-Protein Interactions from the Molecular to the Proteome Level |autor=Keskin, Ozlem; Tuncbag, Nurcan; Gursoy, Attila |periódico=Chemical reviews |data=2016 |volume=116 |número=8 |doi=10.1021/acs.chemrev.5b00683 |acessodata=20 de junho de 2020}}}}</ref> Nessa rede duas proteínas estão conectadas se existe evidência de que elas interagem. As [[proteínas]] são alguns dos componentes biológicos de um [[organismo]], elas exercem diversas funções biológicas a partir das suas interações e são centrais para a maioria dos processos biológicos celulares do organismo,<ref name="barabasiPPI">{{Citar periódico |url=https://barabasi.com/f/153.pdf |título=Functional and topological characterization of protein interaction networks |autor=Yook, Soon-Hyung; Oltvai, Zoltan; Barabasi, Albert-Laszlo |data=2004 |periódico=Proteomics |volume=4 |páginas=928-42 |doi=10.1002/pmic.200300636 |acessodata=20 de junho de 2020}}</ref><ref name="predictingPPImolecular"/> desde o metabolismo até resposta a estímulos. O mapeamento completo das [[Interações proteína-proteína|interações de proteínas]] que podem ocorrer no sistema complexo de um organismo é chamado de interatôma e faz parte do estudo da [[Interatômica]], que compreende todo o conjunto de interações moleculares que ocorre em uma determinada célula. Para entender um [[sistema complexo]] é necessário entender como seus componentes se interagem e as redes são ótimos modelos para codificar essas interações.<ref name="howcomplete">{{Citar periódico |url=https://doi.org/10.1186/gb-2006-7-11-120 |título=How complete are current yeast and human protein-interaction networks? |autor=Hart, G.T.; Ramani, A.K.; Marcotte, E.M. |data=2006 |periódico=Genome Biol |volume=7 |número=120 |doi=10.1186/gb-2006-7-11-120 |acessodata=20 de junho de 2020}}</ref> Uma rede é um catálogo dos componentes de um sistema, geralmente chamados de nós ou vértices, e das interações diretas entre eles, chamadas conexões ou arestas.<ref name="netscienceBarabasi">{{Citar livro |url=http://networksciencebook.com/ |título=Network Science |autor=Barabasi, Albert-Laszlo ; Pósfai, Márton. |data=2015 |editora=Cambridge University Press |isbn=9781107076266 |acessodata=20 de junho de 2020}}</ref> A representação matemática de uma rede é chamada de [[grafo]] segundo a [[Teoria dos Grafos]].


As interações de proteínas podem ser medidas por métodos biológicos experimentais ou preditas por métodos computacionais. Os métodos experimentais seguem duas categorias: (1) métodos binários que medem interações físicas diretas entre pares de proteínas, sendo o [[Sistema de duplo híbrido|sistema duplo-híbrido]] em leveduras (Y2H do inglês yeast two-hybrid) o método genético de larga escala mais utilizado; e (2) métodos co-complexos que medem interações físicas entre grupos de proteínas sem diferenciar se elas são diretas ou indiretas, sendo a purificação por afinidade em tandem acoplada a espectrometria de massas (TAP-MS do inglês tandem affinity purification coupled to mass spectrometry) o método proteômico de larga escala mais utilizado.<ref name="PPIessentials">[https://www.researchgate.net/publication/44853042_Protein-Protein_Interactions_Essentials_Key_Concepts_to_Building_and_Analyzing_Interactome_Networks/citation/download],De Las Rivas, Javier & Fontanillo, Celia. (2010). Protein–Protein Interactions Essentials: Key Concepts to Building and Analyzing Interactome Networks. PLoS computational biology. 6. e1000807. 10.1371/journal.pcbi.1000807. </ref> Os métodos computacionais englobam predições de IPPs a partir da análise de dados biológicos heterogêneos, como sequência, evolução, expressão e estrutura de proteínas. A maioria dos métodos computacionais podem ser agrupados nos baseados em simulação, usualmente feitos em baixa escala devido a um alto custo computacional, e nos baseados em estatística/aprendizado de máquina, os quais podem ser aplicados em larga escala.<ref name="predictingPPImolecular" />
As interações de proteínas podem ser medidas por métodos biológicos experimentais ou preditas por métodos computacionais. Os métodos experimentais seguem duas categorias: (1) métodos binários que medem interações físicas diretas entre pares de proteínas, sendo o [[Sistema de duplo híbrido|sistema duplo-híbrido]] em leveduras (Y2H do inglês yeast two-hybrid) o método genético de larga escala mais utilizado; e (2) métodos co-complexos que medem interações físicas entre grupos de proteínas sem diferenciar se elas são diretas ou indiretas, sendo a purificação por afinidade em tandem acoplada a espectrometria de massas (TAP-MS do inglês tandem affinity purification coupled to mass spectrometry) o método proteômico de larga escala mais utilizado.<ref name="PPIessentials">{{Citar periódico |url=https://www.researchgate.net/publication/44853042_Protein-Protein_Interactions_Essentials_Key_Concepts_to_Building_and_Analyzing_Interactome_Networks/ |título=Protein–Protein Interactions Essentials: Key Concepts to Building and Analyzing Interactome Networks. |autor=De Las Rivas, Javier; Fontanillo, Celia. |data=2010 |periódico=PLoS computational biology. |volume=6 |doi=110.1371/journal.pcbi.1000807 |acessodata=20 de junho de 2020}}</ref> Os métodos computacionais englobam predições de IPPs a partir da análise de dados biológicos heterogêneos, como sequência, evolução, expressão e estrutura de proteínas. A maioria dos métodos computacionais podem ser agrupados nos baseados em simulação, usualmente feitos em baixa escala devido a um alto custo computacional, e nos baseados em estatística/aprendizado de máquina, os quais podem ser aplicados em larga escala.<ref name="predictingPPImolecular" />


Uma '''rede IPP''' completa representando um mapa completo da interatôma de um organismo seria um passo enorme na direção de entender as funções de seus genes e o funcionamento do seu corpo a nível celular.<ref name="barabasiPPI" /> Porém esse dado é inviável de ser obtido experimentalmente para especies mais complexas, desde a levedura que possui a interatôma bastante estudado até o do humano que ainda é pouco conhecido. Para completar o interatôma do ser humano que possui em torno de 20 000 a 25 000 proteínas seriam necessários de 20 000 * 20 000 / 2 a 25 000 * 25 000 / 2 experimentos, totalizando 200 milhões a 300 milhões experimentos.<ref name="howcomplete" /> Isso implica na incompletude dos dados já que não sabemos de fato quais são essas interações e não conseguimos medir todas elas. Logo, isso também implica na impossibilidade de validação dos métodos de detecção de interações. Sem validação, a frequência de falsos positivos detectados nos ensaios experimentais pode ser muito alta, em um estudo de 2006 estimou-se que menos do que 50% do interatôma da levedura era conhecido e ainda menos se sabia sobre o interatôma humano.<ref name="howcomplete" />
Uma '''rede IPP''' completa representando um mapa completo da interatôma de um organismo seria um passo enorme na direção de entender as funções de seus genes e o funcionamento do seu corpo a nível celular.<ref name="barabasiPPI" /> Porém esse dado é inviável de ser obtido experimentalmente para especies mais complexas, desde a levedura que possui a interatôma bastante estudado até o do humano que ainda é pouco conhecido. Para completar o interatôma do ser humano que possui em torno de 20 000 a 25 000 proteínas seriam necessários de 20 000 * 20 000 / 2 a 25 000 * 25 000 / 2 experimentos, totalizando 200 milhões a 300 milhões experimentos.<ref name="howcomplete" /> Isso implica na incompletude dos dados já que não sabemos de fato quais são essas interações e não conseguimos medir todas elas. Logo, isso também implica na impossibilidade de validação dos métodos de detecção de interações. Sem validação, a frequência de falsos positivos detectados nos ensaios experimentais pode ser muito alta, em um estudo de 2006 estimou-se que menos do que 50% do interatôma da levedura era conhecido e ainda menos se sabia sobre o interatôma humano.<ref name="howcomplete" />


A recorrência de repetições das interações de proteínas em diferentes ensaios experimentais pode auxiliar na seleção de interações mais confiáveis, classificadas como "dados principais".<ref name="funcHubs">[https://www.researchgate.net/publication/233891562_On_the_functional_and_structural_characterization_of_hubs_in_protein-protein_interaction_networks], Bertolazzi, Paola & Bock, Mary & Guerra, Concettina. (2012). On the functional and structural characterization of hubs in protein-protein interaction networks. Biotechnology advances. 31. 10.1016/j.biotechadv.2012.12.002. </ref> Dessa forma, a disponibilização dos dados não tratados de interação de proteínas poderia contribuir na detecção do conjunto de "dados principais",<ref name="howcomplete" /> e na subsequente criação de uma rede IPP mais confiável. De toda forma, o estudo de redes IPPs da levedura já revelou sua utilidade descobrindo funções de proteínas, prevendo comportamento celular, e na analise de regulação de genes complexos. Espera-se que as redes IPPs humanas sejam igualmente informativas.<ref name="howcomplete" />
A recorrência de repetições das interações de proteínas em diferentes ensaios experimentais pode auxiliar na seleção de interações mais confiáveis, classificadas como "dados principais".<ref name="funcHubs">{{Citar periódico |url=https://www.researchgate.net/publication/233891562_On_the_functional_and_structural_characterization_of_hubs_in_protein-protein_interaction_networks |título=On the functional and structural characterization of hubs in protein-protein interaction networks. |autor=Paola & Bock, Mary; Guerra, Concettina. |data=2012 |periódico=Biotechnology advances. |volume=31 |número=8 |doi=10.1016/j.biotechadv.2012.12.002 |acessodata=20 de junho de 2020}}</ref> Dessa forma, a disponibilização dos dados não tratados de interação de proteínas poderia contribuir na detecção do conjunto de "dados principais",<ref name="howcomplete" /> e na subsequente criação de uma rede IPP mais confiável. De toda forma, o estudo de redes IPPs da levedura já revelou sua utilidade descobrindo funções de proteínas, prevendo comportamento celular, e na analise de regulação de genes complexos. Espera-se que as redes IPPs humanas sejam igualmente informativas.<ref name="howcomplete" />


[[Imagem:Multiplex Human HIV-1 protein-protein interaction network (multilayer visualization).png|thumb|Rede IPP do HIV-1 Humano em visão de multi camadas, cada camada representa diferentes dados de interação de proteínas e à direita o resultado da agregação de todos]]
[[Imagem:Multiplex Human HIV-1 protein-protein interaction network (multilayer visualization).png|thumb|Rede IPP do HIV-1 Humano em visão de multi camadas, cada camada representa diferentes dados de interação de proteínas e à direita o resultado da agregação de todos]]
Linha 22: Linha 22:
[[Imagem:2iae pp2a trimer.png|thumb|A proteína humana fosfatase 2A (PP2A) em um complexo heteroméricos, mostrado a interação entre a subunidade reguladora A (vermelho), subunidade reguladora B56 (verde), e a subunidade catalítica (azul escuro). Renderizado do PDB ID 2IAE]]
[[Imagem:2iae pp2a trimer.png|thumb|A proteína humana fosfatase 2A (PP2A) em um complexo heteroméricos, mostrado a interação entre a subunidade reguladora A (vermelho), subunidade reguladora B56 (verde), e a subunidade catalítica (azul escuro). Renderizado do PDB ID 2IAE]]


As estruturas de alguns dos complexos biológicos formados pelas IPPs podem ser encontradas em complexos cristalográficos obtidos por meio de cristalografia de raio-X no Banco Mundial de Proteínas (PDB do inglês "[[Protein Data Bank]]").<ref name="predictingPPImolecular" /><ref>[https://www.rcsb.org],H.M. Berman, J. Westbrook, Z. Feng, G. Gilliland, T.N. Bhat, H. Weissig, I.N. Shindyalov, P.E. Bourne.
As estruturas de alguns dos complexos biológicos formados pelas IPPs podem ser encontradas em complexos cristalográficos obtidos por meio de cristalografia de raio-X no Banco Mundial de Proteínas (PDB do inglês "[[Protein Data Bank]]").<ref name="predictingPPImolecular" /><ref>{{Citar periódico |url=https://www.rcsb.org |título=The Protein Data Bank |autor=H.M. Berman, J. Westbrook, Z. Feng, G. Gilliland, T.N. Bhat, H. Weissig, I.N. Shindyalov, P.E. Bourne. |data=2000 |periódico=Biotechnology advances |volume=31 |número=2 |doi=10.1016/j.biotechadv.2012.12.002 |acessodata=20 de junho de 2020}}</ref> O PDB fornece as imagens e as sequencias de proteínas resolvidas e depositadas pela comunidade de biologia estrutural.
(2000) The Protein Data Bank Nucleic Acids Research, 28: 235-242.</ref> O PDB fornece as imagens e as sequencias de proteínas resolvidas e depositadas pela comunidade de biologia estrutural.


=== Métodos Experimentais ===
=== Métodos Experimentais ===
Linha 123: Linha 122:
=== Topologia de Escala Livre ===
=== Topologia de Escala Livre ===


Por muito tempo acreditava-se que as redes complexas tinham seus componentes (nós) conectados de forma aleatória.<ref>[https://doi.org/10.1017/S0013091500028443], B. Bollobás, Random graphs (London Mathematical Society Monographs, Academic Press, London, 1985)</ref> Porém isso implicaria na maioria dos nós tendo o mesmo número de conexões. Em contrapartida, estudos do início do século XXI em redes reais demonstraram que muitas delas são dominadas por poucos nós com muitas conexões, denominados "hubs", e muitos nós com poucas conexões.<ref>[https://www.researchgate.net/publication/12779869_Albert_R_Emergence_of_Scaling_in_Random_Networks_Science_286_509-512], Barabasi, Albert-Laszlo & Albert, Reka. (1999). Albert, R.: Emergence of Scaling in Random Networks. Science 286, 509-512. Science (New York, N.Y.). 286. 509-12. 10.1126/science.286.5439.509. </ref> Essa característica representa a topologia de escala livre (do inglês scale-free) presente em diversas redes reais, na qual o número de nós com k conexões segue uma distribuição de lei de potência, P(k) = k<sup>-γ</sup>, onde γ é o grau do expoente.<ref name="barabasiPPI" /><ref name="netscienceBarabasi" /> A natureza heterogênea da topologia de redes de escala livre tem consequências importantes na tolerância a erros e robustez das redes celulares, e também foi detectada em redes IPPs.<ref name="barabasiPPI" /> Tipicamente para rede IPPs 2 < γ < 3.<ref name="barabasiPPI" /><ref name="funcHubs" />
Por muito tempo acreditava-se que as redes complexas tinham seus componentes (nós) conectados de forma aleatória.<ref>{{Citar periódico |url=https://doi.org/10.1017/S0013091500028443 |título=Random graphs |autor=B. Bollobás |data=1985 |periódico=London Mathematical Society Monographs, Academic Press |páginas=447 |doi=10.1017/S0013091500028443 |acessodata=20 de junho de 2020}}</ref> Porém isso implicaria na maioria dos nós tendo o mesmo número de conexões. Em contrapartida, estudos do início do século XXI em redes reais demonstraram que muitas delas são dominadas por poucos nós com muitas conexões, denominados "hubs", e muitos nós com poucas conexões.<ref>[https://www.researchgate.net/publication/12779869_Albert_R_Emergence_of_Scaling_in_Random_Networks_Science_286_509-512], Barabasi, Albert-Laszlo & Albert, Reka. (1999). Albert, R.: Emergence of Scaling in Random Networks. Science 286, 509-512. Science (New York, N.Y.). 286. 509-12. 10.1126/science.286.5439.509. </ref> Essa característica representa a topologia de escala livre (do inglês scale-free) presente em diversas redes reais, na qual o número de nós com k conexões segue uma distribuição de lei de potência, P(k) = k<sup>-γ</sup>, onde γ é o grau do expoente.<ref name="barabasiPPI" /><ref name="netscienceBarabasi" /> A natureza heterogênea da topologia de redes de escala livre tem consequências importantes na tolerância a erros e robustez das redes celulares, e também foi detectada em redes IPPs.<ref name="barabasiPPI" /> Tipicamente para rede IPPs 2 < γ < 3.<ref name="barabasiPPI" /><ref name="funcHubs" />


É bastante controverso se a natureza de escala livre das redes IPPs não é apenas um artefato da incompletude dos banco de dados existentes, cuja origem está na ausência de potenciais interações e na presença de falso positivos.<ref name="barabasiPPI" /><ref name="funcHubs" /> O estudo extenso em redes de escala livre indicam que isso é improvável pois uma amostragem aleatória de uma rede de escala livre também é uma rede de escala livre, o que é impossível de acontecer se a amostragem fosse feita em uma rede sem essa topologia.<ref name="barabasiPPI" />
É bastante controverso se a natureza de escala livre das redes IPPs não é apenas um artefato da incompletude dos banco de dados existentes, cuja origem está na ausência de potenciais interações e na presença de falso positivos.<ref name="barabasiPPI" /><ref name="funcHubs" /> O estudo extenso em redes de escala livre indicam que isso é improvável pois uma amostragem aleatória de uma rede de escala livre também é uma rede de escala livre, o que é impossível de acontecer se a amostragem fosse feita em uma rede sem essa topologia.<ref name="barabasiPPI" />

Revisão das 03h28min de 25 de junho de 2020

A rede de interação proteína-proteína (IPP ou PPI do termo inglês "Protein-Protein Interaction") codifica as interações entre as proteínas de um organismo e auxilia no mapeamento do seu interatôma.[1] Nessa rede duas proteínas estão conectadas se existe evidência de que elas interagem. As proteínas são alguns dos componentes biológicos de um organismo, elas exercem diversas funções biológicas a partir das suas interações e são centrais para a maioria dos processos biológicos celulares do organismo,[2][1] desde o metabolismo até resposta a estímulos. O mapeamento completo das interações de proteínas que podem ocorrer no sistema complexo de um organismo é chamado de interatôma e faz parte do estudo da Interatômica, que compreende todo o conjunto de interações moleculares que ocorre em uma determinada célula. Para entender um sistema complexo é necessário entender como seus componentes se interagem e as redes são ótimos modelos para codificar essas interações.[3] Uma rede é um catálogo dos componentes de um sistema, geralmente chamados de nós ou vértices, e das interações diretas entre eles, chamadas conexões ou arestas.[4] A representação matemática de uma rede é chamada de grafo segundo a Teoria dos Grafos.

As interações de proteínas podem ser medidas por métodos biológicos experimentais ou preditas por métodos computacionais. Os métodos experimentais seguem duas categorias: (1) métodos binários que medem interações físicas diretas entre pares de proteínas, sendo o sistema duplo-híbrido em leveduras (Y2H do inglês yeast two-hybrid) o método genético de larga escala mais utilizado; e (2) métodos co-complexos que medem interações físicas entre grupos de proteínas sem diferenciar se elas são diretas ou indiretas, sendo a purificação por afinidade em tandem acoplada a espectrometria de massas (TAP-MS do inglês tandem affinity purification coupled to mass spectrometry) o método proteômico de larga escala mais utilizado.[5] Os métodos computacionais englobam predições de IPPs a partir da análise de dados biológicos heterogêneos, como sequência, evolução, expressão e estrutura de proteínas. A maioria dos métodos computacionais podem ser agrupados nos baseados em simulação, usualmente feitos em baixa escala devido a um alto custo computacional, e nos baseados em estatística/aprendizado de máquina, os quais podem ser aplicados em larga escala.[1]

Uma rede IPP completa representando um mapa completo da interatôma de um organismo seria um passo enorme na direção de entender as funções de seus genes e o funcionamento do seu corpo a nível celular.[2] Porém esse dado é inviável de ser obtido experimentalmente para especies mais complexas, desde a levedura que possui a interatôma bastante estudado até o do humano que ainda é pouco conhecido. Para completar o interatôma do ser humano que possui em torno de 20 000 a 25 000 proteínas seriam necessários de 20 000 * 20 000 / 2 a 25 000 * 25 000 / 2 experimentos, totalizando 200 milhões a 300 milhões experimentos.[3] Isso implica na incompletude dos dados já que não sabemos de fato quais são essas interações e não conseguimos medir todas elas. Logo, isso também implica na impossibilidade de validação dos métodos de detecção de interações. Sem validação, a frequência de falsos positivos detectados nos ensaios experimentais pode ser muito alta, em um estudo de 2006 estimou-se que menos do que 50% do interatôma da levedura era conhecido e ainda menos se sabia sobre o interatôma humano.[3]

A recorrência de repetições das interações de proteínas em diferentes ensaios experimentais pode auxiliar na seleção de interações mais confiáveis, classificadas como "dados principais".[6] Dessa forma, a disponibilização dos dados não tratados de interação de proteínas poderia contribuir na detecção do conjunto de "dados principais",[3] e na subsequente criação de uma rede IPP mais confiável. De toda forma, o estudo de redes IPPs da levedura já revelou sua utilidade descobrindo funções de proteínas, prevendo comportamento celular, e na analise de regulação de genes complexos. Espera-se que as redes IPPs humanas sejam igualmente informativas.[3]

Rede IPP do HIV-1 Humano em visão de multi camadas, cada camada representa diferentes dados de interação de proteínas e à direita o resultado da agregação de todos

Interação Proteína-Proteína

A definição de IPPs deve considerar: (1o) a interface de interação entre as proteínas deve ser intencional e não acidental, ou seja, resultado de eventos/forças biomoleculares selecionadas especificamente; e (2o) a interface de interação deve ser não-genérica, ou seja, evolui para um objetivo especifico distinto de funções totalmente genéricas como produção de proteínas, degradação e outras.[5] Outro elemento essencial para definir IPPs é o contexto biológico em que a interação acontece. As interações dependem do tipo celular em que as proteínas se encontram, da fase e do estado do ciclo celular, do estagio de desenvolvimento, condições ambientais da célula, modificações na proteína (por exemplo fosforilação), presença de co-fatores, e presença de outros parceiros para ligação.[5]

Os tipos de IPP podem ser classificados em 4 subdivisões diferentes dependendo das características do complexo proteico (ou de proteínas) formado pelas duas ou mais proteínas envolvidas na interação:[1]

  1. Complexos homoméricos ou heteroméricos: se a interação ocorre entre proteínas (subunidades) idênticas elas formam um complexo homoméricos (em sua maioria simétrico e mais estável), em contrapartida se a IPP ocorre entre proteínas (subunidades) diferentes ela forma um complexo heteroméricos (estabilidade variada);
  2. Complexos obrigatórios e não obrigatórios: se as proteínas envolvidas na IPP são instáveis quando isoladas e são estáveis no complexo este é considerado obrigatório, caso contrário se as proteínas são estáveis independentemente quando isoladas o complexo resultante da IPP é não obrigatório.
  3. Complexos Transientes e Permanentes: se após a ocorrência da IPP as duas proteínas permanecem ligadas no complexo esse é dito permanente (usualmente muito estável), em contrapartida complexos em interações transientes se associam e desassociam temporariamente e dependendo da afinidade entre as proteínas podem formar uma interação forte ou fraca. Interações obrigatório são permanentes enquanto interações não obrigatórios podem ser transientes ou permanentes;
  4. Complexos Desordenados-a-Ordenados: se a IPP envolve proteínas desordenadas, as quais possuem regiões não estruturadas que se adaptam a conformação da proteína parceira, o complexo é dito desordenado. Caso contrário, se a estrutura das proteínas envolvidas na IPP são estáveis e ordenadas (suas estruturadas não se modificam/adaptam na ligação) o complexo é dito ordenado.
A proteína humana fosfatase 2A (PP2A) em um complexo heteroméricos, mostrado a interação entre a subunidade reguladora A (vermelho), subunidade reguladora B56 (verde), e a subunidade catalítica (azul escuro). Renderizado do PDB ID 2IAE

As estruturas de alguns dos complexos biológicos formados pelas IPPs podem ser encontradas em complexos cristalográficos obtidos por meio de cristalografia de raio-X no Banco Mundial de Proteínas (PDB do inglês "Protein Data Bank").[1][7] O PDB fornece as imagens e as sequencias de proteínas resolvidas e depositadas pela comunidade de biologia estrutural.

Métodos Experimentais

A acurácia dos métodos experimentais de larga escala para a detecção de interações de proteínas sofre com uma alta taxa de falsos positivos, especialmente nos dados TAP-MS não editados para pares de proteína que estão no mesmo complexo mas não em contato físico direto.[6] As conexões calculadas com o TAP-MS são atribuídas usando o modelo de raios (do inglês "spoke model") para diminuir a taxa de falsos positivos. Nesse modelo uma proteína alvo é utilizada para "capturar" um grupo de proteínas presas que interagem direta ou indiretamente com o alvo e são todas conectadas a este na rede.[5] Já no caso do sistema Y2H o maior desafio é a falha em não considerar os aspectos dinâmicos da interação de proteínas. Isso gera falsos positivos na interação de proteínas que se encontram em compartimentos celulares completamente diferentes, e logo, não interagem de fato no organismo. E falsos negativos quando a interação ocorre após modificações post-translational, o que não é possível com o sistema Y2H.[1] Essa incerteza diminui a intersecção entre diferentes conjuntos de dados de interação de proteínas e eles ainda são enviesados para proteínas mais abundantes.[1][5]

Interações da proteína ERICH5 em uma rede com topologia do modelo de raios ("spoke model")


Métodos Computacionais/Preditivos

A limitação dos métodos experimentais cria a necessidade por métodos computacionais de predição de interações de proteínas. Várias abordagens computacionais existem para predizer IPPs. Os métodos baseados em simulação modelam as forças governando as interações de proteínas, usualmente a nível atômico, e calculam a força da interação. Esses métodos incluem simulação dinâmica e docking de proteínas, e são mais utilizados no estudo da dinâmica das proteínas do que na determinação das suas interações devido a um alto custo computacional. Por outro lado os método estatísticos/aprendizado de máquina podem ser aplicados em larga escala e utilizam informação de interações conhecidas de proteínas para fazer as predições. Além desses dois métodos principais, a predição computacional par-a-par de IPPs e sua analise pode ser feita usando mapeamento de ortólogos, eventos de fusão de gene/domínio, co-ocorrência de domínio, e co-expressão de gene.[1] Uma comparação desses métodos feita em 2016 é apresentada na tabela a seguir.[1]

Tabela 1. Comparação de Métodos Preditivos de IPP

Método Entrada Melhor Predição (transiente/permanente) Avaliação da Energia Disponível
busca de ortólogos sequência completa do genoma de vários organismos usualmente para complexos obrigatórios mas não transiente sim
fusão de gene/domínio sequência completa do genoma de vários organismos/dados de associação de domínio de proteína bom para interações físicas permanentes, mas não é bom para interações promiscuas de domínios sim
clusterização de gene e vizinhança de gene sequência (não necessariamente completa) do genoma de vários organismos bom para interações funcionais, mas não é bom para interações físicas -
Acoplamento de resíduo e co-evolução sequência de aminoácidos de proteínas que interagem   bom para interações físicas e diretas sim
similaridade de filogenia sequência (não necessariamente completa) do genoma de vários organismos bom para interações funcionais e físicas não
topologia de rede dados de IPP binários Para interações funcionais e para interações permanentes e transientes não
perfil de co-expressão de genes dados de expressão de gene e ORF principalmente para interações funcionais não
docking estrutura da proteínas principalmente para interações diretas sim
Aprendizado de máquina e mineração de texto diversos tipos de dados, incluindo sequência, estrutura, expressão de gene, literatura pode ser utilizado para interações funcionais e diretas e para interações transientes e permanentes sim

Banco de Dados de IPPs

É necessário distinguir bem entre as IPPs experimentais e as IPPs preditas. Na primeira situação, a IPP é provada experimentalmente, enquanto que na segunda a IPP é predita por dados biológicos vindo de outras técnicas, por exemplo de genes correspondentes, o que não prova de fato uma interação de proteína direta.[5] De toda forma, a junção desses diferentes métodos pode trazer mais confiança e acurácia para as redes IPPs sendo geradas. Uma lista com banco de dados e repositórios de IPPs estão descritos na tabela a seguir.[1]

Tabela 2. Lista de Bancos de Dados Organizando IPPs Experimentais e Curadas pela Literatura

Nome Link Web Método de Avaliação da Qualidade Número de Interações Número de Proteínas
DIP http://dip.doe-mbi.ucla.edu/ curado 78 191 27 098
MINT http://mint.bio.uniroma2.it/mint/ curado 241 458 35 553
IntAct http://www.ebi.ac.uk/intact/ curado 456 489 83 574
HPRD http://www.hprd.org/ curado 41 327 30 047
BIND http://bind.ca curado
MIPS http://mips.helmholtz-muenchen.de/proj/ppi/ curado
CORUM http://mips.helmholtz-muenchen.de/genre/proj/corum um recurso de complexos de proteínas anotados manualmente de organismos mamíferos
BioGRID http://thebiogrid.org/ interações de proteínas e genéticas curadas por publicações 345 577 53 561
Banco de Dados de Interatômica CCSB http://interactome.dfci.harvard.edu/ Y2H de larga escala, não curado 4 303 13 944
InWeb http://www.broadinstitute.org/mpg/dapple/dapple.php não curado, nota de confiança 428 430 12 793
STRING http://string-db.org/ não curado, nota de confiança >5 milhões
MiMI http://mimi.ncibi.org/MimiWeb/AboutPage.html avaliação e nota da qualidade 3.5 milhões 3.7 milhões
HIPPIE http://cbdm.mdc-berlin.de/tools/hippie/information.php avaliação e nota da qualidade 72 916 11 836
iRefWeb http://wodaklab.org/iRefWeb avaliação e nota da qualidade ∼18 000 (para humanos) ∼222 098 (para humanos)
HitPredict http://hintdb.hgc.jp/htp/ avaliação e nota da qualidade 176 983 36 930
IMID www.integrativebiology.org avaliação e nota da qualidade
HAPPI http://discern.uits.iu.edu:8340/HAPPI/ avaliação e nota da qualidade 2 922 202 32 125
HUPO http://www.psidev.info/groups/molecular-interactions avaliação e nota da qualidade
Pathway Databases
KEGG http://www.kegg.jp/ curado
BioCarta http://www.biocarta.com/genes/index.asp
Reactome http://www.reactome.org/ curado 7 041 (em humanos) 7 460(em humanos)
ConsensusPathDB http://consensuspathdb.org/ 416 872 154 537
SPIKE http://www.cs.tau.ac.il/~spike/ curado 20 412 34 338
NCI-PID http://pid.nci.nih.gov/index.shtml curado 9 248

Rede IPP

Topologia de Escala Livre

Por muito tempo acreditava-se que as redes complexas tinham seus componentes (nós) conectados de forma aleatória.[8] Porém isso implicaria na maioria dos nós tendo o mesmo número de conexões. Em contrapartida, estudos do início do século XXI em redes reais demonstraram que muitas delas são dominadas por poucos nós com muitas conexões, denominados "hubs", e muitos nós com poucas conexões.[9] Essa característica representa a topologia de escala livre (do inglês scale-free) presente em diversas redes reais, na qual o número de nós com k conexões segue uma distribuição de lei de potência, P(k) = k, onde γ é o grau do expoente.[2][4] A natureza heterogênea da topologia de redes de escala livre tem consequências importantes na tolerância a erros e robustez das redes celulares, e também foi detectada em redes IPPs.[2] Tipicamente para rede IPPs 2 < γ < 3.[2][6]

É bastante controverso se a natureza de escala livre das redes IPPs não é apenas um artefato da incompletude dos banco de dados existentes, cuja origem está na ausência de potenciais interações e na presença de falso positivos.[2][6] O estudo extenso em redes de escala livre indicam que isso é improvável pois uma amostragem aleatória de uma rede de escala livre também é uma rede de escala livre, o que é impossível de acontecer se a amostragem fosse feita em uma rede sem essa topologia.[2]

Muitas investigações propuseram que a natureza de escala livre observada nas redes IPPs pode ser resultado da duplicação de gene, um processo que ocorre frequentemente na evolução. Cada evento de duplicação de gene leva a uma nova proteína que interage com as mesma proteínas que a proteína produto do gene original duplicado (característica de crescimento da rede). Proteínas que possuem muitas conexões possuem mais chances de serem conectadas a um gene duplicante, e logo, ganhar novas interações com a nova proteína criada (característica de ligação preferencial, proteínas com muitas conexões aumentam suas interações mais rápido do que aquelas com poucas conexões - fenômeno rico fica mais rico). Esses dois ingredientes resultantes da duplicação de genes, o crescimento e a ligação preferencial, são os ingredientes necessários para o surgimento de uma rede de escala livre,[2] e fortalecem a hipótese de que as redes IPPs têm de fato essa topologia.

Modularidade

Modularidade assume a existência de complexos de proteínas que são grupos de proteínas que trabalham juntas para alcançar alguma função biológica bem definida ou estão envolvidas no mesmo processo biológico.[2][6] Da perspectiva da rede esses módulos deveriam aparecer como grupos distintos de nós que são muito interconectados entre si mas que possuem apenas poucas ligações com nós fora do modulo,[2] sendo que os hubs exercem um importante papel em interconectar tais módulos.[6] Em 2004 foi evidenciado que redes IPPs apresentam um alto grau de modularidade com uma organização hierárquica, caracterizada por um coeficiente de clusterização dependente do grau de cada nó dado por C(k) ≈ k, onde beta é o expoente de modularidade que caracteriza a modularidade hierárquica da rede. O coeficiente de clusterização Ci de um nó i mede a fração de conexões entre os nós da sua vizinhança (conjunto de todos os nós diretamente ligados a i). Foi encontrado β ≈ 2 para as rede IPPs analisadas.[2] Uma observação interessante é que complexos de proteínas são geralmente evolutivamente conservados, e foi observado que tais módulos podem ser encontrados em diferentes organismos com padrões de interação idênticos ou similares, tais como entre levedura e mosca e entre humanos e mosca.[6] Além disso, essa modularidade também pode representar em um certo grau proteínas pertencentes a diferentes localizações celulares.[2]

Proteins-are-grouped-based-on-their-subcellular-location-in-the-network-of-the-human-plasma-membrane-peripheral-proteins

Propriedade de Mundo Pequeno

Outra propriedade importante das redes de interação de proteínas atuais é a fragmentação da rede em muitos clusters distintos, caracterizada pela presença de um cluster gigante que engloba uma fração significativa dos nós e diversos clusters menores ou nós isolados (proteínas que não possuem interações conhecidas).[2] Nesse contexto de ciência de redes um cluster, também chamado de componente, é um conjunto de nós que estão interligados, ou seja, existe um caminho passando pelas conexões desses nós que permitir sair de um nó e chegar a qualquer outro nó do mesmo cluster. Essa fragmentação pode ser um indicativo de que os banco de dados existentes contém apenas uma fração de todas as IPPs presentes nos organismos estudados. De fato, se mais interações de proteínas forem descobertas, é esperado que o cluster gigante absorva uma grande fração de todas as proteínas, e uma rede de proteínas totalmente conectada poderia surgir com um único componente gigante. O cluster gigante das redes IPPs é tipicamente muito interconectado, o que resulta em uma distância nó-a-nó (ou diâmetro) pequena. Esse diâmetro pequeno é um indicativo de que as redes de interação de proteínas têm a propriedade de mundo pequeno, o que significa que a distância média nó-a-nó na rede é pequena. De fato, analisando esse cluster gigante para 4 diferentes bancos de dados de IPPs mostrou que a distância média nó-a-nó variou de 4 a 8.[2]

Large-scale characteristics of four protein interaction databases, shown on a log-log plot. (a) Degree distribution. (b) Distribution of the clustering coefficient. (c) Cluster size distribution

Discussão

As redes IPP podem fornecer uma visão complementar para os processos biológicas que englobam as proteínas correspondentes. Para o futuro dessa área e para os provedores de banco de dados restam dois desafios: (1) um filtro melhor de falsos positivos em coleções de IPP; e (2) uma distinção adequada do contexto biológico que especifica e determina a existência ou não de uma dada IPP em uma dada situação biológica.[5] Apesar de existirem muitos esforços para construir a interatômica em escala proteômica, a incerteza e falta de definição clara de uma interatômica dificultam o processo. Além disso, considerar a característica dinâmica, os compartimentos celulares, a estabilidade, a afinidade e dependência do tempo da interações de proteína é o objetivo final para ganhar mais informações sobre os mecanismos celulares por baixo das redes IPPs.[1][6]

Referências

  1. a b c d e f g h i j k Keskin, Ozlem; Tuncbag, Nurcan; Gursoy, Attila (2016). «Predicting Protein-Protein Interactions from the Molecular to the Proteome Level». Chemical reviews. 116 (8). doi:10.1021/acs.chemrev.5b00683. Consultado em 20 de junho de 2020 }}
  2. a b c d e f g h i j k l m n Yook, Soon-Hyung; Oltvai, Zoltan; Barabasi, Albert-Laszlo (2004). «Functional and topological characterization of protein interaction networks» (PDF). Proteomics. 4: 928-42. doi:10.1002/pmic.200300636. Consultado em 20 de junho de 2020 
  3. a b c d e Hart, G.T.; Ramani, A.K.; Marcotte, E.M. (2006). «How complete are current yeast and human protein-interaction networks?». Genome Biol. 7 (120). doi:10.1186/gb-2006-7-11-120. Consultado em 20 de junho de 2020 
  4. a b Barabasi, Albert-Laszlo ; Pósfai, Márton. (2015). Network Science. [S.l.]: Cambridge University Press. ISBN 9781107076266. Consultado em 20 de junho de 2020 
  5. a b c d e f g De Las Rivas, Javier; Fontanillo, Celia. (2010). «Protein–Protein Interactions Essentials: Key Concepts to Building and Analyzing Interactome Networks.». PLoS computational biology. 6. doi:110.1371/journal.pcbi.1000807 Verifique |doi= (ajuda). Consultado em 20 de junho de 2020 
  6. a b c d e f g h Paola & Bock, Mary; Guerra, Concettina. (2012). «On the functional and structural characterization of hubs in protein-protein interaction networks.». Biotechnology advances. 31 (8). doi:10.1016/j.biotechadv.2012.12.002. Consultado em 20 de junho de 2020 
  7. H.M. Berman, J. Westbrook, Z. Feng, G. Gilliland, T.N. Bhat, H. Weissig, I.N. Shindyalov, P.E. Bourne. (2000). «The Protein Data Bank». Biotechnology advances. 31 (2). doi:10.1016/j.biotechadv.2012.12.002. Consultado em 20 de junho de 2020 
  8. B. Bollobás (1985). «Random graphs». London Mathematical Society Monographs, Academic Press. 447 páginas. doi:10.1017/S0013091500028443. Consultado em 20 de junho de 2020 
  9. [1], Barabasi, Albert-Laszlo & Albert, Reka. (1999). Albert, R.: Emergence of Scaling in Random Networks. Science 286, 509-512. Science (New York, N.Y.). 286. 509-12. 10.1126/science.286.5439.509.