Sequenciamento de fragmentos de DNA associados a sítios de restrição (RADseq)

Origem: Wikipédia, a enciclopédia livre.

O sequenciamento de fragmentos de DNA associado a sítios de restrição (do inglês Restriction site associated DNA sequencing, RADseq) é uma metodologia que descreve o sequenciamento dos marcadores RAD, que são um tipo de marcador molecular baseado em sítios de restrição enzimática ao longo do genoma.[1] Essa metodologia consiste na digestão do DNA genômico por uma ou mais enzimas de restrição e ligação dos fragmentos a adaptadores, o que permite a multiplexação de centenas a milhares de indivíduos, permitindo uma representação reduzida do genoma, dos loci próximos aos sítios de restrição. Dessa forma caracteriza-se por um método de sequenciamento de bibliotecas de representação reduzida (RRLs, do inglês reduced-representation libraries)A técnica consiste basicamente em fragmentar seletivamente o DNA através de uma enzima de restrição, seguida pelo sequenciamento de alto rendimento de uma porção específica dos fragmentos. Os pontos fortes do RAD-Seq incluem sua versatilidade, economia e capacidade de gerar grandes quantidades de dados das mesmas regiões de um genoma em uma grande população de amostras rapidamente e sem a necessidade de um genoma de referência. Andrews et al., 2016 A principal novidade de metodologias como o RADseq em relação ao sequenciamento de DNA de nova geração (NGS) na plataforma Illumina é o método de fragmentação do DNA. No sequenciamento NGS tradicional, o DNA é fragmentado mecanicamente, enquanto que metodologias de representação reduzida do genoma utilizam enzimas de restrição para realizar essa fragmentação. Na metodologia RADseq original, apenas uma enzima de restrição é utilizada, gerando fragmentos com uma extremidade cortada pela enzima e portanto contendo seu sítio de restrição, e a outra extremidade com sequência aleatória, pois é cortada mecanicamente. Adaptadores que contém a sequência do primer de sequenciamento da Illumina seguida por uma sequência de identificação chamada barcode (em português, código de barras) são então ligados às extremidades dos fragmentos. Esses barcodes permitem a identificação de cada amostra, de modo que é possível multiplicar várias amostras em uma mesma reação de sequenciamento. Os fragmentos de DNA gerados são então selecionados por tamanho, reduzindo então a quantidade do genoma a ser sequenciado. Essa preparação do DNA para ser sequenciado é chamada de preparo de biblioteca (ou construção de biblioteca). .[2]

Metodologia[editar | editar código-fonte]

Embora cada método baseado em enzimas de restrição tenha suas particularidades no processo de preparo da biblioteca para o sequenciamento, eles compartilham um número de etapas comuns: Extração, quantificação e qualidade do DNA genômico; fragmentação do DNA genômico de todas as amostras com enzimas de restrição e ligação dos adaptadores; amplificação por PCR (RAD-seq e GBS) e seleção de tamanho dos fragmentos (RRL e RAD-seq); sequenciamento e análise das sequências com ou sem suporte de um genoma de referência, e identificação dos SNPs (Davey et al., 2011b; Poland and Rife, 2012). A principal novidade de metodologias como o RADseq em relação ao sequenciamento de DNA de nova geração (NGS) na plataforma Illumina é o método de fragmentação do DNA. No sequenciamento NGS tradicional, o DNA é fragmentado mecanicamente, enquanto que metodologias de representação reduzida do genoma utilizam enzimas de restrição para realizar essa fragmentação. Na metodologia RADseq original, apenas uma enzima de restrição é utilizada, gerando fragmentos com uma extremidade cortada pela enzima e portanto contendo seu sítio de restrição, e a outra extremidade com sequência aleatória, pois é cortada mecanicamente. Adaptadores que contém a sequência do primer de sequenciamento da Illumina seguida por uma sequência de identificação chamada barcode (em português, código de barras) são então ligados às extremidades dos fragmentos. Esses barcodes permitem a identificação de cada amostra, de modo que é possível multiplexar várias amostras em uma mesma reação de sequenciamento. Os fragmentos de DNA gerados são então selecionados por tamanho, reduzindo então a quantidade do genoma a ser sequenciado. Essa preparação do DNA para ser sequenciado é chamada de preparo de biblioteca (ou construção de biblioteca).[2]

Aplicações[editar | editar código-fonte]

Métodos de representação reduzida do genoma como o RADseq são muito úteis em estudos na área de genômica evolutiva, ecológica e conservação de espécies. Estudos populacionais necessitam de grande número amostral, sendo necessário, portanto, alternativas mais rápidas e baratas ao sequenciamento do genoma inteiro, mas que sejam representativas. Trabalhos que utilizaram RADseq foram capazes de identificar dezenas de milhares de polimorfismos de nucleotídeo único (SNPs) no genoma de suas espécies de interesse.[2] O mapeamento de SNPs ao longo de genoma permite estimar tamanho efetivo de populações, responder perguntas referentes à adaptação, introgressão, estruturação populacional, e estudos filogenéticos.[3] A metodologia RADseq é voltada especialmente para estudos na área de genômica evolutiva mas também pode ser aplicado no campo da saúde humana, como no estudo da evolução de tumores.O RADseq irá ter uma enorme aplicação em análise genética sobre pesquisas do complexo genômico. Entrando mais no conceito da aplicação dessa técnica, como quando se trata de quadros em que envolvam problemas de saúde humana igual falado sobre a evolução de tumores, uma pesquisa sobre “Diversidade dos Tumores e evolução revelada através do RADseq” mostrou que quando o mesmo foi aplicado tanto em amostras de câncer pancreático humano quanto em melanomas de peixe-zebra e utilizando enzimas de restrição de baixa frequência ou alta frequência, foi identificado com sucesso substituições de nucleotídeos únicos e alterações no número de cópias nos tumores. Com isso, foi mostrada que tais descobertas podem ser desenvolvidas ao efetuar o RADseq em sub linhagens dentro do tumor. Foi também inferido relações filogenéticas entre tumores primários e metástases. Os estudos evolutivos de câncer que se aplicam nas taxas de evolução tumoral e nas relações evolutivas entre linhagens tumorais irão se beneficiar da maleabilidade e eficiência da sequenciação de DNA associada ao local de restrição. Além disso, a aplicação é muito vista em conservação de espécies principalmente se tratando de plantas, igual foi abordada nesse estudo sobre aplicação do RAD-seq para a avaliação da diversidade genética do Panax notoginseng (Araliaceae) domesticado, que se trata de uma planta medicinal chinesa. O RAD-seq serviu para analisar a variação genética e diferenciação desta. Os resultados de diversidade de nucleotídeos e heterozigosidade indicaram que a P. notoginseng tem baixa diversidade genética a nível de espécie e de população e quase nenhuma diferenciação genética foi localizada, e todas as populações eram semelhantes geneticamente devido a um forte fluxo gênico e tempo insuficiente para divisão. Outra aplicação do método visto em plantas foi a “RADseq approaches and applications for forest tree genetics” que detalhou como dados foram gerados a partir de diversas espécies de árvores e que também traz como as publicações sobre o uso do RAD-seq nesse tema aumentou significativamente, sugerindo que ainda tende a crescer cada vez mais e irá aproximar de gerar dados SNP. Também abrangendo áreas onde o método está contribuindo para análise genética de árvores, como mapeamento linkage, estrutura genética e história de populações, genética quantitativa molecular, inferência filogenética e base genética de adaptação e fenótipo. [4]

Seleção de Espécies[editar | editar código-fonte]

Métodos de representação reduzida do genoma como o RADseq são muito úteis em estudos na área de genômica evolutiva, ecológica e conservação de espécies. Estudos populacionais necessitam de grande número amostral, sendo necessário, portanto, alternativas mais rápidas e baratas ao sequenciamento do genoma inteiro, mas que sejam representativas. Trabalhos que utilizaram RADseq foram capazes de identificar dezenas de milhares de polimorfismos de nucleotídeo único (SNPs) no genoma de suas espécies de interesse. (informações anteriores).

Para uma melhor observação das polimorfias, é necessário um número amostral suficientemente grande para mapeamento genético dos locus ou um mapeamento específico em locus conhecidos sobre o estudo. Como no estudo do esgana-gata de três espinhos, que seu genoma foi sequenciado pois apresenta variação genética quantitativa, então foi realizado mapeamento em locais marcadores potenciais acontecendo como cruz controlada sobre a quantidade, onde as limitações são na diversidade permanente no país de pesquisa. Vale ressaltar que para o uso de RADseq em populações selvagens é diferente, pois apresentam uma distribuição de indivíduos que exclui grandes espécies da consideração para estudo.
 Também há dificuldade em mapear a estrutura gênica em organismos móveis  e em espécies empobrecidas que sofreram alterações demográficas. Nesse caso, a precisão de análises genéticas populacionais depende do número de loci utilizados a partir da análise da variação de disposição de organismos móveis.

Histórico[editar | editar código-fonte]

A técnica de marcadores do tipo RADseq (Restriction-site associated DNA) são fragmentos pequenos de DNA adjacentes a sítios de reconhecimento de enzimas de restrição. Inicialmente estes marcadores foram desenvolvidos com o propósito de detectar polimorfismos de sítios únicos (SNPs) por meio de microarranjos (microarrays) (MILLER et al., 2007). Em 2000 iniciaram-se os primeiros conceitos fundamentais sobre Radseq, que envolviam a marcação de locais de restrição no genoma e a subsequente amplificação e sequenciamento dessas regiões. O RADseq foi descrito em 2008 por Nathan Baird e colegas,[2] o mesmo grupo descreveu os marcadores RAD no ano anterior, na Universidade de Oregon, Estados Unidos.[1] Desde então foi amplamente utilizado, principalmente em trabalhos na área de ecologia molecular e genômica evolutiva, e novas abordagens foram criadas, se tornando hoje uma família de métodos.[5] Em 2012, por exemplo, Brant Peterson descreveu uma metodologia variante chamada “double-digest RADseq” (ddRADseq), que inclui uma segunda enzima de restrição, diferentemente do RADseq original que utiliza apenas uma. Dessa forma as duas extremidades de cada fragmento de DNA são conhecidas, o que permite maior redução da biblioteca, e tamanhos de fragmentos mais específicos, reduzindo custo.[6] A partir desta variante e do RADseq original outras novas variantes também surgiram, dando origem a dezenas de metodologias derivadas, como 3RAD,[7] 2bRAD,[8] hyRAD,[9] quaddRAD,[10] entre outras.[5]

Em princípio os marcadores RAD eram utilizados através de SNPs arrays, posteriormente foram adaptadores para o sequenciamento NGS.

Técnicas Laboratoriais[editar | editar código-fonte]

Etapas Laboratoriais envolvidas na técnica RADseq:

Primeiramente o método inclui cinco principais etapas dentre elas estão: Corte do DNA pela restrição de enzima; dessa maneira os fragmentos de cada amostra são ligados a um adaptador P1 que contém uma extremidade adesiva que torna possível a ligação e um MID (identificador molecular que irá identificar e marcar exclusivamente o fragmento); esses fragmentos são agrupados e cortados de forma aleatória para gerar fragmentos de tamanhos entre 300-700pb, ao final todos os fragmentos serão ligados a um adaptador P2 com final divergente em todos os fragmentos com e sem adaptadores P1. Esses fragmentos serão amplificados por PCR com oligonucleotídeos específicos para P1 e P2, isso significa que apenas fragmentos com adaptadores P1 e P2 são amplificados, ou seja, os fragmentos que contém os sítios de restrição.

Trabalhos que utilizaram RADseq[editar | editar código-fonte]

RADSeq: next-generation population genetics <https://academic.oup.com/bfg/article/9/5-6/416/182576>

John W Davey, Mark L Blaxter

As tecnologias de sequenciamento de próxima geração estão causando um impacto substancial em diversas áreas da biologia, incluindo a análise da diversidade genética em populações. No entanto, estudos genéticos de larga escala em populações foram inicialmente acessíveis apenas para sistemas modelo bem financiados. O sequenciamento de DNA associado a sítios de restrição, um método que amostra com complexidade reduzida em genomas-alvo, promete fornecer dados genômicos populacionais de alta resolução a custos razoáveis — milhares de marcadores sequenciados em muitos indivíduos — para qualquer organismo. Ele tem encontrado aplicação em populações selvagens e espécies de estudo não tradicionais, e promete tornar-se uma tecnologia importante para a genômica populacional ecológica.

RADpainter and fineRADstructure: Population Inference from RADseq Data. <https://academic.oup.com/mbe/article/35/5/1284/4883220>

Milan Malinsky, Emiliano Trucchi, Daniel John Lawson, Daniel Falush


Até agora, métodos poderosos para inferir a estrutura populacional recente ou atual, baseados na "coancestria" de haplótipos dos vizinhos mais próximos, eram inacessíveis para usuários sem dados de haplótipos abrangentes em todo o genoma. Com o crescimento da genômica de organismos não modelados, surge a necessidade premente de tornar esses métodos acessíveis a comunidades sem recursos para dados desse tipo. Apresentamos aqui o RADpainter, um novo software projetado para derivar a matriz de coancestria a partir de dados de sequenciamento de DNA associado a sítios de restrição (RADseq). Unimos esse programa a um algoritmo de agrupamento MCMC previamente publicado para criar o fineRADstructure — um pacote abrangente, de fácil utilização e rápido para inferência populacional a partir de dados de RADseq (https://github.com/millanek/fineRADstructure; última consulta em 24 de fevereiro de 2018). Por fim, utilizando dois conjuntos de dados de exemplo, demonstramos o uso, as vantagens e a robustez do método em relação à ausência de alelos RAD no sequenciamento RAD de digestão dupla.


dDocent: a RADseq, variant-calling pipeline designed for population genomics of non-model organisms <https://peerj.com/articles/431/>

Jonathan B Puritz, Christopher M Hollenbeck, John R Gold

O sequenciamento de DNA associado a sítios de restrição (RADseq) tornou-se uma abordagem robusta e útil para a genômica populacional. Atualmente, não há software que utilize eficientemente leituras pareadas de dados RADseq para gerar chamadas de variantes informativas, especialmente para organismos não modelo com grandes tamanhos populacionais efetivos e altos níveis de polimorfismo genético. O dDocent é um pipeline de análise com uma interface de linha de comando amigável, projetado para processar dados RADseq individualmente barcodados (com locais de corte duplo), gerando SNPs/Indels informativos para análises em nível populacional. O pipeline, escrito em BASH, utiliza técnicas de redução de dados e outros pacotes de software independentes para realizar a poda de qualidade, remoção de adaptadores, montagem de novo de loci RAD, mapeamento de leituras, chamada de SNPs e Indels, e filtragem de dados de referência. Dados RAD de digestão dupla de populações de três diferentes peixes marinhos foram usados para comparar o dDocent com o Stacks, o primeiro pipeline amplamente disponível e utilizado para análise de dados RADseq. O dDocent identificou consistentemente mais SNPs compartilhados entre um maior número de indivíduos e com maior cobertura. Isso se deve ao fato de o dDocent realizar poda de qualidade em vez de filtragem, incorporar leituras diretas e reversas (incluindo aquelas com polimorfismos INDEL) na montagem, mapeamento e chamada de SNPs.

O Futuro da RADseq[editar | editar código-fonte]

Evolução do Sequenciamento de DNA: De Sanger à Próxima Geração

No campo do sequenciamento de DNA, duas abordagens pioneiras desempenharam um papel fundamental na busca pela compreensão das sequências genéticas. A primeira envolveu o método de degradação química de bases, desenvolvido por Maxam e Gilbert em 1977, enquanto a segunda foi o método de terminação de fragmentos, introduzido por Sanger e sua equipe em 1978. Ambos os métodos se basearam na criação de fitas simples de DNA, que foram subsequentemente separadas usando eletroforese. Ao comparar essas duas técnicas, o método de Sanger se destacou por produzir dados de sequenciamento mais facilmente interpretáveis, o que explica sua prevalência contínua até os dias atuais. No entanto, na época de sua criação, o método de Sanger era bastante rudimentar. A leitura das sequências de bases do DNA era feita manualmente, após a exposição das bases identificadas em um filme de raio-X. O processo envolvia a preparação de quatro tubos de reação, cada um contendo o DNA molde, a enzima DNA polimerase e um iniciador (primer). Em cada um desses tubos, uma pequena quantidade de um dos ddNTPs (didesoxinucleotídeos), como ddATP, ddTTP, ddCTP e ddGTP, marcados com fósforo radioativo (P32), era adicionada junto com os dNTPs (desoxinucleotídeos) da reação. Os ddNTPs não tinham o grupo hidroxila no carbono 3', necessário para a ligação do próximo desoxinucleotídeo (dNTP), interrompendo assim o crescimento do fragmento em cada tubo. Isso resultava em vários fragmentos de comprimentos diferentes em cada tubo, correspondendo ao ponto onde o ddNTP específico daquele tubo foi incorporado, indicando o término do crescimento do fragmento. As amostras de cada tubo eram submetidas à eletroforese e, em seguida, expostas a um filme de raio-X para determinar a posição das bases correspondentes. A leitura do gel era realizada ao longo das quatro colunas, cada uma correspondente a um dos tubos de reação. Embora essa metodologia tenha sido inovadora, era demorada e suscetível a erros. Para superar essas limitações, sequenciadores automáticos foram desenvolvidos. As plataformas de sequenciamento de próxima geração (NGS) revolucionaram a genética de populações e a conservação. No entanto, a abundância de dados gerados por essas tecnologias não substitui o conhecimento teórico necessário para análises de genética populacional. A compreensão das teorias clássicas, a coleta de dados apropriada e a aplicação precisa de análises estatísticas são fundamentais (ALLENDORF, LUIKART & AITKEN, 2013).


Referências

  1. a b Miller MR; Dunham JP; Amores A; Cresko WA; Johnson EA (2007). «Rapid and cost-effective polymorphism identification and genotyping using restriction site associated DNA (RAD) markers». Genome Research. 17 (2): 240-248. PMC 1781356Acessível livremente. doi:10.1101/gr.5681207 
  2. a b c d Baird NA; Etter PD; Atwood TS; Currey MC; Shiver AL; Lewis ZA; Selker EU; Cresko WA; Johnson EA (2008). «Rapid SNP discovery and genetic mapping using sequenced RAD markers». PLoS One. 3 (10): e3376. doi:10.1371/journal.pone.0003376 
  3. Andrews KR; Good JM; Miller MR; Luikart G; Hohenlohe PA (2017). «Harnessing the power of RADseq for ecological and evolutionary genomics.». Nat Rev Genet. 17 (2): 81-92. doi:10.1038/nrg.2015.28 
  4. Perry EB; Makohon-Moore A; Zheng C; Kaufman CK; Cai J; Iacobuzio-Donahue CA; White RM (2017). «Oncotarget». Tumor diversity and evolution revealed through RADseq. 8 (26): 41792-41805. doi:10.18632/oncotarget.18355 
  5. a b Campbell, Erin O.; Brunet, Bryan M. T.; Dupuis, Julian R.; Sperling, Felix A. H. (2018). Matschiner, Michael, ed. «Would an RRS by any other name sound as RAD?». Methods in Ecology and Evolution (em inglês). 9 (9): 1920–1927. doi:10.1111/2041-210X.13038 
  6. Peterson, Brant K.; Weber, Jesse N.; Kay, Emily H.; Fisher, Heidi S.; Hoekstra, Hopi E. (31 de maio de 2012). Orlando, Ludovic, ed. «Double Digest RADseq: An Inexpensive Method for De Novo SNP Discovery and Genotyping in Model and Non-Model Species». PLoS ONE (em inglês). 7 (5): e37135. ISSN 1932-6203. PMC 3365034Acessível livremente. PMID 22675423. doi:10.1371/journal.pone.0037135 
  7. Gramham CF; Glenn TC; McArthur AG; Boreham DR; Kieran R; Lance S; Wilson JY (2015). «Impacts of degraded DNA on restriction enzyme associated DNA sequencing (RADSeq)». Molecular Ecology Resources. 15: 1304-1315. doi:10.1111/1755-0998.12404 
  8. Wang S; Meyer E; McKay JK; Matz MV (2012). «2b-RAD: A simple and flexible method for genome-wide genotyping». Nature Methods. 9 (9): 808-812. doi:10.1038/nmeth.2023 
  9. Suchan T; Pitteloud C; Gerasimova NS; Kostikova A; Schmid S; Arrigo N; Alvarez N (2016). «Hybridization capture using RAD probes (hyRAD), a new tool for performing genomic analyses on collection specimens.». PLoSONE. 11 (11): e0151651. doi:10.1371/journal.pone.0151651 
  10. Franchini P; Parera DM; Kautt AF; Meyer A (2017). «quaddRAD: A new high-multiplexing and PCR duplicate removal ddRAD protocol produces novel evolutionary insights in a nonradiating cichlid lineage.». Molecular Ecology. 28 (28): 2783-2795. doi:10.1111/mec.14077