Armazenamento de dados digitais em DNA: diferenças entre revisões

Origem: Wikipédia, a enciclopédia livre.
Conteúdo apagado Conteúdo adicionado
Criação do artigo
(Sem diferenças)

Revisão das 01h22min de 16 de fevereiro de 2023

Um dispositivo de computação biocompatível: ácido desoxirribonucleico (ADN)

O armazenamento de dados digitais em ADN (em inglês: DNA) é o processo de codificação e decodificação de dados binários de e para cadeias sintetizadas de ADN.[1][2]

Embora o ADN como meio de armazenamento tenha um enorme potencial devido à sua alta densidade de armazenamento, seu uso prático atualmente é severamente limitado devido ao seu alto custo e tempos de leitura e gravação muito lentos.[3]

Em junho de 2019, cientistas relataram que todos os 16 GB de texto da versão em inglês da Wikipedia foram codificados em ADN sintético.[4] Em 2021, os cientistas relataram que foi desenvolvido um gravador de dados em ADN personalizado capaz de gravar dados no ADN a 18 Mbps.[5]

Métodos de codificação

São possíveis inúmeros métodos para codificar dados no ADN. Os métodos ideais são aqueles que fazem uso econômico do ADN e de proteção contra erros.[6] Se o ADN da mensagem for armazenado por um longo período de tempo, por exemplo, 1 000 anos, também é útil se a sequência for obviamente artificial e o quadro de leitura for fácil de identificar.[6]

Codificação de texto

Vários métodos simples para codificação de texto foram propostos. A maioria deles envolve a tradução de cada letra em um "códon" correspondente, consistindo em uma pequena sequência única de nucleotídeos em uma tabela de consulta. Alguns exemplos desses esquemas de codificação incluem códigos de Huffman, códigos de vírgula e códigos alternados.[6]

Codificação de dados arbitrários

Para codificar dados arbitrários no ADN, os dados são tipicamente convertidos primariamente em dados ternários (base 3) em vez de dados binários (base 2). Cada dígito (ou "trit") é então convertido em um nucleotídeo usando uma tabela de consulta. Para evitar homopolímeros (nucleotídeos repetitivos), que podem causar problemas com o sequenciamento preciso, o resultado da pesquisa também depende do nucleotídeo anterior. Usando a tabela de consulta de exemplo abaixo, se o nucleotídeo anterior na sequência for T (timina) e o trit for 2, o próximo nucleotídeo será G (guanina).[7][8]

Trits para nucleotídeos (exemplo)
Anterior 0 1 2
T A C G
G T A C
C G T A
A C G T

Vários sistemas podem ser incorporados para particionar e endereçar os dados, bem como protegê-los de erros. Uma abordagem para a correção de erros é intercalar regularmente nucleotídeos de sincronização entre os nucleotídeos que codificam informações. Esses nucleotídeos de sincronização podem atuar como andaimes ao reconstruir a sequência de múltiplas cadeias sobrepostas.[8]

In vivo

O código genético dentro dos organismos vivos pode potencialmente ser cooptado para armazenar informações. Além disso, a biologia sintética pode ser usada para projetar células com "registradores moleculares" para permitir o armazenamento e recuperação de informações armazenadas no material genético da célula.[1] A edição de genes CRISPR também pode ser usada para inserir sequências artificiais de ADN no genoma da célula.[1] Para codificar dados de linhagem de desenvolvimento (gravador de voo molecular), aproximadamente 30 trilhões de núcleos celulares por camundongo * 60 locais de gravação por núcleo * 7-15 bits por local fornecem cerca de 2 terabytes para gravação por camundongo (mas apenas se lidos seletivamente).[9]

História

A ideia de armazenamento de dados digitais em ADN remonta a 1959, quando o físico Richard P. Feynman, em "Há muito espaço no fundo: um convite para entrar em um novo campo da física" delineou as perspectivas gerais para a criação de objetos artificiais semelhantes a objetos do microcosmo (incluindo biológicos) e com capacidades semelhantes ou até mais extensas.[10] Em 1964-65, Mikhail Samoilovich Neiman, o físico soviético, publicou 3 artigos sobre microminiaturização em eletrônica no nível molecular-atômico, que apresentavam de forma independente considerações gerais e alguns cálculos sobre a possibilidade de gravação, armazenamento e recuperação de informações sobre o ADN sintetizado e moléculas de ARN.[11][12][13] Após a primeira publicação de Neiman e depois de receber pelo Editor o manuscrito de seu segundo artigo (8 de janeiro de 1964, conforme indicado naquele jornal), a entrevista com o cibernético Norbert Wiener foi publicada.[14] N. Wiener expressou ideias sobre a miniaturização da memória do computador, próximas às ideias propostas por Neiman de forma independente. Essas ideias de Wiener foram mencionadas por Neiman no terceiro de seus artigos. Esta história é descrita em detalhes.[15]

Um dos primeiros usos do armazenamento em ADN ocorreu em uma colaboração de 1988 entre o artista Joe Davis e pesquisadores de Harvard. A imagem, armazenada em uma sequência de ADN em E.coli, foi organizada em uma matriz 5 x 7 que, uma vez decodificada, formou a imagem de uma antiga runa germânica representando a vida e a Terra feminina. Na matriz, uns correspondiam a pixels escuros enquanto zeros correspondiam a pixels claros.[16]

Em 2007, um dispositivo foi criado na Universidade do Arizona usando moléculas de endereçamento para codificar locais incompatíveis dentro de uma fita de ADN. Essas incompatibilidades puderam então ser lidas realizando um resumo de restrição, recuperando assim os dados.[17]

Em 2011, George Church, Sri Kosuri e Yuan Gao realizaram um experimento que codificaria um livro de 659 kb que foi coescrito por Church. Para fazer isso, a equipe de pesquisa fez uma correspondência de dois para um, onde um zero binário era representado por uma adenina ou citosina e um binário era representado por uma guanina ou timina. Após o exame, foram encontrados 22 erros no ADN.[16]

Em 2012, George Church e colegas da Universidade de Harvard publicaram um artigo no qual o ADN foi codificado com informações digitais que incluíam um rascunho em HTML de um livro de 53 400 palavras escrito pelo pesquisador principal, onze imagens no formato JPG e um programa em JavaScript. Várias cópias para redundância foram adicionadas e 5,5 petabits podem ser armazenados em cada milímetro cúbico de ADN.[18] Os pesquisadores usaram um código simples em que os bits foram mapeados um a um com as bases, que tinha a desvantagem de levar a longas execuções da mesma base, cuja sequência é propensa a erros. Esse resultado mostrou que, além de suas outras funções, o ADN também pode ser outro tipo de meio de armazenamento, como discos rígidos e fitas magnéticas.[19]

Em 2013, um artigo liderado por pesquisadores do Instituto Europeu de Bioinformática (EBI) e apresentado na mesma época que o artigo de Church e colegas detalhou o armazenamento, recuperação e reprodução de mais de cinco milhões de bits de dados. Todos os arquivos de ADN reproduziram as informações entre 99,99% e 100% de precisão.[20] As principais inovações nesta pesquisa foram o uso de um esquema de codificação de correção de erros para garantir a taxa de perda de dados extremamente baixa, bem como a ideia de codificar os dados em uma série de oligonucleotídeos curtos sobrepostos identificáveis por meio de um esquema de indexação baseado em sequência.[19] Além disso, as sequências dos filamentos individuais de ADN se sobrepõem de forma que cada região de dados seja repetida quatro vezes para evitar erros. Duas dessas quatro vertentes foram construídas ao contrário, também com o objetivo de eliminar erros.[20] Os custos por megabyte foram estimados em US$ 12 400 para codificar dados e US$ 220 para recuperação. No entanto, observou-se que a diminuição exponencial nos custos de síntese e sequenciamento de ADN, se continuar no futuro, deve tornar a tecnologia econômica para armazenamento de dados de longo prazo até 2023.[19]

Em 2013, um software chamado DNACloud foi desenvolvido por Manish K. Gupta e colegas de trabalho para codificar arquivos de computador para sua representação em ADN. Ele implementa uma versão de eficiência de memória do algoritmo proposto por Goldman et al. para codificar (e decodificar) dados para ADN (arquivos .dnac).[21][22]

A estabilidade a longo prazo dos dados codificados armazenados no ADN foi relatada em fevereiro de 2015, em um artigo de pesquisadores do Instituto Federal de Tecnologia de Zurique. A equipe adicionou redundância por meio da codificação de correção de erros Reed-Solomon e por encapsulamento do ADN em esferas de vidro de sílica por meio da química Sol-gel.[23]

Em 2016, foi publicada uma pesquisa por Church e pela Technicolor SA, na qual 22 MB de uma sequência de filme compactado em MPEG foram armazenados e recuperados do ADN. A recuperação da sequência apresentou zero erro.[24]

Em março de 2017, Yaniv Erlich e Dina Zielinski, da Universidade de Columbia e do Centro de Genoma de Nova Iorque, publicaram um método conhecido como DNA Fountain que armazenava dados a uma densidade de 215 petabytes por grama de ADN. A técnica se aproxima da capacidade de armazenamento em ADN de um canal, atingindo 85% do limite teórico. O método não estava pronto para uso em larga escala, pois custa US$ 7 000 para sintetizar 2 megabytes de dados e outros US$ 2 000 para lê-los.[25][26][27]

Em março de 2018, a Universidade de Washington e a Microsoft publicaram resultados demonstrando armazenamento e recuperação de aproximadamente 200 MB de dados. A pesquisa também propôs e avaliou um método para acesso aleatório de itens de dados armazenados no ADN.[28][29] Em março de 2019, a mesma equipe anunciou que demonstrou um sistema totalmente automatizado para codificar e decodificar dados no ADN.[30]

Uma pesquisa publicada pela Eurecom e Imperial College em janeiro de 2019, demonstrou a capacidade de armazenar dados estruturados em ADN sintético. A pesquisa mostrou como codificar dados estruturados ou, mais especificamente, relacionais em ADN sintético e também demonstrou como realizar operações de processamento de dados (semelhantes ao SQL) diretamente no ADN como processos químicos.[31][32]

Em junho de 2019, os cientistas relataram que todos os 16 GB da Wikipedia em inglês foram codificados em ADN sintético.[4] Em 2021, o CATALOG relatou que havia desenvolvido um gravador para ADN personalizado capaz de gravar dados a 18 Mbps no ADN.[5]

O primeiro artigo descrevendo o armazenamento de dados em sequências nativas de ADN por meio de corte enzimático foi publicado em abril de 2020. No artigo, os cientistas demonstram um novo método de registro de informações no backbone de ADN que permite acesso aleatório bit a bit e computação na memória.[33]

Desafio do Bitcoin de Davos

Em 21 de janeiro de 2015, Nick Goldman do Instituto Europeu de Bioinformática (EBI), um dos autores originais do artigo da Nature de 2013,[20] anunciou o Desafio do Bitcoin de Davos na reunião anual do Fórum Econômico Mundial em Davos.[34][35] Durante sua apresentação, tubos de ADN foram entregues ao público, com a mensagem de que cada tubo continha a chave privada de exatamente um bitcoin, tudo codificado em ADN. O primeiro a sequenciar e decodificar o ADN poderia reivindicar o bitcoin e vencer o desafio. O desafio foi definido por três anos e terminaria se ninguém reivindicasse o prêmio antes de 21 de janeiro de 2018.[35]

Quase três anos depois, em 19 de janeiro de 2018, o EBI anunciou que um estudante belga de doutorado, Sander Wuyts, da Universidade de Antuérpia e Vrije Universiteit Brussel, foi o primeiro a concluir o desafio.[36][37] Ao lado das instruções sobre como reivindicar o bitcoin (armazenado como texto simples e arquivo PDF), o logotipo do EBI, o logotipo da empresa que imprimiu o ADN (CustomArray) e um esboço de James Joyce foram recuperados do ADN.[38]

Biblioteca Lunar

A Biblioteca Lunar, lançada no módulo Beresheet pela Arch Mission Foundation, carrega informações codificadas no ADN, que inclui 20 livros famosos e 10 000 imagens. Essa foi uma das escolhas ideais de armazenamento, pois o ADN pode durar um período imenso de tempo. A Arch Mission Foundation sugere que ainda pode ser lido depois de bilhões de anos.[39]

ADN das coisas

O conceito de ADN das Coisas (AdC) ou DNA das Coisas, do inglês: DNA of Things (DoT), foi introduzido em 2019 por uma equipe de pesquisadores de Israel e da Suíça, incluindo Yaniv Erlich e Robert Grass.[40][41][42] O AdC codifica dados digitais em moléculas de ADN, que são incorporadas a objetos. Isso dá a capacidade de criar objetos que carregam seu próprio projeto, semelhante a organismos biológicos. Em contraste com a Internet das coisas, que é um sistema de dispositivos de computação interrelacionados, o AdC cria objetos que são objetos de armazenamento independentes, completamente fora de rede (off-the-grid).

Como prova de conceito para o AdC, o pesquisador imprimiu em 3D um coelho de Stanford que contém seu projeto no filamento de plástico usado para impressão. Cortando um pedacinho da orelha do coelho, eles conseguiram ler o projeto, multiplicá-lo e produzir uma próxima geração de coelhos. Além disso, a capacidade do AdC de servir para fins esteganográficos foi demonstrada pela produção de lentes indistinguíveis que contêm um vídeo do YouTube integrado ao material.

Ver também

Referências

  1. a b c Ceze L, Nivala J, Strauss K (agosto de 2019). «Molecular digital data storage using DNA». Nature Reviews. Genetics. 20 (8): 456–466. PMID 31068682. doi:10.1038/s41576-019-0125-3 
  2. Akram F, Haq IU, Ali H, Laghari AT (outubro de 2018). «Trends to store digital data in DNA: an overview». Molecular Biology Reports. 45 (5): 1479–1490. PMID 30073589. doi:10.1007/s11033-018-4280-y 
  3. Panda D, Molla KA, Baig MJ, Swain A, Behera D, Dash M (maio de 2018). «DNA as a digital information storage device: hope or hype?». 3 Biotech. 8 (5). 239 páginas. PMC 5935598Acessível livremente. PMID 29744271. doi:10.1007/s13205-018-1246-7 
  4. a b Shankland S (29 de junho de 2019). «Startup packs all 16GB of Wikipedia onto DNA strands to demonstrate new storage tech - Biological molecules will last a lot longer than the latest computer storage technology, Catalog believes.». CNET. Consultado em 7 de agosto de 2019 
  5. a b Roquet, Nathaniel; Bhatia, Swapnil P.; Flickinger, Sarah A.; Mihm, Sean; Norsworthy, Michael W.; Leake, Devin; Park, Hyunjun (20 de abril de 2021). «DNA-based data storage via combinatorial assembly» (em inglês): 2021.04.20.440194. doi:10.1101/2021.04.20.440194 
  6. a b c Smith, Geoff C.; Fiddes, Ceridwyn C.; Hawkins, Jonathan P.; Cox, Jonathan P.L. (2003). «[No title found]». Biotechnology Letters. 25 (14): 1125–1130. PMID 12966998. doi:10.1023/a:1024539608706 
  7. Goldman, Nick; Bertone, Paul; Chen, Siyuan; Dessimoz, Christophe; LeProust, Emily M.; Sipos, Botond; Birney, Ewan (7 de fevereiro de 2013). «Towards practical, high-capacity, low-maintenance information storage in synthesized DNA». Nature. 494 (7435): 77–80. Bibcode:2013Natur.494...77G. PMC 3672958Acessível livremente. PMID 23354052. doi:10.1038/nature11875 
  8. a b Lee, Henry H.; Kalhor, Reza; Goela, Naveen; Bolot, Jean; Church, George M. (3 de junho de 2019). «Terminator-free template-independent enzymatic DNA synthesis for digital information storage». Nature Communications. 10 (1). 2383 páginas. PMC 6546792Acessível livremente. PMID 31160595. doi:10.1038/s41467-019-10258-1 
  9. Kalhor R, Kalhor K, Leeper K, Graveline A, Mali P, Church GM (2018). «Developmental barcoding of whole mouse via homing CRISPR». Science. 361 (6405). PMC 6139672Acessível livremente. PMID 30093604. doi:10.1126/science.aat9804 
  10. Feynman RP (29 de dezembro de 1959). «There's Plenty of Room at the Bottom». Annual meeting of the American Physical Society. California Institute of Technology 
  11. Neiman MS (1964). «Some fundamental issues of microminiaturization» (PDF). Radiotekhnika (em Russian) (1): 3–12 
  12. Neiman MS (1965). «On the relationships between the reliability, performance and degree of microminiaturisation at the molecular-atomic level.» (PDF). Radiotekhnika (em Russian) (1): 1–9 
  13. Neiman MS (1965). «On the molecular memory systems and the directed mutations.» (PDF). Radiotekhnika (em Russian) (6): 1–8 
  14. Wiener N (1964). «Interview: machines smarter than men?». U.S. News & World Report. 56: 84–86 
  15. Rebrova IM, Rebrova OY (2020). «Storage devices based on artificial DNA: the birth of an idea and the first publications.». Voprosy Istorii Estestvoznaniia i Tekhniki (em Russian). 41 (4): 666–76. doi:10.31857/S020596060013006-8 
  16. a b Extance A (setembro de 2016). «How DNA could store all the world's data». Nature. 537 (7618): 22–4. Bibcode:2016Natur.537...22E. PMID 27582204. doi:10.1038/537022aAcessível livremente 
  17. Skinner GM, Visscher K, Mansuripur M (1 de junho de 2007). «Biocompatible Writing of Data into DNA». Journal of Bionanoscience. 1 (1): 17–21. arXiv:1708.08027Acessível livremente. doi:10.1166/jbns.2007.005 
  18. Church GM, Gao Y, Kosuri S (setembro de 2012). «Next-generation digital information storage in DNA». Science. 337 (6102). 1628 páginas. Bibcode:2012Sci...337.1628C. PMID 22903519. doi:10.1126/science.1226355Acessível livremente 
  19. a b c Yong E (2013). «Synthetic double-helix faithfully stores Shakespeare's sonnets». Nature. doi:10.1038/nature.2013.12279 
  20. a b c Goldman N, Bertone P, Chen S, Dessimoz C, LeProust EM, Sipos B, Birney E (fevereiro de 2013). «Towards practical, high-capacity, low-maintenance information storage in synthesized DNA». Nature. 494 (7435): 77–80. Bibcode:2013Natur.494...77G. PMC 3672958Acessível livremente. PMID 23354052. doi:10.1038/nature11875 
  21. Shah S, Limbachiya D, Gupta MK (25 de outubro de 2013). «DNACloud: A Potential Tool for storing Big Data on DNA». arXiv:1310.6992Acessível livremente [cs.ET] 
  22. Limbachiya D, Dhameliya V, Khakhar M, Gupta MK (25 de abril de 2016). «On Optimal Family of Codes for Archival DNA Storage». 2015 Seventh International Workshop on Signal Design and Its Applications in Communications (IWSDA). [S.l.: s.n.] pp. 123–127. ISBN 978-1-4673-8308-0. arXiv:1501.07133Acessível livremente. doi:10.1109/IWSDA.2015.7458386 
  23. Grass RN, Heckel R, Puddu M, Paunescu D, Stark WJ (fevereiro de 2015). «Robust chemical preservation of digital information on DNA in silica with error-correcting codes». Angewandte Chemie. 54 (8): 2552–5. PMID 25650567. doi:10.1002/anie.201411378 
  24. Blawat M, Gaedke K, Huetter I, Chen XM, Turczyk B, Inverso S, Pruitt BW, Church GM (2016). «Forward Error Correction for DNA Data Storage». Procedia Computer Science. 80: 1011–1022. doi:10.1016/j.procs.2016.05.398Acessível livremente 
  25. Yong E. «This Speck of DNA Contains a Movie, a Computer Virus, and an Amazon Gift Card». The Atlantic. Consultado em 3 de março de 2017 
  26. «DNA could store all of the world's data in one room». Science Magazine. 2 de março de 2017. Consultado em 3 de março de 2017 
  27. Erlich Y, Zielinski D (março de 2017). «DNA Fountain enables a robust and efficient storage architecture». Science. 355 (6328): 950–954. Bibcode:2017Sci...355..950E. PMID 28254941. doi:10.1126/science.aaj2038 
  28. Organick L, Ang SD, Chen YJ, Lopez R, Yekhanin S, Makarychev K, et al. (março de 2018). «Random access in large-scale DNA data storage». Nature Biotechnology. 36 (3): 242–248. PMID 29457795. doi:10.1038/nbt.4079 
  29. Patel P (20 de fevereiro de 2018). «DNA Data Storage Gets Random Access». IEEE Spectrum: Technology, Engineering, and Science News. Consultado em 8 de setembro de 2018 
  30. «Microsoft, UW demonstrate first fully automated DNA data storage». Innovation Stories (em inglês). 21 de março de 2019. Consultado em 21 de março de 2019 
  31. Appuswamy R, Le Brigand K, Barbry P, Antonini M, Madderson O, Freemont P, McDonald J, Heinis T (2019). «OligoArchive: Using DNA in the DBMS storage hierarchy» (PDF). Conference on Innovative Data Systems Research (CIDR) 
  32. «OligoArchive Website». oligoarchive.github.io (em inglês). Consultado em 6 de fevereiro de 2019 
  33. Tabatabaei, S. Kasra; Wang, Boya; Athreya, Nagendra Bala Murali; Enghiad, Behnam; Hernandez, Alvaro Gonzalo; Fields, Christopher J.; Leburton, Jean-Pierre; Soloveichik, David; Zhao, Huimin; Milenkovic, Olgica (8 de abril de 2020). «DNA punch cards for storing data on native DNA sequences via enzymatic nicking». Nature Communications. 11 (1): 1742. Bibcode:2020NatCo..11.1742T. PMC 7142088Acessível livremente. PMID 32269230. doi:10.1038/s41467-020-15588-z 
  34. World Economic Forum (10 de março de 2015), Future Computing: DNA Hard Drives | Nick Goldman, consultado em 19 de maio de 2018 
  35. a b «DNA storage | European Bioinformatics Institute». www.ebi.ac.uk (em inglês). Consultado em 19 de maio de 2018 
  36. «Belgian PhD student decodes DNA and wins a Bitcoin | European Bioinformatics Institute». www.ebi.ac.uk (em inglês). Consultado em 19 de maio de 2018 
  37. «A Piece of DNA Contained the Key to 1 Bitcoin and This Guy Cracked the Code». Motherboard (em inglês). 24 de janeiro de 2018. Consultado em 19 de maio de 2018 
  38. «From DNA to bitcoin: How I won the Davos DNA-storage Bitcoin Challenge». Sander Wuyts (em inglês). 16 de janeiro de 2018. Consultado em 19 de maio de 2018 
  39. Moskowitz, Clara. «DNA-Coded "Lunar Library" Aims to Preserve Civilization for Millennia». Scientific American (em inglês). Consultado em 9 de janeiro de 2022 
  40. Koch, Julian (2019). «A DNA-of-things storage architecture to create materials with embedded memory». Nature Biotechnology. 38 (1): 39–43. PMID 31819259. doi:10.1038/s41587-019-0356-z 
  41. Molteni M (9 de dezembro de 2019). «These Plastic Bunnies Got a DNA Upgrade. Next up, the World?». Wired. Consultado em 9 de dezembro de 2019 
  42. Hotz RL (9 de dezembro de 2019). «Scientists Store Data in Synthetic DNA Embedded in a Plastic Bunny». Wall Street Journal. Consultado em 9 de dezembro de 2019 

Leitura adicional