Desduplicação de dados

Em computação, a deduplicação ou desduplicação de dados é uma técnica para eliminar cópias duplicadas de dados repetidos. Um termo relacionado e um tanto sinônimo é o armazenamento de instância única. Essa técnica é usada para melhorar a utilização do armazenamento e também pode ser aplicada a transferências de dados de rede para reduzir o número de bytes que devem ser enviados. No processo de desduplicação, pedaços exclusivos de dados, ou padrões de bytes, são identificados e armazenados durante um processo de análise. Conforme a análise continua, outros pedaços são comparados à cópia armazenada e sempre que ocorre uma correspondência, o pedaço redundante é substituído por uma pequena referência que aponta para o pdeaço armazenado. Dado que o mesmo padrão de byte pode ocorrer dezenas, centenas ou mesmo milhares de vezes (a frequência de correspondência depende do tamanho do pedaço), a quantidade de dados que deve ser armazenada ou transferida pode ser bastante reduzida.^[1]^[2]

A desduplicação é diferente dos algoritmos de compactação de dados, como LZ77 e LZ78. Enquanto os algoritmos de compactação identificam dados redundantes dentro de arquivos individuais e codificam esses dados redundantes com mais eficiência, a intenção da desduplicação é inspecionar grandes volumes de dados e identificar grandes seções - como arquivos inteiros ou grandes seções de arquivos - que são idênticas e substituí-las com uma cópia compartilhada. Por exemplo, um sistema de e-mail típico pode conter 100 instâncias do mesmo anexo de arquivo de 1 MB (megabyte). Cada vez que é feito backup da plataforma de e-mail, todas as 100 instâncias do anexo são salvas, exigindo 100 MB de espaço de armazenamento. Com a desduplicação de dados, apenas uma instância do anexo é realmente armazenada; as instâncias subsequentes são referenciadas de volta à cópia salva para taxa de desduplicação de cerca de 100 para 1. A desduplicação costuma ser combinada com a compactação de dados para economia de armazenamento adicional: a desduplicação é usada primeiro para eliminar grandes blocos de dados repetitivos e a compactação é então usada para eficientemente codificar cada um dos blocos armazenados.^[3]

Referências

↑ «Understanding Data Deduplication». Druva (em inglês). 9 de janeiro de 2009. Consultado em 6 de agosto de 2019. Cópia arquivada em |arquivourl= requer |arquivodata= (ajuda) 🔗
↑ SNIA Dictionary » Dictionary D
↑ Compression, deduplication and encryption: What's the difference?, Stephen Bigelow and Paul Crocetti

Este artigo sobre Armazenamento computacional é um esboço. Você pode ajudar a Wikipédia expandindo-o.

[1] «Understanding Data Deduplication». Druva (em inglês). 9 de janeiro de 2009. Consultado em 6 de agosto de 2019. Cópia arquivada em |arquivourl= requer |arquivodata= (ajuda) 🔗

[snia-2] SNIA Dictionary » Dictionary D

[3] Compression, deduplication and encryption: What's the difference?, Stephen Bigelow and Paul Crocetti

[1]

[2]

[3]