A desduplicação de dados é uma tecnologia de armazenamento popular que otimiza a capacidade de armazenamento. Ela elimina dados redundantes removendo dados duplicados do conjunto de dados, deixando apenas uma cópia, como mostrado na figura abaixo. Essa tecnologia pode reduzir significativamente a necessidade de espaço físico de armazenamento para atender à crescente demanda por armazenamento de dados. A tecnologia de desduplicação pode trazer muitos benefícios práticos, principalmente nos seguintes aspectos:
| (1) | Atender aos requisitos de ROI (Retorno sobre o Investimento)/TCO (Custo Total de Propriedade); |
| (2) | O rápido crescimento dos dados pode ser controlado de forma eficaz; |
| (3) | Aumentar o espaço de armazenamento efetivo e melhorar a eficiência do armazenamento; |
| (4) | Economize nos custos totais de armazenamento e gerenciamento; |
| (5) | Economize a largura de banda da rede na transmissão de dados; |
| (6) | Economize custos de operação e manutenção, como espaço, fornecimento de energia e refrigeração. |
A tecnologia de deduplicação é amplamente utilizada em sistemas de backup e arquivamento de dados, pois a quantidade de dados duplicados gerados após múltiplos backups é enorme, tornando-a ideal para esse tipo de aplicação. De fato, a deduplicação pode ser utilizada em diversas situações, incluindo sistemas de armazenamento de dados online, nearline e offline. Ela pode ser implementada em sistemas de arquivos, gerenciadores de volumes, NAS e SANs. A deduplicação também pode ser utilizada para recuperação de desastres, transmissão e sincronização de dados, assim como uma tecnologia de compressão de dados pode ser usada para compactação de dados. A deduplicação pode ajudar diversas aplicações a reduzir o armazenamento de dados, economizar largura de banda de rede, melhorar a eficiência do armazenamento, reduzir o tempo de backup e economizar custos.
A deduplicação possui duas dimensões principais: taxas de deduplicação e desempenho. O desempenho da deduplicação depende da tecnologia de implementação específica, enquanto a taxa de deduplicação é determinada pelas características dos próprios dados e pelos padrões de aplicação, conforme mostrado na tabela abaixo. Os fornecedores de armazenamento atualmente relatam taxas de deduplicação que variam de 20:1 a 500:1.
| Alta taxa de deduplicação | Baixa taxa de deduplicação |
| Dados criados pelo usuário | Dados do mundo natural |
| Dados com baixa taxa de variação | Dados com alta taxa de mudança |
| Dados de referência, dados inativos | Dados ativos |
| Aplicação com baixa taxa de alteração de dados | Aplicação com alta taxa de alteração de dados |
| Backup completo de dados | Backup incremental de dados |
| Armazenamento de dados a longo prazo | Armazenamento de dados de curto prazo |
| Ampla gama de aplicações de dados | Pequena gama de aplicações de dados |
| Processamento contínuo de dados comerciais | Processamento geral de dados comerciais |
| Segmentação de dados pequenos | Segmentação de Big Data |
| Segmentação de dados alongada | Segmentação de dados de comprimento fixo |
| Conteúdo dos dados percebido | Conteúdo dos dados desconhecido |
| Desduplicação de dados temporais | Desduplicação de dados espaciais |
Pontos de implementação de desduplicação
Diversos fatores devem ser considerados ao desenvolver ou aplicar a tecnologia de deduplicação, pois esses fatores afetam diretamente seu desempenho e eficácia.
| (1) | O que | Quais dados são desconsiderados? |
| (2) | Quando | Quando o peso será eliminado? |
| (3) | Onde | Onde está a eliminação de peso? |
| (4) | Como | Como reduzir o peso? |
Tecnologia de chave de deduplicação
O processo de desduplicação em sistemas de armazenamento geralmente funciona da seguinte forma: primeiro, o arquivo de dados é dividido em blocos de dados. Para cada bloco, calcula-se uma impressão digital (ou "print") e, com base nessa impressão digital, busca-se por palavras-chave. A correspondência indica que os blocos de dados são duplicados, armazenando-se apenas o número de índice do bloco. Caso contrário, significa que o bloco de dados é o único elemento novo, e o armazenamento do bloco de dados gera metadados relevantes. Assim, um arquivo físico no sistema de armazenamento corresponde a uma representação lógica de um conjunto de metadados de impressão digital. Ao ler o arquivo, primeiro lê-se o arquivo lógico e, em seguida, de acordo com a sequência de impressão digital, extrai-se o bloco de dados correspondente do sistema de armazenamento, restaurando a cópia do arquivo físico. Pode-se observar, a partir do processo descrito, que as principais tecnologias de desduplicação incluem a segmentação de blocos de dados, o cálculo da impressão digital do bloco de dados e a recuperação do bloco de dados.
(1) Segmentação de blocos de dados de arquivos
(2) Cálculo da impressão digital do bloco de dados
(3) Recuperação de bloco de dados
Para encontrar os modelos recomendados para iniciar a deduplicação de pacotes de rede:
Mylinking™ Network Packet Broker (NPB) ML-NPB-640048 portas SFP+ de 10GE mais 4 portas QSFP28 de 40GE/100GE, velocidade máxima de 880 Gbps.
Mylinking™ Network Packet Broker (NPB) ML-NPB-56606 QSFP28 de 40GE/100GE mais 48 SFP28 de 10GE/25GE, taxa máxima de transferência de 1,8 Tbps.
Mylinking™ Network Packet Broker (NPB) ML-NPB-506048 portas SFP+ de 10GE mais 2 portas QSFP de 40GE, velocidade máxima de 560 Gbps.
Mylinking™ Network Packet Broker (NPB) ML-NPB-486048*10GE SFP+, Máx. 480 Gbps, Função Plus
Mylinking™ Network Packet Broker (NPB) ML-NPB-481048*10GE SFP+, Máx. 480 Gbps
Mylinking™ Network Packet Broker (NPB) ML-NPB-2410P24 portas SFP+ 10GE, velocidade máxima de 240 Gbps, função DPI.
Mylinking™ Network Packet Broker (NPB) ML-NPB-6400
48 portas SFP+ de 10GE mais 4 portas QSFP28 de 40GE/100GE, velocidade máxima de 880 Gbps.
Data da publicação: 18/10/2022

