Qual é a tecnologia e solução de mascaramento de dados no Network Packet Broker?

1. O conceito de mascaramento de dados

O mascaramento de dados também é conhecido como "data masking". É um método técnico para converter, modificar ou ocultar dados sensíveis, como número de celular, número de cartão bancário e outras informações, quando definimos regras e políticas de mascaramento. Essa técnica é usada principalmente para impedir que dados sensíveis sejam usados ​​diretamente em ambientes não confiáveis.

Princípio do mascaramento de dados: o mascaramento de dados deve manter as características originais dos dados, as regras de negócios e a relevância dos dados para garantir que o desenvolvimento, os testes e a análise de dados subsequentes não sejam afetados pelo mascaramento. Garanta a consistência e a validade dos dados antes e depois do mascaramento.

2. Classificação de mascaramento de dados

O mascaramento de dados pode ser dividido em mascaramento de dados estáticos (SDM) e mascaramento de dados dinâmicos (DDM).

Mascaramento de dados estáticos (SDM): O mascaramento de dados estáticos requer a criação de um novo banco de dados em ambiente não produtivo para isolamento do ambiente de produção. Os dados sensíveis são extraídos do banco de dados de produção e armazenados no banco de dados não produtivo. Dessa forma, os dados dessensibilizados são isolados do ambiente de produção, o que atende às necessidades do negócio e garante a segurança dos dados de produção.

SDM

Mascaramento de dados dinâmicos (DDM): Geralmente é usado no ambiente de produção para dessensibilizar dados sensíveis em tempo real. Às vezes, diferentes níveis de mascaramento são necessários para ler os mesmos dados sensíveis em diferentes situações. Por exemplo, diferentes funções e permissões podem implementar diferentes esquemas de mascaramento.

DDM

Aplicativo de mascaramento de relatórios de dados e produtos de dados

Esses cenários incluem principalmente produtos de monitoramento de dados internos ou outdoors, produtos de dados de serviços externos e relatórios baseados em análise de dados, como relatórios de negócios e revisão de projetos.

mascaramento de produto de relatórios de dados

3. Solução de mascaramento de dados

Esquemas comuns de mascaramento de dados incluem: invalidação, valor aleatório, substituição de dados, criptografia simétrica, valor médio, deslocamento e arredondamento, etc.

Invalidação: Invalidação refere-se à criptografia, truncamento ou ocultação de dados confidenciais. Esse esquema geralmente substitui dados reais por símbolos especiais (como *). A operação é simples, mas os usuários não podem saber o formato dos dados originais, o que pode afetar aplicações de dados subsequentes.

Valor aleatório: O valor aleatório refere-se à substituição aleatória de dados sensíveis (números substituem dígitos, letras substituem letras e caracteres substituem caracteres). Este método de mascaramento garantirá o formato de dados sensíveis até certo ponto e facilitará a aplicação subsequente de dados. Dicionários de mascaramento podem ser necessários para algumas palavras significativas, como nomes de pessoas e lugares.

Substituição de dados: A substituição de dados é semelhante ao mascaramento de valores nulos e aleatórios, exceto que, em vez de usar caracteres especiais ou valores aleatórios, os dados de mascaramento são substituídos por um valor específico.

Criptografia Simétrica: A criptografia simétrica é um método especial de mascaramento reversível. Ela criptografa dados confidenciais por meio de chaves e algoritmos de criptografia. O formato do texto cifrado é consistente com os dados originais em regras lógicas.

Média: O esquema da média é frequentemente usado em cenários estatísticos. Para dados numéricos, primeiro calculamos a média e, em seguida, distribuímos aleatoriamente os valores dessensibilizados em torno da média, mantendo assim a soma dos dados constante.

Deslocamento e arredondamento: Este método altera os dados digitais por deslocamento aleatório. O arredondamento de offset garante a autenticidade aproximada do intervalo, mantendo a segurança dos dados, que se aproximam mais dos dados reais do que os esquemas anteriores, e tem grande importância no cenário de análise de big data.

ML-NPB-5660-数据脱敏

O Modelo de Recomendação "ML-NPB-5660" para o mascaramento de dados

4. Técnicas de mascaramento de dados comumente usadas

(1). Técnicas Estatísticas

Amostragem e agregação de dados

- Amostragem de dados: A análise e avaliação do conjunto de dados original por meio da seleção de um subconjunto representativo do conjunto de dados é um método importante para melhorar a eficácia das técnicas de desidentificação.

- Agregação de dados: Como uma coleção de técnicas estatísticas (como soma, contagem, média, máximo e mínimo) aplicadas a atributos em microdados, o resultado é representativo de todos os registros no conjunto de dados original.

(2). Criptografia

A criptografia é um método comum para dessensibilizar ou aumentar a eficácia da dessensibilização. Diferentes tipos de algoritmos de criptografia podem alcançar diferentes efeitos de dessensibilização.

- Criptografia determinística: uma criptografia simétrica não aleatória. Geralmente processa dados de identificação e pode descriptografar e restaurar o texto cifrado para a identificação original quando necessário, mas a chave precisa ser devidamente protegida.

- Criptografia irreversível: A função hash é usada para processar dados, geralmente usados ​​para dados de identificação. Ela não pode ser descriptografada diretamente e o relacionamento de mapeamento deve ser salvo. Além disso, devido à funcionalidade da função hash, pode ocorrer colisão de dados.

- Criptografia homomórfica: Utiliza-se o algoritmo homomórfico de texto cifrado. Sua característica é que o resultado da operação de texto cifrado é o mesmo que o de uma operação de texto simples após a descriptografia. Portanto, é comumente usado para processar campos numéricos, mas não é amplamente utilizado por questões de desempenho.

(3). Tecnologia de sistemas

A tecnologia de supressão exclui ou protege itens de dados que não atendem à proteção de privacidade, mas não os publica.

- Mascaramento: refere-se ao método de dessensibilização mais comum para mascarar o valor do atributo, como o número do oponente, o cartão de identificação marcado com um asterisco ou o endereço truncado.

- Supressão local: refere-se ao processo de exclusão de valores de atributos específicos (colunas), removendo campos de dados não essenciais;

- Supressão de registros: refere-se ao processo de exclusão de registros específicos (linhas), exclusão de registros de dados não essenciais.

(4). Tecnologia de Pseudônimos

Pseudomanning é uma técnica de desidentificação que utiliza um pseudônimo para substituir um identificador direto (ou outro identificador sensível). Técnicas de pseudônimo criam identificadores únicos para cada titular de informação, em vez de identificadores diretos ou sensíveis.

- Ele pode gerar valores aleatórios de forma independente para corresponder ao ID original, salvar a tabela de mapeamento e controlar rigorosamente o acesso à tabela de mapeamento.

- Você também pode usar criptografia para produzir pseudônimos, mas precisa manter a chave de descriptografia corretamente;

Essa tecnologia é amplamente utilizada no caso de um grande número de usuários de dados independentes, como o OpenID no cenário de plataforma aberta, onde diferentes desenvolvedores obtêm Openids diferentes para o mesmo usuário.

(5). Técnicas de Generalização

A técnica de generalização refere-se a uma técnica de desidentificação que reduz a granularidade de atributos selecionados em um conjunto de dados e fornece uma descrição mais geral e abstrata dos dados. A tecnologia de generalização é fácil de implementar e pode proteger a autenticidade dos dados em nível de registro. É comumente usada em produtos de dados ou relatórios de dados.

- Arredondamento: envolve selecionar uma base de arredondamento para o atributo selecionado, como forense para cima ou para baixo, produzindo resultados de 100, 500, 1K e 10K

- Técnicas de codificação superior e inferior: Substituir valores acima (ou abaixo) do limite por um limite que representa o nível superior (ou inferior), produzindo um resultado de "acima de X" ou "abaixo de X"

(6). Técnicas de Randomização

Como um tipo de técnica de desidentificação, a tecnologia de randomização refere-se à modificação do valor de um atributo por meio da randomização, de modo que o valor após a randomização seja diferente do valor real original. Esse processo reduz a capacidade de um invasor derivar um valor de atributo a partir de outros valores de atributo no mesmo registro de dados, mas afeta a autenticidade dos dados resultantes, o que é comum em dados de teste de produção.


Data de publicação: 27 de setembro de 2022