Qual é a tecnologia de mascaramento de dados e a solução no corretor de pacotes de rede?

1. O conceito de mascaramento de dados

O mascaramento de dados também é conhecido como mascaramento de dados. É um método técnico para converter, modificar ou cobrir dados confidenciais, como número de telefone celular, número do cartão bancário e outras informações quando fornecemos regras e políticas de mascaramento. Essa técnica é usada principalmente para impedir que dados sensíveis sejam usados ​​diretamente em ambientes não confiáveis.

Princípio de mascaramento de dados: o mascaramento de dados deve manter as características originais dos dados, as regras de negócios e a relevância dos dados para garantir que o desenvolvimento subsequente, o teste e a análise de dados não seja afetado pelo mascaramento. Garanta a consistência e a validade dos dados antes e após o mascaramento.

2. Classificação de mascaramento de dados

O mascaramento de dados pode ser dividido em mascaramento de dados estáticos (SDM) e mascaramento de dados dinâmicos (DDM).

Mascaramento de dados estáticos (SDM): O mascaramento de dados estáticos requer o estabelecimento de um novo banco de dados de ambiente de não produção para isolamento do ambiente de produção. Os dados sensíveis são extraídos do banco de dados de produção e depois armazenados no banco de dados de não produção. Dessa forma, os dados dessensibilizados são isolados do ambiente de produção, que atende às necessidades de negócios e garante a segurança dos dados de produção.

Sdm

Mascaramento de dados dinâmicos (DDM): Geralmente é usado no ambiente de produção para dessensibilizar dados confidenciais em tempo real. Às vezes, diferentes níveis de mascaramento são necessários para ler os mesmos dados confidenciais em diferentes situações. Por exemplo, diferentes funções e permissões podem implementar diferentes esquemas de mascaramento.

DDM

Relatórios de dados e aplicativos de mascaramento de produtos de dados

Esses cenários incluem principalmente produtos internos de monitoramento de dados ou outdoor, produtos de dados de serviço externo e relatórios com base na análise de dados, como relatórios de negócios e revisão do projeto.

Relatório de dados máscara de produto

3. Solução de mascaramento de dados

Os esquemas comuns de mascaramento de dados incluem: invalidação, valor aleatório, substituição de dados, criptografia simétrica, valor médio, compensação e arredondamento etc.

Invalidação: Invalidação refere -se à criptografia, truncamento ou ocultação de dados sensíveis. Esse esquema geralmente substitui dados reais por símbolos especiais (como *). A operação é simples, mas os usuários não podem conhecer o formato dos dados originais, que podem afetar os aplicativos de dados subsequentes.

Valor aleatório: O valor aleatório refere -se à substituição aleatória de dados sensíveis (os números substituem dígitos, letras substituem letras e caracteres substituem os caracteres). Esse método de mascaramento garantirá o formato de dados sensíveis em certa medida e facilitará o aplicativo de dados subsequente. Dicionários de mascaramento podem ser necessários para algumas palavras significativas, como nomes de pessoas e lugares.

Substituição de dados: A substituição de dados é semelhante ao mascaramento de valores nulos e aleatórios, exceto que, em vez de usar caracteres especiais ou valores aleatórios, os dados de mascaramento são substituídos por um valor específico.

Criptografia simétrica: A criptografia simétrica é um método especial de mascaramento reversível. Ele criptografa dados confidenciais através de chaves e algoritmos de criptografia. O formato CipherText é consistente com os dados originais nas regras lógicas.

Média: O esquema médio é frequentemente usado em cenários estatísticos. Para dados numéricos, primeiro calculamos sua média e distribuímos aleatoriamente os valores dessensibilizados em torno da média, mantendo assim a soma da constante de dados.

Deslocamento e arredondamento: Este método altera os dados digitais por mudança aleatória. O arredondamento de deslocamento garante a autenticidade aproximada do intervalo, mantendo a segurança dos dados, que está mais próxima dos dados reais do que os esquemas anteriores e tem grande significado no cenário de análise de big data.

ML-NPB-5660- 数据脱敏

O modelo recomendado "ML-NPB-5660"Para o mascaramento de dados

4. Técnicas de mascaramento de dados comumente usadas

(1). Técnicas estatísticas

Amostragem de dados e agregação de dados

- Amostragem de dados: A análise e avaliação do conjunto de dados originais, selecionando um subconjunto representativo do conjunto de dados, é um método importante para melhorar a eficácia das técnicas de desidentificação.

- Agregação de dados: como uma coleção de técnicas estatísticas (como soma, contagem, média, máximo e mínimo) aplicada a atributos em microdatos, o resultado é representativo de todos os registros no conjunto de dados original.

(2). Criptografia

A criptografia é um método comum para dessensibilizar ou aumentar a eficácia da dessensibilização. Diferentes tipos de algoritmos de criptografia podem obter diferentes efeitos de dessensibilização.

- Criptografia determinística: uma criptografia simétrica não aleatória. Geralmente, ele processa dados de ID e pode descriptografar e restaurar o texto cifrado para o ID original quando necessário, mas a chave precisa ser adequadamente protegida.

- Criptografia irreversível: a função de hash é usada para processar dados, que geralmente são usados ​​para dados de ID. Não pode ser descriptografado diretamente e o relacionamento de mapeamento deve ser salvo. Além disso, devido ao recurso da função de hash, pode ocorrer colisão de dados.

- Criptografia homomórfica: o algoritmo homomórfico CipherText é usado. Sua característica é que o resultado da operação de texto cifrado seja o mesmo da operação de texto simples após a descriptografia. Portanto, é comumente usado para processar campos numéricos, mas não é amplamente utilizado por razões de desempenho.

(3). Tecnologia do sistema

A tecnologia de supressão exclui ou protege itens de dados que não atendem à proteção da privacidade, mas não os publicam.

- Mascaramento: refere -se ao método de dessensibilização mais comum para mascarar o valor do atributo, como o número do oponente, o cartão de identificação é marcado com um asterisco ou o endereço é truncado.

- Supressão local: refere-se ao processo de exclusão de valores específicos de atributos (colunas), removendo campos de dados não essenciais;

- Regressão de registro: refere-se ao processo de exclusão de registros específicos (linhas), excluindo registros de dados não essenciais.

(4). Pseudônimo de tecnologia

O pseudomanning é uma técnica de desidentificação que usa um pseudônimo para substituir um identificador direto (ou outro identificador sensível). As técnicas de pseudônimo criam identificadores exclusivos para cada sujeito de informações individuais, em vez de identificadores diretos ou sensíveis.

- Ele pode gerar valores aleatórios independentemente para corresponder ao ID original, salvar a tabela de mapeamento e controlar estritamente o acesso à tabela de mapeamento.

- Você também pode usar a criptografia para produzir pseudônimos, mas precisa manter a chave de descriptografia corretamente;

Essa tecnologia é amplamente utilizada no caso de um grande número de usuários de dados independentes, como o OpenID no cenário de plataforma aberta, onde diferentes desenvolvedores obtêm diferentes OpenIDs para o mesmo usuário.

(5). Técnicas de generalização

A técnica de generalização refere-se a uma técnica de desidentificação que reduz a granularidade dos atributos selecionados em um conjunto de dados e fornece uma descrição mais geral e abstrata dos dados. A tecnologia de generalização é fácil de implementar e pode proteger a autenticidade dos dados de nível recorde. É comumente usado em produtos de dados ou relatórios de dados.

- arredondamento: envolve a seleção de uma base de arredondamento para o atributo selecionado, como forense para cima ou para baixo, produzindo resultados 100, 500, 1k e 10k

- Técnicas de codificação superior e inferior: substitua os valores acima (ou abaixo) o limite com um limite representando o nível superior (ou inferior), produzindo o resultado de "acima x" ou "abaixo x"

(6). Técnicas de randomização

Como uma espécie de técnica de desidentificação, a tecnologia de randomização refere-se à modificação do valor de um atributo por meio da randomização, de modo que o valor após a randomização é diferente do valor real original. Esse processo reduz a capacidade de um invasor de derivar um valor de atributo de outros valores de atributo no mesmo registro de dados, mas afeta a autenticidade dos dados resultantes, o que é comum nos dados do teste de produção.


Tempo de postagem: 27-2022 de setembro