1. O conceito de mascaramento de dados
O mascaramento de dados também é conhecido como mascaramento de dados. É um método técnico para converter, modificar ou cobrir dados confidenciais, como número de telefone celular, número de cartão bancário e outras informações, quando fornecemos regras e políticas de mascaramento. Esta técnica é usada principalmente para evitar que dados confidenciais sejam usados diretamente em ambientes não confiáveis.
Princípio do mascaramento de dados: O mascaramento de dados deve manter as características originais dos dados, regras de negócios e relevância dos dados para garantir que o desenvolvimento, teste e análise de dados subsequentes não sejam afetados pelo mascaramento. Garanta a consistência e validade dos dados antes e depois do mascaramento.
2. Classificação de mascaramento de dados
O mascaramento de dados pode ser dividido em mascaramento de dados estáticos (SDM) e mascaramento de dados dinâmicos (DDM).
Mascaramento de dados estáticos (SDM): O mascaramento de dados estáticos requer o estabelecimento de um novo banco de dados de ambiente de não produção para isolamento do ambiente de produção. Os dados confidenciais são extraídos do banco de dados de produção e depois armazenados no banco de dados de não produção. Dessa forma, os dados dessensibilizados ficam isolados do ambiente de produção, o que atende às necessidades do negócio e garante a segurança dos dados de produção.
Mascaramento de dados dinâmicos (DDM): Geralmente é usado no ambiente de produção para dessensibilizar dados confidenciais em tempo real. Às vezes, são necessários diferentes níveis de mascaramento para ler os mesmos dados confidenciais em situações diferentes. Por exemplo, diferentes funções e permissões podem implementar diferentes esquemas de mascaramento.
Aplicação de relatórios de dados e mascaramento de produtos de dados
Esses cenários incluem principalmente produtos de monitoramento de dados internos ou outdoors, produtos de dados de serviços externos e relatórios baseados em análise de dados, como relatórios de negócios e revisão de projetos.
3. Solução de mascaramento de dados
Os esquemas comuns de mascaramento de dados incluem: invalidação, valor aleatório, substituição de dados, criptografia simétrica, valor médio, deslocamento e arredondamento, etc.
Invalidação: a invalidação refere-se à criptografia, truncamento ou ocultação de dados confidenciais. Este esquema geralmente substitui dados reais por símbolos especiais (como *). A operação é simples, mas os usuários não podem saber o formato dos dados originais, o que pode afetar aplicações de dados subsequentes.
Valor aleatório: O valor aleatório refere-se à substituição aleatória de dados confidenciais (números substituem dígitos, letras substituem letras e caracteres substituem caracteres). Este método de mascaramento garantirá até certo ponto o formato dos dados confidenciais e facilitará a aplicação subsequente dos dados. Dicionários de mascaramento podem ser necessários para algumas palavras significativas, como nomes de pessoas e lugares.
Substituição de dados: a substituição de dados é semelhante ao mascaramento de valores nulos e aleatórios, exceto que, em vez de usar caracteres especiais ou valores aleatórios, os dados de mascaramento são substituídos por um valor específico.
Criptografia Simétrica: a criptografia simétrica é um método especial de mascaramento reversível. Ele criptografa dados confidenciais por meio de chaves e algoritmos de criptografia. O formato do texto cifrado é consistente com os dados originais nas regras lógicas.
Média: O esquema médio é frequentemente usado em cenários estatísticos. Para dados numéricos, primeiro calculamos sua média e depois distribuímos aleatoriamente os valores dessensibilizados em torno da média, mantendo assim a soma dos dados constante.
Deslocamento e arredondamento: Este método altera os dados digitais por mudança aleatória. O arredondamento do deslocamento garante a autenticidade aproximada do intervalo, mantendo a segurança dos dados, que está mais próxima dos dados reais do que os esquemas anteriores, e tem grande importância no cenário de análise de big data.
O modelo recomendado "ML-NPB-5660" para o mascaramento de dados
4. Técnicas de mascaramento de dados comumente usadas
(1). Técnicas Estatísticas
Amostragem de dados e agregação de dados
- Amostragem de dados: A análise e avaliação do conjunto de dados original, selecionando um subconjunto representativo do conjunto de dados, é um método importante para melhorar a eficácia das técnicas de desidentificação.
- Agregação de dados: Como um conjunto de técnicas estatísticas (como soma, contagem, média, máximo e mínimo) aplicadas a atributos em microdados, o resultado é representativo de todos os registros do conjunto de dados original.
(2). Criptografia
A criptografia é um método comum para dessensibilizar ou aumentar a eficácia da dessensibilização. Diferentes tipos de algoritmos de criptografia podem atingir diferentes efeitos de dessensibilização.
- Criptografia determinística: Uma criptografia simétrica não aleatória. Geralmente processa dados de ID e pode descriptografar e restaurar o texto cifrado para o ID original quando necessário, mas a chave precisa ser devidamente protegida.
- Criptografia irreversível: A função hash é usada para processar dados, que geralmente é usada para dados de identificação. Não pode ser descriptografado diretamente e o relacionamento de mapeamento deve ser salvo. Além disso, devido ao recurso da função hash, pode ocorrer colisão de dados.
- Criptografia homomórfica: é utilizado o algoritmo homomórfico de texto cifrado. Sua característica é que o resultado da operação do texto cifrado é o mesmo da operação do texto simples após a descriptografia. Portanto, é comumente usado para processar campos numéricos, mas não é amplamente utilizado por razões de desempenho.
(3). Tecnologia de Sistema
A tecnologia de supressão exclui ou protege itens de dados que não atendem à proteção de privacidade, mas não os publica.
- Mascaramento: refere-se ao método de dessensibilização mais comum para mascarar o valor do atributo, como o número do oponente, o cartão de identificação marcado com um asterisco ou o endereço truncado.
- Supressão local: refere-se ao processo de exclusão de valores de atributos específicos (colunas), removendo campos de dados não essenciais;
- Supressão de registros: refere-se ao processo de exclusão de registros específicos (linhas), excluindo registros de dados não essenciais.
(4). Tecnologia de pseudônimo
Pseudomanning é uma técnica de desidentificação que usa um pseudônimo para substituir um identificador direto (ou outro identificador confidencial). As técnicas de pseudônimos criam identificadores exclusivos para cada assunto de informação individual, em vez de identificadores diretos ou confidenciais.
- Pode gerar valores aleatórios de forma independente para corresponder ao ID original, salvar a tabela de mapeamento e controlar estritamente o acesso à tabela de mapeamento.
- Você também pode usar criptografia para produzir pseudônimos, mas precisa manter a chave de descriptografia corretamente;
Esta tecnologia é amplamente utilizada no caso de um grande número de usuários independentes de dados, como é o caso do OpenID no cenário de plataforma aberta, onde diferentes desenvolvedores obtêm diferentes Openids para o mesmo usuário.
(5). Técnicas de Generalização
A técnica de generalização refere-se a uma técnica de desidentificação que reduz a granularidade dos atributos selecionados em um conjunto de dados e fornece uma descrição mais geral e abstrata dos dados. A tecnologia de generalização é fácil de implementar e pode proteger a autenticidade dos dados em nível de registro. É comumente usado em produtos de dados ou relatórios de dados.
- Arredondamento: envolve a seleção de uma base de arredondamento para o atributo selecionado, como análise forense para cima ou para baixo, produzindo resultados 100, 500, 1K e 10K
- Técnicas de codificação superior e inferior: Substitua os valores acima (ou abaixo) do limite por um limite que represente o nível superior (ou inferior), produzindo um resultado de "acima de X" ou "abaixo de X"
(6). Técnicas de Randomização
Como uma espécie de técnica de desidentificação, a tecnologia de randomização refere-se à modificação do valor de um atributo por meio de randomização, de modo que o valor após a randomização seja diferente do valor real original. Este processo reduz a capacidade de um invasor derivar um valor de atributo de outros valores de atributos no mesmo registro de dados, mas afeta a autenticidade dos dados resultantes, o que é comum com dados de teste de produção.
Horário da postagem: 27 de setembro de 2022