Qual é a tecnologia e a solução de mascaramento de dados no Network Packet Broker?

1. O conceito de mascaramento de dados

A mascaramento de dados, também conhecido como ocultação de informações, é um método técnico para converter, modificar ou encobrir dados sensíveis, como números de telefone celular, números de cartão bancário e outras informações, quando regras e políticas de mascaramento são estabelecidas. Essa técnica é usada principalmente para impedir que dados sensíveis sejam utilizados diretamente em ambientes não confiáveis.

Princípio da Máscara de Dados: A máscara de dados deve preservar as características originais dos dados, as regras de negócio e a relevância dos dados para garantir que o desenvolvimento, os testes e a análise de dados subsequentes não sejam afetados pela máscara. Garanta a consistência e a validade dos dados antes e depois da máscara.

2. Classificação de mascaramento de dados

A mascaramento de dados pode ser dividido em mascaramento estático de dados (SDM) e mascaramento dinâmico de dados (DDM).

Mascaramento estático de dados (SDM)A mascaramento estático de dados requer a criação de um novo banco de dados em ambiente de não produção para isolá-lo do ambiente de produção. Os dados sensíveis são extraídos do banco de dados de produção e armazenados no banco de dados de não produção. Dessa forma, os dados anonimizados são isolados do ambiente de produção, atendendo às necessidades do negócio e garantindo a segurança dos dados de produção.

SDM

Mascaramento dinâmico de dados (DDM)Geralmente é utilizado em ambientes de produção para dessensibilizar dados sensíveis em tempo real. Às vezes, diferentes níveis de mascaramento são necessários para ler os mesmos dados sensíveis em diferentes situações. Por exemplo, diferentes funções e permissões podem implementar diferentes esquemas de mascaramento.

DDM

aplicação de mascaramento de produtos de dados e geração de relatórios de dados

Esses cenários incluem principalmente produtos internos de monitoramento de dados ou painéis de informações, produtos externos de dados de serviços e relatórios baseados em análise de dados, como relatórios comerciais e revisão de projetos.

mascaramento de produto de relatório de dados

3. Solução de Mascaramento de Dados

Os esquemas comuns de mascaramento de dados incluem: invalidação, valor aleatório, substituição de dados, criptografia simétrica, valor médio, deslocamento e arredondamento, etc.

InvalidaçãoA invalidação refere-se à criptografia, truncamento ou ocultação de dados sensíveis. Esse método geralmente substitui os dados reais por símbolos especiais (como *). A operação é simples, mas os usuários não podem conhecer o formato dos dados originais, o que pode afetar aplicações subsequentes.

Valor aleatórioO termo "valor aleatório" refere-se à substituição aleatória de dados sensíveis (números substituem dígitos, letras substituem letras e caracteres substituem caracteres). Esse método de mascaramento garante, até certo ponto, a formatação dos dados sensíveis e facilita a aplicação subsequente dos dados. Dicionários de mascaramento podem ser necessários para algumas palavras com significado, como nomes de pessoas e lugares.

Substituição de dadosA substituição de dados é semelhante à ocultação de valores nulos e aleatórios, exceto que, em vez de usar caracteres especiais ou valores aleatórios, os dados de ocultação são substituídos por um valor específico.

Criptografia SimétricaA criptografia simétrica é um método especial de mascaramento reversível. Ela criptografa dados sensíveis por meio de chaves e algoritmos de criptografia. O formato do texto cifrado é consistente com os dados originais em termos de regras lógicas.

MédiaO método da média é frequentemente utilizado em cenários estatísticos. Para dados numéricos, primeiro calculamos a média e, em seguida, distribuímos aleatoriamente os valores dessensibilizados em torno da média, mantendo assim a soma dos dados constante.

Deslocamento e arredondamentoEste método altera os dados digitais por meio de deslocamento aleatório. O arredondamento por deslocamento garante a autenticidade aproximada do intervalo, mantendo a segurança dos dados, o que o torna mais próximo dos dados reais do que os esquemas anteriores, e tem grande importância no cenário de análise de big data.

ML-NPB-5660-数据脱敏

O Modelo Recomendado "ML-NPB-5660"para mascaramento de dados"

4. Técnicas de mascaramento de dados comumente utilizadas

(1) Técnicas Estatísticas

Amostragem e agregação de dados

- Amostragem de dados: A análise e avaliação do conjunto de dados original, através da seleção de um subconjunto representativo, é um método importante para melhorar a eficácia das técnicas de desidentificação.

- Agregação de dados: Como um conjunto de técnicas estatísticas (como soma, contagem, média, máximo e mínimo) aplicadas a atributos em microdados, o resultado é representativo de todos os registros no conjunto de dados original.

(2). Criptografia

A criptografia é um método comum para reduzir ou aumentar a eficácia da dessensibilização. Diferentes tipos de algoritmos de criptografia podem alcançar diferentes efeitos de dessensibilização.

- Criptografia determinística: Uma criptografia simétrica não aleatória. Geralmente processa dados de identificação e pode descriptografar e restaurar o texto cifrado para a identificação original quando necessário, mas a chave precisa ser devidamente protegida.

- Criptografia irreversível: A função hash é usada para processar dados, geralmente para dados de identificação. Não pode ser descriptografada diretamente e a relação de mapeamento deve ser preservada. Além disso, devido à característica da função hash, podem ocorrer colisões de dados.

- Criptografia homomórfica: Utiliza-se o algoritmo de criptografia homomórfica. Sua característica principal é que o resultado da operação com o texto cifrado é o mesmo que o resultado da operação com o texto original após a descriptografia. Portanto, é comumente utilizada para processar campos numéricos, mas seu uso não é tão difundido devido a questões de desempenho.

(3). Tecnologia de sistemas

A tecnologia de supressão exclui ou oculta itens de dados que não atendem aos requisitos de proteção de privacidade, mas não os publica.

- Mascaramento: refere-se ao método de dessensibilização mais comum para mascarar o valor do atributo, como o número do oponente, o cartão de identificação marcado com um asterisco ou o endereço truncado.

- Supressão local: refere-se ao processo de exclusão de valores de atributos específicos (colunas), removendo campos de dados não essenciais;

- Supressão de registros: refere-se ao processo de exclusão de registros específicos (linhas), excluindo registros de dados não essenciais.

(4). Tecnologia de pseudônimos

A pseudonimização é uma técnica de desidentificação que utiliza um pseudônimo para substituir um identificador direto (ou outro identificador sensível). As técnicas de pseudônimo criam identificadores únicos para cada indivíduo sujeito à informação, em vez de identificadores diretos ou sensíveis.

- Ele pode gerar valores aleatórios de forma independente para corresponder ao ID original, salvar a tabela de mapeamento e controlar rigorosamente o acesso à tabela de mapeamento.

Você também pode usar criptografia para criar pseudônimos, mas precisa guardar a chave de descriptografia em local seguro;

Essa tecnologia é amplamente utilizada em casos com um grande número de usuários de dados independentes, como o OpenID em cenários de plataforma aberta, onde diferentes desenvolvedores obtêm OpenIDs diferentes para o mesmo usuário.

(5). Técnicas de generalização

A técnica de generalização refere-se a uma técnica de desidentificação que reduz a granularidade de atributos selecionados em um conjunto de dados e fornece uma descrição mais geral e abstrata dos dados. A tecnologia de generalização é fácil de implementar e pode proteger a autenticidade dos dados em nível de registro. É comumente usada em produtos ou relatórios de dados.

- Arredondamento: envolve a seleção de uma base de arredondamento para o atributo selecionado, como arredondamento para cima ou para baixo, resultando em valores como 100, 500, 1K e 10K.

- Técnicas de codificação superior e inferior: Substituir valores acima (ou abaixo) do limite por um limite que represente o nível superior (ou inferior), resultando em "acima de X" ou "abaixo de X".

(6). Técnicas de Randomização

Como uma técnica de desidentificação, a tecnologia de randomização consiste em modificar o valor de um atributo por meio de aleatorização, de modo que o valor resultante seja diferente do valor original. Esse processo reduz a capacidade de um atacante derivar o valor de um atributo a partir de outros valores de atributos no mesmo registro de dados, mas afeta a autenticidade dos dados resultantes, o que é comum em dados de teste de produção.


Data da publicação: 27/09/2022