Como a SOFA anonimiza os dados

Leitura estimada: 4 minutos 326 visualizações

A anonimização é uma técnica de processamento de dados que remove ou modifica informações que possam identificar uma pessoa. Essa técnica resulta em dados anonimizados, que não podem ser associados a nenhum indivíduo específico. É também um componente importante do compromisso da SOFA com a privacidade.

Com a análise de dados anonimizados, a SOFA pode criar funcionalidades e recursos seguros e valiosos, como o preenchimento automático de uma consulta de pesquisa inserida, e detectar com mais precisão as ameaças à segurança, como sites de phishing e malware, além de proteger a identidade de visitantes. Também pode haver compartilhamento externo e com segurança dos dados anonimizados, tornando-os úteis para outras pessoas sem colocar a privacidade de visitantes em risco.

Duas técnicas que usadas para proteger dados:

Generalização dos dados

Alguns elementos de dados podem ser associados a certos indivíduos com mais facilidade. Para proteger essas pessoas, a generalização é usada para remover parte dos dados ou substituir alguma parte deles por um valor comum. Por exemplo, a generalização pode ser usada para substituir segmentos de todos os códigos de área ou números de telefone pela mesma sequência de números.

A generalização permite alcançar o k-anonimato, um termo padrão do setor usado para descrever uma técnica que esconde a identidade dos indivíduos em um grupo de pessoas semelhantes. No k-anonimato, k é um número que representa o tamanho de um grupo. Se, para qualquer indivíduo do conjunto de dados, houver pelo menos k-1 indivíduos que tenham as mesmas propriedades, será alcançado o k-anonimato para esse conjunto de dados. Por exemplo, imagine um conjunto de dados específico em que k seja igual a 50 e a propriedade seja o CEP. Ao se observar qualquer pessoa desse conjunto de dados, sempre encontrar-se-ão 49 outras pessoas com o mesmo CEP. Portanto, não será possível identificar nenhuma pessoa a partir do CEP dela.

Se todos os indivíduos de um conjunto de dados compartilham do mesmo valor de um atributo confidencial, informações confidenciais podem ser reveladas quando se sabe que essas pessoas fazem parte do conjunto de dados em questão. Para reduzir esse risco, pode-se utilizar a l-diversidade, um termo padrão do setor usado para descrever algum nível de diversidade nos valores confidenciais. Por exemplo, imagine que um grupo de pessoas tenha pesquisado o mesmo tópico de conteúdo (por exemplo, filmes de ação), todas ao mesmo tempo. A análise desse conjunto de dados não permite dizer quem pesquisou o tópico, graças ao k-anonimato. No entanto, ainda poderá haver alguma preocupação em relação à privacidade, uma vez que todos compartilham do mesmo atributo de confidencialidade (ou seja, o tópico da pesquisa). Com a l-diversidade, o conjunto de dados anonimizados não incluiria apenas pesquisas sobre o gênero ação, mas poderia incluir também outras pesquisas para proteger ainda mais a privacidade de visitantes.

Adição de ruídos aos dados

A privacidade diferencial (outro termo padrão do setor) descreve uma técnica para adição de ruído matemático aos dados. Com a privacidade diferencial, é difícil determinar se um indivíduo faz parte de um conjunto de dados, porque o resultado de um algoritmo específico parecerá essencialmente o mesmo, independentemente de as informações dos indivíduos estarem incluídas ou omitidas. Por exemplo, imagine que se meça a tendência geral nas pesquisas sobre filmes de ação em uma região geográfica. Para alcançar a privacidade diferencial, será adicionado ruído ao conjunto de dados. Isso significa que poderão ser adicionados ou subtraídos os números de pessoas que estão pesquisando sobre o gênero de ação em uma área específica. Isso, no entanto, não afetaria a medição da tendência em uma região geográfica mais ampla. É importante notar também que a adição de ruído a um conjunto de dados pode torná-lo menos útil.

A anonimização é apenas um dos processos usados para manter o compromisso com a privacidade de visitantes. Outros processos incluem controles rígidos do acesso a dados de visitantes, políticas para controlar e limitar a inclusão de conjuntos de dados que possam identificar visitantes e a análise centralizada de estratégias de anonimização e governança de dados para garantir um nível consistente de proteção em toda a SOFA.

SOFA DGTL

Como a SOFA anonimiza os dados

Generalização dos dados

Adição de ruídos aos dados

Como a SOFA anonimiza os dados