BIG Data

Anonimización de datos personales, clave para proteger a los usuarios

La anonimización es una técnica utilizada para disociar los datos identificativos de los registros tratados,...

La anonimización es una técnica utilizada para disociar los datos identificativos de los registros tratados, de cara a garantizar el derecho a la protección de datos

Estamos inmersos en una época de profundos cambios, en lo que se ha dado en llamar la era del dato, en la que la información es el petróleo del siglo XXI y un activo clave en el desarrollo empresarial. Los datos son el sustento de las estrategias de negocio a todos los niveles y tienen un gran valor, lo que obliga a cuidarlos, respetarlos y a procurar un óptimo tratamiento que garantice la privacidad y la protección de datos de personas tanto físicas como jurídicas.

Y en este punto, cobra un papel muy importante la anonimización. Como nos indica su propia denominación, este procedimiento es la acción de eliminar el riesgo de identificación de datos sensibles. O dicho de otra manera, son técnicas que permiten una explotación garantista de los datos, preservando el anonimato de personas en base al cumplimiento de la ley vigente, como el Reglamento General de Protección de Datos (RGPD).

Esta técnica reduce los riesgos inherentes al tratamiento masivo de datos, reservando de su exposición pública aquellos que requieren de especial protección. No obstante, no se mermar la capacidad para su explotación y conversión en información de utilidad a través del uso de tecnologías como la ciencia de datos, el big data, la inteligencia artificial o el machine learning, entre otras.

Técnicas de anonimización

La anonimización de datos puede realizarse en base a varias técnicas. Veamos algunas de ellas:

  • Cifrado homomórfico: permite ofuscar los datos y operar con ellos de manera oculta del mismo modo que si fueran visibles. Para garantizar el derecho a la protección individual, la información de los datos protegidos podrán hacerse visible únicamente con una clave de acceso. Es decir, solo aquellas personas que cuenten con un código para descifrar los datos podrán hacerlo.
  • Algoritmos de Hash: se trata de una operación matemática que asigna a un dato concreto una clave, sin la que no puede ser visualizado. Esa clave o huella digital representa el dato real y sin ella no puede ser descodificado. La operación se realiza en un único sentido para dotar de garantías al sistema: el dato o microdato ofuscado genera siempre la misma huella digital, sin embargo, partiendo de esa huella digital no es posible descifrar el dato anonimizado.
  • Aleatorización: como su propio nombre indica consiste en tratar los datos de manera aleatoria recogiéndolos para su explotación del total de registros sin identificar a quien corresponden, a través de la adición de ruido (modificar un conjunto de datos para que sea menos exacto), la permutación (mezcla de atributos para que puedan atribuirse a distintos interesados) o la privacidad diferencial (tratamiento general de datos sin saber a quién corresponde cada atributo).
  • Generalización: la garantía de anonimato se consigue a través de la modificación de escalas y órdenes de magnitud los atributos de las personas físicas o jurídicas a proteger. Para ello, se utilizan técnicas como la Agregación y anonimato-K (agrupación de personas para evitar su aislamiento e indentificación) o la Diversidad-l/Proximidad-t (similar al anterior añadiendo I valores diferenciales a cada equivalencia).

¿Qué es la seudonimización?

Según recoge la RGPD la sudonimización de datos personales es “aquella información que, sin incluir los datos denominativos de un sujeto, permiten identificarlo mediante información adicional, siempre que esta figure por separado y esté sujeta a medidas técnicas y organizativas destinadas a garantizar que los datos personales no se atribuyan a una persona física identificada o identificable”.

Es decir, consiste en reemplazar atributos de los datos a proteger por versiones cifradas, para impedir la identificación directa, sin eliminar su vinculación con información adicional, siempre que se custodie por separado. Como ejemplo de seudonimización podemos poder el cambio de los nombres de los clientes por códigos alfanuméricos, para que su identificación directa no sea posible.

La seudonimización puede llevarse a cabo, como en el caso de la anonimización, mediante el empleo de algoritmos de Hash, a través de la sustitución de datos sensibles por tokens, o gracias al uso de claves secretas o almacenadas.

Diferencias entre anonimización y seudonimización

Las diferencias básicas entre anonimización y seudonimización se basa en dos preceptos: la reversibilidad de los datos y su consideración como personales. Veámoslo con más detalle:

Como hemos explicado, la anonimización altera de forma irreversible los datos para que el individuo titular de los mismos no pueda ser identificado ni directa, ni indirectamente. En consecuencia, estos dejan de ser considerado por el RGPD como datos de carácter personal.

Sin embargo, la seudonimización cambia esos datos a proteger por claves o seudónimos, lo que permite revertir el proceso. En este caso, por esa posibilidad de volver a acceder a los datos originales, los registros seudonimizados continúan considerándose datos de carácter personal.

Ejemplos de anonimización y seudonimización

Un ejemplo de anonimización claro lo encontramos en cualquier tipo de estudio que se haga a través de encuestas. Pongamos, por ejemplo, cualquiera de los muchos análisis de situación realizados a raíz de la irrupción del COVID-19. En estos casos, al igual que sucede con las encuestas de Población Activa, por ejemplo, los datos de las personas que participan se agrupan en función de características generales como género, franjas de edad, estado de salud (con o sin patologías previas), por lo que la identificación de cada sujeto es imposible.

Por su parte, si queremos un ejemplo de seudonimización podemos encontrarlo en los registros empresariales de clientes. Para garantizar el anonimato, sus datos identificativos se sustituyen por un código que permite el trabajo interno y el análisis estadístico, garantizando el respeto a la protección de datos.