Datos sintéticos para IA, tan reales que chocan con la privacidad

 

La Inteligencia Artificial (IA), sea convencional o generativa, precisa ingentes cantidades de datos para entrenar sus modelos y que los algoritmos hagan su ‘magia’. Sin embargo, ¿de dónde salen todos estos datos? ¿Existen riesgos para la privacidad? Por supuesto que existen y por eso cada vez más se recurre a los datos sintéticos, pero incluso utilizando estos datos generados por ordenador para proteger datos confidenciales y mitigar sesgos hay posibilidades de que se vulnere la privacidad.

Existe una preocupación extendida entre las organizaciones por alimentar con sus propios datos estos modelos de IA cuando entran en producción, algo que es inevitable si lo quieren aplicar a su negocio. Este es el motivo por el que cada vez menos se apuesta por modelos abiertos en la nube pública. Sin embargo, antes de llegar a ese punto, es preciso entrenar los modelos de aprendizaje automático con conjuntos masivos de datos.

Es ahí donde entran en juego los datos sintéticos, hasta el punto de que la consultora Gartner ya predijo que para este año el 60% de los datos que se utilicen en IA y analítica se producirán artificialmente. Se trata de datos generados mediante modelos algorítmicos que imitan fielmente los datos del mundo real para mantener su poder estadístico al tiempo que se blinda la confidencialidad. Imaginen un sistema sanitario de diagnóstico automático por imagen o uno policial de análisis de riesgo de criminalidad; ¿cómo creen que se entrenan ese tipo de sistemas?

El problema es que al crearse este tipo de datos sintéticos basándose en reales, numerosos estudios alertan sobre los riesgos de reidentificación. Estos conjuntos de datos artificiales no siempre está libres de datos personales y, de hecho, se habla de datos totalmente sintéticos, parcialmente sintéticos –solo se sintetizan los atributos más sensibles- e híbridos –mezclan atributos reales con artificiales-. Aunque todavía es necesario investigar más, técnicamente hablando y en determinados casos, sería posible aplicar una ingeniería inversa de IA y reidentificar datos.

¿Qué protección legal tenemos ante eso? Pues tampoco está del todo claro, puesto que no es sencillo determinar qué nivel de riesgo de reidentificación sería suficiente para que una legislación tan garantista como el Reglamento General de Protección de Datos (RGPD) de la Unión Europea (UE) pueda aplicarse al procesamiento de datos sintéticos.

Urge abordar legislativamente este nuevo escenario que, cuando se redactó el RGPD no se tuvo en cuenta. Sin embargo, tampoco esto resulta tan sencillo, sencillamente, porque transparencia e IA no van de la mano. Los proveedores de soluciones de IA no son muy dados a compartir la naturaleza de los datos con que entrenan sus modelos. Ahora, en plena efervescencia por la inminente llegada de herramientas de generación de vídeo a partir de texto, como Sora de OpenAI o Lumiere de Google, nadie sabe con certeza cómo se han entrenado sus algoritmos, lo que dificulta el blindaje de la privacidad. En este sentido, deberían establecerse procedimientos claros para exigir responsabilidades a los autores de la generación y procesamiento de datos sintéticos, pero no parece que estemos cerca de alcanzar ese punto.

Paralelamente, otra problemática aparejada con estos datos sintéticos se plasma en la posibilidad de que, por extremar el cuidado a la hora de eliminar información sensible, se pierda por el camino capacidad estadística y, con ello, efectividad en el entrenamiento del modelo de IA. Queda mucha tela por cortar, aunque empresas y usuarios andan desatados con esta tecnología.

(Artículo en Público)

Next Post Previous Post

Sin comentarios