Cuando la IA infringe la ley antes incluso de usarse

David Bollero

30 jun, 2023

La Inteligencia Artificial (IA) generativa y sistemas como el popular ChatGPT de OpenAI precisan de una cantidad ingente de información para entrenar sus modelos de lenguaje. Las fuentes de estos grandes volúmenes de datos plantean dos grandes problemas: En primer lugar, su fiabilidad, porque del grado de precisión de estos datos depende la calidad de los resultados. En ese sentido, muchos sistemas se nutren de fuentes como Wikipedia o las redes abiertas de internet, cuya información no siempre es correcta. El segundo de los problemas también viene ligado al origen de la información, pero en el sentido de si cuenta o no con derechos de autor. Comienzan la cascada de demandas.

Antes de que la IA generativa llegue al público general con la popularidad con que lo ha hecho ChatGPT, el sistema ha tenido que someterse a un aprendizaje con millones de datos cuya procedencia puede traer aparejadas cuestiones legales. Tanto es así que OpenAI ya cuenta con al menos dos demandas de una
naturaleza bien distinta: mientras una de ellas es una demanda colectiva que acusa a la compañía de haber robado en secreto datos de usuarios de internet ajenos a ello, otra afecta directamente a los derechos de autor de diversas publicaciones.

En sus orígenes, OpenAI era una compañía sin ánimo de lucro que buscaba el desarrollo de la IA y exploraba su uso beneficioso y útil. Cuatro años después, la organización comenzó a dar entrada a empresas privadas que detectaron la oportunidad de negocio y, según detalla la demanda colectiva, es cuando comenzó el robo de información para entrenar al sistema. A lo largo de las 157 páginas de la demanda la acusación detalla cómo el sistema habría recolectado en secreto cantidades masivas de datos, sin previo consentimiento de sus propietarios, desde información privada, a datos médicos y todo tipo de intercambio de información por internet.

La demanda colectiva advierte –no está probado- de que la violación de la privacidad se extendería también a los usuarios que hayan utilizado productos en los que ChatGPT está integrado de algún modo, como es el caso aplicaciones de uso generalizado como Spotify, Snapchat o Stripe, pero también de plataformas de colaboración empresarial como Microsoft Teams y Slack.

Al mismo tiempo, otra demanda presentada esta misma semana en un tribunal federal de San Francisco acusa a ChatGPT de haber extraído datos de miles de libros sin permiso, violando los derechos de autor. Esta demanda cifra en alrededor de 300.000 los libros que podrían haber sido víctima del plagio, habiendo accedido a ellos en muchos casos a través de páginas web que ofrecen este contenido infringiendo el copyright.

La opacidad que se cierne sobre la mayor parte de los productos de IA va más allá del desarrollo de sus algoritmos, alcanzando también a qué conjuntos de datos se utilizan para la fase previa de aprendizaje de los modelos. Detrás de estas demandas viene, una vez más, una necesidad y también demanda de una regulación que llega tarde. Una normativa que no sólo se ocupe de los usos de la IA generativa, sino que vaya un paso atrás, a cómo se crea y entrena ese tipo de sistemas. En el caso de la demanda colectiva, incluso, piden que el uso comercial de los productos de OpenAI –también, su desarrollo- se congele cautelarmente hasta que llegue esa regulación que salvaguarde una privacidad que parece no estar tan blindada como se creía.

David Bollero

Periodista freelance

Cuando la IA infringe la ley antes incluso de usarse

David Bollero

Sin comentarios

FiSahara

Top semanal

Archivos

Artículos recientes

Formulario de contacto

kⒶosTICa

David Bollero

Sin comentarios

FiSahara

Top semanal

León Connection: premiando la destrucción

El CGPJ se vuelve comunista

Podemos se resta de Sumar

Archivos

Artículos recientes

Formulario de contacto

kⒶosTICa