Cuando la IA infringe la ley antes incluso de usarse
Antes de que la IA generativa llegue al público general con la popularidad con que lo ha hecho ChatGPT, el sistema ha tenido que someterse a un aprendizaje con millones de datos cuya procedencia puede traer aparejadas cuestiones legales. Tanto es así que OpenAI ya cuenta con al menos dos demandas de una
naturaleza bien distinta: mientras una de ellas es una demanda colectiva que acusa a la compañía de haber robado en secreto datos de usuarios de internet ajenos a ello, otra afecta directamente a los derechos de autor de diversas publicaciones.
En sus orígenes, OpenAI era una compañía sin ánimo de lucro que buscaba el desarrollo de la IA y exploraba su uso beneficioso y útil. Cuatro años después, la organización comenzó a dar entrada a empresas privadas que detectaron la oportunidad de negocio y, según detalla la demanda colectiva, es cuando comenzó el robo de información para entrenar al sistema. A lo largo de las 157 páginas de la demanda la acusación detalla cómo el sistema habría recolectado en secreto cantidades masivas de datos, sin previo consentimiento de sus propietarios, desde información privada, a datos médicos y todo tipo de intercambio de información por internet.
La demanda colectiva advierte –no está probado- de que la violación de la privacidad se extendería también a los usuarios que hayan utilizado productos en los que ChatGPT está integrado de algún modo, como es el caso aplicaciones de uso generalizado como Spotify, Snapchat o Stripe, pero también de plataformas de colaboración empresarial como Microsoft Teams y Slack.
Al mismo tiempo, otra demanda presentada esta misma semana en un tribunal federal de San Francisco acusa a ChatGPT de haber extraído datos de miles de libros sin permiso, violando los derechos de autor. Esta demanda cifra en alrededor de 300.000 los libros que podrían haber sido víctima del plagio, habiendo accedido a ellos en muchos casos a través de páginas web que ofrecen este contenido infringiendo el copyright.
La opacidad que se cierne sobre la mayor parte de los productos de IA va más allá del desarrollo de sus algoritmos, alcanzando también a qué conjuntos de datos se utilizan para la fase previa de aprendizaje de los modelos. Detrás de estas demandas viene, una vez más, una necesidad y también demanda de una regulación que llega tarde. Una normativa que no sólo se ocupe de los usos de la IA generativa, sino que vaya un paso atrás, a cómo se crea y entrena ese tipo de sistemas. En el caso de la demanda colectiva, incluso, piden que el uso comercial de los productos de OpenAI –también, su desarrollo- se congele cautelarmente hasta que llegue esa regulación que salvaguarde una privacidad que parece no estar tan blindada como se creía.
Sin comentarios