Meta ha sido acusada de usar contenido pirateado mediante torrents para entrenar su IA

Meta ha sido acusada de recurrir a contenido pirateado existente en la red de torrents para entrenar su IA Meta AI. Esta noticia no resulta para nada sorprendente. Y es que es bien sabido que las empresas de IA han prácticamente destripado toda la información existente en Internet para entrenar su IA. Sin ir más La entrada Meta ha sido acusada de usar contenido pirateado mediante torrents para entrenar su IA aparece primero en El Chapuzas Informático.

Ene 14, 2025 - 12:19

Meta ha sido acusada de usar contenido pirateado mediante torrents para entrenar su IA

Meta ha sido acusada de recurrir a contenido pirateado existente en la red de torrents para entrenar su IA Meta AI. Esta noticia no resulta para nada sorprendente. Y es que es bien sabido que las empresas de IA han prácticamente destripado toda la información existente en Internet para entrenar su IA.

Sin ir más lejos, la semana pasada Elon Musk daba a conocer que se habían agotado los datos humanos para entrenar modelos de IA. Así que ya podéis imaginar lo que han hecho, y a la velocidad que lo han hecho, para haber conseguido este "logro". Ahora estando forzada a recurrir a datos sintéticos, datos generados por las propias IA, para seguir con el entrenamiento. Todo ello pese a que podría dar datos falsos.

Meta AI fue entrenada con contenido pirata: la afirmación tras una demanda en 2023

Meta fue demandada en el año 2023 por, supuestamente, entrenar a su LLM Llama con contenido pirateado extraído mediante una red de torrents. Esta demanda fue realizada por los novelistas Richard Kadrey y Christopher Golden, quienes afirmaron que Meta utilizó contenido con derechos de autor sin autorización. Como respuesta a la demanda, Meta entregó al tribunal documentos con información censurada. Información que ahora el Tribunal de Distrito de los Estados Unidos para el Distrito Norte de California ordenó que se hicieran públicos, conociendo así esta información.

Los documentos muestran conversaciones entre empleados de Meta sobre Meta AI y Llama. En una de estas conversaciones, un ingeniero de Meta revela que "usar torrent desde un portátil corporativo (propiedad de Meta) no me parece bien", lo que corrobora que la empresa utilizaba contenido pirateado para entrenar su IA. Otra conversación sugiere que "MZ" (Mark Zuckeberg) autorizó el uso de material pirateado.

Los informes sugieren que Meta utilizó contenidos de LibGen, una enorme biblioteca de libros, revistas y artículos académicos pirateados usando los torrents. LibGen se creó en Rusia en 2008 y ha sido objeto de múltiples demandas por derechos de autor desde entonces. Al parecer, Meta también utilizó contenidos de otras "bibliotecas en la sombra" para el entrenamiento de la IA.

La empresa argumenta que utilizó materiales públicos en virtud de la doctrina legal del "uso justo", que permite el uso de contenidos protegidos por derechos de autor sin permiso en determinadas circunstancias. Meta también afirma que sólo está "usando texto para modelar estadísticamente el lenguaje y generar expresiones originales".

"Meta ha tratado la llamada "disponibilidad pública" de los conjuntos de datos en la sombra como una tarjeta de salida de la cárcel, a pesar de que los registros internos de Meta muestran que todos los tomadores de decisiones relevantes en Meta, hasta e incluyendo a su CEO, Mark Zuckerberg, sabían que LibGen era "un conjunto de datos que sabemos que es pirata". Alegan los demandantes en esta moción recogida por Wired.
"Además de los escritos de los demandantes, se presentó otro escrito no redactado en respuesta a la orden del juez: la oposición de Meta a la petición de presentar una demanda modificada. Sostiene que los intentos de los autores de añadir reclamaciones adicionales al caso son una "táctica de última hora basada en una premisa falsa e incendiaria" y niega que Meta esperara a revelar información crucial en la fase de proposición de prueba.
En cambio, Meta argumenta que reveló por primera vez a los demandantes que utilizaba un conjunto de datos LibGen en julio de 2024". Debido a que gran parte de los documentos siguen siendo confidenciales, es difícil confirmar esa afirmación.

La entrada Meta ha sido acusada de usar contenido pirateado mediante torrents para entrenar su IA aparece primero en El Chapuzas Informático.