Investigación revela que Apple, Nvidia y Anthropic usaron subtítulos de YouTube para entrenar su inteligencia artificial

17.07.2024 23:20

Empresas tecnológicas como Apple, Nvidia y Anthropic emplearon una base de datos de EleutherAI con transcripciones de más de 173.500 videos de YouTube para entrenar sus inteligencias artificiales (IA), violando las normas de Google y sin el permiso de sus autores.

El director ejecutivo de YouTube, Neal Mohan, afirmó en abril que usar los videos de la plataforma para entrenar modelos y herramientas de IA contraviene sus políticas. Se refería al posible uso de OpenAI con Sora, una IA que crea escenas de video realistas a partir de texto.

Meta AI en WhatsApp: Paso a paso para aprender a usar la inteligencia artificial

Mohan explicó que los creadores de contenido en YouTube esperan que su trabajo esté protegido por los términos del servicio. A pesar de esto, una investigación de Proof News revela que empresas como Apple, Nvidia, Salesforce y Anthropic entrenaron sus IA con transcripciones de videos de YouTube a través de la base de datos de EleutherAI. Esta base incluye transcripciones de 173.536 videos de 48.000 canales, de autores como MIT, Harvard, The Wall Street Journal, BBC, MrBeast y PewDiePie.

La base de datos solo contiene textos de los videos, como subtítulos y traducciones, que se usaron sin permiso para entrenar IA. Salesforce y Anthropic confirmaron a Proof News el uso de la base de datos de EleutherAI, que es parte de una compilación mayor llamada ‘Pila’, la cual también incluye material del Parlamento Europeo, Wikipedia en inglés y correos corporativos de Enron publicados durante una investigación federal en Estados Unidos. Gran parte de ‘Pila’ es accesible públicamente y también la usan académicos e investigadores.

*La creación de este contenido contó con la asistencia de inteligencia artificial. La información fue proporcionada y revisada por un periodista para asegurar su precisión. El contenido no se generó automáticamente.