OpenAI y EEUU acusan a DeepSeek de "destilar" ChatGPT sin permiso tras hacer lo mismo con todo Internet

29.01.2025 22:15

Eldiario.es

La compañía, denunciada por múltiples violaciones de copyright, acusa a la empresa china de haber utilizado ChatGPT para entrenar su inteligencia artificial

La china DeepSeek desafía con una IA de bajo coste a Trump y su corte tecnológica

La irrupción de DeepSeek ha sacudido la industria de la inteligencia artificial. Una de las consecuencias es que ha puesto a OpenAI frente al espejo: la creadora de ChatGPT denuncia que la empresa china ha utilizado sus sistemas para entrenar su IA sin su permiso violando sus términos de servicio, exactamente la misma acusación que múltiples organizaciones han lanzado contra ella en los dos últimos años.

Entre ellas se encuentra el New York Times, que la acusa de haber incluido toda su hemeroteca en su base de datos sin permiso; o Authors Gild, un sindicato de autores de EEUU que engloba a escritores como George R. R. Martin (Canción de hielo y fuego), por utilizar sus obras. La lista sigue por ilustradores o cómicos que sospechan que nutrió a ChatGPT con su trabajo sin su conocimiento ni consentimiento.

En el caso de los libros existen informes que documentan cómo ChatGPT los ha incluido en su base de datos mucho más que otros modelos. Así lo atestigua un estudio de Patronus AI, una plataforma de auditoría de inteligencias artificiales, que reveló que cuando se le pregunta por extractos concretos, ChatGPT es capaz de reproducir libros palabra por palabra el 44% de las ocasiones. En comparación, el modelo LlaMA de Meta, o Claude, creada por Anthropic (financiada por Amazon), solo lo hicieron el 10% y el 8% de las veces, respectivamente.

La propia OpenAI no niega las acusaciones, pero lo enmarca dentro de un “uso justo” de las obras. En una carta al parlamento británico, los de Sam Altman reconocieron que “sería imposible entrenar los modelos de IA más avanzados sin utilizar materiales protegidos por derechos de autor”. “Limitar los datos de entrenamiento a libros de dominio público y dibujos creados hace más de un siglo podría dar lugar a un experimento interesante, pero no proporcionaría sistemas de IA que satisfagan las necesidades actuales”, alegó.

ChatGPT destilado

Ahora las tornas han cambiado. Este miércoles, OpenAI ha aseverado que tiene evidencias de que DeepSeek ha utilizado ChatGPT para “destilar” su IA. Así se denomina al proceso en el que un modelo de IA más pequeño y eficiente se refina usando las respuestas de uno más grande y complejo, de forma que aprenda qué es lo esencial sin perder calidad.

Se trata de una práctica común en la industria que se está usando, por ejemplo, para integrar IA avanzada en dispositivos como teléfonos sin necesidad de conectarlos con supercomputadoras. “Estamos al tanto y revisando los indicios de que DeepSeek puede haber destilado de forma inapropiada nuestros modelos, y compartiremos la información a medida que sepamos más”, asevera una portavoz de OpenAI en un comunicado enviado a elDiario.es, aunque no proporciona pruebas de la acusación.

DeepSeek asegura su modelo es un 90% más eficiente en el consumo de recursos que ChatGPT, tanto en la fase de entrenamiento como en la de despliegue. En un artículo científico, ha detallado como su IA se basa en un “modelo de expertos” que optimiza su funcionamiento. Cifra en unos 5,5 millones de euros el coste de ponerla en marcha, una cifra que queda lejos de los cientos de millones de sus contrapartes estadounidenses.

Con esta acusación, OpenAI pone en duda la innovación china y achaca la mejora a un uso no consentido de sus servicios. “Tomamos contramedidas agresivas y proactivas para proteger nuestra tecnología y seguiremos trabajando estrechamente con el gobierno estadounidense para proteger los modelos más capaces que se construyen aquí”, continúan desde OpenAI. Sus términos de uso prohíben “copiar” sus servicios y “utilizar los resultados para desarrollar modelos que compitan” con los suyos.

Microsoft, máximo aliado y cliente principal de OpenAI, ha filtrado la misma acusación a Bloomberg. En este caso viene de su equipo de seguridad, que asegura que en octubre detectó que “individuos que creen que pueden estar vinculados con DeepSeek estaban extrayendo una gran cantidad de datos utilizando la interfaz de OpenAI”, explica la agencia. Microsoft tiene conocimiento directo del tráfico de OpenAI porque su acuerdo comercial incluye el uso gratuito de sus centros de datos. Sin embargo, tampoco ofrece evidencias a Bloomberg de estas aseveraciones.

elDiario.es se ha puesto en contacto con DeepSeek para incluir su posicionamiento en esta información, pero no ha recibido respuesta.

El “zar” defiende a sus campeones

El Gobierno de Trump no ha dejado solos a sus campeones de la IA. David Sacks, oficialmente el jefe del Consejo de Asesores del Presidente en Materia de Ciencia y Tecnología, “el zar de la inteligencia artificial y las criptomonedas” en palabras de Donald Trump, ha hecho la misma acusación en Fox News. “Hay una técnica en IA llamada destilación... cuando un modelo aprende de otro modelo, de alguna manera absorbe el conocimiento del modelo padre”, ha declarado: “Hay evidencia sustancial de que lo que hizo DeepSeek aquí fue extraer el conocimiento de los modelos de OpenAI, y no creo que OpenAI esté muy contento con esto”.

Sacks tampoco ha ofrecido pruebas de las acusaciones. “Creo que una de las cosas que vamos a ver en los próximos meses es a nuestras principales empresas de IA tomando medidas para tratar de evitar la destilación. Eso frenaría definitivamente algunos de estos modelos de imitación”, ha manifestado.

De momento, ni Trump ni su equipo han anunciado represalias contra China o DeepSeek por este supuesto uso ilegítimo de ChatGPT para entrenar a sus modelos. “Es un toque de atención para nuestras empresas”, se ha limitado a manifestar el nuevo presidente. Queda en el aire si la reacción será recortar aún más la disponibilidad de chips de Nvidia en China o si, por el contrario, habrá un cambio de enfoque después de que numerosos analistas avisaran de que la innovación china ha sido propiciada por esa carestía de componentes.

DeepSeek asegura que solo ha utilizado menos de 3.000 chips de Nvidia para el entrenamiento de su último modelo, que consigue resultados similares a ChatGPT. Son chips antiguos previos al embargo impuesto por Joe Biden, por lo que técnicamente están muy por detrás de los que están utilizando ahora las empresas estadounidenses.

No obstante, no son pocos los expertos que ponen en duda estas aseveraciones. “China tiene sanciones para importar chips de Nvidia, como sabemos. Sin embargo, está empleando a terceros países como intermediarios. El principal de ellos es Singapur, y es un secreto a voces”, explicaba a este medio Julián Estévez, profesor de Robótica e Inteligencia Artificial en la Universidad del País Vasco. Dario Amodei, el responsable de Anthropic, dice que DeepSeek tendría unos 50.000 chips avanzados de Nvidia a su disposición. Estos están valorados en 1.000 millones de dólares, mucho más de los 5,5 que DeepSeek asegura que ha invertido en el entrenamiento de sus modelos.

Ciertas o no, las afirmaciones de DeepSeek sobre el uso de chips ha provocado un descalabro bursátil en Nvidia. Tras perder cerca de 600.000 millones el lunes, la mayor destrucción de valor en una sola jornada de la historia, la empresa se recuperó levemente el martes, solo para volver a caer más de un 6% este miércoles. OpenAI no cotiza en bolsa, por lo que el efecto DeepSeek no ha tenido un impacto directo en ella. No obstante, a medio plazo es la empresa más amenazada por el modelo chino, que DeepSeek ha publicado en abierto para que pueda ser replicado y redistribuido por cualquier otra organización alrededor del mundo.