Entrenar a ChatGPT con datos producidos por máquinas hace que pierda la memoria

24.07.2024 18:00

Abc.es

ChatGPT es capaz de responder, prácticamente, a cualquier pregunta que le haga el usuario en cuestión de segundos. Sin embargo, la herramienta esta lejos (muchísimo) de ser plenamente confiable. Sam Altman , director ejecutivo de la empresa OpenAI, creadora de la máquina, lo sabe bien; por eso, siempre que tiene ocasión, recuerda a todo el que esté dispuesto a escuchar lo «tontas» que son las soluciones que crean texto e imágenes a partir de palabras a día de hoy. También alerta sobre los errores que cometen. Errores que, en muchos casos, son utilizados para entrenar directamente a los algoritmos que las mueven. Y eso es un problema que puede volverse mucho más grave en el futuro. De acuerdo con un estudio publicado en ' Nature ', el uso de datos generados directamente por inteligencia artificial para el entrenamiento de herramientas como ChatGPT puede provocar que estas colapsen y empiecen a errar a discreción en sus resultados, que se volverán, además, pobres y mucho más limitados. «Imaginemos a un estudiante que sólo estudia sus propios apuntes, copiados parcialmente de forma incorrecta de una pizarra, ignorando por completo el libro de texto de la clase y las lecciones correspondientes. Se convencería a sí mismo de que los errores son correctos y desarrollaría una sólida comprensión de sus propios errores», explica a ABC Ilia Shumailov , investigador de la Universidad de Oxford (Reino Unido) y autor principal del estudio. Shumailov destaca que, el alumno daría por buenos datos que son erróneos y muy limitados, y «algo similar ocurre aquí con los modelos (de IA)»: «Se convencen a sí mismos de que los errores son una fuente de verdad y que los acontecimientos probables son más importantes de lo que lo son en realidad». El auge de ChatGPT, y la llegada a la red de muchísimas soluciones de IA generativa similares, como es el caso de Gemini , de Google, o de Llama , de Meta, ha provocado que el número de contenido generado por inteligencia artificial que hay en internet aumente considerablemente durante los últimos meses. Es fácil entrar en páginas web y ver que las imágenes que las pueblan han sido creadas por máquinas, y lo mismo ocurre con los textos. El problema es que para crear todo este contenido, las máquinas son entrenadas previamente con información publicada a lo ancho y largo de internet, desde blogs hasta portales de noticias o redes sociales. Y dentro de la red, como hemos dichos, ahora, y cada vez más en el futuro, se encuentra también texto e imágenes generadas por IA, que ya están siendo empleadas activamente para capacitar a las herramientas, entre ellas ChatGPT . «Si observas los informes correspondientes a GPT , encontrarás que ya se utilizan algunos datos sintéticos durante el proceso de entrenamiento«, dice Shumailov. El estudio, efectivamente, sostiene que el uso de datos generados hace que las herramientas de IA colapsen, y esto lleva a que se vuelvan, con el tiempo, menos precisas en sus resultados, y, por tanto, que ofrezcan contenido cada vez más pobre y limitado. También que olviden los elementos menos comunes de sus datos de entrenamiento originales y se queden solo con aquello que ven de forma recurrente, como señala Emily Wenger, ingeniera informática de la Universidad de Duke, en un análisis del estudio. Wenger apunta que, por ejemplo, una herramienta que genera imágenes de perros tenderá a reproducir en sus resultados las razas más comunes respecto a los datos con los que ha sido entrenada. Por tanto, si se la capacita con mucha información sobre el golden retriever tenderá a olvidar a todos los demás. Y si futuros modelos se entrenan con datos generados por IA que representan mucho a este tipo concreto de perro, el problema se agravará. Con el tiempo, el modelo solo generará imágenes de esa clase colapsando en el proceso . «Cuando el contenido generado por IA se incluye en los conjuntos de datos que se usan para entrenar modelos, estos modelos aprenden a generar conceptos, frases y tonos bien conocidos más fácilmente que ideas y formas de escribir menos comunes. Este es el problema», zanja la ingeniera. Shumailov y sus colegas apuntan que hay medios de evitar que una máquina generadora de contenido colapse . «Hay varias formas posibles, aunque la literatura académica actualmente no tiene una comprensión clara de hasta qué punto serán útiles. En primer lugar, hay que verificar siempre los modelos a medida que se desarrollan, certificando explícitamente el desempeño de los datos minoritarios», apunta el investigador de Oxford. «En segundo lugar, hay que asegurarse de que los datos se filtren y de que no se incluyan puntos de datos incorrectos o corruptos en el desarrollo», prosigue. El estudio, efectivamente, aboga por la necesidad de que las empresas de desarrollo de IA, como OpenAI, desarrollen estrategias que mitiguen el impacto del colapso de sus herramientas para ayudar a que sean más precisas y efectivas con el paso del tiempo. Porque, además, la cantidad de contenido generado mediante inteligencia artificial disponible en la red no va a descender próximamente. Más bien todo lo contrario.