Cómo enseñar a ‘hablar’ a una máquina a través de los ojos y oídos de un niño
Enseñar a los sistemas de inteligencia artificial a manejar nuestro lenguaje, como hace GPT-4, es el reto científico de moda. La forma habitual de hacerlo es ofrecerles bases de datos inmensas, con billones de palabras, y que las redes neuronales encuentren la forma de combinarlas coherentemente.
Un equipo de la Universidad de Nueva York ha llegado a un enfoque alternativo mientras trataba de entender cómo aprendemos nuestras primeras palabras. Su planteamiento es el siguiente: ¿y si entrenamos a la máquina ofreciéndole los mismos datos que capta un niño de menos de dos años cuando está aprendiendo a hablar? ¿Cuánto aprendería la máquina y qué nos dice eso de nuestra propia manera de adquirir el lenguaje?
El nuevo modelo de aprendizaje automático, desarrollado por el equipo de Wai Keen Vong y publicado este jueves en la revista Science recibe el nombre de CVCL (por el acrónimo en inglés de Visión de Niño para Aprendizaje Comparativo). Se llama así porque, para el estudio, los investigadores analizaron el proceso de aprendizaje de un niño desde que tenía seis meses hasta que cumplió dos años y un mes, capturando sus experiencias en un vídeo en primera persona a través de una cámara ligera montada en su cabeza. En el proceso grabaron más de 60 horas de metraje en breves sesiones semanales y obtuvieron alrededor de 250.000 instancias de palabras vinculadas con fotogramas del vídeo, pues se trataba de entender cómo y cuándo se conectan una palabra y un objeto en el cerebro del niño.
Los autores utilizaron todo este material para entrenar a su modelo CVCL y comprobaron que la red neuronal podía aprender una cantidad sustancial de palabras y conceptos utilizando fragmentos limitados de lo que el niño había experimentado. En resumen, a pesar de que el vídeo sólo capturó alrededor del 1% de las horas de vigilia del niño, las grabaciones fueron suficientes para que la máquina tuviera un aprendizaje genuino del lenguaje.
“Demostramos, por primera vez, que una red neuronal entrenada con esta información realista desde el punto de vista del desarrollo de un solo niño puede aprender a vincular palabras con sus contrapartes visuales”, anuncia Keen Vong. “Nuestros resultados demuestran cómo los avances algorítmicos recientes, combinados con la experiencia naturalista de un niño, tienen el potencial de remodelar nuestra comprensión del lenguaje temprano y la adquisición de conceptos” .
La inteligencia artificial también fue capaz de generalizar más allá de los objetos visuales específicos vistos en el entorno del niño durante el entrenamiento y generalizarlas a instancias visuales muy diferentes a las vistas en el entrenamiento, lo que refleja un aspecto de generalización que también se observa en niños cuando se les prueba en el laboratorio. “La combinación de estas señales es lo que permite que el aprendizaje comparativo determine gradualmente qué palabras pertenecen a qué elementos visuales y capture el aprendizaje de las primeras palabras de un niño”, explica Keen Vong.
Pablo Lanillos, líder del laboratorio de IA y Robótica Neuro-inspirada del Centro Internacional de Neurociencia Cajal del CSIC, cree que es un artículo muy interesante cuya principal novedad no es el modelo usado, sino su entrenamiento con datos longitudinales de las experiencias de niños. También considera positivo que vaya en sentido opuesto a las tendencias actuales de los modelos generativos de texto. “Porque, bajo mi punto de vista, si se quiere entender la inteligencia humana, hay que entender primero cómo se generan esas relaciones por medio de la experiencia”, asegura.
En su opinión, el artículo ataca uno de los desafíos más importantes de la IA, la robótica y la neurociencia, que se conoce técnicamente como Symbol Grounding Problem y se refiere a cómo abstraer o mapear la información que proporciona los sentidos en conceptos o palabras. Para Lanillos, una gran limitación del trabajo, que los autores también mencionan, es que no hay forma de relacionar las palabras y los referentes visuales con la parte motora de los niños.
“Sabemos que el aprendizaje está muy ligado no solo a la asociación de estímulos, sino a los movimientos que se realizan para obtener esos estímulos, somos inteligencias interactivas”, subraya. Por otro lado, apunta, la tasa de éxito en la generalización del modelo para entender diferentes conceptos es todavía muy baja en comparación con un niño de dos años. “Así que todavía nos falta mucho por entender”, concluye.
Para el neurocientífico y divulgador Xurxo Mariño, el trabajo lleva a dos conclusiones claras. La primera, señala, es que es posible sembrar la semilla del lenguaje con la simple interacción de imágenes y palabras, sin la necesidad de complejos mecanismos innatos dedicados a esa tarea concreta. Y la segunda, “que un sistema artificial puede aprender los nombres de las cosas a partir de la mera exposición a imágenes y sonidos”. Sobre las limitaciones del estudio, recuerda que en la introducción del trabajo los autores indican que no se tiene en cuenta otros aspectos importantes para el aprendizaje, como el movimiento y la interacción del cuerpo con el entorno. “El aprendizaje del lenguaje no es el simple aprendizaje de un código, sino que es un sistema, como dicen los lingüistas modernos, ‘ostensivo-inferencial’”, explica Mariño.
La científica cognitiva Nuria Sebastian Galles cree que el artículo es un excelente ejercicio de ingeniería, pero recuerda que aprender palabras está muy lejos de ser “aprender lenguaje”, lo que puede llevar a confusión. Entre las muchas diferencias entre la “máquina” y el niño, recuerda que el cerebro de este cambia de manera importantísima en los dos primeros años de vida, mientras que el ordenador ni mejora, ni empeora, es igual todo el tiempo. “El trabajo tiene mucho mérito, pero creo que nos enseña muy poco sobre cómo aprenden realmente los niños, y lo que dicen, ya lo sabíamos”, resume.
El neurocientífico Mariano Sigman recuerda que el trabajo aborda el viejo problema científico de entender cómo aprendemos las palabras. “Una simplificación es pensar que le muestras a un niño una botella y les dices “botella”, y luego le vas mostrando otras hasta que entienda que es parte de una categoría”, explica. Pero, en general, esto no sucede así y el proceso es mucho más complejo. Es decir, la palabra “botella” aparece entre un flujo de palabras y de imágenes y se va consolidando.
“Hay mucha discusión sobre cuánto conocimiento previo se utiliza para resolver ese problema, hay modelos que presuponen distinta necesidad o bagajes de herramientas que un niño necesita”, asegura el especialista. “La conclusión de este trabajo es que el modelo de IA es capaz de replicar la adquisición del lenguaje de un niño a partir de datos bastante escasos —resume—, pero eso no quiere decir que nosotros lo hagamos así, lo que ofrecen es más bien una prueba de concepto”.
Los autores del trabajo consideran que, en cualquier caso, profundizar en este enfoque nos ayudará a entender si para aprender sus primeras palabras los niños necesitan sesgos específicos del idioma, conocimiento innato o simplemente aprendizaje asociativo que sirva de punto de partida. Y está claro que queda mucho trabajo por delante, admite Brenden Lake, investigador de la Universidad de Nueva York y autor principal del artículo, porque los experimentos muestran que “el aprendizaje implica más elementos de lo que comúnmente se piensa”.