Meta lanza Llama 3.2: El avance en inteligencia artificial que une imágenes y texto

27.09.2024 19:25

Meta presentó su primer modelo de lenguaje multimodal, Llama 3.2, que incluye dos versiones capaces de procesar tanto texto como imágenes, y dos más ligeras enfocadas en texto. Durante el evento Meta Connect 2024, la empresa tecnológica reveló que Llama 3.2 llega con importantes mejoras respecto a su antecesor, Llama 3.1, introduciendo por primera vez la capacidad de procesar imágenes, lo que representa un avance significativo para la compañía.

El nuevo Llama 3.2 está compuesto por dos modelos multimodales, uno pequeño de 11.000 millones de parámetros (11B) y otro mediano de 90.000 millones de parámetros (90B), diseñados para reconocer y razonar sobre imágenes. Estos modelos permiten comprender gráficos, diagramas y generar subtítulos automáticos para imágenes, además de identificar la ubicación direccional de objetos dentro de las mismas.

Este desarrollo permite que la IA pueda extraer detalles específicos de imágenes, interpretar escenas y generar descripciones o títulos que se pueden emplear en narrativas visuales. Además, Meta integró dos modelos de menor tamaño, enfocados solo en texto: el modelo de 1.000 millones de parámetros (1B) y el de 3.000 millones de parámetros (3B). Estos están optimizados para dispositivos móviles con procesadores ARM, permitiendo su uso con baja latencia y una longitud de contexto de hasta 128.000 tokens.

Meta sorprende con el visor Quest 3S: Calidad a un precio accesible

Estos modelos ligeros están diseñados para procesar texto en dispositivos como smartphones, garantizando la privacidad, ya que los datos se procesan localmente y no se envían a la nube. Meta indicó que estas versiones permiten realizar tareas como resumir los últimos diez mensajes de una aplicación de mensajería o programar reuniones automáticamente mediante la creación de invitaciones de calendario.

Además, Meta destacó que el procesamiento local asegura respuestas rápidas y resguarda la privacidad del usuario. Esta característica, junto con las capacidades de procesamiento de imágenes, hace que los modelos Llama 3.2 sean competitivos frente a otros sistemas líderes, como Claude 3 Haiku y GPT4o-mini. En particular, los modelos de texto superan a competidores como Gemma 2 2.6B y Phi 3.5-mini en tareas de resumen, reescritura y uso de herramientas.

Para validar el rendimiento de estos modelos, Meta los evaluó en más de 150 conjuntos de datos en diferentes idiomas. Finalmente, Meta puso a disposición de los desarrolladores el código abierto de Llama 3.2, para que puedan experimentar con sus funcionalidades, que también se encuentran integradas en su asistente de inteligencia artificial, Meta AI.

*La creación de este contenido contó con la asistencia de inteligencia artificial. La información fue proporcionada y revisada por un periodista para asegurar su precisión. El contenido no se generó automáticamente.