Большие языковые модели не могут правильно посчитать буквы в словах
Эти ошибки указывают на более глубокую проблему: ИИ не обладает человеческим мышлением и не понимает язык так, как мы. Большинство языковых моделей используют архитектуру трансформеров, которая разбивает текст на токены — это могут быть целые слова, слоги или буквы. Однако ИИ не видит текст в виде букв, а представляет его как набор числовых значений, что позволяет ему генерировать логичный ответ, но затрудняет понимание конкретного расположения букв в слове.
«БЯМ работают на основе архитектуры трансформеров, которая не "читает" текст как таковой, — объясняет Мэтью Гуздиал, исследователь ИИ и ассистент профессора Университета Альберты. — Когда ИИ видит слово, оно воспринимается как одно целое, но не разбивается на отдельные буквы, такие как ‘Н’, ‘Е’, ‘Т’».
Проблема кроется в самой архитектуре трансформеров, которые не могут эффективно работать с текстом в буквенном виде. Вместо этого они используют числовые представления для определения контекста и создания ответа. Поэтому модель может понимать, что слово «strawberry» состоит из «straw» и «berry», но не осознавать, что это слово также включает в себя определенные буквы в определенном порядке.
Сложность проблемы увеличивается с учетом многоязычности языковых моделей. Например, для некоторых языков, таких как китайский или японский, токенизация (процесс разделения текста на единицы) не соответствует привычным для английского языка правилам. Язык может не использовать пробелы для разделения слов, что затрудняет работу моделей, привыкших к пространственным разделителям. Исследование Йенни Джун из Google DeepMind в 2023 году показало, что некоторые языки требуют в 10 раз больше токенов, чтобы выразить ту же самую мысль, что и на английском.
«В идеале модели должны рассматривать символы напрямую, без использования токенизации, но это пока невозможно с точки зрения вычислительных ресурсов», — https://techcrunch.com/2024/08/27/why-ai-cant-spell-strawber... Шеридан Фёхт, аспирантка из Северо-Восточного университета, изучающая интерпретируемость БЯМ.
Для сравнения, генераторы изображений, такие как Midjourney и DALL-E, используют другую архитектуру — диффузионные модели, которые восстанавливают изображения из шума и работают с визуальными данными, а не текстом. Эти модели обучаются на огромных базах изображений и лучше понимают объекты, такие как автомобили или лица людей, чем мелкие детали, вроде пальцев или почерка.
В то время как улучшение текстовых моделей требует значительных усилий и ресурсов, проблемы генераторов изображений могут решаться путем увеличения количества данных для обучения. Например, качество изображений рук было улучшено благодаря обучению на большем количестве примеров реальных человеческих рук.
Как отмечает Мэтью Гуздиал, хотя генераторы изображений сделали значительный прогресс в представлении мелких деталей, текстовые модели все еще сталкиваются с трудностями при работе с буквами и их последовательностями.