ru24.pro
Досуг
Июнь
2025
1 2 3 4 5 6 7 8 9 10 11 12 13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30

Apple просто прекратила шумиху вокруг искусственного интеллекта. Вот что обнаружило их шокирующее исследование

0

Мы живем в эпоху невероятного ажиотажа вокруг ИИ. Каждую неделю объявляется новая модель, которая обещает «рассуждать», «думать» и «планировать» лучше предыдущей. Мы слышим о моделях o1 o3 o4 от OpenAI, «думающих» моделях Клода от Anthropic и системах Gemini Frontier от Google, все это приближает нас к святому Граалю Общего Искусственного Интеллекта (AGI). Повествование ясно: ИИ учится думать.

Но что, если это всего лишь иллюзия?

А что, если эти многомиллиардные модели, рекламируемые как следующий шаг в когнитивной эволюции, на самом деле просто используют более продвинутую версию автозаполнения?

Это сенсационный вывод из тихого, систематического исследования, опубликованного группой исследователей из Apple . Они не полагались на шумиху или яркие демонстрации. Вместо этого они подвергли эти так называемые «большие модели рассуждений» (LRM) испытанию в контролируемой среде, и то, что они обнаружили, разбивает вдребезги всю историю.

В этой статье я собираюсь разложить их выводы для вас, без плотного академического жаргона. Потому что то, что они обнаружили, это не просто инкрементальное открытие… это фундаментальная проверка реальности для всей индустрии ИИ.

Почему нас обманули «рассуждения» ИИ

Во-первых, вы должны спросить: как мы вообще можем проверить, может ли ИИ «рассуждать»?

Обычно компании указывают на такие бенчмарки, как сложные математические задачи (MATH-500) или проблемы кодирования. И конечно, такие модели, как Claude 3.7 и DeepSeek-R1, становятся лучше в этом. Но исследователи Apple указывают на огромный недостаток в этом подходе: загрязнение данных.

Проще говоря, эти модели были обучены на огромном куске интернета. Весьма вероятно, что они уже видели ответы на эти известные задачи или, по крайней мере, очень похожие версии во время своего обучения.

Подумайте об этом так: если вы даете ученику тест по математике, а он уже запомнил ключ к ответу, он гений? Или просто хорошо запоминает?

Вот почему исследователи отказались от стандартных тестов. Вместо этого они построили более строгий испытательный полигон.

Испытательный полигон ИИ: головоломки, а не проблемы

Чтобы по-настоящему проверить рассуждения, вам понадобится задача, которая:

  1. Контролируемая: вы можете сделать задание немного сложнее или проще.
  2. Незагрязненная: Модель почти наверняка никогда не видела точного решения.
  3. Логичная: следует четким, нерушимым правилам.

Поэтому исследователи обратились к классическим логическим головоломкам: «Ханойская башня», «Мир блоков», «Переправа через реку» и «Прыжки с шашками».

Эти головоломки идеальны. Вы не можете «подделать» ответ. Либо вы следуете правилам и решаете ее, либо нет. Просто увеличивая количество дисков в Tower of Hanoi или блоков в Blocks World, они могли бы точно увеличить сложность и посмотреть, как отреагирует ИИ.

Вот тут-то иллюзия мышления и начала рушиться.

Шокирующее открытие: ИИ натыкается на стену

Когда они провели тесты, выявилась четкая и тревожная закономерность.

Эффективность этих продвинутых моделей рассуждений не просто снижалась по мере усложнения задач — она падала с обрыва.

Исследователи выделили три различных режима производительности:

  • Задачи низкой сложности: вот первый сюрприз. На простых головоломках стандартные модели (вроде обычного Claude 3.7 Sonnet) фактически превзошли своих «думающих» коллег. Они были быстрее, точнее и использовали гораздо меньше вычислительных ресурсов. Дополнительное «думание» было просто неэффективным накладным расходом.
  • Задачи средней сложности: Это золотая середина, где модели рассуждений наконец показали преимущество. Дополнительное время «на размышления» и обработка цепочки мыслей помогли им решить проблемы, которые не могли стандартные модели. Это зона, которую компании ИИ любят демонстрировать. Это выглядит как реальный прогресс.
  • Задачи высокой сложности: И вот тут все идет не так. За пределами определенного порога сложности оба типа моделей испытали полный и окончательный коллапс. Их точность упала до нуля. Не 10%. Не 5%. Ноль.

Это не изящная деградация. Это фундаментальный провал. Модели, которые могли решить головоломку Ханойской башни из 7 дисков, были совершенно неспособны решить головоломку из 10 дисков, хотя базовая логика идентична. Это открытие само по себе разрушает рассказ о том, что эти модели развили обобщаемые навыки рассуждения.

Еще страннее: когда ситуация становится сложной, ИИ сдается

Вот где исследование становится действительно странным. Можно было бы предположить, что когда проблема становится сложнее, «думающая» модель будет… ну, думать усерднее . Она будет использовать больше выделенной ей вычислительной мощности и бюджета токенов для работы над более сложными шагами.

Однако исследователи Apple обнаружили полную противоположность.

По мере того, как головоломки приближались к уровню сложности, на котором модели переставали справляться, они начинали использовать меньше токенов для своего «мыслительного» процесса.

Пусть это укоренится.

Столкнувшись с более сложной задачей, ИИ снизил свои рассуждения. Это как марафонец, который, увидев крутой холм на 20-й миле, решает начать идти медленнее, вместо того чтобы копать глубже, хотя у него еще много энергии. Это контринтуитивное и глубоко нелогичное поведение, которое предполагает, что модель «знает», что она не в своей тарелке, и просто сдается.

Это выявляет фундаментальное ограничение масштабирования. Эти модели не просто терпят неудачу, потому что проблемы слишком сложны; их внутренние механизмы активно отключаются, когда сталкиваются с настоящей сложностью.

Внутри «разума» ИИ: история о чрезмерном и недостаточном мышлении

Исследователи не остановились только на измерении окончательной точности. Они пошли глубже, проанализировав «мыслительный» процесс моделей шаг за шагом, чтобы увидеть, в чем они терпят неудачу.

То, что они обнаружили, было примером крайней неэффективности.

  • На легких задачах модели «передумывают». Они часто находили правильное решение на очень ранних этапах своего мыслительного процесса. Но вместо того, чтобы остановиться и дать ответ, они продолжали исследовать десятки неправильных путей, тратя огромные объемы вычислений. Это как найти ключи, а затем потратить еще 20 минут на обыск всего дома «на всякий случай».
  • На сложных задачах модели «недодумывают». Это обратная сторона коллапса. Когда сложность была высокой, модели не могли найти никаких правильных промежуточных решений. Их мыслительный процесс был просто мешаниной неудачных попыток с самого начала. Они даже не вышли на правильный путь.

Как чрезмерное размышление над легкими задачами, так и недостаточное размышление над сложными задачами выявляют основную слабость: модели не обладают надежной самокоррекцией и эффективной стратегией поиска. Они либо буксуют, либо полностью теряются.

Последний гвоздь в крышку гроба: тест «Шпаргалка»

Если и оставались какие-то сомнения относительно того, действительно ли эти модели являются рассудительными, исследователи разработали один последний, убийственный эксперимент.

Они взяли головоломку «Ханойская башня»: задачу с известным рекурсивным алгоритмом и буквально дали ИИ ключ к ответу. Они снабдили модель идеальным пошаговым алгоритмом псевдокода для решения головоломки. Единственной задачей модели было выполнение инструкций. Ей не нужно было изобретать стратегию; ей просто нужно было следовать рецепту.

Результат?

Модели по-прежнему не справлялись с задачей на том же уровне сложности.

Это самый важный вывод во всей статье. Он доказывает, что ограничение заключается не в решении проблем или планировании высокого уровня. Ограничение заключается в неспособности модели последовательно следовать цепочке логических шагов. Если ИИ не может даже следовать явным инструкциям для простой задачи, основанной на правилах, то это не «рассуждение» в каком-либо значимом человеческом смысле.

Это просто сопоставление шаблонов. И когда шаблон становится слишком длинным или сложным, вся система ломается.

Итак, свидетелями чего мы на самом деле являемся?

Исследование Apple под названием «Иллюзия мышления» заставляет нас столкнуться с неприятной правдой. «Рассуждение», которое мы видим в современных самых продвинутых моделях ИИ, не является зарождающейся формой общего интеллекта.

Это невероятно сложная форма сопоставления образцов, настолько продвинутая, что она может имитировать вывод человеческого рассуждения для узкого диапазона проблем. Но при контролируемом тестировании ее хрупкость становится очевидной. Ей не хватает надежной, обобщаемой и символической логики, которая лежит в основе настоящего интеллекта.

Итог исследования Apple очевиден: мы не являемся свидетелями рождения ИИ-рассуждений. Мы видим ограничения очень дорогого автозаполнения, которое ломается, когда это важнее всего.

Временная шкала AGI не просто подверглась проверке на соответствие действительности. Она могла быть полностью сброшена.

Так что в следующий раз, когда вы услышите о новом ИИ, который может «рассуждать», спросите себя: может ли он решить простую головоломку, которую он никогда раньше не видел? Или он просто выполняет самый дорогой и убедительный фокус в истории?