ru24.pro
News 2.ru
Март
2025
1 2 3 4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31

[Великолепная семёрка] Новые SLM-модели ИИ Microsoft Phi-4 вступили в финишую гонку с OpenAI (GPT-4.5), xAI (Grok-3), GDM (Gemini 2.0), Yandex (YaGPT 5 Pro), DeepSeek (DeepSeek-R1) и Baidu

0

Microsoft представила новый класс высокоэффективных моделей AI, которые обрабатывают текст, изображения и речь одновременно, требуя при этом значительно меньше вычислительной мощности, чем существующие системы. Новые модели Phi-4, выпущенные сегодня, представляют собой прорыв в разработке малых языковых моделей (SLM), которые предоставляют возможности, ранее зарезервированные для гораздо более крупных систем AI.

Согласно техническому отчету Microsoft, Phi-4-Multimodal, модель с 5,6 миллиардами параметров, и Phi-4-Mini с 3,8 миллиардами параметров превосходят конкурентов аналогичного размера и даже соответствуют или превосходят производительность моделей в два раза большего размера при выполнении некоторых задач .

"Эти модели предназначены для того, чтобы предоставить разработчикам передовые возможности AI", - сказал Вэйчжу Чен, вице-президент по генеративному AI в Microsoft. "Phi-4-multimodal, с его способностью обрабатывать речь, зрение и текст одновременно, открывает новые возможности для создания инновационных и контекстно-зависимых приложений".

Техническое достижение появилось в то время, когда предприятия все чаще ищут модели AI, которые могут работать на стандартном оборудовании или "на периферии" - непосредственно на устройствах, а не в облачных центрах обработки данных - для снижения затрат и задержек при сохранении конфиденциальности данных.

Отличительной чертой Phi-4-Multimodal является его новая технология "смешивания LoRA", позволяющая обрабатывать текст, изображения и речевые входные данные в рамках одной модели.

"Используя смесь LoRA, Phi-4-Multimodal расширяет мультимодальные возможности, минимизируя помехи между модальностями", - говорится в исследовательской статье. "Этот подход обеспечивает бесшовную интеграцию и гарантирует постоянную производительность при выполнении задач, связанных с текстом, изображениями и речью/аудио".

Инновация позволяет модели сохранять свои мощные языковые возможности, одновременно добавляя возможности зрения и распознавания речи без ухудшения производительности, которое часто происходит при адаптации моделей для нескольких типов входных данных.

Модель заняла лидирующие позиции в рейтинге Hugging Face OpenASR с показателем ошибок в словах 6,14%, превзойдя специализированные системы распознавания речи, такие как WhisperV3. Она также демонстрирует конкурентоспособную производительность в задачах на зрение, таких как математическое и научное обоснование с использованием изображений.

Несмотря на компактный размер, Phi-4-Mini демонстрирует исключительные возможности в текстовых задачах. Microsoft сообщает, что модель "превосходит модели аналогичного размера и находится на одном уровне с моделями в два раза большими" в различных тестах понимания языка.

Особенно примечательна производительность модели в задачах по математике и кодированию. Согласно исследовательской работе, "Phi-4-Mini состоит из 32 слоев Transformer с размером скрытого состояния 3072" и включает внимание к групповым запросам для оптимизации использования памяти для генерации длинного контекста.

В математическом тесте GSM-8K Phi-4-Mini показал результат 88,6%, превзойдя большинство моделей с 8 миллиардами параметров, а в тесте MATH он достиг результата 64%, что существенно выше, чем у конкурентов аналогичного размера.

"Для математического бенчмарка модель превосходит модели схожего размера с большим отрывом, иногда более 20 баллов. Она даже превосходит оценки моделей в два раза большего размера", - отмечается в техническом отчете.

Capacity, система ответов на основе искусственного интеллекта, которая помогает организациям объединять различные наборы данных, уже использует семейство Phi для повышения эффективности и точности своей платформы.

Стив Фредериксон, руководитель отдела продуктов компании Capacity, сказал в своем заявлении: "Из наших первых экспериментов нас действительно впечатлила в Phi его замечательная точность и простота развертывания, даже до настройки. С тех пор мы смогли повысить как точность, так и надежность, сохранив при этом экономическую эффективность и масштабируемость, которые мы ценили с самого начала".

Компания Capacity сообщила об экономии затрат в 4,2 раза по сравнению с конкурирующими рабочими процессами при достижении тех же или лучших качественных результатов для задач предварительной обработки.

В течение многих лет развитие AI было обусловлено единой философией: больше - лучше. Больше параметров, больше моделей, больше вычислительных требований. Но модели Phi-4 от Microsoft бросают вызов этому предположению, доказывая, что мощность - это не только масштаб, но и эффективность.

Phi-4-Multimodal и Phi-4-Mini разработаны не для центров обработки данных технологических гигантов, а для реального мира, где вычислительная мощность ограничена, вопросы конфиденциальности имеют первостепенное значение, а AI должен работать без сбоев без постоянного подключения к облаку. Эти модели небольшие, но они имеют вес. Phi-4-Multimodal объединяет речь, зрение и обработку текста в единую систему, не жертвуя точностью, в то время как Phi-4-Mini обеспечивает производительность математики, кодирования и рассуждений на уровне моделей в два раза большего размера.

Речь идет не только о том, чтобы сделать Ai более эффективным; речь идет о том, чтобы сделать его более доступным. Microsoft позиционировала Phi-4 для широкого внедрения, сделав его доступным через Azure AI Foundry, Hugging Face и Nvidia API Catalog. Цель ясна: Ai, который не заперт за дорогим оборудованием или массивной инфраструктурой, а может работать на стандартных устройствах, на границе сетей и в отраслях, где вычислительная мощность ограничена.

Масая Нисимаки, директор японской компании по искусственному интеллекту Headwaters Co., Ltd., видит это влияние своими глазами. "Edge AI демонстрирует выдающуюся производительность даже в средах с нестабильными сетевыми соединениями или там, где конфиденциальность имеет первостепенное значение", - сказал он в заявлении. Это означает, что AI может функционировать на заводах, в больницах, на автономных транспортных средствах - в местах, где требуется интеллект в реальном времени, но где традиционные облачные модели не справляются.

По своей сути Phi-4 представляет собой сдвиг в мышлении. AI - это не просто инструмент для тех, у кого самые большие серверы и самые глубокие карманы. Это возможность, которая, если ее правильно разработать, может работать где угодно и для кого угодно. Самое революционное в Phi-4 - это не то, что он может делать, а то, где он может это делать.

 

27.02.2025 [12:38], Павел Котов

Microsoft расширила линейку собственных больших языковых моделей искусственного интеллекта Phi-4 двумя новыми проектами с относительно скромными системными требованиями. Одна из них является мультимодальной, то есть работает с несколькими форматами данных.

Модель Microsoft Phi-4-mini является исключительно текстовой, а Phi-4-multimodal - её улучшенная версия, способная обрабатывать также запросы в визуальном и звуковом форматах. Обе модели, утверждает разработчик, в значительной мере превосходят альтернативы сопоставимых размеров при выполнении определённых задач.

Microsoft Phi-4-mini имеет 3,8 млрд параметров, то есть она достаточно компактна для запуска на мобильных устройствах. В основу модели легла особая версия архитектуры "Трансформер" (Transformer). В стандартном варианте модели-трансформеры, чтобы понять значение каждого слова, анализируют текст до и после него; при разработке Phi-4-mini в Microsoft использовали версию Decoder-Only Transformer, которая предполагает анализ только предшествующего слову текста, что снижает нагрузку на вычислительные ресурсы и повышает скорость обработки данных.

Для дополнительной оптимизации использована технология Grouped Query Attention - этот механизм помогает модели определять, какие фрагменты данных наиболее релевантны при обработке текущей задачи. Phi-4-mini может генерировать текст, переводить документы и управлять внешними приложениями; модель, по словам разработчиков, преуспела в решении математических задач и написании компьютерного кода, даже когда требуются "сложные рассуждения". Точность ответов Phi-4-mini, по оценкам самой Microsoft, "значительно" превосходит результаты, которые дают несколько других моделей аналогичного размера.

 

Phi-4-multimodal - это расширенная версия Phi-4-mini с 5,6 млрд параметров; в качестве запросов она воспринимает не только текст, но также изображения, аудио и видео. Для дообучения модели в Microsoft использовали новый метод Mixture of LoRAs. Обычно адаптация ИИ к новой задаче требует изменения его весов - параметров конфигурации, которые определяют, как он обрабатывает данные. Чтобы облегчить эту задачу, используется метод LoRA (Low-Rank Adaptation) - для выполнения незнакомой задачи модели добавляется небольшое количество новых весов, оптимизированных для этой задачи. Метод Mixture of LoRAs адаптирует этот механизм к мультимодальной обработке данных: при разработке Phi-4-multimodal исходную Phi-4-mini дополнили весами, оптимизированными для работы с аудио и видео. В результате, рассказали в Microsoft, удалось смягчить некоторые компромиссы, связанные в прочими подходами к построению мультимодальных моделей.

В тестах, связанных с обработкой визуальных данных, Phi-4-multimodal набрала 72 балла, незначительно уступив ведущим моделям от OpenAI и Google. В одновременной обработке видео и звука она "с большим отрывом" обошла Google Gemini-2.0 Flash, а также открытую InternOmni. Phi-4-mini и Phi-4-multimodal доступны на платформе Hugging Face по лицензии MIT, которая допускает их коммерческое использование.


(https://habr.com/ru/compa...)