GPT-4 уже здесь: новая современная нейросеть умеет понимать картинки и мемы
Эра продвинутых генеративных нейросетей только началась, как спустя всего несколько месяцев переходит на следующий уровень технологичности. Сегодня, 14 марта, компания OpenAI официально выпустила GPT-4 — свою самую современную мультимодальную модель языкового искусственного интеллекта, разработка которой активно велась в последнее время. Теперь популярный ИИ стал масштабнее, стабильнее, креативнее, точнее и, главное, умеет работать не только с более тонкими текстовыми запросами, но и даже распознавать содержимое на изображениях.
В контексте картинок GPT-4 проявляет себя так же творчески, как и в беседе. OpenAI продемонстрировала семь примеров работы модели: где-то нужно описать увиденное или разгадать задачу, где-то вычислить «что необычного есть на фотографии?», а где-то поставлена задача объяснить суть мема из интернета. Более того, запрос изначально может включать смежные данные, то есть и текст, и изображение вместе. Со всем из вышеперечисленного ИИ справляется успешно, включая такие особенные случаи, где присутствует явный подвох, понятный для человека — GPT-4 тоже его улавливает.
OpenAI утверждает, что потратила около полугода на тщательную проверку способностей GPT-4, используя внутренние программы состязательного тестирования совместно с текущей обученностью ChatGPT. Компания добилась «наилучших в истории» результатов по фактичности и устойчивости в обработке сложных вопросов (например, о способах сбора и применения запрещённых веществ или создании бомбы). Как и предыдущие модели GPT, GPT-4 обучали на общедоступных веб-данных. Система сохранила ряд багов предшественников и по-прежнему может выдумывать несуществующие вещи, совершать ошибки в рассуждениях и генерировать агрессивные ответы, однако в целом новейшая модель на 40% «умнее» по сравнению с GPT-3.5.
В настоящее время GPT-4 доступна для пользователей через платную подписку ChatGPT Plus. Разработчики могут записаться в список ожидания для получения API, им также разрешат назначать стиль взаимодействия с ИИ и конкретные направления для генерируемых ответов в зависимости от среды, в которую нейросеть планируют интегрировать. После презентации Microsoft подтвердила, что обновленный поисковик Bing работает на базе GPT-4. Ещё модель используют Stripe, Duolingo, Morgan Stanley и Khan Academy, тогда как возможности анализа изображений опробывает пока только сервис Be My Eyes.