У нейросети OpenAI появился голос

14.05.2024 13:24

OpenAI представила новую языковую модель GPT-4о, которая может

генерировать текст, звук и изображения. Компания собирается внедрить ИИ-модель

в свою продукцию.

В OpenAI считают, что GPT-4o сможет улучшить работу чат-бота ChatGPT, в

котором уже есть голосовой режим. Однако новая технология будет направлена на

большее взаимодействие с нейросетью именно как с помощником, например, его

можно будет прервать во время ответа. Также новая технология может менять

интонацию и эмоции в голосе.

Кроме того, языковой модель может реагировать на аудиовход за 232

миллисекунды, а в среднем ей требуется 320 миллисекунд, что аналогично времени

реакции человека в разговоре.

Помимо скорости, GPT-4o показала высокие результаты в способности

рассуждать. ИИ-модель получила 88,7% в бенчмарке COT MMLU, который проверяет

общие знания. Технология по производительности смогла обогнать GPT-4

Turbo. 

В том числе, в ИИ-модели улучшена работа с изображениями. Она качественнее

анализирует изображения, графики и скриншоты, в отличие от существующих

технологий. 

«GPT-4o также прошла обширную внешнюю переподготовку с привлечением

более 70 внешних экспертов в таких областях, как социальная психология,

предвзятость, а также дезинформация, для выявления рисков, которые могут

появится с появлением новых добавленных модальностей. Мы использовали эти

знания для разработки наших мер по обеспечению информации», — сообщили в

OpenAI.

GPT-4o доступна как в платной, так и в бесплатной версии. При превышении

лимита запроса у бесплатных пользователей произойдет переключение на GPT-3.5, а

у платных — на GPT-4.