ru24.pro
Subscribe.Ru
Сентябрь
2025
1 2 3 4 5
6
7
8 9 10 11 12
13
14 15 16 17 18 19
20
21
22 23 24 25 26
27
28
29
30

Дар речи

0
"Яндекс" предложит бизнесу говорящих в реальном времени ИИ-агентов.«Яндекс» выводит на рынок инструмент Realtime API, благодаря которому бизнес сможет запустить голосовых агентов на базе генеративных моделей, работающих в режиме реального времени.В компании рассчитывают, что такие агенты будут особенно востребованы бизнесом, активно общающимся с клиентами, — в ретейле, телекоме или банках. По словам экспертов, решения на базе ИИ-моделей хотя и дороже, чем классические движки для синтеза речи, но окупятся при масштабной автоматизации множества коротких сценариев и росте качества сервисаБеседы Ex MachinaYandex Cloud (входит в подразделение Yandex B2B Tech, объединяющее технологии и услуги для корпоративных пользователей) первой в России открыла доступ на платформе AI Studio к инструменту Realtime API, рассказали Forbes в компании. Realtime API позволяет нейросети ответить на вопрос клиента с задержкой не более секунды, утверждают там. При необходимости голосовой агент может перебить собеседника и задать уточняющие вопросы, а отвечать будет с учетом всего контекста диалога.Для генерации ответа голосовой агент сможет найти нужную информацию в интернете или внутренних базах знаний. Например, когда клиент интересуется статусом доставки заказа в магазине, агент сможет запросить данные о клиенте в CRM-системе, запросить информацию в службе доставки и оперативно озвучить ответ с помощью синтеза речи. Или же консультант не только ответит на вопросы о записи в автосервис, но сам узнает информацию о клиенте и запишет на свободный слот. «Чтобы голосовые агенты звучали еще естественнее, в инструменте используется стриминговый синтез. Это позволяет синтезировать реплики по мере получения ответов от генеративной модели», — добавляют в «Яндексе».Такие агенты помогут автоматизировать даже сложные сценарии коммуникации с клиентами, например для консультации по технически сложным продуктам или в случаях, когда возможно много разных веток диалога. Они также будут полезны, когда клиент может задавать вопросы не по теме вне заданных веток коммуникаций — в таком случае он может и поддержать диалог, и при необходимости вернуть клиента к основному сценарию.Голосовые агенты будут особенно востребованы в ретейле, банках, здравоохранении, у телеком-операторов и других компаний, которые активно общаются с клиентами, считают в «Яндексе». Они подходят для автоматизации рутинных задач техподдержки, обработки внешних запросов от клиентов и внутренних вопросов от сотрудников. Для озвучки ответа можно использовать уже готовые голоса синтеза речи Yandex SpeechKit или записать свой уникальный голос — для этого понадобится от 30 минут чистой записи в сервисе Brand Voice Lite.«Стоимость сильно зависит от объемов использования голосового агента, количества источников информации, длины запросов и т.д. Но, для примера: если у ИИ-агента около 200 запросов в день, то стоимость использования такого агента в месяц достигнет примерно 20 000 рублей», — отвечают в компании на вопрос, во сколько может обойтись использование инструмента.Новые инструментыПо данным исследования NeoAnalytics (июнь 2025 года), объем рынка кол-центров в 2024 году вырос на 15,3%, до более чем 50 млрд рублей. «В настоящее время большая часть коммуникаций происходит голосом (60%). Однако в последнее время все большую популярность приобретают текстовые чат-боты. Особенно они популярны у молодого поколения», — говорится в исследовании.Global Market Insights оценивала мировой рынок ИИ-инструментов для контакт-центров по итогам прошлого года в $2,1 млрд, прогнозируя его рост до $11,3 млрд к 2034 году со среднегодовым темпом 18,9%.В октябре 2024 года публичную бета-версию Realtime API для взаимодействия с речью с низкой задержкой представила OpenAI. Компания дала разработчикам возможность в своих приложениях создавать голосовые взаимодействия в режиме реального времени с возможностью использования шести голосов, предоставляемых OpenAI. Во время брифинга руководитель отдела разработки OpenAI Ромен Хюэ демонстрировал приложение для планирования поездок, созданное с помощью Realtime API; оно, в частности, позволяло устно говорить с ИИ-помощником о предстоящей поездке в Лондон и сразу получать от него ответы. Также топ-менеджер показал, как Realtime API может общаться по телефону с человеком, чтобы узнать о заказе еды для мероприятия.Удар по кол-центрам«Это [запуск от «Яндекса»] еще не конец контакт-центров, но совершенно точно, что такие решения позволяют существенно увеличить процент автоматизации звонков и поднять качество работы автоматизированных ботов поддержки», — рассуждает сооснователь Just AI Кирилл Петров.Генеральный директор 3iTech ‎Алексей Любимов называет платформы для создания голосовых AI-ассистентов «самым современным трендом на рынке AI», добавляя, что на них есть «огромный неудовлетворенный спрос бизнеса». За последние две недели такие платформы, по его словам, запустили компании 3iTech и JustAI: «‎Выход на этот рынок «Яндекса» усиливает конкуренцию, и это поспособствует прогрессу развития технологий. Мы смотрим на событие позитивно».Голосовые агенты на базе мультимодальных LLM, поддерживающих генерацию текста, синтез и транскрибацию речи, переводят обслуживание в режим живого диалога: первый звук и ответы — за доли секунды, говорит директор по ИИ в IT Альфа-банка Святослав Соловьев. «Типовые задачи (например, баланс по карте, блокировка/разблокировка карт) закрываются без ожидания подключения сотрудника. Меню DTMF (Dual-Tone Multi-Frequency, тональный набор) выглядит архаикой — пользователю проще «сказать», чем печатать или выбирать цифры, — продолжает он. — Главное — появляется human-like ИИ-агент, а не просто «говорящий» бот, создается ощущение разговора «как с человеком», что напрямую влияет на конверсию в решенные обращения». Однако такие ИИ-агенты требуют жесткого SLА, высокой производительности систем банка и низкого времени отклика от них, предостерегает он.По словам Кирилла Петрова, самая большая сложность — скорость ответа в реальном времени, так как большим языковым моделям (LLM), особенно вместе с агентскими рассуждениями, нужно время. В оценке уровня решения от «Яндекса» он осторожен. «Чтобы сделать это, нужно изучить качество работы системы: обычно для работы в реальном времени используют технологию «каскада моделей» («легкие» и быстрые модели отвечают на простые вопросы, «тяжелые» — на сложные), кеширования (частые вопросы запоминаются автоматически и берутся из кеша), гибридные подходы (часть решения строится на сценарных подходах), ограничения контекста моделей на разных шагах диалога (агенту дается ограниченный набор инструментов и контекста на разных шагах диалога), омнимодальности (одна voice-to-voice LLM и понимает речь, и генерирует поток рассуждений и запросов агента, и синтезирует ответ)», — перечисляет он.Такие скоростные характеристики (задержка в одну секунду при ответе при сохранении качества и полноты ответа), по мнению Любимова, впечатляют. «Система должна успеть проанализировать вопрос и составить ответ. Надо проводить тесты, измерять. Но задержка в несколько секунд — давно уже реальность, — размышляет Любимов. — Голосовые боты как таковые создаются давно, но no-code платформы для их создания — это действительно событие, меняющее рынок, потому что сделает таких ассистентов массовыми и доступными в том числе и малому бизнесу».Что касается экономики, то LLM дороже классических ASR/TTS (Automatic Speech Recognition — автоматическое распознавание речи, Text To Speech — преобразование текста в речь), но окупаются при масштабной автоматизации множества коротких сценариев и росте качества сервиса, указывает Соловьев. Human-like голосовые ИИ-агенты с реакцией меньше секунды — новый создаваемый стандарт, резюмирует эксперт.Впрочем, ни применение LLM, ни использование файлов в пайплайне RAG (Retrieval-Augmented Generation, генерация на основе найденной информации), ни обучение своего голоса — вещи не новые, указывает директор по продуктам «Наносемантики» Григорий Шершуков. «Хоть и минимальная планка в 30 минут кажется заманчивой, нужно смотреть на качество синтезируемого голоса и наличие артефактов. На одной из предыдущих конференций, которые устраивает «Яндекс», специалисты приходили к консенсусу, что будущее ботов находится на совмещении технологий построения сценариев, а не полностью перекладывается на плечи генеративных сетей, — обращает внимание Шершуков. — Что противоречит этому анонсу, но может быть приемлемо для отдельных клиентов, готовых положиться целиком на большие генеративные модели и их общение с клиентами».