Как виртуальные говорящие ассистенты вошли в нашу жизнь, и где предел их возможностей

11.07.2019 08:00

Смартфоны не только заняли важное место в обиходе человека, но и приучили его к новому способу взаимодействия с техникой – сенсорному. До конца 2000‑х он встречался разве что в фантастических фильмах и редких устройствах, где был реализован весьма неудобно. Но за последние 10 лет водить пальцем по экрану научились все. В то же время более естественный и привычный механизм управления – голос – не прижился до сих пор. Но и в этом направлении ситуация меняется буквально на глазах.

В июне российские разработчики представили сразу два варианта реализации этой технологии: у Mail.ru Group появилась «Маруся», у Тинькофф банка – «Олег». Двумя годами ранее родилась «Яндекс.Алиса». За рубежом популярны Siri (Apple), Alexa (Amazon), Cortana (Microsoft) и другие сервисы. На нашем рынке они пока не успели развернуться в полную силу либо вовсе его проигнорировали.

Похоже, фантастика конца ХХ века, в которой герои общались с компьютером, как с человеком, а тот понимал и адекватно реагировал, становится реальностью. Уже скоро мы будем беседовать со своим смартфоном, автомобилем и «умным домом», не рискуя поймать косые взгляды окружающих. Но девайсам еще нужно как следует «развязать язык».

Пользоваться смартфоном стало еще элементарнее: вместо сенсорного управления можно просто надиктовать команды. Правда, еще не факт, что устройство правильно вас пойметShutterstock / Fotodom

Это кто там говорит?

Голосовой ассистент позволяет управлять функциями смартфона, компьютера или сторонней электроники в доме и машине: установить будильник, напомнить о событии из календаря, включить и выключить свет. Также программа может ответить на вопрос, взяв информацию из интернета, причем с каждым годом точность ответов растет. Детям она и сказку прочитает, и мультфильм на ТВ включит, взрослым покажет кино и сериалы из стриминговых сервисов. Да и сам по себе виртуальный собеседник может стать своеобразной игрушкой не на один вечер. С ним можно обменяться шутками, сыграть в несложные словесные игры: «Верю – не верю», «Виселица». В общем, использовать эту технологию побуждает не только потребность в удобстве, но и простой исследовательский интерес.

Пионером среди голосовых ассистентов стала Siri, выпущенная компанией Apple вместе с операционной системой iOS 5 в октябре 2011 года. Первые конкуренты появились только спустя три года, в 2014‑м, и главным из них должна была стать Microsoft Cortana. Компания внедрила ее в самую популярную операционку для настольных компьютеров – Windows 10 (ее пользователи сегодня потребляют более половины мирового интернет-трафика, по данным StatCounter и W3Schools).

Однако Google, поначалу отстав от Microsoft, в итоге сработал эффективнее. Начав с малопригодного Google Now в том же 2014‑м, компания пришла к Google Ассистенту – самой умелой из подобных программ на сегодняшний день. Она же самая распространенная, поскольку встроена в главную мобильную ОС Android и, в отличие от большинства конкурентов, является кроссплатформенной, то есть работает на устройствах с Windows, macOS, iOS. Также ее можно встретить в «умных» автомобилях и домах и в собственных устройствах Google вроде колонки Home (официально в России не продается). Благодаря этому, по прогнозу Statista, в 2020 году Google будет владеть 43% рынка голосовых ассистентов.

А еще в прошлом году Google похвастался перспективной технологией Duplex. Прямо во время презентации голосовой ассистент компании позвонил в парикмахерскую и, пообщавшись с живым человеком, записал «хозяина» на стрижку.

По-русски, плиз!

Барьером для развития голосовых ассистентов выступает простой человеческий фактор – язык (что, например, не является проблемой для языков программирования: двоичный код одинаково работает по всей планете). То есть, даже если добиться адекватного взаимодействия с ассистентом на одном языке, потом надо повторить все то же самое на другом, со своими лингвистическими особенностями.

У Apple ушло несколько лет на то, чтобы обучить Siri русскому языку, – рынок РФ далеко не первый в списке приоритетов «яблочной» компании, поэтому наших владельцев айфонов и макбуков порадовали только в 2015‑м. Microsoft Cortana «разговаривает» на восьми языках и доступна в 14 странах мира. Amazon Alexa понимает и того меньше – всего шесть языков, хотя доступна в 41 стране. В списках обеих компаний нет ни русского языка, ни России как таковой. Вероятно, для них игра не стоит свеч: слишком сложно обучать программу новому языку для неосвоенного и не очень понятного рынка. Google Ассистент с прошлого года понимает русский язык, но функциональность ограниченна: например, технология Duplex работает только на английском.

В итоге до 2017 года отечественный рынок голосовых ассистентов был довольно скучен. А затем «Яндекс» выпустил «Алису». Она была обречена на успех: в отличие от Siri, программа получилась умной, обучаемой, встроенной в весьма развитую экосистему «Яндекса» и совместимой со сторонним ПО, сервисами и устройствами. В общем, в лучших традициях Google, только на языке Пушкина.

Вскоре «Алиса» заняла на отечественном рынке безальтернативное положение, стимулировав продажи умной электроники. В 2018 году ассистент стал основным органом управления медиацентра «Яндекс.Станция», занял центральное место в софте «Яндекс.Телефона». А недавно компания анонсировала собственное решение «Умный дом» с возможностью управлять светом, кондиционерами и другой бытовой техникой сторонних производителей. Не забыли и об автовладельцах – система «Яндекс.Авто» устанавливается почти в два десятка различных моделей, а также во все машины каршеринг-сервиса «Яндекс.Драйв».

Наконец спохватился главный отечественный конкурент «Яндекса» – Mail.ru Group. В июне компания представила собственного ассистента – «Марусю». На первый взгляд кажется, что шансов у новинки немного: по данным SEO-Analytics, поисковая система «Яндекс» популярнее Mail.ru более чем в 20 раз. Но у Mail.ru Group есть в наличии если не убийственный, то очень серьезный козырь – социальные сети.

Фактически компания владеет всеми российскими соцсетями: «ВКонтакте» (свыше 60% рынка, по данным SEO-Analytics), «Одноклассники», «Мой Мир», а также мессенджерами ICQ и «ТамТам». Напротив, «Яндекс» на рынке соцсетей почти не представлен. Самые близкие проекты компании в этом направлении – платформа для публикации статей «Яндекс.Дзен», малоизвестный мессенджер «Ямб» (компания никак его не продвигает) и едва зародившийся сервис рекомендательного контента «Аура».

Пока «Маруся» представлена как отдельное приложение для смартфонов на стадии открытого тестирования. Она способна искать в интернете информацию, отвечать на вопросы пользователя о погоде, билетах на поезда и в кино, включать музыку и радио – в общем, в арсенале все базовые навыки. В перспективе в «Марусю» обещают добавить функции заказа еды (с помощью собственного сервиса Delivery Club), такси и зачитывания новостей.

Mail.ru Group пока не раскрывает планов относительно интеграции «Маруси» в социальные сети. Но сомневаться в том, что рано или поздно ассистент появится по крайней мере во «ВКонтакте», не приходится. Всеми перечисленными выше навыками (и еще многими другими) давно владеет ассистент «Яндекса», а значит, единственный шанс «Маруси» хоть как-то потеснить конкурента – как раз социальные сети. Ведь именно там обитают десятки миллионов пользователей, не слишком сведущих в хайтек-моде и потому не успевших отдать сердца «Алисе».

В противном случае все вложения Mail.ru Group в новую разработку могут оказаться бессмысленными. Включая явно недешевую рекламу в новом клипе Филиппа Киркорова, где «Маруся» – якобы технология далекого будущего, которая и сняла этот ролик для поп-звезды.

Кстати, об окупаемости. Напрямую виртуального ассистента, конечно, монетизировать нельзя: он дается пользователю бесплатно. Так, «Яндекс.Алиса» доступна для интеграции в любые сторонние устройства с помощью платформы «Яндекс.Диалоги». А вот базовая технология SpeechKit, которая лежит в основе «Алисы», уже предлагается за деньги. Но основная «битва титанов» развернется, безусловно, за аудиторию, которую ассистенты смогут привлечь в экосистему каждой компании. А там уже бизнес налажен: трафик, реклама и так далее.

Кто еще «заголосил»

Доминированием «Яндекса», смутными перспективами Mail.ru Group и неполным присутствием Google события на российском рынке не ограничиваются.

Немало информационного шума в июне наделал ассистент «Олег», которого встроили в фирменное приложение Тинькофф банка. Впрочем, нашумел он прежде всего своим вспыльчивым «характером»: на некоторые запросы «Олег» отвечает грубо и иногда даже нецензурно. Что касается функциональности, то ассистент призван помочь пользователям не только с финансовыми операциями по счету, получением данных или решением базовых проблем, но также, например, с бронью столика в ресторане или покупкой билетов.

В конце года аналогичное решение для своих клиентов, возможно, представит Сбербанк. Пока это слухи, но под ними есть серьезное основание: в апреле стало известно о покупке Сбербанком 51% компании «Группа ЦРТ» (ранее «Центр речевых технологий»). Изначально она занималась разработками технологий синтеза и распознавания речи, а в последние годы обратила внимание на сферу биометрической защиты данных.

В СМИ проскальзывала информация о том, что ЦРТ разрабатывает собственного голосового ассистента «Варвару» с уникальной биометрической защитой: если система не распознает «своего» пользователя, она не будет с ним работать. Предполагалось, что разработка будет монетизироваться по лицензионной модели, то есть за счет продажи сторонним разработчикам. Однако теперь, вероятнее всего, она станет частью экосистемы Сбербанка.

Схожие решения внедряют и другие компании. В прошлом году без лишней помпы в фирменных сервисах провайдера сотовой связи «Мегафон» появился голосовой ассистент «Елена». В его основе лежит все та же разработка «Яндекса» SpeechKit. В конце года своего ассистента под названием «Ева Вайлет» планирует представить интернет-ритейлер Wildberries. Подробностей о технологии и функционале пока нет.

Надо признать, что ассистенты вроде «Елены» или «Олега» сегодня справляются со своими задачами неубедительно: иногда не понимают естественную человеческую речь и требуют жестких формулировок, не всегда корректно обращаются к данным даже внутри приложения, в которое их встроили. Но это дело поправимое. Ведь в основе подобных ИИ лежит технология машинного обучения. Благодаря ей голосовые помощники со временем становятся умнее и способнее, в некоторых случаях даже без участия разработчика. «Яндекс.Алиса» – яркий тому пример: по сравнению с версией 2017 года сегодня в ней намного больше функций, она стала умнее и «живее». Через сколько лет компьютер сможет общаться с человеком на равных – пока вопрос открытый. Но что нас ждет интересное соперничество, это уж точно.

Как устроен голосовой ассистент

Как следует из названия, ключевая особенность разработки – голосовой интерфейс ввода-вывода (хотя в качестве вспомогательного инструмента можно использовать клавиатуру). Отметим, что речь идет не о простом наборе алгоритмов, какими являются классические программы. Захват человеческой речи для компьютера – крайне сложный процесс из-за огромного количества тембров, акцентов, индивидуальных особенностей речи. Голос ассистента, в свою очередь, тоже должен быть похож на человеческий, а не представлять собой нарезку заранее записанных актером слов, пусть даже они будут во всех возможных вариациях.

Чтобы программа правильно понимала человека и красиво отвечала, применяется технология машинного обучения. Ее суть, упрощенно говоря, в автоматическом изменении параметров программы (нейросети) на основе полученных данных. Если результат работы неудовлетворительный (информация выдана неправильно, слова человека определились неточно и т. д.), нейросеть изменяет некоторые параметры и пытается снова, и снова, и снова – так до победного конца. Корректность результата определяет как человек, исходя из своего знания и опыта, так и сама программа на основании огромного массива данных из различных источников, которые человек не смог бы обработать вручную в разумные сроки (big data).

Таким образом, для реализации такой, казалось бы, нехитрой программы, как голосовой ассистент, требуется не только сложное программирование, но и большое количество вычислительных ресурсов и огромный массив доступных данных. Только недавно все эти факторы сложились воедино и сделали общедоступной технологию, которая раньше встречалась только в фантастических фильмах. Виртуальная дискриминация

«Алиса», «Маруся», «Сири», «Алекса», «Кортана» – за несколько лет существования голосовых ассистентов у них явно сформировался «женский» образ. На данный момент исключений всего два – безликий Google Ассистент (который все же разговаривает женским голосом) и «Олег», который вещает голосом актера озвучания и дубляжа Никиты Прозоровского. Настройки некоторых ассистентов позволяют сменить их «пол», но все же по умолчанию подавляющее большинство – «девушки». Почему?

Этим вопросом не раз задавались эксперты и журналисты. Вывод таков: в виртуальном поле сильна общественная традиция, согласно которой функция реального секретаря, ассистента, помощника преимущественно женская. Не секрет, что некоторые работодатели в принципе не рассматривают мужчин–кандидатов на такую должность.

Есть и психологический мотив: женский совет звучит ласковее, а это и требуется от голосового помощника. «Женский голос вызывает теплые ассоциации, чувство уюта и защищенности», – объяснили в пресс-службе «Яндекса», сославшись на внешние исследования. Получается, программу наделяют «женским началом», стремясь дать ей все лучшее, но в то же время закрепляют вековые гендерные стереотипы. Скоро ли ждать обвинений в сексизме?