Вавилонская рыбка: что можно считать естественным языком в эпоху ИИ?

12.05.2024 08:01

Profile.ru

В 1997 году интернет-поисковик AltaVista скооперировался с SYSTRAN – старейшей компанией машинного перевода, которая еще в 1970-х занималась обработкой русских документов для Пентагона и NASA. Вместе они запустили первый онлайн-переводчик с говорящим названием Babel Fish – «Вавилонская рыбка». Это существо из культового фантастического цикла Дугласа Адамса «Автостопом по галактике», живущее в ухе человека. Питаясь энергией его биотоков, оно транслирует смыслы любого языка, но при этом «телепатирует» в мозг хозяина ментальную «матрицу» из обрывков фраз, бессознательных мыслей и случайных нервных импульсов.

Программа использовала двуязычные словари и лингвистические правила для каждой языковой пары. Но у этого подхода оказалось слишком много проблем. И в апреле 2006-го Google запустил свой переводчик. В его основе лежали две модели. Во-первых, статистическая модель перевода, основанная не на правилах, а на частотных закономерностях языкового употребления, полученных в результате обработки больших массивов текстовой информации. Философски это подход в духе Людвига Витгенштейна, считавшего, что вся человеческая коммуникация – лишь «языковая игра», где слова обретают смысл только в процессе их использования, а «границы моего языка означают границы моего мира». Восемь млрд человек, населяющих планету, просто физически не могут создать такой объем – это делают алгоритмы. По разным оценкам, сейчас с их помощью производится до половины нового контента. Пессимисты считают, что уже к концу будущего года искусственный интеллект (ИИ) будет генерировать 99% всей информации. Оптимисты полагают, что только 90%, и то не раньше, чем через пару лет.

ИИ отлично научился создавать тексты на естественных языках, хотя еще испытывает определенные трудности с языковым творчеством, эмоциями и длинными повествованиями. Но это дело наживное. Исследования показывают, что даже эксперты уже не могут уверенно отличить машинные тексты от оригинальных человеческих произведений, а со многими задачами ИИ справляется даже лучше рядового носителя языка. Отсюда и всплеск интереса к программам, которые умеют различать естественный и искусственный контент. А между тем эмоциональные речевые интерфейсы уже научились давать эмпатийные ответы.

При этом создаваемый ими контент активно формирует текущее употребление, в котором реализуется язык. Некоторые разработчики специально используют для обучения моделей синтетические данные, созданные ИИ. Это экономит время и деньги, но приближает «мусорный» коллапс. Другие стараются ограничить «еще только формирующееся, слабое в умственном отношении существо» хорошими текстами. Но, оказавшись на свободе, оно попадает в ловушку языковой реальности и нередко превращается в отъявленного циника или даже экстремиста. При этом химерический контент, которым всё более насыщена наша коммуникативная среда, оказывает сильное воздействие на сам язык, который теперь уже трудно назвать по-настоящему естественным. Мы же не называем «натуральной» синтетику, которая с середины прошлого века захватила половину мирового рынка текстиля?

«Вавилонская башня». Питер Брейгель Старший, 1563 Музей истории искусств, Вена

Информационный и коммуникационный прогресс – от изобретения письменности и до глобальных сетей связи – всегда влияет на языки. По-видимому, развитие больших языков еще больше замедлится за счет многократного увеличения лингвистически нормативного контента – самому ИИ нет никакого резона нарушать правила, а с его помощью теперь любой может создать грамматически и стилистически правильный текст, написанный без единой орфографической или пунктуационной ошибки.

И это, скорее, плохо. Даже очень плохо, потому что язык неотделим от мышления. На самом деле еще хуже: уже сейчас, даже ничего не зная о собеседнике, социально ориентированные алгоритмы на 20% эффективнее реализуют коммуникативные стратегии.

Но в ИИ не заложены какие-либо механизмы развития естественного языка. А для общения со «своими» он ему вообще не нужен. В 2017 году Facebook (принадлежит корпорации Meta, деятельность которой запрещена в России как экстремистская) опубликовал результаты эксперимента, как интеллектуальные боты Боб и Алиса торговались друг с другом о цене предметов. Вот, например, как выглядит фрагмент разговора про мячики:

Bob: i can i i everything else . . . . . . . . . . . . . .

Alice: balls have zero to me to me to me to me to me to me to me to me to

Bob: you i everything else . . . . . . . . . . . . . .

Alice: balls have a ball to me to me to me to me to me to me to me

Bob: i i can i i i everything else . . . . . . . . . . . . . .

Эта история тогда изрядно взбудоражила общественность, и Facebook отключил от розетки обоих. ИИ оказывается очень необычным мультилингвом: «родной» у него нечеловеческий, а все человеческие языки, которым он обучен, для него «чужие», и при этом он лучше знает, правильно ли мы говорим.