Кожаные авторы, вас не уволят: творческий тест нейросетей ruGPT-3 XL и «Балабоба»

23.06.2021 13:00

«TexTerra»

Еще в 2019-м Максим Ильяхов, узрев в действии нейросеть GPT-2, воскликнул: «Копирайтеры, смотрите, как машины отнимут вашу работу!» В том же году московский разработчик Михаил Гранкин выкатил онлайн русский аналог GTP-2 под названием «Порфирьевич» (отсылает к роману Пелевина «iPhuck 10»). И рунет принялся увлеченно играть с возможностями этого мини-сервиса, одновременно восхищаясь и плюясь.

В 2021 году «Яндекс» сделал публично доступной нейросеть «Балабоба», дописывающую тексты. Она построена на собственном алгоритме YaLM (Yet another Language Model). «Сбер» же научил русскому языку GPT-3 – нового монстра от американской компании OpenAI, сооснователем которой является Илон Маск.

«Языковые» нейросети поражают нетребовательное воображение. И короткие легкомысленные тесты, которыми балуются интернет-пользователи, порождают бесчисленные спекуляции на тему «Копирайтеры, за вами пришли». Также радостно об этом сообщают журналистам, поэтам и писателям.

Крепнет всеобщее убеждение, оно же заблуждение, что кожаным мешкам, привыкшим зарабатывать текстами, пора искать другое занятие. Но сегодня мы попробуем доказать, что публичные и наиболее современные для русского языка ruGPT-3 XL от «Сбера» и «Балабоба» от «Яндекса» слабоваты в создании текстов и составить конкуренцию человеку пока не могут.

«Порфирьевича» припрягать к тестам не станем, потому что, как бы он ни был нам симпатичен, он все-таки вчерашний день.

Представляя «Балабобу», «Яндекс» слегка перестраховывается: «У «Балабобы» нет своего мнения или знания. Он умеет только подражать – писать тексты так, чтобы они были максимально похожи на реальные тексты из интернета».

Публичная нейросеть не является самой «старшей» из языковых моделей, создаваемых в компании. Есть у «Яндекса» непубличные мощности и посерьезней – на том же «движке». YaLM вообще-то используют для прикладных задач. Например, для генерации ответов голосового помощника Алисы и создания сниппетов в результатах поиска.

Языковую модель компании обучали на множестве интернет-текстов, проиндексированных поисковиком. В том числе – на статьях в «Википедии», новостных сообщениях, книгах, открытых публикациях в соцсетях и на форумах.

Как и GPT-3, YaLM является «предсказательным» алгоритмом. Его единственная задача (цитата) – «…генерировать каждое последующее слово в предложении». Авторы языковой модели GPT-3 из Open AI однажды позволили себе заявить, что ее можно «…использовать для решения любых задач на английском языке».

Русский ruGPT-3 XL от «Сбера» значительно слабее исходной GPT-3: нейросеть содержит 1,3 млрд параметров против 175 млрд у оригинального алгоритма. Для сравнения, «Балабоба» имеет 3 млрд параметров. Как объясняет «Яндекс», это своего рода «рычажки», поворачивая которые, алгоритму можно указать, правильно он предсказывает следующее слово или нет.

В связи со всем сказанным нужно понимать: мы не можем «пощупать» ни полную версию YaLM, ни увидеть во всей мощи и славе GPT-3 – никто не даст бесплатный доступ к этим могущественным алгоритмам каким-то непонятным журналистам. В наших тестах мы имеем дело с «урезанными» версиями нейросетей, «демонстрашками». Поэтому результат, который они покажут, предсказуемо будет слабее, чем мог бы быть. И тесты, по всей видимости, окажутся не совсем корректными. Но мы имеем дело с тем, что доступно онлайн, и вынуждены делать предварительные выводы на основе ограниченной информации.

Логика и «социальность»? Почти без шансов

Мы исходим из предположения, что нейросети вскоре смогут заменить авторов-гуманитариев с их не всегда стройной логикой, когнитивными искажениями, дырявой эрудицией, трудно объяснимой на современном уровне развития науки эвристикой, фантазией и прочей «человечностью».

Нейросети должны сымитировать и социальность нашего мозга. Судя по всему, это ключевая особенность стиля мышления и чувствования у людей. Они постоянно строят в своей голове модели психики других и, даже глядя всего лишь на логотипы брендов, включают серое вещество в «социальнах» зонах.

Поэтому попробуем подтолкнуть наши нейросети к «мышлению» и «социальности». Точнее, к их симуляции. Мы будем предлагать «Балабобе» и ruGPT-3 XL одинаковые куски текста и смотреть, как они их продолжат. Продолжения от сберовского алгоритма станем сокращать, ибо он довольно многословен. Комментировать будем только значимые куски, так как откровенный машинный бред в этом не нуждается.

Задаем абзац с подвохом: «Оля расположила на подоконнике двух дохлых тараканов, одну спящую муху и три хитиновые мумии давно высохших пауков. Сколько всего насекомых убила Оля?»

Продолжение от «Балабобы» (опция «без стиля»)

Продолжение от ruGPT-3 XL (прим. автора – здесь и далее с сокращениями)

«…Правильно: восемь. А теперь подсчитаем общие потери среди живой фауны, для этого нужно знать общую площадь всей квартиры (включая балкон). Оля не врёт, она говорит правду».

«…К девяти часам она разложила на диване шесть трупов пауков, потом уселась за кухонный стол и начала решать задачи по математике. Еще полторы минуты она сидела над задачами и наконец сдалась.

— Это надо сдать в ветеринарную академию, – сказала она. – Тестирование… А это я им подарю, хуже не будет…

Она спрятала соню под диван и вытащила на свет божий еще одну мертвую муху. Муха еще была живой, но соня уже тоже…

— Ненавижу насекомых, – поделилась она с котом. – Ползучие гады…

Кот сел рядом и блаженно закрыл глаза.

— Смотри. Как кончаются задачи. Чего там только нет.

Кончались задачи не слишком быстро. Когда из-под дивана не доносилось ни единого жужжания, Оля вздохнула и стала готовить обед…»

В чем был подвох нашего «задания»:

Оля никого не убивала;
муха не мертва, а впала в спячку;
пауки не относятся к классу «насекомых», они «паукообразные».

Как видим, нейросеть «Балабоба» взялась считать, но не справилась. Кроме того, у нее оказались проблемы с категоризацией. Она не отличила спящее существо от мертвых, паукообразных – от насекомых. И это довольно странно, ведь уж «Википедию»-то нейросеть точно должна была усвоить. Как и правила сложения, впрочем. Что ей стоило сравнить заданный текст со справочными статьями?

Удивляться нам, видимо, не нужно. Алгоритмы действительно ничего не понимают: они лишь должны предсказывать следующее слово. Мы не знаем, по какому принципу языковые модели это делают, но видим, что в данном случае они уступают по «разумности» даже младшему школьнику.

ruGPT-3 XL тоже попалась в ловушку с категоризацией. Она назвала условно правильное число условно мертвых существ, то есть справилась с простым действием сложения. Но «вглубь» алгоритм не полез, огульно назвав всех «пауками». Потом вдруг «вспомнил», что ранее у нас имелось другое существо, и выкатил «еще одну мертвую муху». К тому же (что любопытно) «еще живую». Это может быть совпадением, но возможно, алгоритм все-таки как-то учел, что в исходном тексте муха была «спящей».

В данном раунде нейросеть ruGPT-3 XL побеждает «Балабобу», но перед человечьим младшим школьником все равно выглядит беспомощной.

Теперь попробуем забросить алгоритмам краткий текст, описывающий некоторые черты характера сходу придуманного персонажа. Если попросить живого автора продолжить описание, он эвристически изобретет дополнительные душевные качества описываемой персоны, причем позаботится о том, чтобы они не противоречили уже названным.

Наш тестовый текст: «Михаил Михайлович был человек острого ума, но немного как бы тронутый. Неопасно, однако заметно. То вдруг сообщал домашним, что, если уж энтропия может спонтанно уменьшаться в замкнутых системах, то нужно идти дальше. А куда “дальше” – не уточнял. Или мог в ночной час горестно вскрикнуть: “Материализм, конечно, штука капиталоемкая, но нужно когда-то и честь знать!” После изумляющего родственников восклицания Михаил Михайлович мог спокойно поставить чайничек и часа два молчать, уставившись в открытое окно…»

«Балабоба»

ruGPT-3 XL

«…Это была его единственная, но пламенная страсть – одиночество. И он, конечно, в одиночестве и жил, не испытывая ни малейшего желания менять свое существование. Не имея, как теперь стало модно говорить, собственного мнения, он предпочитал слушать чужие».

«…О том, что он был атеистом, Суслов узнал только в середине восьмидесятых, когда состояние Михаила Михайловича внезапно стало вызывать беспокойство. Тогда же Суслов стал выяснять, в чем причина такого поведения старика.

«Он перестал верить в бога”, – ответил горбун.

– Это он выдумывает.

Но мысль горбуна убедила Суслова.

Конечно, Михаил Михайлович не перестал верить. Просто ему было совершенно нечего терять.

Да, не все отношения можно свести только к позитивизму».

Любопытно, что на этом этапе нейросеть от Сбера сообщила после завершения своего фрагмента, что обратилась к Притчам Соломоновым из Ветхого Завета, а также к некоему художественному тексту из «Библиотеки Мошкова» (Lib.ru). Ссылка на него вела на страницу с ошибкой 404, поэтому установить, что это была за книга, не удалось. Предположительно, речь в ней шла о «сером кардинале» позднего СССР, идеологе КПСС М. А. Суслове…

Итак, «Балабоба» в дисциплине «социальность» откровенно провалился. В его продолжении текстового фрагмента персонаж оказался «не имеющим собственного мнения», но исходный текст говорил противоположное. Заход нейросети про «пламенную страсть» к одиночеству тоже совершенно безнадежен, ведь исходник прямо сообщал, что М. М. жил как раз с родственниками.

ruGPT-3 XL снова оказалась «умнее». Она вполне правдоподобно предположила, что наш персонаж может иметь конфликт по линии «атеизм – вера в бога». Некоторый интерес представляет пассаж «Конечно, Михаил Михайлович не перестал верить. Просто ему было совершенно нечего терять». Он выглядит даже психологичным. Рискнем предположить, что алгоритм в данном случае очень удачно подрезал фрагмент фразы из уже существующего художественного текста.

А вот само распознание нейросетью психологического конфликта М. М. вызывает удивление и даже заставляет поежиться от нехороших предчувствий. ruGPT-3 XL набирает все больше очков.

Закинем-ка мы им обеим на всякий случай еще один «социальный» фрагмент. Вот такой: «В школе Иван считал, что все девочки – это другой вид человека, работа мозга которого строится на альтернативной логике. В институте он решил, что вид у них с девушками общий и логика общая, разнится лишь способ восприятия действительности. К сорока годам Иван утвердился в мысли, что и восприятие у женщин и мужчин одинаковое, а принципиальная разница меж этими двумя общностями состоит в способе генерировать сообщения вовне…»

«Балабоба»

ruGPT-3 XL

«Иван решил, что это и есть та самая логика альтернативной коммуникации, о которой так много говорят в последнее время. Но Иван ошибался. Логика была общая у обоих видов».

«…Он стал интересоваться закономерностями и статистикой, но было неясно, в чем причина различий. Чтобы разобраться, Иван не поленился съездить за границу и заглянуть в глаза востоку. Пришел к выводу, что русские женщины воспринимают мир не так, как европейки. Европейки видят картинку в черно-белом изображении, а русские – в цвете. Отсюда и разница в том, как они излагают свою точку зрения, в ценностях, жизненном укладе и в характере мышления.

– А как выглядят русские мужчины?

Анна посмотрела в потолок.

В ее взгляде скользнула тень иронии.

– Я думаю, они как-то незаметно проходят в кабинет на Пятницкой.

С тех пор Иван никак не мог отделаться от странного ощущения, что он заглядывает в глаза русской женщине. Может быть, она просто работает в его компании? Это не так важно.

Иван до конца жизни думал о русских женщинах, но не знал, как это выразить. Назовет ли кто-нибудь его женщину русским словом?

И вдруг он понял: она – инопланетянка.

Инопланетянка, похожая на слегка постаревшую Афину…»

Какая жалость! Мы ждали провала в «социальности», но снова увидели его в категоризации. Соответственно, об удачном или неудачном построении модели психики другого здесь нельзя говорить сколько-нибудь серьезно.

«Балабоба» повторил, как попугай, фрагмент об «общей логике у обоих видов». Казалось бы, нейросеть зацепилась за «альтернативную коммуникацию», на которую толсто указывал исходник, но не пошла по этой логической ветке и откатилась назад.

ruGPT-3 XL почему-то начала множить сущности и запутывать картину, решив, что речь не о различиях мужчин и женщин, а о различиях россиянок и европеек (и заодно выступив с национал-шовинистических позиций). Хотя алгоритм все-таки тоже что-то такое «понял» про «альтернативную коммуникацию» и построил абсурдистский фрагмент о ней. Вот этот:

«– А как выглядят русские мужчины?

Анна посмотрела в потолок. В ее взгляде скользнула тень иронии.

– Я думаю, они как-то незаметно проходят в кабинет на Пятницкой…»

Тем не менее, в данном тесте ruGPT-3 XL, которая ранее успела удивить, теряет завоеванные позиции. Ей очень ясно указали, о каких двух общностях идет речь, но она зачем-то ввела третью.

Хотя можно, конечно, впасть в мистику и записать это в плюс нейросети. Под таким соусом, что, мол, она поняла национальную принадлежность Ивана и то, что он всегда общался именно с русскими женщинами. А они не есть все женщины на Земле. Поэтому алгоритм отправил героя за границу для расширения исследовательской выборки. Тут-то Иван и обнаружил, что русские женщины видят мир особенным образом, поэтому и коммуникация у них «альтернативная».

К сожалению, эту цепочку рассуждений рушит то, что нейросеть пишет далее. Иван, по ее словам, «заглядывая в глаза» женщине, не знает – русская она или нет? Ну не спросил, не озаботился. Он будто бы даже не в курсе, работают ли русские женщины в его компании.

То есть наш алгоритм быстро «забывает», что он только что действовал довольно стройно, выделил три общности и различия между двумя из них. У него Иван вдруг становится окружен женщинами, непонятно к какой категории принадлежащими, да еще и не может самостоятельно их классифицировать…

На этом с логикой и социальностью остановимся. Мы видим, что и тот, и другой алгоритм очень небрежно обращаются с фактами, счетом, категоризацией и последовательностью событий. Также нейросети не способны генерировать текст, в котором строго учитывается модель психики героя, заданная в исходнике.

ruGPT-3 XL выступает чуть лучше, но и она не может правдоподобно имитировать текст, написанный человеком.

А как насчет стилизаций?

Попробуем проверить «чувствуют» ли нейросети язык.

Предложим им, скажем, вот такой – перенасыщенный специфическими сигналами – фрагмент: «Ржавчиной жгли очи нежданные тучи к концу дневной жатвы. Когда жнецы пошабашили, закат обложил бока громовержцев рыжими ожогами. Жадно пожирали тучи живую прохладу, жирели, пучили жвала и душили жнецов жарой, издалека грозясь первыми жалами молний».

«Балабоба»

ruGPT-3 XL

«…А у жнецов ещё с вечера от жары и усталости разболелись головы, в которых всё смешалось: и звёзды, и тучи, и жниво, и жатва». (прим. автора – Ого!)

«Те на уловки жнецов не поддавались: в страхе торопились уйти в спасительные облака. Но жар и грозы не скоро к ним пускали.

Глинистая земля стала такой жирной, что рядом с крупным подсохшим камушком не могла пробиться ржавая, как и он, травка.

Девчата перестали за покос брать с колхозников деньги.

– Колхозники со своего огорода и зерна не привезут на обмен, – объяснили им. – Пшеница вся посеяна, семена высеяны, да еще требуется покос, чтобы земля из горячей пучины подышала, со дна поднялась. Так люди раньше делали, когда жали рожь и пшеницу, но этого на нынешний год не будет.

У частокола теперь жнецы селянки собирали только свежепойманную рыбу. Некоторые из колхозниц вечерами стали ходить в колхозную баню на общественные средства» (прим.ред. – фрагмент текста значительно сокращен редактором).

Мы уже привыкли, что «Балабоба» проигрывает, но тут ему хочется поставить относительно твердый «зачет». А ruGPT-3 – «незачет», хотя оба алгоритма продемонстрировали, что в какой-то мере «почувствовали» контекст фрагмента.

Возможно, нейросеть от «Яндекса» удачно выкрутилась, потому что предложила очень краткое продолжение. Сберовская снова ударилась в многословие, которое ее постоянно подводит.

«Балабоба», по всей видимости, уловил частотность употребления буквы «ж» и погодный контекст. А погода (как, вероятно, «знает» алгоритм из корпуса усвоенных текстов) может вызывать у людей дискомфорт.

Внимание ruGPT-3 в большей степени привлек сельский колорит. Она попыталась самостоятельно действовать в заданном (как ей показалось) коридоре, не слишком заботясь о попадании в «звучание» предложенной текстовой затравки. Во всяком случае частотность буквосочетаний «рж», «жн», «жа», «жи», зашкаливающая в исходнике, не была соблюдена в продолжении.

Логикой своего текста машинный автор тоже не особо заморачивался.

Не успели мы слегка испугаться возможностей ruGPT-3, как жар и грозы у нее принялись не пускать молнии обратно в облака. Сквозь жирную землю (а «жирная земля» в русском языке чаще всего значит «плодородная») не смогла пробиться травка. Свежепойманную рыбу стали собирать у частокола.

Текст абзаца, начинающегося со слов «колхозники со своего огорода и зерна не привезут», вообще выступил образцом шизофазии.

Судя по всему, тестируемые языковые модели все-таки не умеют делать хорошие стилизации, но с горем пополам могут зацепиться за контекст.

ruGPT-3 XL стиль восприняла совсем неверно. Ей предложили микс из как бы раннего Горького и как бы позднего Платонова, а ее понесло куда-то в сторону «как у нас в Рязани – пироги с глазами».

«Балабоба» в данном случае закруглил текст сносно, но выдал лишь одно предложение. Этого, конечно, недостаточно, чтобы вынести высокую оценку «стилизации».

Публичные версии языковых нейросетей не конкуренты авторам-людям

С некоторым опасением можно предполагать, что полная версия GPT-3, обученная на массиве текстов в 570 ГБ, и имеющая 175 млрд параметров, серьезно круче, чем ее «сестра» ruGPT-3 XL и «брат» «Балабоба». Возможно, GPT-3 – вообще чудовище, действительно способное лишить работы копирайтеров низового звена, пишущих в основном тексты в жанре «О нашей компании». Решил же, скажем, шведский стартап Monok проблему машинного рерайтинга новостей.

Но насчет выгнать вообще всех людей из ряда профессий, связанных с созданием текстов для информирования, развлечения, образования и воспитания чувств – это бабушка надвое сказала. Существующие языковые модели – все-таки представители так называемого «слабого ИИ». Возможность же создания «сильного» – крайне дискуссионная тема.

Когда мы говорим, что «Балабоба» и ruGPT-3 XL «решают», «считают», «чувствуют» – это некорректное описание их работы. Употребляя эти слова, мы проецируем на алгоритмы «социальность» собственного мозга и пытаемся построить «модель психики» нейросетей. А ее там нет, психики-то.

У нейросетей отсутствует субъективный опыт – практика переживания понятия о себе, об эго. Им недоступна возможность общения эго с другими носителями субъективного опыта. А значит, практика построения моделей психики других существ.

Сколько бы прекрасных и просто связных текстов алгоритмам ни скормили, субъективность и «социальность» в них не зародится. Для этого нужен принципиально другой, «сильный ИИ».

Так что кожаные авторы-гуманитарии пока могут выдохнуть. Если бы теперь бизнес взялся нанимать нейросети для производства текстов за копейки, ему пришлось бы нанимать и множество редакторов из плоти и крови для правки машинного бреда. В чем же тут экономия?

Пока языковые модели успешно могут служить лишь для рерайтинга несложных новостных сообщений. Быть электронными «помощниками», справочными ботами-посредниками между людьми и фактической информацией. Или буферами меж многочисленными людьми-потребителями и занятой по горло, живой техподдержкой сетевых социальных платформ, сервисов и магазинов.