Леонид Стариков: Нейросеть для бизнеса должна быть универсальной, дешевой и надежной
На вопросы ИАА «УралБизнесКонсалтинг» ответил директор компании «Недремлющее око» Леонид Стариков. — Леонид, ваша компания начала коммерческое использование нейросетей 5 лет назад. Изменилась ли технология за эти годы? — Первую коммерческую нейросеть с распознаванием лиц на входе мы поставили корпорации «Атомстройкомплекс» 5 лет назад. Тогда это казалось магией: камера сама опознавала людей в лицо и открывала турникет только перед теми, кто занесен в базу. Сейчас это воспринимается как обыденность: узнавать лица, номера автомобилей, вычислять на стройплощадке рабочих без касок или решать десятки и сотни похожих задач нейросети научились хорошо, и мы все к этому привыкли. В целом можно сказать, что сегодня нейросеть может находить и определять все то, что может найти глазами человек. В бизнесе и на производстве очень много технологических процессов, которые можно контролировать и даже автоматизировать с помощью нейросетей. — Нейросети — это выгодно? Ведь с теми же функциями справится и человек? — Во-первых, нейросеть не спит, не устает и не берет взятки. Во-вторых, она дешевле. Простой пример. На проекте «Атомстройкомплекса» до автоматизации на КПП работали три человека: начальник смены, оператор кнопки шлагбаума и бабушка, которая записывала в тетрадку пришедших. Когда мы внедрили распознавание лиц, распознавание номеров и соединили базу с 1С, то вместо трех человек остался один. Фонд оплаты труда двух даже низкоквалифицированных сотрудников вместе с налогами — больше миллиона рублей в год, а система стоила меньше миллиона, то есть окупилась меньше, чем за год. Выгода растет при масштабировании решений. Если каждый раз обучать нейросеть под конкретную задачу — это дорого, это сотни часов работы квалифицированных программистов, миллионы рублей. Но если взять готовое решение и применять его на однотипных задачах, то оно становится дешевым. Сейчас лицензию на программу для распознавания лиц можно купить от 15 тыс. рублей. Часто, конечно, ее приходится доводить в процессе настройки, но это все равно сильно дешевле, чем каждый раз строить с нуля. — Почему же мы не видим процесса массового вытеснения сотрудников нейросетями? — Главная причина — люди многозадачны, а современные нейросети, как правило, нет. Большая часть из них создана для решения очень простых технологических задач. Определить лицо, найти на картинке кирпич, просигнализировать о возгорании или пересечении контура безопасности. Бизнес же, как правило, состоит из более сложных технологических процессов. Возьмем один из кейсов, над которым мы работаем: контроль относительно простого технологического процесса — нагрева металлического слитка в печи. Для этого нужно научить одну нейросеть определять слиток, другую — печь, третью — засекать время нахождения в печи, а потом еще четвертую — определить то место, за которое кран его достал. Потому что если он достанет его не за специальные уши, то слиток в прокате лопнет, что нанесет ущерб в миллионы рублей. И каждый процесс — это отдельная нейросеть. Грубо говоря, на простой процесс из 4 шагов нам нужно 4 нейросети, а таких процессов на одном предприятии может быть несколько сот или тысяч. И получается, что закрыть все потребности бизнеса созданием большого числа маленьких нейросетей — тупиковый путь эволюции. Если одну обучить достаточно просто, то 4, а тем более, 100 — уже значительно дороже и дольше. И серверных мощностей под них нужно много. К тому же ни в России, ни в мире просто нет такого числа программистов, чтобы написать нейросети под все задачи, под которые они нужны. — А почему нельзя одну нейросеть обучить делать все? — Сложно с точки зрения кодинга. Изначально нейросети делались и делаются под определение одного объекта. Каждый новый приводит к резкому удорожанию и усложнению системы. Универсальную модель, которая внутри себя будет сочетать десятки и сотни маленьких нейросетей, и, грубо говоря, определять любой объект, пока, насколько мне известно, в мире еще никто не сделал. Но многие стремятся. В том числе — лаборатория в МФТИ, совместно с которой мы и разрабатываем это решение. Возможно, мы станем первыми в мире, кому это удастся. — Такая модель будет способна к мультизадачности? — Более того, в процессе обучения большой модели появятся синергии. Пока мы обучаем ее десяти нейросетям, одиннадцатая образуется сама собой. Пока мы учим ее искать на видео каски, кирпичи и подъемные краны, она оцифровывает и прочие объекты. И когда заказчику понадобится, чтобы сеть находила еще и вагонетки, выясниться, что она их уже знает, как, грубо говоря, «объект № 634». Нам нужно будет только ввести соответствие между ним и словом «вагонетка». — Но такая модель будет очень требовательна к ресурсам? — Это серьезная проблема. Большая видеомодель действительно будет требовать огромных ресурсов. Использовать ее на заводе как «standalone» решение будет невозможно. Предприятие не сможет содержать собственные машинные мощности для ее обслуживания. Не является выходом из ситуации и облачное решение: бизнес не пойдет на вынос за пределы предприятия информации, от которой зависит его безопасность. И поэтому невозможно использовать на предприятии большую модель, будут использоваться маленькие. — Получается замкнутый круг? — У нас есть решение. Мы хотим из большой модели дистиллировать, «вырезать» маленькие узконаправленные нейронные сети, которые будут решать конкретные проблемы. Не создавать под каждую задачу нейросеть с нуля, а из большой нейросети отбрасывать лишнее, оставляя только то, что нужно заказчику. Грубо говоря, если тебе нужно распознавать слитки, то мы уберем из программы распознавание майонеза на полках. Сделаем компактное решение, которое потянет заводской софт. Поэтому мы изначально делаем модель такой, чтобы она, во-первых, была легче и, во-вторых, мы могли извлекать из нее вот эти маленькие нейронки, которые будут крутиться на «легком» железе. Мы вообще стремимся к тому, чтобы наша система запускалась на компьютере стоимостью 30 тыс. рублей. Потому что нельзя прийти к клиенту и сказать, что надо заплатить 20 млн за то, чтобы у него случилась автоматизация одного процесса из тысячи, которые есть на предприятии. Никто на это не пойдет. Решение должно быть универсальным, дешевым и надежным, и работать в закрытом контуре, без всякой связи с большой моделью. — Как это можно осуществить? — Для этого необходим специальный инструмент, он называется «редактор сценариев». Это каскадная система построения алгоритмов, выстраивающая последовательность действий при достижении определенных условий. Собирать это все из нейронок чудовищно дорого, поэтому мы планируем в качестве детекторов события использовать также аналоговые датчики, например, фотоэлемент. Это позволит включать нейросеть только тогда, когда она нужна, и не использовать лишних вычислительных мощностей. — Как это работает? Есть понятный бизнес-процесс автоматизации платной парковки. Перед въездом в асфальт вмонтирована индукционная петля. Когда она чувствует над собой массу металла, то включает камеру, через которую нейронка определяет номер автомобиля и отдает управляющее воздействие на шлагбаум: шлагбаум открывается. Далее у нас стоят два фотоэлемента, которые определяют направление движения машины, не загружая процессорные мощности. После этого мы закрываем шлагбаум и записываем в системе, что машина заехала на платную парковку. При выезде система высчитает время парковки и спишет деньги. Сейчас такую систему можно создать, но каждый раз приходится кодить ее заново. Мы хотим сделать универсальный редактор сценариев, где под любой бизнес-процесс или технологический процесс можно создать отдельное решение. Сочетая датчики с набором из тысячи маленьких нейронок, мы будем способны описать практически любой бизнес-процесс, будь то производство, промышленность, ритейл, общепит, вплоть до управления городским хозяйством. Таких сценариев может быть тысячи и десятки тысяч. — Есть ли такие редакторы сценариев сейчас? — Нет, такого редактора сценариев на рынке не существует. Но мы его разрабатываем. — В какой стадии сейчас находится весь проект? — Чтобы реализовать проект, необходима платформа, которая обрабатывает видеонаблюдение, большая модель, которая все обсчитывает, редактор сценариев и специальный инструмент для подключения аналоговых датчиков. У нас уже есть платформа и математика большой модели, которую мы начали наполнять. Редактор сценариев существует на стадии «пайплайна», мы понимаем, как его сделать. У нас в рамках большой модели работают уже три нейронных сети. На языке стартаперов и венчурного капиталиста это называется «DeepTech»: технология, которую нужно сначала долго делать, как это делали с OpenAI, прежде чем из нее будет коммерческий толк. Просто в отличие от них, мы на берегу понимаем, зачем это делаем. — Что нужно, чтобы эта система начала работать? — Время и деньги. Мы посчитали, что работы над системой обойдутся в 180 млн рублей и займут 3 года. Сейчас продолжаем техническую работу над системой, параллельно ведем поиски инвестора. При этом к проекту проявляют интерес потенциальные заказчики. Так, к нам пришел представитель Ростеха. У корпорации 900 предприятий, на которых нужно внедрять автоматизированные системы. Но Ростех не занимается венчурными инвестициями. Они готовы купить готовое решение, но не готовы инвестировать в проект на стадии разработки. Ищем тех, кто готов. Фото предоставлено Леонидом Стариковым