Виртуализация данных: эволюция подходов, революция в сознании

21.12.2020 18:54

Computerworld.ru

Алексей Сидоров, главный евангелист и директор по управлению данными Denodo, — о развитии технологии виртуализации данных и ее перспективах на нынешнем ИТ-рынке.
В ходе форума «Управление данными — 2020», организованном издательством «Открытые системы», большой интерес вызвало выступление Алексея Сидорова, главного евангелиста и директора по управлению данными Denodo. Рассказывая о технологии виртуализации данных, он, в частности, сравнил ее действие с функционированием человеческого мозга и заявил о необходимости революционных изменений в сознании заказчиков. Мы поговорили с ним о тенденциях, наблюдающихся на рынке, и причинах того, что виртуализация данных становится актуальной только сейчас.

— Вы сравниваете виртуализацию данных с работой человеческого мозга. Как это можно объяснить руководителю компании, принимающему решение о покупке платформы?

Когда мы разговариваем с руководителями компаний и другими лицами, принимающими решения, то говорим в первую очередь о бизнес-преимуществах, которые можно получить при использовании технологии виртуализации данных. В нашем случае уместно провести другую аналогию. Если мы вспомним, как смотрели фильмы 20 лет назад, то у многих в памяти всплывет шкаф, в котором стояли видеокассеты, а потом и CD. Чтобы насладиться фильмом, надо было встать с дивана, выбрать кассету, вставить ее в плейер... А сейчас нам доступны стриминговые сервисы (Netflix, ivi и т. п.): мы можем двумя кликами выбрать фильм и смотреть его в любой точке планеты. Виртуализация данных предоставляет схожие преимущества при работе с большими массивами информации. Больше не нужно хранить ее в едином репозитории, так же как не нужно идти в специализированный магазин, чтобы приобрести новый фильм. Все данные доступны в одном окне, в едином формате и для всех потребителей в организации.

Однако в функционировании нашей платформы действительно можно увидеть много схожего с тем, как работает человеческий мозг. В реальном времени человек получает огромный объем информации, поступающей через различные каналы восприятия. Эту информацию он совмещает и сопоставляет с уже имеющимися статическими данными, хранящимися в долговременной памяти, и на основе этого принимает решения. Примерно так же действует и наша платформа: мы подключаемся к данным в реальном времени, собираем их из различных источников, объединяем с уже имеющейся информацией, хранящейся в озерах данных. На основе собранных сведений бизнес может принимать быстрые и обоснованные решения в нынешнем сложном мире.

— О виртуализации данных было известно 10–15 лет назад, но, по вашим словам, ее долго не могли реализовать так, чтобы она полностью отвечала требованиям заказчиков. Лишь сейчас она приобрела законченный вид. А каковы эти требования? И как они изменяются во времени?

Действительно, 10–15 лет назад многие компании предпринимали попытки создать инструмент, который бы помог реализовать идею виртуализации данных. Сама по себе идея не нова. Однако эти попытки предпринимались «в лоб». Для того чтобы виртуализация действительно работала, требуются довольно сложные механизмы. Вариант, в котором ее пытались выполнить раньше, предполагал чтение больших массивов данных и их обработку в оперативной памяти сервера. Это не работало: объемы данных экспоненциально росли, а значит, росла и скорость, с которой их требовалось обрабатывать.

Мы предлагаем совсем другой подход к построению архитектуры виртуализации данных. У нас «под капотом» находится очень мощный оптимизатор запросов, который за несколько шагов пытается улучшить производительность и обеспечить обработку данных настолько эффективную, насколько это возможно. Сначала проводится статическая оптимизация запроса с точки зрения языка SQL. Следующий шаг — динамическая оптимизация: все вычисления, которые могут быть проведены в системах-источниках, выполняются там. Мы используем умное кэширование, можем забирать инкрементальные изменения данных, которые поступают из инструментов для захвата изменения данных (Change Data Capture, CDC). Кроме того, оптимизатор запросов рассматривает варианты физического перемещения информации из одного источника в другой, чтобы операции по ее объединению и пересечению выполнялись как можно быстрее. Только применив все эти методы оптимизации выполнения запросов, мы смогли на практике реализовать концепцию виртуализации данных.

— Кто является вашими конкурентами? Между какими альтернативами приходится выбирать компаниям?

Я обычно ссылаюсь на авторитетные аналитические агентства, такие как Gartner и Forrester. Они изучают рынок и продукты компаний, представляющих те или иные решения в области интеграции данных, сравнивают их по множеству параметров. Изучив последние квадранты Gartner по продуктам в области управления данными, мы увидим, что Denodo находится в лидерах — среди таких игроков, как Informatica, IBM, SAP, Oracle. Все эти компании представлены на рынке достаточно давно, однако они исповедуют другой подход к интеграции данных, ориентируясь на их физическое перемещение, будь то ETL-процессы или механизмы репликации данных. Мы же, придя на рынок интеграции данных с подходом виртуальной обработки информации, предоставляем возможность управлять данными по-другому, с помощью более современных подходов. То есть мы конкурируем не столько с компаниями, сколько с другими архитектурными подходами.

На протяжении последних 20 лет заказчикам объясняли, что невозможно управлять данными без их объединения в едином физическом репозитории. Данные перемещали из разрозненных источников в единое хранилище, или озеро данных. Однако данные по своей природе обладают центробежным свойством, и чем больше их накапливается, тем больше они стремятся «разлететься» по различным географически и технологически распределенным источникам. Идею собрать всю информацию в одном месте не получалось реализовать никогда. Компании пытаются строить хранилища данных, куда собиралась бы вся информация о деятельности компании, однако всегда оставались данные, которые не были интегрированы в этот процесс. При реализации концепции озера данных было точно такое же желание, но и этой мечте не суждено сбыться. Сейчас мы видим, что большие поставщики облачных сред предлагают переместить все данные в облако, чтобы упростить управление ими. Этот подход на практике также оказывается невозможным.

В наши дни архитектура данных, оказывающаяся в распоряжении любой крупной или средней компании, включает в себя и традиционные хранилища данных, и озеро данных, а какая-то их часть находится в облаке. Мы возвращаемся к тому моменту, когда наши данные разрозненны и нет никакого уровня абстракции, позволяющего их эффективно обрабатывать.

Поэтому подход виртуализации данных и набирает все большую популярность. Его использование поможет решить задачу объединения данных из территориально, технологически и бюрократически разделенных источников на едином абстрактном уровне без необходимости перемещать информацию в одно место физически.

— Вы говорили о необходимости революционных сдвигов в сознании заказчиков для успеха вашей платформы. В чем именно они должны заключаться?

В развитии средств управления данными мы, скорее, за эволюционный подход. Идея виртуализации данных и ее архитектурная реализация представляют собой логичный следующий шаг в эволюции подходов к управлению данными. А вот революционные сдвиги нужны в сознании людей, отвечающих за архитектуру платформы и сбор данных. Если на протяжении последних 25 лет специалисты строили хранилища данных, которые до сих пор работают и выполняют свои задачи, то они скептически относятся к новым идеям. И такое отношение совершенно нормальное: если что-то работает, то не нужно это трогать.

Однако если смотреть шире на задачи, которые бизнес ставит перед ИТ, то можно увидеть, что многие из них нельзя решить с помощью традиционных подходов. Надо понимать, что архитектуры Virtual Data Fabric и Data Mesh появились не на пустом месте, а при решении сложных задач. Для физического объединения данных необходимо их собрать и переместить, эти процессы сложны и занимают много времени и ресурсов. Зачастую просто невозможно перемещать необходимые объемы данных с требуемой скоростью.

— «Серебряной пули» не существует. В каком случае подобный подход лучше, а в каком — правильнее ориентироваться на традиционные решения?

Действительно, мы не позиционируем платформу как волшебное средство, способное решить все проблемы, возникающие при управлении данными. Если задачи компании состоят в том, чтобы собрать простую консолидированную отчетность из однородных систем, если нет большого количества разнообразных источников данных и не требуется аналитика в реальном времени, то, возможно, правильнее использовать более простые и проверенные технологии.

— Какие ключевые изменения произошли в вашей платформе за последние два-три года?

Мы постоянно улучшаем функционал платформы и добавляем новый. Например, в ее последней версии особый акцент сделан на использовании искусственного интеллекта для управления данными. Он применяется для улучшения всей цепочки обработки данных, начиная с оптимизации запросов и заканчивая рекомендациями по использованию наборов данных, выдаваемыми конечным пользователям на основе их потребностей и истории работы в системе.

— Кто является типичным заказчиком Denodo? Каков их «клиентский путь», какие задачи они решают?

Сейчас у нас более 900 заказчиков, которые представляют различные вертикали бизнеса. Их клиентский путь, конечно же, подразумевает использование традиционных технологий: ETL, репликации, применение шин данных. Многие приходят к пониманию того, что задачи, которые встают в 20-е годы XXI века, не могут решаться с помощью технологий и методологий прошлого века. Именно из-за того, что традиционные подходы к управлению данными имеют достаточно много ограничений (например, невозможность анализировать данные в реальном времени), компании и движутся к использованию платформ виртуализации данных и построению архитектуры Virtual Data Fabric.

— Какую бизнес-ценность получают клиенты? В чем она выражается?

Разумеется, никто не будет тратить деньги только ради того, чтобы внедрить технологию, даже самую современную. Она должна приносить эффект: либо экономить деньги, либо помогать их зарабатывать. Применение виртуализации данных для решения различных задач позволяет существенно сократить сроки внедрения и добиться других преимуществ — быстрого принятия решений и возможности реагировать на события в режиме реального времени. Это актуально как в обычных проектах по разработке отчетности, так и в проектах демократизации данных, внедрения продвинутой аналитики и искусственного интеллекта.

Можно привести пример использования платформы виртуализации данных для создания единого представления о клиенте для операторов контакт-центров. В момент звонка буквально за 3–4 секунды на экране оператора появляется вся информация о звонящем клиенте, которая находится в различных системах. Она собирается в реальном времени, что позволяет оператору видеть самые свежие сведения и дает возможность максимально сократить время на обработку запроса.

— Каковы общие направления развития платформы Denodo?

Эти направления включают использование всех современных тенденций в сфере управления данными. Мы можем говорить о дальнейшем улучшении оптимизации запросов, развитии каталога данных, бесшовной интеграции инструментов data science с нашей платформой. Я уже говорил, что для улучшения всех процессов, происходящих внутри нашей платформы, все больше используется искусственный интеллект. Это касается и сбора данных, и их очистки на лету, и умного профилирования, и поиска конфиденциальной информации — мы будем развивать все эти направления. Надеюсь, следующая, девятая версия платформы станет революционной на рынке управления данными.