Новый протокол безопасности гарантирует защиту данных в облачных серверах

29.09.2024 13:07

«Модели глубокого обучения, такие как GPT-4, обладают беспрецедентными способностями, но требуют громадных вычислительных ресурсов. Наш протокол позволяет пользователям использовать эти мощные модели, не жертвуя приватностью данных или проприетарной природой самих моделей», - сказал Кфир Сулимани из Массачусетского технологического института, ведущий автор исследования.

Условия облачных вычислений, которые стал предметом исследования ученых, характеризуются наличием двух участников: клиента, обладающего конфиденциальными данными, и центрального сервера, контролирующего модель глубокого обучения. Клиент хочет использовать модель для составления прогноза, не раскрывая приватную информацию, которую пересылает на сервер. А сервер не хочет раскрыть запатентованную информацию о модели. Таким образом, обеим сторонам есть что скрывать.

Решением стало использование квантовых свойств света, https://news.mit.edu/2024/new-security-protocol-shields-data... MIT News. Сервер кодирует определенные параметры нейросети – вес узлов – в оптическом поле при помощи лазеров и отправляет эту информацию клиенту, который совершает операции с пользовательскими данными. Данные остаются защищены от сервера. В то же время, протокол безопасности позволяет клиенту измерить только один результат, и это не дает клиенту скопировать вес узлов – мешает квантовая природа света. Как только клиент передает результат вычислений на следующий уровень, протокол отменяет предыдущий. Информация о модели остается защищенной.

«Вместо того чтобы измерять весь входящий свет сервера, клиент измеряет только тот, который необходим для запуска нейросети и отправки результата на следующий уровень. Затем клиент посылает остаточный свет назад, в сервер для проверки безопасности», - пояснил Сулимани.

Согласно утверждению о невозможности создания идеальной копии неизвестного квантового состояния (или теореме о запрете клонирования), клиент неизбежно вносит крошечные погрешности в модель, измеряя ее результат. Когда сервер получает свет от клиента, он оценивает эти погрешности и определяет, произошла ли утечка. Сам свет при этом не раскрывает данные клиента.

Испытания технологии показали, что система гарантирует безопасность сервера и клиента, позволяя при этом нейросети достичь 96% точности.

Учитывая стоимость и низкую скорость обучения больших языковых моделей (БЯМ), исследователи и разработчики активно обсуждают, в состоянии ли увеличение циклов вычислений повысить производительность БЯМ без необходимости в их переобучении. В новой https://hightech.plus/2024/08/27/deepmind-nashla-sposob-opti... специалисты из DeepMind и Калифорнийского университета предложили новые способы повышения производительности БЯМ путем стратегического распределения ресурсов.