ru24.pro
Все новости
Декабрь
2025
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29
30
31

RepE — как активационная инъекция влияет на энтропию, деградацию и качество ответов LLM?

0

Современные большие языковые модели достигли впечатляющих результатов в генерации текста, однако они до сих пор остаются жуткой стохастикой. На мой взгляд проблема текущего ИИ заключается не в синтетических обучающих данных или архитектурных ограничениях, а в отсутствии внутренней верификации.

Для LLM галлюцинация и факт онтологически равноценны: и то, и другое — лишь вероятностная последовательность токенов, максимизирующая правдоподобие. Стандартные методы донастройки, такие как RLHF, часто еще сильнее ухудшают ситуацию: они учат модель казаться правильной и вежливой, создавая маску дружелюбного ассистента, но не меняют глубинные механизмы принятия решений. В результате мы получаем модели, которые полноценно врут даже там, где их знаний возможно хватило бы для правильного ответа на вопрос.

Данная работа посвящена изучению методов Representation Engineering (RepE) — подхода, который позволяет проникать в активационные слои нейросетей и слегка усиливать отдельные вектора. В отличии от классического промпт инженеринга мы не задаем роль, а правим внутреннюю генерацию ответа, можно сказать точечно правим "веса" хоть это в действительности и не так. Цель - проверка того, может ли выделение и активация специфических семантических векторов служить функциональным регулятором генерации - и как в целом это выделение влияет на модель. Возможно ли таким методом снизить энтропию или получить сравнительно лучшие ответы от модели.

Читать далее