Существующие методы воздействия на языковые модели недостато — @mindful_coding

62просмотров

51.7%от подписчиков

6 марта 2026 г.

Score: 68

Существующие методы воздействия на языковые модели недостаточно хороши Мы с вами говорили здесь уже неоднократно про разные способы изменения ответов языковых моделей так, чтобы эти ответы были более безопасными и надёжными. Для этого используют дополнительное обучение, дополнительный контекст (например, базы данных с проверенной информацией), аккуратно написанные инструкции и некоторые «методы прямого воздействия» – это не общепризнанный термин. Под методами прямого воздействия я понимаю всё то, что точечно влияет на компоненты архитектуры модели и / или векторные представления конкретных слов и абстрактных концепций. Примеры – оптимизация Канемана-Тверски и прямая оптимизация предпочтений. Такие методы выглядят очень перспективно: 🔘они не требуют серьёзных вычислительных мощностей (по сравнению с обучением); 🔘и позволяют точечно исправить недостатки, не сломав по пути что-нибудь нужное (чем, опять же, грешит обучение). Однако так ли они надёжны, как нам бы хотелось? Эксперименты показывают, что нет. Сегодня мы разберём статью «Analyzing the Generalization and Reliability of Steering Vectors», которая проверяет подход, основанный на работе с векторами промежуточных представлений. Речь вот о чём: 🔘мы берём модель и даём ей на вход текст, трансформированный в матрицу из чисел; 🔘матрица проходит сквозь каждый слой, изменяясь; 🔘мы можем воздействовать на её промежуточные состояния: на что-то умножить или что-то прибавить, например; 🔘это воздействие изменит ответ модели, который она нам выдаст в конце. Есть немало статей, в которых работа с векторами демонстрирует хорошие результаты. Но, чтобы обрадоваться окончательно и начать применять подход везде, нужно проверить его на множестве разных ситуаций, то есть, проверить, что метод генерализуется – распространяется на все или большинство ошибок, которые мы хотим исправить. И вот тут есть проблемка. Вкратце, вот что показали эксперименты: 🔘Одни и те же подходы дают разные результаты на разных тестах. Например, прозрачность и безопасность ответов по-разному меняется при одних и тех же методах воздействия. Подход, сработавший для одной абстрактной концепции, часто не применим к другой. 🔘Есть посторонние факторы, и их влияние велико. Не всегда можно уверенно сказать, что больше повлияло на изменение ответа модели: то, что мы сделали с матрицами, или формат, в котором модель получила инструкции, или что-то ещё неучтённое. 🔘Набор данных, на которых мы тестируем модель, влияет на результат больше, чем архитектура модели. То есть, постановка вопроса важна – мы это и раньше знали. Наборы данных нужно анализировать отдельно, прежде чем что-то анализировать с их использованием. Что всё это значит для нас? Разумеется, не то, что методы прямого воздействия бесполезны – они просто пока немного сырые. Их пока нужно использовать очень аккуратно и перепроверять свои результаты всеми доступными способами. Помните, мы про проверку гипотез говорили? Получив результат, постараться его опровергнуть. Если не вышло, возможно, вы что-то нашли. А вообще увлекательно следить за развитием научного направления, которое находится в начале своего пути: пока не всему есть общепринятые определения, не все методы устоялись, идёт активная публичная дискуссия: придумали – проверили – доработали – проверили – поняли, что надо искать другой путь. Это всё захватывает сильнее, чем какой-нибудь приключенческий роман. Надеюсь, и вас тоже ☕️

Другие посты @mindful_coding