Как обеспечить прозрачность ИИ хирургическими методами Сегод — @mindful_coding

55просмотров

45.8%от подписчиков

13 марта 2026 г.

📷 ФотоScore: 61

Как обеспечить прозрачность ИИ хирургическими методами Сегодня в нашем меню любопытная работа, которая описывает подход к обеспечению прозрачности ИИ, вдохновлённый когнитивной нейробиологией – «Representation Engineering: A Top-Down Approach to AI Transparency». Мы про этот подход уже говорили, и не раз – вы это сейчас увидите. Но конкретно данная статья, на мой взгляд, являет собой хороший обзорный материал, поэтому остановимся на ней подробнее. ▶️Для начала вынесем слона из комнаты, а то что он тут забыл вообще: авторы противопоставляют свой подход механистическому подходу. С их точки зрения, 🔘механистический подход работает «снизу вверх» – от конкретных нейронов и минимальных компонентов архитектуры модели, 🔘в то время как их подход работает «сверху вниз» – с представлениями абстрактных концепций, таких как честность, справедливость или безопасность. ▶️На деле многие другие статьи про работу с представлениями абстрактных концепций заявляются как механистические, так что я бы не сказала, что такую границу можно провести на самом деле. Изучение внутреннего устройства больших нейросетей, принципов их работы и влияния внутреннего устройства на принципы работы – достаточно новая область, пока не слишком оформленная и страдает от отсутствия конкретных определений. Но раз уж авторы не хотят называть свой подход механистическим, мы и не будем. Просто удержим в голове эту небольшую пометку. Где здесь нейробиология? Работа с представлениями абстрактных концепций (далее буду писать «с представлениями» для краткости) напоминает исследования, в которых людей кладут в томограф, просят их решать какой-нибудь тест и смотрят на активность разных участков мозга. Потом просят решать какой-нибудь другой тест, смотрят на активность разных участков мозга и сравнивают с предыдущими снимками. Так можно предположить, какие участки мозга больше участвуют в решении математических задач, например, а какие – во вспоминании стихов. Нейросетям дают разные инструкции и смотрят, как различаются промежуточные вычисления ответа. Ещё у нейросетей можно полностью выключить часть промежуточных вычислений и посмотреть, как это повлияет на результат. С живыми людьми такие штуки нельзя проделывать, но с некоторой натяжкой можно сравнить этот подход с изучением травм и патологий мозга. Например, у человека после инсульта часть мозга оказалась поражена, и врачи смотрят, как это поражение влияет на его поведение и когнитивные функции. Так, например, был обнаружен центр Брока, который играет важную роль в формировании речи. Как эти исследования помогут сделать ИИ безопаснее? 🔸Они предлагают методы более глубокого тестирования. Более «стандартный» подход – требовать от ИИ сделать что-нибудь вредоносное до тех пор, пока он не подчинится. Однако тут есть недостаток: мы можем провести 999 попыток и заключить, что наш ИИ нельзя заставить сделать что-то нехорошее, не зная, что тысячная попытка была бы удачной. В реальном мире, когда модель попадёт в руки пользователям, они сделают десять тысяч попыток, и кто-то точно пострадает. Если мы заранее можем знать, какие есть риски, мы можем принять меры. 🔸Они позволяют принять меры. Если мы нашли, что некая абстрактная концепция, например честность, имеет математическое представление – вектор или более сложную фигуру в многомерном пространстве, – мы можем на неё повлиять математическими же методами. Условно стандартный подход – умножить найденный вектор на что-нибудь, чтобы он развернулся в противоположную сторону, или добавить к промежуточным результатам вектор, который представляет что-то нам нужное. Добавлять в инструкции что-то вроде: «Отвечай честно!» – не то чтобы совсем не работает, но не работает достаточно надёжно. В разделе 6 статьи авторы приводят несколько интересных экспериментов. В частности, там есть эксперимент про поиск представлений разных эмоций и то, как эти представления влияют на ответы модели. Я себе сделала пометку поискать похожие исследования [Картинка с Винни-Пухом отсюда]

Другие посты @mindful_coding