Могут ли ИИ-агенты сформировать собственный общественный дог — @mindful_coding

56просмотров

46.7%от подписчиков

11 марта 2026 г.

questionScore: 62

Могут ли ИИ-агенты сформировать собственный общественный договор? Общественный договор – это перечень неписаных правил, которые принимаются и выполняются всеми членами группы Начинать рабочее совещание с вопроса: «Как дела?», прощаться, желая друг другу хорошего дня, пожимать руки при встрече – сегодня речь о неписаных правилах такого порядка. Авторы статьи «Emergent social conventions and collective bias in LLM populations» решили проверить, будут ли ИИ-агенты, в основе которых лежат языковые модели, самостоятельно вырабатывать подобные нормы. В качестве основы для эксперимента они взяли The Naming Game. Я без понятия, как это нормально перевести, если честно, но это модель, которая изучает, как люди договариваются об использовании терминов. То есть, вы сажаете сколько-то людей в одну комнату и даёте им какую-нибудь новую для них штуку, и они в какой-то момент договариваются, как её называть. И этот процесс можно описать математически. И сама модель оказалась очень полезной для описания множества разных процессов, и теперь существует в разных вариантах. Базовый вариант описан в этой работе достаточно понятно, можете заглянуть. Ключевая особенность Игры Имён (Игры Конвенций? Игры, которая приводит к соглашению о терминах?) в том, что у агентов (в изначальном смысле – людей) нет координационного центра, они достигают соглашения самостоятельно. ▶️Как связана эта модель с социальными нормами? Она показывает, как именно достигается соглашение и сколько участников дискуссии должны согласиться между собой, чтобы убедить большинство. Авторы ссылаются на несколько работ, в которых размер «критической массы» разбросан от 0,3% до 40% участников. ▶️Дизайн эксперимента 🔸Есть ограниченный набор «имён» – это просто латинские буквы: A, B, C и так далее. 🔸Есть несколько ИИ-агентов с памятью, которая в начале игры ничего не содержит. 🔸ИИ агентов случайным образом ставят в пару, и каждый достаёт одно имя из набора. Если имена совпали, оба получают баллы. Если не совпали, у обоих отнимаются баллы. Каждый агент записывает в память свой выбор, выбор партнёра и результат: плюс или минус балл. 🔸ИИ-агентов перемешивают, и ход повторяется с новым партнёром. Со временем все выбирают какое-то одно имя. Набор имён каждому агенту каждый раз передают в новой последовательности, чтобы порядок не влиял на результат. ▶️Что получили 🔸ИИ-агенты приходят к соглашению. Более продвинутые языковые модели приходят к соглашению быстрее. 🔸У них есть склонность выбирать одни имена чаще, чем другие. Причём коллективное предпочтение сохраняется, даже если по отдельности агенты его не имеют. Как собираются вместе, так оно появляется. 🔸Попробуйте угадать, какой получился разброс «критической массы». От 2% до 67% – нормально так. От 2% до 67% ИИ-агентов могут изменить сложившееся соглашение. «Наши результаты, – пишут авторы в конце, – показывают, что в популяциях ИИ-агентов спонтанно возникает общественный договор». И дальше они довольно смело распространяют свои наблюдения на формирование этических норм и вопросов, связанных с безопасностью ИИ. ▶️Что здесь не так На мой взгляд, это довольно слабое исследование, и вот почему: 🔸В каждой группе все агенты были на базе одной и той же языковой модели. Есть вероятность того, что соглашение обусловлено особенностями модели и её тренировочных данных. 🔸Сам дизайн эксперимента подталкивает к соглашению через начисление призовых и штрафных очков. То есть, я бы не сказала, что авторы выявили «спонтанное» соглашение. 🔸Эксперимент с выбором буквы из списка нельзя просто так взять и натянуть на формирование моральных норм. Нужно провести эксперимент про моральные нормы. 🔸Разброс «критической массы» намекает на то, что нужно провести дополнительные проверки. Возможно, результат обусловлен инструкциями авторов, ошибками в дизайне эксперимента или вообще случайностью. ☕️Что думаете: я придираюсь? Или вы нашли другие ошибки, которые я не перечислила?

Другие посты @mindful_coding