D
DL летописец
@ml_olprog1.9K подп.
3.0Kпросмотров
13 марта 2024 г.
📷 ФотоScore: 3.3K
Пост возрождения канала ⌛️Давно от меня не было никаких активностей, и за это время я успел: - вернуться в Точку - начал вести практики по алгоритмам - стал следить за своим здоровьем (много работы требует соответствующего здоровья!) 📚А теперь хочу рассказать про одну полезную и классную штуку, которая помогает в тех случаях, когда есть какие то тексты, есть известные классы, но разметки нет: Snorkel https://arxiv.org/abs/1711.10160 Метод не новый, но это не мешает ему довольно успешно и быстро справляться с некоторыми задачами, особенно когда заводить LLM слишком долго/дорого. Основная суть в том, что мы пишем некоторые правила - они вполне могут пересекаться, коррелировать и тд, в общем быть невысокого качества, но под капотом snorkel обучает простую генеративку предсказывать реальную разметку исключительно на основе срабатывания правил и корреляции между ними. Написали десяток правил - и вуаля! Получили решение без единого разметчика. Но у такой штуки есть и свои проблемы: 1) нужно побольше правил, иначе snorkel просто недообучиться (хотя бы от ~5 правил на класс) 2) это очень простой метод и к нему обязательно нужно прикрутить какую-либо модель сверху 👀 Впрочем, последний пункт отчасти даже является плюсом, ведь к сноркелю можно прикрутить другие интересные методы weak supervised и получить качество лучше, чем каким-либо способом по отдельности, например очень неплохо себя показала идея из https://arxiv.org/pdf/2204.13409.pdf - просто подгоняем распределение выхода сноркеля, но никто не мешает использовать и другие хорошие вещи, такие как: Shoring Up the Foundations: Fusing Model Embeddings and Weak Supervision PRBOOST: Prompt-Based Rule Discovery and Boosting for Interactive Weakly-Supervised Learning Отдельно хочется сказать, что snorkel содержит в себе еще и удобные инструменты для анализа полученных данных: например slicing functions, позволяющие в разрезе по каждому классу смотреть его качество UPD: теперь с красивой картинкой)
3.0K
просмотров
1980
символов
Нет
эмодзи
Да
медиа

Другие посты @ml_olprog

Все посты канала →
Пост возрождения канала ⌛️Давно от меня не было никаких акти — @ml_olprog | PostSniper