2.3Kпросмотров
7.6%от подписчиков
26 марта 2026 г.
🎬 ВидеоScore: 2.5K
Zhilin Yang (один из авторов архитектуры Transformer-XL) на GTC представил концепцию Attention Residuals Главная идея внимания - это не запоминать всё подряд, а выбирать, что действительно важно. Многие читали работу Attention Is All You Need (2017) - именно она привнесла в модели механизм "человеческого" внимания. С этого момента модели перестали просто механически обрабатывать весь текст. Вместо этого они начали различать, что важнее, а что нет, и сохранять более значимую информацию. Недавно Китайцы из Kimi пошли дальше и применили внимание к временной оси, а затем "повернули" его в глубину модели. Теперь внимание работает не только по времени, но и через слои модели - по мере передачи информации. Это даёт более умный способ обработки:
модель не просто читает и передаёт данные дальше, а осмысленно отслеживает важное на каждом этапе вычислений. https://x.com/Kimi_Moonshot/status/2037010118957817988 🐍 полезные ресурсы 🚀Max @machinelearning_interview