Zhilin Yang (один из авторов архитектуры Transformer-XL) на — @machinelearning_interview

2.3Kпросмотров

7.6%от подписчиков

26 марта 2026 г.

🎬 ВидеоScore: 2.5K

Zhilin Yang (один из авторов архитектуры Transformer-XL) на GTC представил концепцию Attention Residuals Главная идея внимания - это не запоминать всё подряд, а выбирать, что действительно важно. Многие читали работу Attention Is All You Need (2017) - именно она привнесла в модели механизм "человеческого" внимания. С этого момента модели перестали просто механически обрабатывать весь текст. Вместо этого они начали различать, что важнее, а что нет, и сохранять более значимую информацию. Недавно Китайцы из Kimi пошли дальше и применили внимание к временной оси, а затем "повернули" его в глубину модели. Теперь внимание работает не только по времени, но и через слои модели - по мере передачи информации. Это даёт более умный способ обработки: модель не просто читает и передаёт данные дальше, а осмысленно отслеживает важное на каждом этапе вычислений. https://x.com/Kimi_Moonshot/status/2037010118957817988 🐍 полезные ресурсы 🚀Max @machinelearning_interview

Другие посты @machinelearning_interview