M
Machine learning Interview
@machinelearning_interview30.3K подп.
2.3Kпросмотров
7.6%от подписчиков
26 марта 2026 г.
🎬 ВидеоScore: 2.5K
Zhilin Yang (один из авторов архитектуры Transformer-XL) на GTC представил концепцию Attention Residuals Главная идея внимания - это не запоминать всё подряд, а выбирать, что действительно важно. Многие читали работу Attention Is All You Need (2017) - именно она привнесла в модели механизм "человеческого" внимания. С этого момента модели перестали просто механически обрабатывать весь текст. Вместо этого они начали различать, что важнее, а что нет, и сохранять более значимую информацию. Недавно Китайцы из Kimi пошли дальше и применили внимание к временной оси, а затем "повернули" его в глубину модели. Теперь внимание работает не только по времени, но и через слои модели - по мере передачи информации. Это даёт более умный способ обработки: модель не просто читает и передаёт данные дальше, а осмысленно отслеживает важное на каждом этапе вычислений. https://x.com/Kimi_Moonshot/status/2037010118957817988 🐍 полезные ресурсы 🚀Max @machinelearning_interview
2.3K
просмотров
971
символов
Да
эмодзи
Да
медиа

Другие посты @machinelearning_interview

Все посты канала →
Zhilin Yang (один из авторов архитектуры Transformer-XL) на — @machinelearning_interview | PostSniper