263просмотров
9.9%от подписчиков
26 марта 2026 г.
Score: 289
Всем привет! Короткое обновление за последние 3 месяца:
1. Сбер обновил Гигачат, и татарский в модели стал заметно лучше. Примерно половина татарских данных для обучения - это наши отсканированные книги. Для нас это лучшее доказательство того, что проект приносит реальную пользу. Сканирование продолжается: с сентября - уже около 100000 страниц и ~500 книг и журналов. Часть доступна здесь, но много материалов еще ждут обработки.
Если хотите помочь с обрезкой страниц - пишите сюда.
Лучший способ ускорить сканирование - поддержать сканировщиков донатом (реквизиты ниже). 2. Разметка грамматических ошибок и исправление перевода в одном из датасетов продолжается, но идет не очень быстро. Если хорошо знаете татарский, можно подключиться к разметке (оплачивается) и проверке переводов. Пишите в сообщения группы. 3. Вышел новый бенчмарк для оценки качества машинного перевода с поддержкой татарского языка.
4. Мы готовим конкурс по сбору аудиоданных совместно с платформой Common Voice. Следите за новостями!
Поддержать проекты: РФ | не РФ.