Открытые модели для распознавания русской речи 2025

Предыдущие версии 2023, 2024

Мы протестировали доступные модели для распознавания русской речи на различных наборах данных. Интересных моделей довольно много, каждая со своими особенностями.

Пока лидирует GigaAM2 CTC модель, что довольно необычно, потому что считается, что RNNT точнее.

Dataset Vosk 0.54 Vosk 0.54 LODR Nemo RNNT Fastconformer Whisper Large V3 Transformers Whisper v3 Turbo GigaAM2 RNNT GigaAM2 CTC + LM
Аудиокниги ALI 1.2 1.3 8.2 5.8 6.5 4.4 3.4
Аудиокниги Silero 10.7 10.2 13.2 13.9 14 9.7 9.3
Ru Librispeech 9.4 9.0 11.2 9.5 9.7 5.2 4.4
CommonVoice 12.0 6.1 5.6 5.9 5.5 6.2 2.6 2.9
Golos Crowd 3.1 3.0 2.7 14.7 14.5 2.5 2.2
Golos Farfield 6.2 5.9 7.1 17.6 18.7 4.4 4.1
Sova устройства 11.6 11.4 7 15.9 16 5.6 8.3
Youtube Silero 15.8 15.5 19.4 16.4 16.5 11.4 11.6
Телевещание 16.6 16.2 22.6 17.9 18.2 14.4 13.8
Медицина 15.6 15.4 19.2 13.8 13.7 10.9 9.8
Команды Яндекса 4.4 4.3 3.8 18.6 21.8 1.9 3.4
Звонки Silero 20.7 20.4 28.4 26.8 27.7 18.3 18.6
Звонки заказы 20.0 18.8 22.8 23.7 24.8 15.5 13.7
Звонки поддержка 12.9 12.6 23.8 26.8 27.5 14.2 12.4
Среднее 11.02 10.69 13.95 16.21 16.84 8.64 8.42

Ссылки на модели:

Пишите, если знаете о хорошей модели, которую можно протестировать.