Открытые модели для распознавания русской речи. Апрель 2024

Обновлено 15.04.2024:

  • добавлена GigaAM, Whisper V3

Предыдущая версия здесь

Мы протестировали доступные модели для распознавания русской речи на различных наборах данных. Интересных моделей довольно много, каждая со своими особенностями.

Dataset Vosk Small 0.52 Vosk Big 0.52 Nvidia RNNT Fastconformer Whisper Adapted V2 Large Whisper Large V3 GigaAM + LM
Аудиокниги АЦ 5.1 2.1 8.2 7.5 5.8 4.0
Аудиокниги Silero 12.3 10.1 13.2 14.9 13.9 10.6
Ru Librispeech 15.4 11.5 11.2 12.8 9.5 5.8
CommonVoice 12.0 9.8 6.2 5.9 7.9 5.5 6.4
Golos Crowd 5.1 3.6 2.7 19.1 14.7 3.2
Golos Farfield 10.0 6.6 7.1 17.0 17.6 5.9
Sova устройства 15.3 12.7 7.0 16.3 15.9 9.5
Youtube Silero 19.1 16.0 19.4 15.1 16.4 13.4
Телевещание 23.1 18.2 22.6 16.0 17.9 14.8
Медицина 18.2 15.0 19.2 15.5 13.8 11.1
Команды Яндекса 6.1 4.5 3.8 22.4 18.6 3.7
Звонки Silero 29.1 24.0 28.4 28.0 26.8 20.6
Звонки заказы 29.9 22.3 22.8 35.8 23.7 17.7
Звонки поддержка 21.1 16.6 23.8 28.4 26.8 16.7
Среднее 15.6 12.10 13.95 18.34 16.21 10.24

Ссылки на модели:

Пишите, если знаете о хорошей модели, которую можно протестировать.