Открытые модели для распознавания русской речи 2024

Обновлено 03.10.2024

  • Добавлена Whisper V3 Turbo

Обновлено 01.06.2024:

  • добавлена GigaAM, Whisper V3, GigaAM RNNT

Предыдущая версия здесь

Мы протестировали доступные модели для распознавания русской речи на различных наборах данных. Интересных моделей довольно много, каждая со своими особенностями.

Dataset Vosk Small 0.52 Vosk Big 0.52 Nvidia RNNT Fastconformer Whisper Adapted V2 Large Whisper Large V3 Whisper V3 Turbo GigaAM + LM GigaAM RNNT
Аудиокниги АЦ 5.1 2.1 8.2 7.5 5.8 6.5 4.0 4.9
Аудиокниги Silero 12.3 10.1 13.2 14.9 13.9 14.0 10.6 9.2
Ru Librispeech 15.4 11.5 11.2 12.8 9.5 9.7 5.8 7.1
CommonVoice 12.0 9.8 6.2 5.9 7.9 5.5 6.2 6.4 5.6
Golos Crowd 5.1 3.6 2.7 19.1 14.7 14.5 3.2 2.1
Golos Farfield 10.0 6.6 7.1 17.0 17.6 18.7 5.9 4.2
Sova устройства 15.3 12.7 7.0 16.3 15.9 16.0 9.5 5.3
Youtube Silero 19.1 16.0 19.4 15.1 16.4 16.5 13.4 11.0
Телевещание 23.1 18.2 22.6 16.0 17.9 18.2 14.8 13.4
Медицина 18.2 15.0 19.2 15.5 13.8 13.7 11.1 11.2
Команды Яндекса 6.1 4.5 3.8 22.4 18.6 21.8 3.7 1.3
Звонки Silero 29.1 24.0 28.4 28.0 26.8 27.7 20.6 16.9
Звонки заказы 29.9 22.3 22.8 35.8 23.7 24.8 17.7 15.8
Звонки поддержка 21.1 16.6 23.8 28.4 26.8 27.5 16.7 15.3
Среднее 15.6 12.10 13.95 18.34 16.21 16.84 10.24 8.81

Ссылки на модели:

Пишите, если знаете о хорошей модели, которую можно протестировать.