Written by
Nickolay Shmyrev
on
Открытые модели для распознавания русской речи 2024
Обновлено 03.10.2024
- Добавлена Whisper V3 Turbo
Обновлено 01.06.2024:
- добавлена GigaAM, Whisper V3, GigaAM RNNT
Предыдущая версия здесь
Мы протестировали доступные модели для распознавания русской речи на различных наборах данных. Интересных моделей довольно много, каждая со своими особенностями.
Dataset |
Vosk Small 0.52 |
Vosk Big 0.52 |
Nvidia RNNT Fastconformer |
Whisper Adapted V2 Large |
Whisper Large V3 |
Whisper V3 Turbo |
GigaAM + LM |
GigaAM RNNT |
Аудиокниги АЦ |
5.1 |
2.1 |
8.2 |
7.5 |
5.8 |
6.5 |
4.0 |
4.9 |
Аудиокниги Silero |
12.3 |
10.1 |
13.2 |
14.9 |
13.9 |
14.0 |
10.6 |
9.2 |
Ru Librispeech |
15.4 |
11.5 |
11.2 |
12.8 |
9.5 |
9.7 |
5.8 |
7.1 |
CommonVoice 12.0 |
9.8 |
6.2 |
5.9 |
7.9 |
5.5 |
6.2 |
6.4 |
5.6 |
Golos Crowd |
5.1 |
3.6 |
2.7 |
19.1 |
14.7 |
14.5 |
3.2 |
2.1 |
Golos Farfield |
10.0 |
6.6 |
7.1 |
17.0 |
17.6 |
18.7 |
5.9 |
4.2 |
Sova устройства |
15.3 |
12.7 |
7.0 |
16.3 |
15.9 |
16.0 |
9.5 |
5.3 |
Youtube Silero |
19.1 |
16.0 |
19.4 |
15.1 |
16.4 |
16.5 |
13.4 |
11.0 |
Телевещание |
23.1 |
18.2 |
22.6 |
16.0 |
17.9 |
18.2 |
14.8 |
13.4 |
Медицина |
18.2 |
15.0 |
19.2 |
15.5 |
13.8 |
13.7 |
11.1 |
11.2 |
Команды Яндекса |
6.1 |
4.5 |
3.8 |
22.4 |
18.6 |
21.8 |
3.7 |
1.3 |
Звонки Silero |
29.1 |
24.0 |
28.4 |
28.0 |
26.8 |
27.7 |
20.6 |
16.9 |
Звонки заказы |
29.9 |
22.3 |
22.8 |
35.8 |
23.7 |
24.8 |
17.7 |
15.8 |
Звонки поддержка |
21.1 |
16.6 |
23.8 |
28.4 |
26.8 |
27.5 |
16.7 |
15.3 |
Среднее |
15.6 |
12.10 |
13.95 |
18.34 |
16.21 |
16.84 |
10.24 |
8.81 |
Ссылки на модели:
Пишите, если знаете о хорошей модели, которую можно протестировать.