Written by
Nickolay Shmyrev
on
Открытые модели для распознавания русской речи 2025
Предыдущие версии 2023, 2024
Мы протестировали доступные модели для распознавания русской речи на различных наборах данных. Интересных моделей довольно много, каждая со своими особенностями.
Пока лидирует GigaAM2 CTC модель, что довольно необычно, потому что считается, что RNNT точнее.
Dataset |
Vosk 0.54 |
Vosk 0.54 LODR |
Nemo RNNT Fastconformer |
Whisper Large V3 Transformers |
Whisper v3 Turbo |
GigaAM2 RNNT |
GigaAM2 CTC + LM |
Аудиокниги ALI |
1.2 |
1.3 |
8.2 |
5.8 |
6.5 |
4.4 |
3.4 |
Аудиокниги Silero |
10.7 |
10.2 |
13.2 |
13.9 |
14 |
9.7 |
9.3 |
Ru Librispeech |
9.4 |
9.0 |
11.2 |
9.5 |
9.7 |
5.2 |
4.4 |
CommonVoice 12.0 |
6.1 |
5.6 |
5.9 |
5.5 |
6.2 |
2.6 |
2.9 |
Golos Crowd |
3.1 |
3.0 |
2.7 |
14.7 |
14.5 |
2.5 |
2.2 |
Golos Farfield |
6.2 |
5.9 |
7.1 |
17.6 |
18.7 |
4.4 |
4.1 |
Sova устройства |
11.6 |
11.4 |
7 |
15.9 |
16 |
5.6 |
8.3 |
Youtube Silero |
15.8 |
15.5 |
19.4 |
16.4 |
16.5 |
11.4 |
11.6 |
Телевещание |
16.6 |
16.2 |
22.6 |
17.9 |
18.2 |
14.4 |
13.8 |
Медицина |
15.6 |
15.4 |
19.2 |
13.8 |
13.7 |
10.9 |
9.8 |
Команды Яндекса |
4.4 |
4.3 |
3.8 |
18.6 |
21.8 |
1.9 |
3.4 |
Звонки Silero |
20.7 |
20.4 |
28.4 |
26.8 |
27.7 |
18.3 |
18.6 |
Звонки заказы |
20.0 |
18.8 |
22.8 |
23.7 |
24.8 |
15.5 |
13.7 |
Звонки поддержка |
12.9 |
12.6 |
23.8 |
26.8 |
27.5 |
14.2 |
12.4 |
Среднее |
11.02 |
10.69 |
13.95 |
16.21 |
16.84 |
8.64 |
8.42 |
Ссылки на модели:
Пишите, если знаете о хорошей модели, которую можно протестировать.