Распознавание речи 2026: технологии, сервисы и бесплатные нейросети

Введение

Ещё пять лет назад голосовые ассистенты регулярно ошибались примерно на каждом четвёртом слове. Сегодня качественная нейросеть пишет под диктовку с точностью, которая у многих людей не достигается при слепом наборе. Разрыв между технологией и ожиданиями пользователя сокращается.

Российский рынок диалогового ИИ в 2024 году оценивается экспертами в порядке 8 млрд рублей, с прогнозом роста около 30% в 2025 году (до порядка 11 млрд руб.). Параллельно расширяется и генеративный сегмент. Для продаж недвижимости и контакт-центров это означает одно и то же: нужна стабильная транскрибация и понимание речи там, где деньги и репутация завязаны на звонках. Для платформы Phonix качество ASR — фундамент речевой аналитики: без текста диалог не разложить по чек-листу.

Как работает распознавание речи

От звука к тексту: три поколения

Системы автоматического распознавания речи (ASR, Automatic Speech Recognition) эволюционировали в три этапа. Статистические HMM решали задачу через акустическую модель по фонемам и отдельную языковую модель; глубокое обучение усилило акустику и породило гибридные связки уровня Kaldi и ранних продуктов; современный стандарт — end-to-end трансформеры вроде Whisper, где один стек переводит спектральное представление сигнала в текст без классической раздельной схемы.

Метрика WER

Точность типично измеряют как WER (Word Error Rate):

WER = (вставки + удаления + замены) / слов в эталоне × 100%

WER 5 % значит примерно 5 ошибок на 100 слов эталона. На чистой студийной дорожке топовые системы часто попадают в диапазон 3–5 %; на телефонии со шумом реалистичнее ожидать 10–20 % и выше. Важно всегда смотреть, на каком датасете измеряли модель — та же архитература может показывать 5 % на студии и заметно больше на записях колл-центра.

Почему русский — сложный случай

1.Богатая морфология: множество словоформ — языковая модель должна «знать» их все.
2.Свободный порядок слов усложняет предсказание следующего слова.
3.Омонимы с разным ударением требуют контекста.
4.Исторически русскоязычных данных для обучения было заметно меньше англоязычных корпусов.

Мировые тренды 2025–2026

Рынок консолидируется: крупные игроки привлекают раунды и поглощают смежные стартапы. По открытым данным Deepgram сообщал о закрытии Series C при оценке порядка 1,3 млрд USD в начале 2026 года — сигнал о том, что инвесторы верят не в «ещё один движок», а в платформы с API, поддержкой телефонии и вертикалями.

На качественном студийном английском разрыв между лидерами сокращается до долей процентов; больше денег уходит на шумную среду, многоязычие, отраслевые словари и низкую задержку. Рынок естественно делится на потоковое распознавание с задержкой сотни миллисекунд и offline batch-транскрибацию, где важнее итоговая точность, чем миллисекунды первой гипотезы.

	Real-time (потоковый)	Batch (офлайн)
Задержка	Обычно < 200–300 мс	Не критична
Точность	Часто чуть ниже итогового batch	Ближе к максимуму модели
Примеры задач	Субтитры в эфире, боты, диктовка	Подкасты, архивы, аналитика

Вертикально заточенные модели всё чаще обходят «универсал» там, где важны узкие термины или телефония: сообщество и вендоры отмечают заметный прирост качества после дообучения под конкретный домен данных.

Российские облачные сервисы

Для многих B2C- и B2B-сценариев в России удобны облака с понятными договором, поддержкой по 152‑ФЗ и интеграциями под АТС/CRM.

Yandex SpeechKit

Широкий функциональный охват (в том числе стриминг, словари, развитие мультиязычных режимов), зрелая документация под облако Яндекса.
SaluteSpeech (Сбер)

Сильная бизнес-ориентация и отраслевые акценты; для части задач возможен on-premise.
Tinkoff VoiceKit

Фокус на телефонной речи и речевой аналитике вокруг колл-центров и поминутной тарификации.
SpeechPro (ЦРТ)

Давняя экспертиза биометрии и безопасности; решения часто заточены под enterprise-сегмент по запросу.

Профиль российских сервисов (оценочно, 0–100)

Оценки упрощают разнородные возможности продукта; фактический выбор зависит от пилота на ваших записях.

Критерий	Yandex SpeechKit	SaluteSpeech	Tinkoff VoiceKit	SpeechPro
Точность	97	92	90	88
Real-time	95	85	88	70
Диаризация	85	80	95	85
On-premise	30	90	40	95
Доступность	90	85	75	50

	Yandex SpeechKit	SaluteSpeech	Tinkoff VoiceKit	SpeechPro
Точность (чистая речь)	95–97 %*	92–95 %*	90–94 %*	88–92 %*
Real-time	✓	✓	✓	✓
Диаризация	✓	✓	✓ сильнее в телефонии	✓
On-premise	Ограниченно	✓	✗ типичный SaaS	✓
Бесплатный тир	Пробный	Пробный	Пробный	—
Ориентир цены	~0,16 ₽/сек**	~0,12 ₽/сек**	~0,2 ₽/мин**	по запросу

* Диапазоны ориентировочные из обзоров и описаний вендоров; единственная честная метрика — WER или ручная разметка на ваших записях. ** Публичные ориентиры меняются; уточняйте калькуляторы на сайте провайдеров на дату контракта.

Бесплатные open-source модели

Здесь концентрация качества особенно заметна. Whisper задаёт нижнюю планку «бесплатно и очень прилично». Silero упрощает жизнь, когда нужен лёгкий CPU. Vosk остаётся опорой для Raspberry Pi и субтитров в режиме низкой задержки.

WER на русском: ориентиры для сравнения (ниже — лучше)

Для open-source указаны порядки величин по общедоступным бенчмаркам и карточкам моделей; для облачных — независимые сводные обзоры и публичные сравнения.

Yandex SpeechKit

Whisper large-v3 (RU fine-tune)

6.39%

SaluteSpeech

Whisper large-v3 (базовая)

9.84%

Silero STT

11.5%

Vosk big (RU)

14%

Vosk small (RU)

21%

OpenAI Whisper

Whisper поддерживает десятки языков из коробки, распространяется под лицензией MIT и стал отправной точкой для отраслевых сборок пайплайнов. По открытым отчётам и карточкам на HuggingFace, крупная модель семейства может показывать около десяти процентов WER на сложном русском бенчмарке типа Common Voice, а качественный fine-tune под русский снижает ошибку заметно сильнее.

Плюсы: офлайн, многоязычие и зрелые открытые обвязки. Минусы: на CPU большие конфигурации могут быть сопоставимы по времени с длительностью аудио; «настоящий» продакшен-стриминг из коробки не главная сила семейства. Практичный шаг — faster-whisper поверх CTranslate2 и при необходимости whisperX для таймкодов на уровне слов и диаризации спикеров.

Silero STT и Vosk

Silero — компактная линейка с акцентом на русский и простую интеграцию без обязательного GPU. Vosk с инфраструктурой на базе цепочек Kaldi ориентирован на edge и локальный streaming на слабом железе и частичные гипотезы во время речи — то есть на другой профиль задач, чем у огромной Whisper large без оптимизаций.

Качества open-source решений по оценочным шкалам (выше — лучше)

Whisper large-v3, Silero STT и Vosk (big) — нормированные экспертные баллы для сравнения профилей, не абсолютные бенчмарки.

Критерий	Whisper large-v3	Silero STT	Vosk (big)
Точность	92	72	65
Скорость CPU	30	88	95
Компактность	20	92	55
Real-time	25	85	98
Интеграция	70	90	85
Поддержка RU	85	95	80

Критерий	Whisper large-v3	Silero STT	Vosk (big)
WER рус., чистая речь	ориентир ~6–10 %	~11–14 %*	~14–20 %*
Скорость на CPU	тяжеловато без оптимизаций	быстро	очень быстро
Размер модели	~1,5 ГБ класс large	порядка 100 МБ	до ~1,8 ГБ большая RU
Стриминг	обычно обвязкой	да	нативно
Лицензии	MIT	Apache 2.0	Apache 2.0

* Порядок величин по описаниям и обзорам; проверка на вашем домене обязательна.

Практические сценарии

Пригодность инструментов по задачам (0–100, иллюстративно)

Оценка по открытым обзорам и экспертным оценкам; значение 0 у облака в «офлайном мобильном» сценарии означает «без связи модель недоступна».

Сценарий	Whisper	Vosk	Silero	SpeechKit	Salute	VoiceKit
Подкасты	95	55	65	80	78	70
Субтитры RT	30	95	85	95	88	85
Колл-центр	45	60	55	80	88	95
Диктовка	55	75	90	85	80	75
Мобайл офлайн	40	95	88	0	0	0
Ent. on-prem	70	65	60	30	95	40

Шкала 0–100, те же данные, что и на интерактивном графике в основной версии сайта.

01

Транскрибация подкастов и длинных видео

Приоритет: итоговая точность, таймкоды, диаризация. Рецепт: конвертация в mono ~16 kHz, faster-whisper + whisperX или облачный API если нужны SLA. Подробнее см. наш материал про ASR и разбор звонка.
02

Субтитры почти «в реальном времени»

Стриминговые режимы Vosk и облачные API типично ниже по задержке, чем тяжёлый офлайновый batch по полному файлу Whisper.
03

Речевая аналитика колл-центра и телефония

Телефонное аудио 8 kHz с шумом требует либо мощной обработки входа, либо специализированных моделей провайдеров и готовых интеграций с АТС/CRM.
04

Диктовка и офлайн на смартфоне

Лёгкие конфигурации Silero или Vosk small чаще практичнее тяжёлого Whisper на мобильном CPU.
05

Enterprise без выхода в интернет

Коммерческий on-premise у российских вендоров или развёртывание Whisper на GPU за периметром — см. наш разбор облако vs on-premise.

Как выбрать: чек-лист

01

Нужен офлайн или данные не уходят в облако?

Да — смотреть Whisper/Silero/Vosk или on-prem у облака. Нет — проще SaaS-провайдер с договором.
02

Критична задержка < 300 мс?

Стриминг: Vosk, Silero, облака с streaming endpoint. Если можно подождать — большие офлайновые Whisper.
03

Бюджет нулевой?

Open-source. Если хотите платить за экономию инженерии и поддержку — считать TCO часов разработки.
04

Нужна диаризация «кто сказал»?

Open-source связка whisperX или облачные сервисы с поддержкой многоголосья.
05

Узкая лексика (медицина, финансы, юр.)?

Специализированные словари и дообученные модели у крупных российских провайдеров или собственное fine‑tuning.

Под тип задачи пользователя

🎙️

Контент-мейкер

faster-whisper + whisperX

Максимальная точность офлайн, таймкоды и диаризация без оплаты.

💻

Разработчик

Whisper или Silero

MIT и Apache 2.0, Python SDK, гибкая сборка пайплайна.

🚀

Стартап

Yandex SpeechKit

Пробный тариф, зрелый API, понятное масштабирование.

🏢

Корпорат / Enterprise

SaluteSpeech или Tinkoff VoiceKit

SLA, on-prem где нужно, отраслевые профили под телефонию.

Заключение

Главный вывод 2026 года: в чистых условиях грань между бесплатной open-source сборкой и облаком по «сырой» ошибке продолжает размываться, но платные платформы остаются нужны там, где важна гарантированная задержка, телефония, поддержка каналов связи и договор на обработку данных.

Практический старт простой: поставить faster-whisper, прогнать свой репрезентативный сэмпл звонков и подкаста и уже по факту решить, хватает ли офлайна или нужен облако с поддержкой SLA.

Проверьте качество разбора звонков на своих записях

Phonix строит транскрипт и речевую разметку по чек-листу на 100% звонков: качество диалога, скрипт, возражения и следующий шаг. Подходит, если вы уже выбрали движок ASR и хотите управлять продажами по данным, а не по выборке.

Провести бесплатный пилот

Алексей Володеев

CEO Phonix · ООО «ФОНИКС» · ИНН 9705240086

Развиваю Phonix с 2024 года. Команда проанализировала больше миллиона звонков в 73 компаниях. Пишу о том, как речевая аналитика и ИИ меняют управление продажами и сервисом.

Распознавание речи 2026: технологии, сервисы и сравнение бесплатных нейросетей