Распознавание речи 2026: технологии, сервисы и сравнение бесплатных нейросетей
Полный гид по системам распознавания речи: как они устроены, куда движется рынок, чем полезны российские облака и когда достаточно Whisper, Silero или Vosk без подписки.
Введение
Ещё пять лет назад голосовые ассистенты регулярно ошибались примерно на каждом четвёртом слове. Сегодня качественная нейросеть пишет под диктовку с точностью, которая у многих людей не достигается при слепом наборе. Разрыв между технологией и ожиданиями пользователя сокращается.
Российский рынок диалогового ИИ в 2024 году оценивается экспертами в порядке 8 млрд рублей, с прогнозом роста около 30% в 2025 году (до порядка 11 млрд руб.). Параллельно расширяется и генеративный сегмент. Для продаж недвижимости и контакт-центров это означает одно и то же: нужна стабильная транскрибация и понимание речи там, где деньги и репутация завязаны на звонках. Для платформы Phonix качество ASR — фундамент речевой аналитики: без текста диалог не разложить по чек-листу.
Как работает распознавание речи
От звука к тексту: три поколения
Системы автоматического распознавания речи (ASR, Automatic Speech Recognition) эволюционировали в три этапа. Статистические HMM решали задачу через акустическую модель по фонемам и отдельную языковую модель; глубокое обучение усилило акустику и породило гибридные связки уровня Kaldi и ранних продуктов; современный стандарт — end-to-end трансформеры вроде Whisper, где один стек переводит спектральное представление сигнала в текст без классической раздельной схемы.
Метрика WER
Точность типично измеряют как WER (Word Error Rate):
WER 5 % значит примерно 5 ошибок на 100 слов эталона. На чистой студийной дорожке топовые системы часто попадают в диапазон 3–5 %; на телефонии со шумом реалистичнее ожидать 10–20 % и выше. Важно всегда смотреть, на каком датасете измеряли модель — та же архитература может показывать 5 % на студии и заметно больше на записях колл-центра.
Почему русский — сложный случай
- 1.Богатая морфология: множество словоформ — языковая модель должна «знать» их все.
- 2.Свободный порядок слов усложняет предсказание следующего слова.
- 3.Омонимы с разным ударением требуют контекста.
- 4.Исторически русскоязычных данных для обучения было заметно меньше англоязычных корпусов.
Мировые тренды 2025–2026
Рынок консолидируется: крупные игроки привлекают раунды и поглощают смежные стартапы. По открытым данным Deepgram сообщал о закрытии Series C при оценке порядка 1,3 млрд USD в начале 2026 года — сигнал о том, что инвесторы верят не в «ещё один движок», а в платформы с API, поддержкой телефонии и вертикалями.
На качественном студийном английском разрыв между лидерами сокращается до долей процентов; больше денег уходит на шумную среду, многоязычие, отраслевые словари и низкую задержку. Рынок естественно делится на потоковое распознавание с задержкой сотни миллисекунд и offline batch-транскрибацию, где важнее итоговая точность, чем миллисекунды первой гипотезы.
| Real-time (потоковый) | Batch (офлайн) | |
|---|---|---|
| Задержка | Обычно < 200–300 мс | Не критична |
| Точность | Часто чуть ниже итогового batch | Ближе к максимуму модели |
| Примеры задач | Субтитры в эфире, боты, диктовка | Подкасты, архивы, аналитика |
Вертикально заточенные модели всё чаще обходят «универсал» там, где важны узкие термины или телефония: сообщество и вендоры отмечают заметный прирост качества после дообучения под конкретный домен данных.
Российские облачные сервисы
Для многих B2C- и B2B-сценариев в России удобны облака с понятными договором, поддержкой по 152‑ФЗ и интеграциями под АТС/CRM.
-
Yandex SpeechKit
Широкий функциональный охват (в том числе стриминг, словари, развитие мультиязычных режимов), зрелая документация под облако Яндекса.
-
SaluteSpeech (Сбер)
Сильная бизнес-ориентация и отраслевые акценты; для части задач возможен on-premise.
-
Tinkoff VoiceKit
Фокус на телефонной речи и речевой аналитике вокруг колл-центров и поминутной тарификации.
-
SpeechPro (ЦРТ)
Давняя экспертиза биометрии и безопасности; решения часто заточены под enterprise-сегмент по запросу.
Профиль российских сервисов (оценочно, 0–100)
Оценки упрощают разнородные возможности продукта; фактический выбор зависит от пилота на ваших записях.
| Критерий | Yandex SpeechKit | SaluteSpeech | Tinkoff VoiceKit | SpeechPro |
|---|---|---|---|---|
| Точность | 97 | 92 | 90 | 88 |
| Real-time | 95 | 85 | 88 | 70 |
| Диаризация | 85 | 80 | 95 | 85 |
| On-premise | 30 | 90 | 40 | 95 |
| Доступность | 90 | 85 | 75 | 50 |
| Yandex SpeechKit | SaluteSpeech | Tinkoff VoiceKit | SpeechPro | |
|---|---|---|---|---|
| Точность (чистая речь) | 95–97 %* | 92–95 %* | 90–94 %* | 88–92 %* |
| Real-time | ✓ | ✓ | ✓ | ✓ |
| Диаризация | ✓ | ✓ | ✓ сильнее в телефонии | ✓ |
| On-premise | Ограниченно | ✓ | ✗ типичный SaaS | ✓ |
| Бесплатный тир | Пробный | Пробный | Пробный | — |
| Ориентир цены | ~0,16 ₽/сек** | ~0,12 ₽/сек** | ~0,2 ₽/мин** | по запросу |
* Диапазоны ориентировочные из обзоров и описаний вендоров; единственная честная метрика — WER или ручная разметка на ваших записях. ** Публичные ориентиры меняются; уточняйте калькуляторы на сайте провайдеров на дату контракта.
Бесплатные open-source модели
Здесь концентрация качества особенно заметна. Whisper задаёт нижнюю планку «бесплатно и очень прилично». Silero упрощает жизнь, когда нужен лёгкий CPU. Vosk остаётся опорой для Raspberry Pi и субтитров в режиме низкой задержки.
WER на русском: ориентиры для сравнения (ниже — лучше)
Для open-source указаны порядки величин по общедоступным бенчмаркам и карточкам моделей; для облачных — независимые сводные обзоры и публичные сравнения.
Yandex SpeechKit
Whisper large-v3 (RU fine-tune)
SaluteSpeech
Whisper large-v3 (базовая)
Silero STT
Vosk big (RU)
Vosk small (RU)
OpenAI Whisper
Whisper поддерживает десятки языков из коробки, распространяется под лицензией MIT и стал отправной точкой для отраслевых сборок пайплайнов. По открытым отчётам и карточкам на HuggingFace, крупная модель семейства может показывать около десяти процентов WER на сложном русском бенчмарке типа Common Voice, а качественный fine-tune под русский снижает ошибку заметно сильнее.
Плюсы: офлайн, многоязычие и зрелые открытые обвязки. Минусы: на CPU большие конфигурации могут быть сопоставимы по времени с длительностью аудио; «настоящий» продакшен-стриминг из коробки не главная сила семейства. Практичный шаг — faster-whisper поверх CTranslate2 и при необходимости whisperX для таймкодов на уровне слов и диаризации спикеров.
Silero STT и Vosk
Silero — компактная линейка с акцентом на русский и простую интеграцию без обязательного GPU. Vosk с инфраструктурой на базе цепочек Kaldi ориентирован на edge и локальный streaming на слабом железе и частичные гипотезы во время речи — то есть на другой профиль задач, чем у огромной Whisper large без оптимизаций.
Качества open-source решений по оценочным шкалам (выше — лучше)
Whisper large-v3, Silero STT и Vosk (big) — нормированные экспертные баллы для сравнения профилей, не абсолютные бенчмарки.
| Критерий | Whisper large-v3 | Silero STT | Vosk (big) |
|---|---|---|---|
| Точность | 92 | 72 | 65 |
| Скорость CPU | 30 | 88 | 95 |
| Компактность | 20 | 92 | 55 |
| Real-time | 25 | 85 | 98 |
| Интеграция | 70 | 90 | 85 |
| Поддержка RU | 85 | 95 | 80 |
| Критерий | Whisper large-v3 | Silero STT | Vosk (big) |
|---|---|---|---|
| WER рус., чистая речь | ориентир ~6–10 % | ~11–14 %* | ~14–20 %* |
| Скорость на CPU | тяжеловато без оптимизаций | быстро | очень быстро |
| Размер модели | ~1,5 ГБ класс large | порядка 100 МБ | до ~1,8 ГБ большая RU |
| Стриминг | обычно обвязкой | да | нативно |
| Лицензии | MIT | Apache 2.0 | Apache 2.0 |
* Порядок величин по описаниям и обзорам; проверка на вашем домене обязательна.
Практические сценарии
Пригодность инструментов по задачам (0–100, иллюстративно)
Оценка по открытым обзорам и экспертным оценкам; значение 0 у облака в «офлайном мобильном» сценарии означает «без связи модель недоступна».
| Сценарий | Whisper | Vosk | Silero | SpeechKit | Salute | VoiceKit |
|---|---|---|---|---|---|---|
| Подкасты | 95 | 55 | 65 | 80 | 78 | 70 |
| Субтитры RT | 30 | 95 | 85 | 95 | 88 | 85 |
| Колл-центр | 45 | 60 | 55 | 80 | 88 | 95 |
| Диктовка | 55 | 75 | 90 | 85 | 80 | 75 |
| Мобайл офлайн | 40 | 95 | 88 | 0 | 0 | 0 |
| Ent. on-prem | 70 | 65 | 60 | 30 | 95 | 40 |
Шкала 0–100, те же данные, что и на интерактивном графике в основной версии сайта.
- 01
Транскрибация подкастов и длинных видео
Приоритет: итоговая точность, таймкоды, диаризация. Рецепт: конвертация в mono ~16 kHz, faster-whisper + whisperX или облачный API если нужны SLA. Подробнее см. наш материал про ASR и разбор звонка.
- 02
Субтитры почти «в реальном времени»
Стриминговые режимы Vosk и облачные API типично ниже по задержке, чем тяжёлый офлайновый batch по полному файлу Whisper.
- 03
Речевая аналитика колл-центра и телефония
Телефонное аудио 8 kHz с шумом требует либо мощной обработки входа, либо специализированных моделей провайдеров и готовых интеграций с АТС/CRM.
- 04
Диктовка и офлайн на смартфоне
Лёгкие конфигурации Silero или Vosk small чаще практичнее тяжёлого Whisper на мобильном CPU.
- 05
Enterprise без выхода в интернет
Коммерческий on-premise у российских вендоров или развёртывание Whisper на GPU за периметром — см. наш разбор облако vs on-premise.
Как выбрать: чек-лист
- 01
Нужен офлайн или данные не уходят в облако?
Да — смотреть Whisper/Silero/Vosk или on-prem у облака. Нет — проще SaaS-провайдер с договором.
- 02
Критична задержка < 300 мс?
Стриминг: Vosk, Silero, облака с streaming endpoint. Если можно подождать — большие офлайновые Whisper.
- 03
Бюджет нулевой?
Open-source. Если хотите платить за экономию инженерии и поддержку — считать TCO часов разработки.
- 04
Нужна диаризация «кто сказал»?
Open-source связка whisperX или облачные сервисы с поддержкой многоголосья.
- 05
Узкая лексика (медицина, финансы, юр.)?
Специализированные словари и дообученные модели у крупных российских провайдеров или собственное fine‑tuning.
Под тип задачи пользователя
Контент-мейкер
faster-whisper + whisperX
Максимальная точность офлайн, таймкоды и диаризация без оплаты.
Разработчик
Whisper или Silero
MIT и Apache 2.0, Python SDK, гибкая сборка пайплайна.
Стартап
Yandex SpeechKit
Пробный тариф, зрелый API, понятное масштабирование.
Корпорат / Enterprise
SaluteSpeech или Tinkoff VoiceKit
SLA, on-prem где нужно, отраслевые профили под телефонию.
Заключение
Главный вывод 2026 года: в чистых условиях грань между бесплатной open-source сборкой и облаком по «сырой» ошибке продолжает размываться, но платные платформы остаются нужны там, где важна гарантированная задержка, телефония, поддержка каналов связи и договор на обработку данных.
Практический старт простой: поставить faster-whisper, прогнать свой репрезентативный сэмпл звонков и подкаста и уже по факту решить, хватает ли офлайна или нужен облако с поддержкой SLA.
Проверьте качество разбора звонков на своих записях
Phonix строит транскрипт и речевую разметку по чек-листу на 100% звонков: качество диалога, скрипт, возражения и следующий шаг. Подходит, если вы уже выбрали движок ASR и хотите управлять продажами по данным, а не по выборке.
Провести бесплатный пилот
Алексей Володеев
CEO Phonix · ООО «ФОНИКС» · ИНН 9705240086
Развиваю Phonix с 2024 года. Команда проанализировала больше миллиона звонков в 73 компаниях. Пишу о том, как речевая аналитика и ИИ меняют управление продажами и сервисом.
