Phonix Phonix
Технологии · Распознавание речи 2026

Распознавание речи 2026: технологии, сервисы и сравнение бесплатных нейросетей

Полный гид по системам распознавания речи: как они устроены, куда движется рынок, чем полезны российские облака и когда достаточно Whisper, Silero или Vosk без подписки.

Алексей Володеев, CEO Phonix·11 мая 2026·16 мин чтения

Введение

Ещё пять лет назад голосовые ассистенты регулярно ошибались примерно на каждом четвёртом слове. Сегодня качественная нейросеть пишет под диктовку с точностью, которая у многих людей не достигается при слепом наборе. Разрыв между технологией и ожиданиями пользователя сокращается.

Российский рынок диалогового ИИ в 2024 году оценивается экспертами в порядке 8 млрд рублей, с прогнозом роста около 30% в 2025 году (до порядка 11 млрд руб.). Параллельно расширяется и генеративный сегмент. Для продаж недвижимости и контакт-центров это означает одно и то же: нужна стабильная транскрибация и понимание речи там, где деньги и репутация завязаны на звонках. Для платформы Phonix качество ASR — фундамент речевой аналитики: без текста диалог не разложить по чек-листу.

Как работает распознавание речи

От звука к тексту: три поколения

Системы автоматического распознавания речи (ASR, Automatic Speech Recognition) эволюционировали в три этапа. Статистические HMM решали задачу через акустическую модель по фонемам и отдельную языковую модель; глубокое обучение усилило акустику и породило гибридные связки уровня Kaldi и ранних продуктов; современный стандарт — end-to-end трансформеры вроде Whisper, где один стек переводит спектральное представление сигнала в текст без классической раздельной схемы.

Метрика WER

Точность типично измеряют как WER (Word Error Rate):

WER = (вставки + удаления + замены) / слов в эталоне × 100%

WER 5 % значит примерно 5 ошибок на 100 слов эталона. На чистой студийной дорожке топовые системы часто попадают в диапазон 3–5 %; на телефонии со шумом реалистичнее ожидать 10–20 % и выше. Важно всегда смотреть, на каком датасете измеряли модель — та же архитература может показывать 5 % на студии и заметно больше на записях колл-центра.

Почему русский — сложный случай

  • 1.Богатая морфология: множество словоформ — языковая модель должна «знать» их все.
  • 2.Свободный порядок слов усложняет предсказание следующего слова.
  • 3.Омонимы с разным ударением требуют контекста.
  • 4.Исторически русскоязычных данных для обучения было заметно меньше англоязычных корпусов.

Мировые тренды 2025–2026

Рынок консолидируется: крупные игроки привлекают раунды и поглощают смежные стартапы. По открытым данным Deepgram сообщал о закрытии Series C при оценке порядка 1,3 млрд USD в начале 2026 года — сигнал о том, что инвесторы верят не в «ещё один движок», а в платформы с API, поддержкой телефонии и вертикалями.

На качественном студийном английском разрыв между лидерами сокращается до долей процентов; больше денег уходит на шумную среду, многоязычие, отраслевые словари и низкую задержку. Рынок естественно делится на потоковое распознавание с задержкой сотни миллисекунд и offline batch-транскрибацию, где важнее итоговая точность, чем миллисекунды первой гипотезы.

  Real-time (потоковый) Batch (офлайн)
Задержка Обычно < 200–300 мс Не критична
Точность Часто чуть ниже итогового batch Ближе к максимуму модели
Примеры задач Субтитры в эфире, боты, диктовка Подкасты, архивы, аналитика

Вертикально заточенные модели всё чаще обходят «универсал» там, где важны узкие термины или телефония: сообщество и вендоры отмечают заметный прирост качества после дообучения под конкретный домен данных.

Российские облачные сервисы

Для многих B2C- и B2B-сценариев в России удобны облака с понятными договором, поддержкой по 152‑ФЗ и интеграциями под АТС/CRM.

  • Yandex SpeechKit

    Широкий функциональный охват (в том числе стриминг, словари, развитие мультиязычных режимов), зрелая документация под облако Яндекса.

  • SaluteSpeech (Сбер)

    Сильная бизнес-ориентация и отраслевые акценты; для части задач возможен on-premise.

  • Tinkoff VoiceKit

    Фокус на телефонной речи и речевой аналитике вокруг колл-центров и поминутной тарификации.

  • SpeechPro (ЦРТ)

    Давняя экспертиза биометрии и безопасности; решения часто заточены под enterprise-сегмент по запросу.

Профиль российских сервисов (оценочно, 0–100)

Оценки упрощают разнородные возможности продукта; фактический выбор зависит от пилота на ваших записях.

Критерий Yandex SpeechKit SaluteSpeech Tinkoff VoiceKit SpeechPro
Точность 97 92 90 88
Real-time 95 85 88 70
Диаризация 85 80 95 85
On-premise 30 90 40 95
Доступность 90 85 75 50
  Yandex SpeechKit SaluteSpeech Tinkoff VoiceKit SpeechPro
Точность (чистая речь) 95–97 %* 92–95 %* 90–94 %* 88–92 %*
Real-time
Диаризация ✓ сильнее в телефонии
On-premise Ограниченно ✗ типичный SaaS
Бесплатный тир Пробный Пробный Пробный
Ориентир цены ~0,16 ₽/сек** ~0,12 ₽/сек** ~0,2 ₽/мин** по запросу

* Диапазоны ориентировочные из обзоров и описаний вендоров; единственная честная метрика — WER или ручная разметка на ваших записях. ** Публичные ориентиры меняются; уточняйте калькуляторы на сайте провайдеров на дату контракта.

Бесплатные open-source модели

Здесь концентрация качества особенно заметна. Whisper задаёт нижнюю планку «бесплатно и очень прилично». Silero упрощает жизнь, когда нужен лёгкий CPU. Vosk остаётся опорой для Raspberry Pi и субтитров в режиме низкой задержки.

WER на русском: ориентиры для сравнения (ниже — лучше)

Для open-source указаны порядки величин по общедоступным бенчмаркам и карточкам моделей; для облачных — независимые сводные обзоры и публичные сравнения.

Yandex SpeechKit

5%

Whisper large-v3 (RU fine-tune)

6.39%

SaluteSpeech

7%

Whisper large-v3 (базовая)

9.84%

Silero STT

11.5%

Vosk big (RU)

14%

Vosk small (RU)

21%

OpenAI Whisper

Whisper поддерживает десятки языков из коробки, распространяется под лицензией MIT и стал отправной точкой для отраслевых сборок пайплайнов. По открытым отчётам и карточкам на HuggingFace, крупная модель семейства может показывать около десяти процентов WER на сложном русском бенчмарке типа Common Voice, а качественный fine-tune под русский снижает ошибку заметно сильнее.

Плюсы: офлайн, многоязычие и зрелые открытые обвязки. Минусы: на CPU большие конфигурации могут быть сопоставимы по времени с длительностью аудио; «настоящий» продакшен-стриминг из коробки не главная сила семейства. Практичный шаг — faster-whisper поверх CTranslate2 и при необходимости whisperX для таймкодов на уровне слов и диаризации спикеров.

Silero STT и Vosk

Silero — компактная линейка с акцентом на русский и простую интеграцию без обязательного GPU. Vosk с инфраструктурой на базе цепочек Kaldi ориентирован на edge и локальный streaming на слабом железе и частичные гипотезы во время речи — то есть на другой профиль задач, чем у огромной Whisper large без оптимизаций.

Качества open-source решений по оценочным шкалам (выше — лучше)

Whisper large-v3, Silero STT и Vosk (big) — нормированные экспертные баллы для сравнения профилей, не абсолютные бенчмарки.

Критерий Whisper large-v3 Silero STT Vosk (big)
Точность 92 72 65
Скорость CPU 30 88 95
Компактность 20 92 55
Real-time 25 85 98
Интеграция 70 90 85
Поддержка RU 85 95 80
Критерий Whisper large-v3 Silero STT Vosk (big)
WER рус., чистая речь ориентир ~6–10 % ~11–14 %* ~14–20 %*
Скорость на CPU тяжеловато без оптимизаций быстро очень быстро
Размер модели ~1,5 ГБ класс large порядка 100 МБ до ~1,8 ГБ большая RU
Стриминг обычно обвязкой да нативно
Лицензии MIT Apache 2.0 Apache 2.0

* Порядок величин по описаниям и обзорам; проверка на вашем домене обязательна.

Практические сценарии

Пригодность инструментов по задачам (0–100, иллюстративно)

Оценка по открытым обзорам и экспертным оценкам; значение 0 у облака в «офлайном мобильном» сценарии означает «без связи модель недоступна».

Сценарий Whisper Vosk Silero SpeechKit Salute VoiceKit
Подкасты 95 55 65 80 78 70
Субтитры RT 30 95 85 95 88 85
Колл-центр 45 60 55 80 88 95
Диктовка 55 75 90 85 80 75
Мобайл офлайн 40 95 88 0 0 0
Ent. on-prem 70 65 60 30 95 40

Шкала 0–100, те же данные, что и на интерактивном графике в основной версии сайта.

  • 01

    Транскрибация подкастов и длинных видео

    Приоритет: итоговая точность, таймкоды, диаризация. Рецепт: конвертация в mono ~16 kHz, faster-whisper + whisperX или облачный API если нужны SLA. Подробнее см. наш материал про ASR и разбор звонка.

  • 02

    Субтитры почти «в реальном времени»

    Стриминговые режимы Vosk и облачные API типично ниже по задержке, чем тяжёлый офлайновый batch по полному файлу Whisper.

  • 03

    Речевая аналитика колл-центра и телефония

    Телефонное аудио 8&nbsp;kHz с шумом требует либо мощной обработки входа, либо специализированных моделей провайдеров и готовых интеграций с АТС/CRM.

  • 04

    Диктовка и офлайн на смартфоне

    Лёгкие конфигурации Silero или Vosk small чаще практичнее тяжёлого Whisper на мобильном CPU.

  • 05

    Enterprise без выхода в интернет

    Коммерческий on-premise у российских вендоров или развёртывание Whisper на GPU за периметром — см. наш разбор облако vs on-premise.

Как выбрать: чек-лист

  1. 01

    Нужен офлайн или данные не уходят в облако?

    Да — смотреть Whisper/Silero/Vosk или on-prem у облака. Нет — проще SaaS-провайдер с договором.

  2. 02

    Критична задержка &lt; 300&nbsp;мс?

    Стриминг: Vosk, Silero, облака с streaming endpoint. Если можно подождать — большие офлайновые Whisper.

  3. 03

    Бюджет нулевой?

    Open-source. Если хотите платить за экономию инженерии и поддержку — считать TCO часов разработки.

  4. 04

    Нужна диаризация «кто сказал»?

    Open-source связка whisperX или облачные сервисы с поддержкой многоголосья.

  5. 05

    Узкая лексика (медицина, финансы, юр.)?

    Специализированные словари и дообученные модели у крупных российских провайдеров или собственное fine‑tuning.

Под тип задачи пользователя

🎙️

Контент-мейкер

faster-whisper + whisperX

Максимальная точность офлайн, таймкоды и диаризация без оплаты.

💻

Разработчик

Whisper или Silero

MIT и Apache 2.0, Python SDK, гибкая сборка пайплайна.

🚀

Стартап

Yandex SpeechKit

Пробный тариф, зрелый API, понятное масштабирование.

🏢

Корпорат / Enterprise

SaluteSpeech или Tinkoff VoiceKit

SLA, on-prem где нужно, отраслевые профили под телефонию.

Заключение

Главный вывод 2026 года: в чистых условиях грань между бесплатной open-source сборкой и облаком по «сырой» ошибке продолжает размываться, но платные платформы остаются нужны там, где важна гарантированная задержка, телефония, поддержка каналов связи и договор на обработку данных.

Практический старт простой: поставить faster-whisper, прогнать свой репрезентативный сэмпл звонков и подкаста и уже по факту решить, хватает ли офлайна или нужен облако с поддержкой SLA.

Проверьте качество разбора звонков на своих записях

Phonix строит транскрипт и речевую разметку по чек-листу на 100% звонков: качество диалога, скрипт, возражения и следующий шаг. Подходит, если вы уже выбрали движок ASR и хотите управлять продажами по данным, а не по выборке.

Провести бесплатный пилот
Алексей Володеев, CEO Phonix

Алексей Володеев

CEO Phonix · ООО «ФОНИКС» · ИНН 9705240086

Развиваю Phonix с 2024 года. Команда проанализировала больше миллиона звонков в 73 компаниях. Пишу о том, как речевая аналитика и ИИ меняют управление продажами и сервисом.

© Phonix · ООО «ФОНИКС» · ИНН 9705240086