Анализ звонков с ИИ: как нейросеть разбирает разговор за 30 секунд

Ещё пять лет назад анализ телефонных звонков был ручным процессом. Руководитель открывал записи в CRM, выборочно слушал 5-10 разговоров за день, делал заметки. Сейчас та же работа выполняется нейросетью за 30 секунд после завершения звонка. Под капотом работает конвейер из четырёх классов моделей: ASR для распознавания речи, диаризация для разделения говорящих, NLU для разметки смысла и большая языковая модель для выводов.

Перед вами технический разбор того, как именно нейросеть разбирает разговор. Без маркетинга, без обещаний «волшебного ИИ». Что происходит с аудиофайлом на каждом этапе, какие модели работают, где границы их возможностей, какие ошибки они делают и как анализ превращается в данные для управленческих решений.

Гид рассчитан на руководителя отдела продаж или контакт-центра, который хочет понимать, как работает технология, прежде чем внедрять её. Технические детали даны на уровне, достаточном для разговора с подрядчиком и для оценки реалистичности обещаний поставщика.

Что такое анализ звонков с ИИ

Анализ звонков с искусственным интеллектом: автоматическая обработка записанного разговора набором нейросетевых моделей с целью получить структурированные данные о содержании диалога. На входе у системы аудиофайл. На выходе появляется транскрипт с разметкой реплик, набор тегов по содержанию, балл качества, список выявленных возражений и сигналов, рекомендации по дальнейшим действиям.

Принципиальное отличие от классического поиска по ключевым словам, который применялся в речевой аналитике до 2022 года. Старый подход искал в тексте подстроки: «дорого», «подумаю», «спасибо». Если менеджер спрашивал «не дорого ли вам это обойдётся в долгосрочной перспективе», система засчитывала возражение клиента, хотя его не было. Современные языковые модели понимают контекст: кто говорит, в какой роли, с какой интонацией, в каком месте разговора.

Ключевая идея: анализ звонков с ИИ, это не «ИИ слушает звонки», а конвейер из специализированных нейросетей, где каждая решает свою узкую задачу. Одна распознаёт слова, другая отделяет говорящих, третья восстанавливает пунктуацию, четвёртая ищет смысл. Финальный результат складывается из работы всех моделей.

Анализ звонков с ИИ применим к любым голосовым каналам: входящие и исходящие звонки в отделе продаж, обращения в контакт-центр, звонки сервисных служб, общение с курьерами и доставкой, звонки коллекторов. Везде, где есть запись разговора, нейросеть может извлечь из неё данные.

Почему обработка занимает 30 секунд

30 секунд, это типовое время полного конвейера для звонка длительностью 5-15 минут. Внутри этого окна нагрузка распределяется по четырём шагам:

ШАГ 01

ASR-транскрибация: 8-15 секунд

Современные русскоязычные ASR-движки на GPU работают со скоростью x20-x40 от реального времени. Десятиминутный звонок переводится в текст за 15-30 секунд. На лёгких моделях, развёрнутых на CPU, время растёт до 1-2 минут.

ШАГ 02

Диаризация: 3-5 секунд

Нейросеть строит эмбеддинги голосов и кластеризует фрагменты по говорящим. На двух собеседниках работает быстро. Если в звонке три и более участника (передача звонка, конференц-связь), время растёт до 8-12 секунд.

ШАГ 03

Восстановление пунктуации: 1-2 секунды

Отдельная компактная модель расставляет точки, запятые, вопросительные знаки. Без неё последующий смысловой анализ работает хуже: языковая модель плохо понимает текст одной сплошной строкой без разбиения на предложения.

ШАГ 04

Анализ языковой моделью: 10-20 секунд

LLM проходит по транскрипту с чек-листом из 25-30 пунктов и возвращает по каждому ответ да или нет с цитатой. Параллельно ищет возражения, сигналы готовности, нарушения скрипта, формирует балл качества и теги.

На длинных звонках от 30 минут время конвейера растёт пропорционально, до 1,5-2 минут. На звонках короче 2 минут, наоборот, всё укладывается в 10-15 секунд. В большинстве отделов продаж средняя длительность звонка 4-8 минут, и 30-секундный таргет работает уверенно.

Точность распознавания растёт по мере прохождения конвейера. Сырой ASR даёт 78% точности по словам, после восстановления пунктуации показатель растёт до 86%, диаризация добавляет ещё 5 пунктов за счёт правильной атрибуции реплик, контекстный анализ языковой модели подтягивает финальную точность смысловой разметки до 95%.

Точность смысловой разметки по этапам конвейера, %

Замеры на корпусе из 5 000 русскоязычных телефонных звонков отделов продаж среднего сегмента, 2026 год.

ASR: как речь становится текстом

ASR (Automatic Speech Recognition), это первый и самый важный этап конвейера. От его качества зависит всё остальное: если в транскрипте «дорого» превратилось в «дорогая», языковая модель не распознает возражение и не отметит его в чек-листе. Современный русскоязычный ASR опирается на трансформерные архитектуры (Conformer, Whisper-подобные модели), обученные на сотнях тысяч часов речи.

Точность ASR измеряется метрикой WER (Word Error Rate), то есть процентом ошибочно распознанных слов. Чем ниже WER, тем лучше распознавание. Условия записи влияют на WER кратно:

Условия записи	WER	Качество анализа
Студийная запись 16+ кГц	4-6%	Эталон
Телефония 8 кГц, G.711	8-12%	Рабочее
Мобильная связь с шумами	20-25%	Граница
Спецлексика без адаптации	15-20%	Требует дообучения

Для отрасли важна доменная адаптация. Стоковая модель не знает специфической лексики строительства (ДДУ, эскроу, ПДКП), банковских продуктов (овердрафт, аккредитив), медицины (МРТ, КТ, ЭКГ). На неадаптированной модели сегмент со специальной лексикой даёт WER 15-20% даже на чистом аудио. После дообучения на 50-100 часах целевого домена показатель опускается до 6-9%.

Практический момент: при выборе сервиса спрашивайте поставщика про доменную адаптацию. Готов ли он дообучить модель на ваших звонках, сколько часов потребуется, как это входит в стоимость. Универсальная модель «из коробки» в специальной отрасли всегда работает хуже адаптированной.

Диаризация: разметка реплик

Диаризация отвечает на вопрос «кто и когда говорил». Без неё транскрипт превращается в сплошной поток текста, в котором невозможно отличить менеджера от клиента. Языковая модель не может оценить работу менеджера, если не знает, какие именно реплики ему принадлежат.

Технически диаризация работает в три шага. Сначала аудио режется на короткие фрагменты по 1-2 секунды. Для каждого фрагмента нейросеть строит вектор-эмбеддинг, описывающий характеристики голоса: высоту, тембр, особенности произношения. Затем кластеризатор группирует фрагменты по схожести эмбеддингов: получается, например, два кластера «голос А» и «голос Б». На последнем шаге кластерам присваиваются роли по правилам: первый говоривший после соединения получает роль оператора, второй, роль клиента.

Точность диаризации на двух собеседниках в типовом телефонном звонке достигает 92-96%. Сложности начинаются, когда участников трое и больше (передача звонка, конференц-связь), когда голоса похожи (мужчины одного возраста с похожим тембром), когда есть длинные перебивания и говорят одновременно. В таких случаях точность падает до 78-85%, и системе требуется ручная корректировка спорных фрагментов.

Если запись ведётся в стереоформате с разделением каналов (менеджер на левом канале, клиент на правом), диаризация становится тривиальной задачей и работает с точностью 99%+. Поэтому при настройке записи в АТС всегда стоит включать стерео: это бесплатное улучшение качества всей последующей аналитики.

«Стерео-запись в АТС, самая дешёвая инвестиция в качество речевой аналитики. Одна галочка в настройках поднимает точность диаризации с 92% до 99%».

Из практики внедрений Phonix

NLU-разметка: смысл вместо слов

NLU (Natural Language Understanding), это слой, который превращает транскрипт в структурированные данные о содержании разговора. Большая языковая модель проходит по тексту и для каждого фрагмента определяет: на каком этапе воронки находится диалог, какое намерение выражает реплика клиента, какую тактику применяет менеджер, есть ли отклонения от ожидаемого сценария.

Базовая разметка включает несколько слоёв. Этапы разговора: приветствие, выявление потребности, презентация, работа с возражениями, закрытие. Намерения клиента: запрос информации, выражение интереса, возражение, отказ, готовность к сделке. Действия менеджера: открытый вопрос, уточнение, аргумент, отработка возражения, договорённость о следующем шаге. На каждом фрагменте текста проставляются теги соответствующих категорий.

Поверх базовой разметки накладывается чек-лист компании, обычно 20-30 пунктов. Например: представился ли менеджер, назвал ли компанию, узнал ли имя клиента, выявил ли бюджет, рассказал ли об акциях, договорился ли о следующем шаге, отправил ли коммерческое предложение в течение часа. По каждому пункту языковая модель возвращает ответ да или нет с цитатой из транскрипта, обосновывающей решение.

Качество NLU-разметки зависит от двух факторов: качества базовой языковой модели и точности промптов под конкретный бизнес. На стандартных метриках (приветствие, представление, закрытие) точность достигает 96-98%. На сложных категориях (выявление неявных возражений, оценка тактики аргументации) точность 84-89%, и здесь обычно вводится двухступенчатая проверка: спорные случаи модель отдаёт оператору контроля качества для финального решения.

Пример работы NLU

Звонок №7842 · оценка по чек-листу из 5 пунктов

✓

Менеджер представился и назвал компанию

«Здравствуйте, ФОНИКС, Иван слушает»

✓

Уточнил имя клиента

«А как я могу к вам обращаться?»

✓

Выявил бюджет проекта

«В каком диапазоне планируете бюджет на этот год?»

✗

Договорился о следующем шаге с конкретной датой

«Хорошо, я подготовлю и направлю». Без указания дня и времени.

✗

Отработал возражение о цене

«Понимаю, дорого». Согласие без аргумента и альтернативы.

Балл качества60 / 100

Выявление возражений

Возражения, это ключевой объект анализа в продажном звонке. По обзору 50 000 звонков B2B и B2C продаж типичное распределение возражений выглядит так:

Распределение типов возражений в продажном звонке, %

Доля от всех зафиксированных возражений, обзор 50 000 звонков среднего сегмента, 2026 год.

Языковая модель распознаёт возражения в трёх формах. Прямые: «дорого», «не подходит», «нам не нужно». Косвенные: «надо посоветоваться», «пришлите на почту, мы подумаем», «перезвоните в следующем квартале». Скрытые: длинная пауза после называния цены, переход на закрытые ответы, попытка завершить разговор без договорённости.

По каждому возражению система фиксирует не только сам факт, но и реакцию менеджера. Отработал ли возражение по технике (присоединение, уточнение, аргумент), просто согласился, проигнорировал, перевёл тему. Эта пара «возражение и реакция» становится главным материалом для дашборда работы с возражениями: руководитель видит, какие типы возражений менеджеры стабильно проваливают, и фокусирует обучение именно на этих сценариях.

Возражение «дорого» · разбор реакции

✗

Слабая отработка

«Понимаю вас. Хорошо, давайте я тогда направлю вам прайс на почту, а вы подумаете».

Менеджер согласился с возражением, не выявил, с чем именно сравнивает клиент, не предложил альтернативу. Сделка переходит в режим «подумать», и конверсия в оплату падает на 60-70%.

✓

Качественная отработка

«Понимаю, цена важна. Скажите, с чем сравниваете? Если бы мы укладывались в нужный бюджет, насколько решение в принципе подходит по составу?»

Присоединение, уточнение основания возражения и проверка готовности продолжать. Возражение превращается в диалог, а не закрывает разговор.

Отдельный сигнал, это повторяющиеся возражения внутри одного звонка. Если клиент за разговор трижды возвращается к теме цены или дважды просит «подумать», это означает, что менеджер не отработал возражение по существу, а лишь временно его перевёл. Такие звонки система помечает повышенным риском потери сделки.

Сигналы готовности к покупке

Сигналы готовности, это лингвистические маркеры, по которым языковая модель оценивает вероятность сделки. В отличие от возражений, готовность редко выражается прямо. Клиент почти никогда не говорит «я готов купить, оформляйте». Готовность складывается из набора косвенных признаков, и задача NLU состоит в том, чтобы поймать комбинацию из трёх и более маркеров.

01

Конкретизация условий

Клиент задаёт вопросы про сроки, способы оплаты, документы, доставку, гарантии. Это переход от «интересно в принципе» к «как это будет на практике».
02

Местоимение «мы»

Клиент начинает говорить «как мы это оформим», «когда мы можем встретиться», «что мы делаем дальше». Психологический сдвиг от позиции наблюдателя к позиции участника сделки.
03

Вопросы про порядок действий

«Что нужно для оформления», «куда подъехать», «какие документы взять». Клиент мысленно уже на следующем шаге.
04

Отсутствие новых возражений в финале

Если последние 1-2 минуты разговора прошли без новых сомнений, и клиент уточняет детали, это сильный сигнал готовности.
05

Просьба о времени на размышление с конкретной датой

«Дайте мне время до пятницы, я с супругой обсужу и в понедельник вернусь», звучит как возражение, но содержит обязательство и срок. Это маркер готовности 70%+.

Совокупность из трёх и более маркеров готовности система помечает как «горячий лид» и подсвечивает руководителю в дашборде в день звонка. На практике эти сделки требуют приоритетного контроля: если менеджер не закрыл звонок на следующий шаг (встреча, оплата, отправка договора), руководитель должен это заметить за 24 часа, иначе высока вероятность, что клиент остынет.

Контроль скрипта и нарушений

Скрипт, это последовательность обязательных действий менеджера в типовом звонке. Контроль скрипта в анализе с ИИ работает не как бинарная сверка («сказал точную фразу или нет»), а как смысловое сравнение: реализовал ли менеджер цель пункта, даже если использовал свои слова.

Например, в чек-листе пункт «представился и назвал компанию». Старый и новый подход видят одну и ту же реплику менеджера совершенно по-разному:

До 2022: keyword-поиск

Ищет точное совпадение фразы «меня зовут … компания …»

«Здравствуйте, ФОНИКС на связи, Иван слушает»

✗ Не засчитано (нет точной фразы)

Сейчас: NLU + LLM

Понимает цель пункта: «представился и назвал компанию»

«Здравствуйте, ФОНИКС на связи, Иван слушает»

✓ Засчитано (цель выполнена)

Типовой чек-лист для отдела продаж включает 25-30 пунктов, разделённых на пять блоков: открытие звонка (приветствие, представление, цель), выявление потребности (открытые вопросы, бюджет, сроки, лица принятия решений), презентация (соответствие потребностям клиента, релевантные кейсы), работа с возражениями (отработка по технике, без агрессии и без согласия с возражением), закрытие (договорённость о следующем шаге с конкретной датой, отправка материалов).

Помимо чек-листа отдельно отслеживаются критические нарушения, которые перевешивают весь балл качества: грубость по отношению к клиенту, обещание невыполнимых условий, передача персональных данных третьих клиентов, фразы из стоп-листа компании. Любое такое нарушение поднимает звонок в отдельную ленту для немедленного разбора руководителем, независимо от общего балла.

Открытие

Потребность

Презентация

Возражения

5-10

Закрытие

Распределение пунктов чек-листа по блокам воронки. Сумма: 25-30 пунктов.

Где применяют анализ звонков с ИИ

Анализ звонков с ИИ применяется в любой отрасли, где есть телефонный канал общения с клиентом. По обзору рынка распределение по сценариям выглядит так:

Отделы продаж

Контроль качества звонков, обучение менеджеров, выявление лучших практик, прогнозирование сделок. Базовый сценарий, с которого начинают почти все компании.

Контакт-центры

Оценка работы операторов по 100% звонков, контроль FCR (решение с первого обращения), выявление причин жалоб, оптимизация скриптов поддержки.

Банки и страхование

Контроль соблюдения регуляторики, антифрод, защита от мисселинга, проверка корректности консультаций по продуктам.

Медицина и телемедицина

Контроль протокола сбора анамнеза, оценка качества консультации, выявление случаев, требующих повторного контакта.

Коллекшен и взыскание

Контроль соблюдения требований 230-ФЗ, оценка тактики переговоров, выявление эффективных сценариев погашения задолженности.

Сервисные службы

Анализ обращений по гарантии, выявление системных проблем продукта, оценка работы выездных специалистов по итогам визита.

Как внедрить за 2 недели

Полноценный запуск анализа звонков с ИИ в облачном формате укладывается в 10-14 рабочих дней. Ниже типовой план с реалистичными сроками:

1

Аудит каналов записи (1-2 дня)

Проверить, что АТС пишет звонки в стерео-формате с разделением каналов, что записи доступны через API или хранятся в облаке. Если нет, сначала настроить запись.
2

Подключение к АТС и CRM (2-3 дня)

Настроить вебхуки или API-интеграцию: после завершения звонка АТС отправляет аудио в сервис анализа, результат возвращается в карточку сделки в CRM.
3

Доменная адаптация ASR (3-5 дней)

Передать поставщику 30-50 часов ваших звонков для дообучения модели на отраслевой лексике. Параллельно с другими шагами.
4

Настройка чек-листа (1-2 дня)

Согласовать с руководителем продаж 25-30 пунктов чек-листа, разбитых по этапам воронки. Каждый пункт описывается на естественном языке без жёстких ключевых фраз.
5

Калибровка на 100 звонках (2-3 дня)

Прогнать через систему 100 реальных звонков, сверить разметку с экспертной оценкой, скорректировать промпты на расхождениях.
6

Настройка дашбордов (1-2 дня)

Собрать представления для трёх ролей: менеджер видит свои звонки, руководитель команды, агрегаты по своей группе, директор по продажам, сводный дашборд по компании.
7

Обучение команды (1 день)

Полуторачасовая встреча с менеджерами и руководителями: как читать разметку, как работать с балльной оценкой, как использовать рекомендации модели в коучинге.
8

Запуск в проде и наблюдение (постоянно)

Первые 2-3 недели после запуска отдел контроля качества параллельно проверяет 5-10% звонков вручную и сверяет с автоматической разметкой. По результатам корректируются спорные сценарии.

На 15-й день после старта проекта команда уже работает с автоматической разметкой 100% звонков, руководитель видит ежедневный дашборд по качеству, менеджеры получают разбор каждого своего разговора в карточке сделки. Полная окупаемость на отделе от 20 человек обычно достигается за 60-90 дней за счёт прироста конверсии и экономии часов руководителя на ручной прослушке.

10-14

дней до запуска в проде

60-90

дней до полной окупаемости

x3-x4

экономия часов руководителя

Часто задаваемые вопросы

Какая нейросеть лучше всего подходит для анализа звонков на русском языке?+

Для ASR оптимальны трансформерные модели семейства Whisper и Conformer, дообученные на русскоязычных корпусах. Для смысловой разметки используются большие языковые модели с поддержкой русского и контекстным окном от 32k токенов. Конкретный выбор зависит от баланса точности, скорости и стоимости. На отраслевых данных любая базовая модель требует доменной адаптации.

Сколько стоит анализ звонков с ИИ в 2026 году?+

Облачные сервисы для среднего бизнеса обходятся в 80-250 тыс. ₽ в месяц при объёме 10-50 тыс. минут. Базовые модули внутри IP-телефонии стоят 15-40 тыс. ₽ в месяц, но с ограниченной функциональностью. Энтерпрайз-платформы для банков и операторов начинаются от 350 тыс. ₽ в месяц плюс капвложения. Окупаемость обычно достигается за 2-3 месяца.

Можно ли запускать анализ звонков с ИИ на своих серверах (on-premise)?+

Да. Для крупных банков, операторов связи, медицинских организаций и госсектора это типовой выбор. On-premise-внедрение требует GPU-сервера, занимает 4-9 месяцев и обходится в 8-15 млн ₽ капвложений плюс лицензии. Для среднего бизнеса экономически целесообразнее облако.

Защищены ли персональные данные клиентов при анализе звонков?+

Да, при условии правильного выбора подрядчика. Российские облачные сервисы хранят данные на серверах в РФ согласно 152-ФЗ. Записи передаются по TLS 1.3, в дашборде применяется ролевой доступ. Для повышенных требований доступны опции маскирования персональных данных в транскрипте и шифрования аудио в покое.

Что делать, если в нашей отрасли специфическая лексика, которую модель не понимает?+

Передать поставщику 30-100 часов реальных звонков для доменной адаптации. После дообучения точность распознавания специальных терминов вырастает с 65-75% до 92-96%. Срок адаптации составляет 5-10 рабочих дней и обычно входит в стоимость подключения у среднего и энтерпрайз-сегмента.

Можно ли использовать анализ звонков с ИИ для входящих и исходящих звонков одновременно?+

Да, разделение по типу звонка (входящий, исходящий) делается на этапе настройки. Под каждый тип собирается свой чек-лист: для входящих звонков акцент на скорости ответа и качестве консультации, для исходящих, на цели звонка, отработке возражений и закрытии следующего шага. Модель использует общий движок ASR и NLU.

Готовы запустить анализ звонков с ИИ?

Phonix подключает анализ звонков с нейросетью за 10-14 дней: интеграция с вашей АТС и CRM, дообучение модели на ваших звонках, настройка чек-листа под ваш отдел, обучение команды.

Запросить пилот

Алексей Володеев

CEO Phonix

Развиваю Phonix с 2024 года. Команда проанализировала больше миллиона звонков в 73 компаниях. Пишу о том, как речевая аналитика и ИИ меняют управление продажами и сервисом.