Всем привет, с вами Низамов Илья. Когда я начинал разрабатывать голосового ИИ-агента, думал - ну что тут сложного? Берём VAD, прикручиваем Whisper, добавляем LLM, синтезируем речь обратно. Готово! ...

Главная
/
Форум
/
Разное
/
Всем привет, с вами Низамов Илья. Когда я начинал разрабатывать голосового ИИ-агента, думал - ну что тут сложного? Берём VAD, прикручиваем Whisper, добавляем LLM, синтезируем речь обратно. Готово! ...

Илья Низамов

4 ноября 2025 г. в 23:39

👍 19

🔥

😁

❤ 8

😱

👏

💯

😭

👎

🤔

🤣

👌

🤯

Илья Низамов

Автор темы

4 ноября 2025 г. в 23:39(изменено)

Всем привет, с вами Низамов Илья. Когда я начинал разрабатывать голосового ИИ-агента, думал - ну что тут сложного? Берём VAD, прикручиваем Whisper, добавляем LLM, синтезируем речь обратно. Готово! Да и на ютубе куча роликов про голосовых агентов за 10 мин. Правда никто не говорит сколько это стоит ) В общем реальность, как всегда, оказалась суровее. Знаете, что самое сложное в голосовых агентах? Это не распознавание речи и не генерация ответов. Это задержка. Представьте: вы разговариваете, а бот молчит 3-5 секунд, обрабатывая каждую фразу. Это убивает весь диалог. И вот я сижу уже 2 недели, пытаясь выжать миллисекунды. Переписывал обработку аудио-стримов три раза. Внедрял инкрементальную транскрипцию — когда бот начинает обрабатывать речь ещё до того, как вы закончили говорить. Оптимизировал код, добавил систему профилирования, чтобы видеть, где теряются драгоценные миллисекунды. Разобрался с синтезом речи с референсными голосами. В итоге получился неплохой локальный голосовой агент, который: - Распознаёт речь в реальном времени через WebSocket - Использует VAD (Silero) для определения пауз - Транскрибирует с помощью faster-whisper - Общается через LangChain + локальные LLM модели - Синтезирует речь обратно моим голосом - Работает с минимальной задержкой В общем в этот четверг начнем с разработки TTS сервиса. Записывайтесь тут Кстати старую группу я удалил, так что не пропустите! Вместить в один вебинар не получится, так как сервис реально сложный. Приходите даже если ничего не понятно — будет как минимум очень интересно! Ну и тем кто досидит до конца, как всегда бонусы ) Начало: 06.11.2025 в 18:00 МСК Регистрация по ссылке #1с #ai #ии #голосовойагент #whisper #langchain #fastapi #websocket #voiceai #локальныеии @nizamov_studio_1c

Pavel

5 ноября 2025 г. в 01:49(изменено)

https://github.com/voicekit-team/T-one - рекомендую попробовать данную модель вместо whisper. Работает гораздо быстрее, лучше, точнее. Ресурсов расходует меньше.

Илья Низамов

5 ноября 2025 г. в 07:11(изменено)

Спасибо, посмотрю.

Илья Низамов

5 ноября 2025 г. в 09:49(изменено)

Не удалось сходу завести на GPU, так что сложно оценить реальную скорость.

Илья Низамов

5 ноября 2025 г. в 09:50(изменено)

Да и качество, как по мне, не дотягивает.

Pavel

6 ноября 2025 г. в 01:50(изменено)

На GPU не запускал. Как раз выбрал эту модель для себя т.к. она на CPU быстро работает (расшифровывает встречи до 2ч. за 5-10 минут на нормальном процессоре). Claude лучше всего напишет инструкцию по тому как развернуть ее на GPU. Промты нужно в 2 захода писать (примерное написал): 1. Напиши способы развертывания модели https://github.com/voicekit-team/T-one на GPU. 2. Выбираете нужный вам способ и просите написать его инструкцию для выбранного способа.

Илья Низамов

6 ноября 2025 г. в 07:19(изменено)

Все материалы продублированы в основной канал

Илья Низамов

6 ноября 2025 г. в 07:20(изменено)

Точнее я развернул на тритон сервере, но не понял как к ней обращаться

Dim

10 ноября 2025 г. в 00:44(изменено)

Есть какие-то конкретные примеры, где работает лучше и точнее whisper? Я так-то двумя руками за отечественных разработчиков и ребята из t-банка молодцы, но это вообще разные весовые категории: стриминговая акустическая онлайн модель не может быть «лучше и точнее» полноценного трансформера, коим является виспер! Быстрее - может, это да. У них вообще разные профили использования… Хотя для риал-тайм телефонии моделька от т-банк может быть лучше.

Pavel

10 ноября 2025 г. в 01:38(изменено)

Лично я для себя выбирал модель, которая на CPU сможет расшифровывать встречи с минимальным количеством ресурсов быстро. Модель от т банка лучше всего подошла для этого. У меня на сервере с 16 vCPU 3.25 ГГц транскрипция встречи готовится минут 5. Вишпер делает транскрипцию на таком же сервере минут за 30-40. Проверял на 1.5 ч. записях. Качество распознавания модели от т банка устраивает.

Artem Bychkov

10 ноября 2025 г. в 04:28(изменено)

А как у модели т-банка дела с диаризацией, пунктуацией?

Dim

10 ноября 2025 г. в 10:17(изменено)

В том, что она быстрее и мене прожорлива сомнений нет - это вообще другой класс моделей. Вопрос был в каких кейсах она «лучше и точнее». Вот это несколько сомнительно…

Pavel

10 ноября 2025 г. в 13:47(изменено)

Я ей расшифровываю встречи - результат отличный, ошибок практически нету. Вот такой кейс.

Илья Низамов

10 ноября 2025 г. в 13:48(изменено)

Кстати я понял как на GPU поднять, будет время запилю урок

Pavel

10 ноября 2025 г. в 13:48(изменено)

Этого нету. Она отдает просто текст. Из этого текста получается неплохой протокол через нейронку. Я через Gemini flash готовлю

Войдите, чтобы оставить ответ