Всем привет, с вами Низамов Илья. Когда я начинал разрабатывать голосового ИИ-агента, думал - ну что тут сложного? Берём VAD, прикручиваем Whisper, добавляем LLM, синтезируем речь обратно. Готово! ...
Илья Низамов
4 ноября 2025 г. в 23:39
1
👍 19
🔥
😁
❤ 8
😱
👏
💯
😭
👎
🤔
🤣
👌
🤯
И
Илья Низамов
4 ноября 2025 г. в 23:39(изменено) Автор темы
Всем привет, с вами Низамов Илья. Когда я начинал разрабатывать голосового ИИ-агента, думал - ну что тут сложного? Берём VAD, прикручиваем Whisper, добавляем LLM, синтезируем речь обратно. Готово! Да и на ютубе куча роликов про голосовых агентов за 10 мин. Правда никто не говорит сколько это стоит )
В общем реальность, как всегда, оказалась суровее. Знаете, что самое сложное в голосовых агентах? Это не распознавание речи и не генерация ответов. Это задержка. Представьте: вы разговариваете, а бот молчит 3-5 секунд, обрабатывая каждую фразу. Это убивает весь диалог.
И вот я сижу уже 2 недели, пытаясь выжать миллисекунды. Переписывал обработку аудио-стримов три раза. Внедрял инкрементальную транскрипцию — когда бот начинает обрабатывать речь ещё до того, как вы закончили говорить. Оптимизировал код, добавил систему профилирования, чтобы видеть, где теряются драгоценные миллисекунды. Разобрался с синтезом речи с референсными голосами.
В итоге получился неплохой локальный голосовой агент, который:
- Распознаёт речь в реальном времени через WebSocket
- Использует VAD (Silero) для определения пауз
- Транскрибирует с помощью faster-whisper
- Общается через LangChain + локальные LLM модели
- Синтезирует речь обратно моим голосом
- Работает с минимальной задержкой
В общем в этот четверг начнем с разработки TTS сервиса. Записывайтесь тут
Кстати старую группу я удалил, так что не пропустите!
Вместить в один вебинар не получится, так как сервис реально сложный. Приходите даже если ничего не понятно — будет как минимум очень интересно! Ну и тем кто досидит до конца, как всегда бонусы )
Начало: 06.11.2025 в 18:00 МСК
Регистрация по ссылке
#1с #ai #ии #голосовойагент #whisper #langchain #fastapi #websocket #voiceai #локальныеии
@nizamov_studio_1c
P
Pavel
5 ноября 2025 г. в 01:49(изменено)https://github.com/voicekit-team/T-one - рекомендую попробовать данную модель вместо whisper. Работает гораздо быстрее, лучше, точнее. Ресурсов расходует меньше.
И
Илья Низамов
5 ноября 2025 г. в 07:11(изменено)Спасибо, посмотрю.
И
Илья Низамов
5 ноября 2025 г. в 09:49(изменено)Не удалось сходу завести на GPU, так что сложно оценить реальную скорость.
И
Илья Низамов
5 ноября 2025 г. в 09:50(изменено)Да и качество, как по мне, не дотягивает.
P
Pavel
6 ноября 2025 г. в 01:50(изменено)На GPU не запускал. Как раз выбрал эту модель для себя т.к. она на CPU быстро работает (расшифровывает встречи до 2ч. за 5-10 минут на нормальном процессоре).
Claude лучше всего напишет инструкцию по тому как развернуть ее на GPU.
Промты нужно в 2 захода писать (примерное написал):
1. Напиши способы развертывания модели https://github.com/voicekit-team/T-one на GPU.
2. Выбираете нужный вам способ и просите написать его инструкцию для выбранного способа.
И
Илья Низамов
6 ноября 2025 г. в 07:19(изменено)Все материалы продублированы в основной канал
И
Илья Низамов
6 ноября 2025 г. в 07:20(изменено)Точнее я развернул на тритон сервере, но не понял как к ней обращаться
D
Dim
10 ноября 2025 г. в 00:44(изменено)Есть какие-то конкретные примеры, где работает лучше и точнее whisper? Я так-то двумя руками за отечественных разработчиков и ребята из t-банка молодцы, но это вообще разные весовые категории: стриминговая акустическая онлайн модель не может быть «лучше и точнее» полноценного трансформера, коим является виспер! Быстрее - может, это да. У них вообще разные профили использования…
Хотя для риал-тайм телефонии моделька от т-банк может быть лучше.
P
Pavel
10 ноября 2025 г. в 01:38(изменено)Лично я для себя выбирал модель, которая на CPU сможет расшифровывать встречи с минимальным количеством ресурсов быстро.
Модель от т банка лучше всего подошла для этого.
У меня на сервере с 16 vCPU 3.25 ГГц транскрипция встречи готовится минут 5.
Вишпер делает транскрипцию на таком же сервере минут за 30-40.
Проверял на 1.5 ч. записях.
Качество распознавания модели от т банка устраивает.
A
Artem Bychkov
10 ноября 2025 г. в 04:28(изменено)А как у модели т-банка дела с диаризацией, пунктуацией?
D
Dim
10 ноября 2025 г. в 10:17(изменено)В том, что она быстрее и мене прожорлива сомнений нет - это вообще другой класс моделей. Вопрос был в каких кейсах она «лучше и точнее». Вот это несколько сомнительно…
P
Pavel
10 ноября 2025 г. в 13:47(изменено)Я ей расшифровываю встречи - результат отличный, ошибок практически нету. Вот такой кейс.
И
Илья Низамов
10 ноября 2025 г. в 13:48(изменено)Кстати я понял как на GPU поднять, будет время запилю урок
P
Pavel
10 ноября 2025 г. в 13:48(изменено)Этого нету. Она отдает просто текст. Из этого текста получается неплохой протокол через нейронку. Я через Gemini flash готовлю
Войдите, чтобы оставить ответ