Всем привет, с вами Низамов Илья. Когда я начинал разрабатывать голосового ИИ-агента, думал - ну что тут сложного? Берём VAD, прикручиваем Whisper, добавляем LLM, синтезируем речь обратно. Готово! ...

  • Главная
  • Форум
  • Разное
  • Всем привет, с вами Низамов Илья. Когда я начинал разрабатывать голосового ИИ-агента, думал - ну что тут сложного? Берём VAD, прикручиваем Whisper, добавляем LLM, синтезируем речь обратно. Готово! ...
Илья Низамов
4 ноября 2025 г. в 23:39
1
👍 19
🔥
😁
❤ 8
😱
👏
💯
😭
👎
🤔
🤣
👌
🤯
И
Илья Низамов
Автор темы
4 ноября 2025 г. в 23:39(изменено)
Всем привет, с вами Низамов Илья. Когда я начинал разрабатывать голосового ИИ-агента, думал - ну что тут сложного? Берём VAD, прикручиваем Whisper, добавляем LLM, синтезируем речь обратно. Готово! Да и на ютубе куча роликов про голосовых агентов за 10 мин. Правда никто не говорит сколько это стоит ) В общем реальность, как всегда, оказалась суровее. Знаете, что самое сложное в голосовых агентах? Это не распознавание речи и не генерация ответов. Это задержка. Представьте: вы разговариваете, а бот молчит 3-5 секунд, обрабатывая каждую фразу. Это убивает весь диалог. И вот я сижу уже 2 недели, пытаясь выжать миллисекунды. Переписывал обработку аудио-стримов три раза. Внедрял инкрементальную транскрипцию — когда бот начинает обрабатывать речь ещё до того, как вы закончили говорить. Оптимизировал код, добавил систему профилирования, чтобы видеть, где теряются драгоценные миллисекунды. Разобрался с синтезом речи с референсными голосами. В итоге получился неплохой локальный голосовой агент, который: - Распознаёт речь в реальном времени через WebSocket - Использует VAD (Silero) для определения пауз - Транскрибирует с помощью faster-whisper - Общается через LangChain + локальные LLM модели - Синтезирует речь обратно моим голосом - Работает с минимальной задержкой В общем в этот четверг начнем с разработки TTS сервиса. Записывайтесь тут Кстати старую группу я удалил, так что не пропустите! Вместить в один вебинар не получится, так как сервис реально сложный. Приходите даже если ничего не понятно — будет как минимум очень интересно! Ну и тем кто досидит до конца, как всегда бонусы ) Начало: 06.11.2025 в 18:00 МСК Регистрация по ссылке #1с #ai #ии #голосовойагент #whisper #langchain #fastapi #websocket #voiceai #локальныеии @nizamov_studio_1c
P
Pavel
5 ноября 2025 г. в 01:49(изменено)
https://github.com/voicekit-team/T-one - рекомендую попробовать данную модель вместо whisper. Работает гораздо быстрее, лучше, точнее. Ресурсов расходует меньше.
И
Илья Низамов
5 ноября 2025 г. в 07:11(изменено)
Спасибо, посмотрю.
И
Илья Низамов
5 ноября 2025 г. в 09:49(изменено)
Не удалось сходу завести на GPU, так что сложно оценить реальную скорость.
И
Илья Низамов
5 ноября 2025 г. в 09:50(изменено)
Да и качество, как по мне, не дотягивает.
P
Pavel
6 ноября 2025 г. в 01:50(изменено)
На GPU не запускал. Как раз выбрал эту модель для себя т.к. она на CPU быстро работает (расшифровывает встречи до 2ч. за 5-10 минут на нормальном процессоре). Claude лучше всего напишет инструкцию по тому как развернуть ее на GPU. Промты нужно в 2 захода писать (примерное написал): 1. Напиши способы развертывания модели https://github.com/voicekit-team/T-one на GPU. 2. Выбираете нужный вам способ и просите написать его инструкцию для выбранного способа.
И
Илья Низамов
6 ноября 2025 г. в 07:19(изменено)
Все материалы продублированы в основной канал
И
Илья Низамов
6 ноября 2025 г. в 07:20(изменено)
Точнее я развернул на тритон сервере, но не понял как к ней обращаться
D
Dim
10 ноября 2025 г. в 00:44(изменено)
Есть какие-то конкретные примеры, где работает лучше и точнее whisper? Я так-то двумя руками за отечественных разработчиков и ребята из t-банка молодцы, но это вообще разные весовые категории: стриминговая акустическая онлайн модель не может быть «лучше и точнее» полноценного трансформера, коим является виспер! Быстрее - может, это да. У них вообще разные профили использования… Хотя для риал-тайм телефонии моделька от т-банк может быть лучше.
P
Pavel
10 ноября 2025 г. в 01:38(изменено)
Лично я для себя выбирал модель, которая на CPU сможет расшифровывать встречи с минимальным количеством ресурсов быстро. Модель от т банка лучше всего подошла для этого. У меня на сервере с 16 vCPU 3.25 ГГц транскрипция встречи готовится минут 5. Вишпер делает транскрипцию на таком же сервере минут за 30-40. Проверял на 1.5 ч. записях. Качество распознавания модели от т банка устраивает.
A
Artem Bychkov
10 ноября 2025 г. в 04:28(изменено)
А как у модели т-банка дела с диаризацией, пунктуацией?
D
Dim
10 ноября 2025 г. в 10:17(изменено)
В том, что она быстрее и мене прожорлива сомнений нет - это вообще другой класс моделей. Вопрос был в каких кейсах она «лучше и точнее». Вот это несколько сомнительно…
P
Pavel
10 ноября 2025 г. в 13:47(изменено)
Я ей расшифровываю встречи - результат отличный, ошибок практически нету. Вот такой кейс.
И
Илья Низамов
10 ноября 2025 г. в 13:48(изменено)
Кстати я понял как на GPU поднять, будет время запилю урок
P
Pavel
10 ноября 2025 г. в 13:48(изменено)
Этого нету. Она отдает просто текст. Из этого текста получается неплохой протокол через нейронку. Я через Gemini flash готовлю