Локальная система анализа телефонных звонков с ИИ: Whisper, LangGraph и Qwen 4B

Введение

В этой статье рассматривается архитектура системы, предназначенной для анализа телефонных звонков с использованием искусственного интеллекта. Весь процесс работает на локальных моделях, что обеспечивает конфиденциальность данных и независимость от облачных сервисов.

Ключевые компоненты

  • Обработка аудио: транскрибация через Whisper C++ и диаризация (разделение речи по спикерам).
  • Ядро системы: ИИ‑агент, построенный на LangGraph. Агент определяет тип звонка (продажа/претензия) и направляет данные специализированным субагентам.
  • Локальная LLM: для анализа используется модель Qwen 4B, запущенная на собственном сервере.
  • Интеграция: прием аудио организован через Telegram‑бота и FastAPI.

Обработка аудио

Для преобразования звука в текст используется Whisper C++. После транскрибации применяется диаризация, позволяющая различать голоса разных участников звонка. Это критично для последующего анализа контекста и роли каждого спикера.

Ядро системы – LangGraph

LangGraph реализует граф агентов, где каждый узел отвечает за конкретную задачу. Главный агент принимает транскрибированный текст, определяет тип звонка и маршрутизирует данные к соответствующим субагентам (например, «продажа» или «претензия»). Такой подход обеспечивает модульность и упрощает масштабирование.

Локальная LLM – Qwen 4B

Для глубокого анализа текста используется модель Qwen 4B, запущенная на локальном сервере. Это позволяет обрабатывать запросы без задержек, связанных с сетевыми вызовами, и гарантировать конфиденциальность данных.

Интеграция: Telegram‑бот и FastAPI

Аудиофайлы поступают в систему через Telegram‑бота. Бот сохраняет файл и передаёт его FastAPI‑эндпоинту, который инициирует цепочку обработки: транскрибация → диаризация → анализ через LangGraph → вывод результатов. FastAPI обеспечивает быстрый и надёжный HTTP‑интерфейс.

Графы агентов и передача состояния

Каждый агент в LangGraph хранит своё состояние, которое передаётся между узлами. Это позволяет сохранять контекст звонка и использовать его при дальнейших шагах анализа. В результате система может автоматически классифицировать звонки, выделять ключевые фразы и генерировать отчёты.

Заключение

Архитектура, описанная выше, демонстрирует, как можно построить полностью локальную систему анализа телефонных звонков, объединяя современные модели AI и гибкую структуру агентов. Такой подход обеспечивает высокую степень конфиденциальности, надёжность и масштабируемость.

Полный курс по теме доступен по ссылке: https://nizamov.school/courses/ai/chatgpt-1s

Посмотрите подробное видео: Локальная система анализа звонков с ИИ: Whisper + LangGraph + Qwen 4B

Локальная система анализа звонков с ИИ: Whisper + LangGraph + Qwen 4B
Локальная система анализа звонков с ИИ: Whisper + LangGraph + Qwen 4B