Whisper на RTX 3090 с llama.cpp: 83‑минутный аудио‑текст за 67 секунд

Что такое Whisper и почему он важен

Whisper – открытая модель от OpenAI, предназначенная для преобразования аудио в текст. Она поддерживает множество языков и может использоваться как в облаке, так и локально, что делает её популярной среди разработчиков, стремящихся к автономности и конфиденциальности данных.

Подготовка модели и окружения

Для эксперимента я использовал OSS 120B Q8 – 120‑миллиардную модель, оптимизированную для работы с llama.cpp. Сборка прошла без проблем: скачал исходники, скомпилировал их, затем загрузил оптимизированную модель в память GPU.

Инференс на RTX 3090

Запустив модель на видеокарте RTX 3090, я обработал аудио‑встречу длительностью 83 минуты. Весь процесс перевода в текст занял всего 67 секунд. Это демонстрирует, насколько эффективен локальный инференс с использованием llama.cpp и современных GPU.

Результаты и впечатления

Полученный текст точен и соответствует исходному аудио. Такой быстрый перевод открывает возможности для создания голосовых агентов, автоматической транскрипции встреч и многого другого, не полагаясь на внешние сервисы.

Если вы ищете способ быстро и надёжно преобразовать аудио в текст без подключения к облаку, Whisper на RTX 3090 с llama.cpp – отличное решение.