Что такое Whisper и почему он важен
Whisper – открытая модель от OpenAI, предназначенная для преобразования аудио в текст. Она поддерживает множество языков и может использоваться как в облаке, так и локально, что делает её популярной среди разработчиков, стремящихся к автономности и конфиденциальности данных.
Подготовка модели и окружения
Для эксперимента я использовал OSS 120B Q8 – 120‑миллиардную модель, оптимизированную для работы с llama.cpp. Сборка прошла без проблем: скачал исходники, скомпилировал их, затем загрузил оптимизированную модель в память GPU.
Инференс на RTX 3090
Запустив модель на видеокарте RTX 3090, я обработал аудио‑встречу длительностью 83 минуты. Весь процесс перевода в текст занял всего 67 секунд. Это демонстрирует, насколько эффективен локальный инференс с использованием llama.cpp и современных GPU.
Результаты и впечатления
Полученный текст точен и соответствует исходному аудио. Такой быстрый перевод открывает возможности для создания голосовых агентов, автоматической транскрипции встреч и многого другого, не полагаясь на внешние сервисы.
Если вы ищете способ быстро и надёжно преобразовать аудио в текст без подключения к облаку, Whisper на RTX 3090 с llama.cpp – отличное решение.