Запуск модели GPT OSS 120b на видеокартах RTX 3090 и Tesla V100
В этом руководстве мы покажем, как скачать LLM‑модель OpenAI GPT OSS 120b с Hugging Face и запустить её через llama.cpp на двух видеокартах: RTX 3090 и Tesla V100. В результате в моей сборке получаем скорость 34 токена в секунду.
Скачивание модели
Модель GPT OSS 120b доступна в репозитории Hugging Face. Для скачивания используйте команду:
git clone https://huggingface.co/your-model-repo/gpt-oss-120b
После клонирования перейдите в каталог модели и подготовьте файлы для inference.
Запуск inference через llama.cpp
Для запуска модели на GPU используется llama.cpp. Важно указать путь к файлам модели и задать параметры распределения слоёв по видеокартам.
./main -m gpt-oss-120b.bin -ngl 120 -t 8 -ngl 120 --gpu 0,1
В примере выше --gpu 0,1 указывает, что модель будет использовать обе видеокарты (RTX 3090 и Tesla V100). Параметр -ngl задаёт количество слоёв, загружаемых в память GPU.
Параметры и производительность
- Видеокарты: RTX 3090 (24 GB VRAM) + Tesla V100 (16 GB VRAM)
- Скорость: 34 токена/сек
- Потенциал ускорения: при наличии двух RTX 3090 можно распределить больше слоёв модели в VRAM, что повысит throughput.
Практические рекомендации
- Убедитесь, что драйверы и CUDA Toolkit обновлены до последних версий.
- Для максимальной производительности используйте
--threadsв соответствии с количеством ядер CPU. - Если VRAM ограничен, попробуйте уменьшить
-nglи использовать--flash-attnдля ускорения.
Дополнительные ресурсы
Для более глубокого погружения в применение ИИ в 1С рекомендуем пройти курс «Применение искусственного интеллекта ChatGPT для 1С».
