Запуск GPT OSS 120b на RTX 3090 + Tesla V100: Инференс с llama.cpp

Запуск модели GPT OSS 120b на видеокартах RTX 3090 и Tesla V100

В этом руководстве мы покажем, как скачать LLM‑модель OpenAI GPT OSS 120b с Hugging Face и запустить её через llama.cpp на двух видеокартах: RTX 3090 и Tesla V100. В результате в моей сборке получаем скорость 34 токена в секунду.

Скачивание модели

Модель GPT OSS 120b доступна в репозитории Hugging Face. Для скачивания используйте команду:

git clone https://huggingface.co/your-model-repo/gpt-oss-120b

После клонирования перейдите в каталог модели и подготовьте файлы для inference.

Запуск inference через llama.cpp

Для запуска модели на GPU используется llama.cpp. Важно указать путь к файлам модели и задать параметры распределения слоёв по видеокартам.

./main -m gpt-oss-120b.bin -ngl 120 -t 8 -ngl 120 --gpu 0,1

В примере выше --gpu 0,1 указывает, что модель будет использовать обе видеокарты (RTX 3090 и Tesla V100). Параметр -ngl задаёт количество слоёв, загружаемых в память GPU.

Параметры и производительность

  • Видеокарты: RTX 3090 (24 GB VRAM) + Tesla V100 (16 GB VRAM)
  • Скорость: 34 токена/сек
  • Потенциал ускорения: при наличии двух RTX 3090 можно распределить больше слоёв модели в VRAM, что повысит throughput.

Практические рекомендации

  • Убедитесь, что драйверы и CUDA Toolkit обновлены до последних версий.
  • Для максимальной производительности используйте --threads в соответствии с количеством ядер CPU.
  • Если VRAM ограничен, попробуйте уменьшить -ngl и использовать --flash-attn для ускорения.

Дополнительные ресурсы

Для более глубокого погружения в применение ИИ в 1С рекомендуем пройти курс «Применение искусственного интеллекта ChatGPT для 1С».

Посмотрите подробное видео: Запуск GPT OSS 120b на RTX 3090 + Tesla V100: Инференс с llama.cpp

Запуск GPT OSS 120b на RTX 3090 + Tesla V100: Инференс с llama.cpp
Запуск GPT OSS 120b на RTX 3090 + Tesla V100: Инференс с llama.cpp