Установка и настройка VLLM на RTX 3090 и Tesla V100: пошаговый гайд

Установка VLLM для больших языковых моделей

В этом руководстве показано, как установить и настроить VLLM для запуска больших языковых моделей (LLM) на связке из двух разных видеокарт – RTX 3090 и Tesla V100. Это позволяет использовать преимущества обеих карт в режиме Tensor Parallel и повысить производительность инференса.

Шаг 1. Подготовка окружения

Перед установкой убедитесь, что:

На обеих видеокартах установлены последние драйверы NVIDIA.
Установлен CUDA Toolkit, совместимый с обеими картами.
В системе есть Python 3.8+ и pip.

Шаг 2. Установка VLLM

Откройте терминал и выполните:

pip install vllm

Шаг 3. Настройка для мульти-GPU

Для запуска модели на обеих видеокартах используйте параметр --tensor-parallel-size в зависимости от количества GPU. Пример команды:

python -m vllm.entrypoints.openai.api_server \
  --model path/to/your/model \
  --tensor-parallel-size 2 \
  --device cuda:0,cuda:1

Где cuda:0 – RTX 3090, а cuda:1 – Tesla V100.

Шаг 4. Проверка работы

После запуска сервера можно проверить его работу, отправив запрос к API:

curl -X POST http://localhost:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{"model": "your-model", "messages": [{"role": "user", "content": "Hello"}]}'

Видео‑руководство

Для более подробного объяснения всех шагов см. видео:

Заключение

Теперь вы знаете, как быстро установить и настроить VLLM для работы с большими языковыми моделями на комбинации RTX 3090 и Tesla V100. Это решение позволяет эффективно использовать ресурсы обеих карт и ускорить инференс.

Посмотрите подробное видео: Как установить VLLM для больших языковых моделей на RTX 3090 и Tesla V100

Как установить VLLM для больших языковых моделей на RTX 3090 и Tesla V100