Установка VLLM для больших языковых моделей
В этом руководстве показано, как установить и настроить VLLM для запуска больших языковых моделей (LLM) на связке из двух разных видеокарт – RTX 3090 и Tesla V100. Это позволяет использовать преимущества обеих карт в режиме Tensor Parallel и повысить производительность инференса.
Шаг 1. Подготовка окружения
Перед установкой убедитесь, что:
- На обеих видеокартах установлены последние драйверы NVIDIA.
- Установлен CUDA Toolkit, совместимый с обеими картами.
- В системе есть Python 3.8+ и pip.
Шаг 2. Установка VLLM
Откройте терминал и выполните:
pip install vllm
Шаг 3. Настройка для мульти-GPU
Для запуска модели на обеих видеокартах используйте параметр --tensor-parallel-size в зависимости от количества GPU. Пример команды:
python -m vllm.entrypoints.openai.api_server \
--model path/to/your/model \
--tensor-parallel-size 2 \
--device cuda:0,cuda:1
Где cuda:0 – RTX 3090, а cuda:1 – Tesla V100.
Шаг 4. Проверка работы
После запуска сервера можно проверить его работу, отправив запрос к API:
curl -X POST http://localhost:8000/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{"model": "your-model", "messages": [{"role": "user", "content": "Hello"}]}'
Видео‑руководство
Для более подробного объяснения всех шагов см. видео:
Заключение
Теперь вы знаете, как быстро установить и настроить VLLM для работы с большими языковыми моделями на комбинации RTX 3090 и Tesla V100. Это решение позволяет эффективно использовать ресурсы обеих карт и ускорить инференс.
