Тест нейросети Qwen 3.6 27B с технологией MTP (Multi-Token Prediction): запускаем модель локально на двух видеокартах RTX 5070 Ti и проверяем, как Multi-Token Prediction удваивает скорость генерации без потери качества.

В этом видео проверим Qwen 3.6 27B на сервере Ubuntu через инференс llama.cpp и сравнивает две версии модели — обычную и с поддержкой MTP. На одинаковом железе и квантовании NVFP4 замеряем скорость генерации на задаче написания кода (нейросеть распознавания цифр на Keras).

Результат впечатляет: без MTP модель выдаёт около 55 токенов в секунду, а с MTP — от 100 до 105 токенов/сек. Качество ответов при этом остаётся на прежнем уровне. Multi-Token Prediction позволяет параллельно предсказывать несколько будущих токенов за один шаг — и, похоже, скоро эта технология появится во всех LLM.
 

Мой курс "Применение искусственного интеллекта ChatGPT для 1С"

 

Результаты теста:
— Без MTP: ~55 токенов/сек
— С MTP: 100–105 токенов/сек

 

Команды запуска (llama.cpp):

 

Без MTP:


CUDA_VISIBLE_DEVICES=0,1 ./build/bin/llama-server -hf g0chu/Qwen3.6-27B-NVFP4-gguf --host 0.0.0.0 --port 8000 --n-gpu-layers 99 --ctx-size 8192 --flash-attn on --split-mode tensor

 

С MTP:

CUDA_VISIBLE_DEVICES=0,1 ./build/bin/llama-server -hf g0chu/Qwen3.6-27B-NVFP4-gguf --host 0.0.0.0 --port 8000 --n-gpu-layers 99 --ctx-size 8192 --flash-attn on --spec-draft-n-max 3 --spec-type draft-mtp --split-mode tensor

Что делает каждый флаг:

 

CUDA_VISIBLE_DEVICES=0,1 - переменная окружения, которая говорит CUDA использовать только видеокарты с индексами 0 и 1. Остальные GPU в системе будут скрыты от процесса. Удобно, если на сервере несколько карт и нужно распределить нагрузку
./build/bin/llama-server - собранный бинарник llama.cpp сервера. Запускается локально из директории сборки
-hf g0chu/Qwen3.6-27B-NVFP4-gguf - автозагрузка модели напрямую с Hugging Face
--n-gpu-layers - number of GPU layers. Значение 99 означает выгрузить все слои на GPU. Если слоёв в модели меньше 99 — выгрузятся все, что есть. Максимум скорости, но требует достаточно VRAM
--ctx-size 8192 - размер контекстного окна 8K токенов. Можно увеличить, но это съест больше VRAM под KV-кэш
--flash-attn on - включение Flash Attention. Сильно экономит память и ускоряет инференс на современных GPU (Ampere и новее)
--spec-type draft-mtp - тип спекулятивного декодирования. Здесь используется встроенный MTP-драфтер вместо отдельной маленькой draft-модели. Не нужно тащить вторую модель в память - драфт-головы уже внутри основной
--spec-draft-n-max 3 - максимум 3 токена в одном спекулятивном черновике. Основная модель проверяет эти 3 предсказания за один проход. Если совпали - получаем их бесплатно, если нет - откатываемся к стандартной генерации
--split-mode tensor - тензоры делятся между GPU (tensor parallelism)
--host 0.0.0.0 — слушать на всех сетевых интерфейсах (доступ извне, не только с localhost)
--port 8000 — порт HTTP API. Совместим с OpenAI API, можно дёргать через /v1/chat/completions

Посмотрите подробное видео: Тест Qwen 3.6 27B MTP: как удвоить скорость LLM на двух RTX 5070 Ti

Тест Qwen 3.6 27B MTP: как удвоить скорость LLM на двух RTX 5070 Ti
Тест Qwen 3.6 27B MTP: как удвоить скорость LLM на двух RTX 5070 Ti