Qwen 3.6 27B MTP

Тест нейросети Qwen 3.6 27B с технологией MTP (Multi-Token Prediction): запускаем модель локально на двух видеокартах RTX 5070 Ti и проверяем, как Multi-Token Prediction удваивает скорость генерации без потери качества.

В этом видео проверим Qwen 3.6 27B на сервере Ubuntu через инференс llama.cpp и сравнивает две версии модели — обычную и с поддержкой MTP. На одинаковом железе и квантовании NVFP4 замеряем скорость генерации на задаче написания кода (нейросеть распознавания цифр на Keras).

Результат впечатляет: без MTP модель выдаёт около 55 токенов в секунду, а с MTP — от 100 до 105 токенов/сек. Качество ответов при этом остаётся на прежнем уровне. Multi-Token Prediction позволяет параллельно предсказывать несколько будущих токенов за один шаг — и, похоже, скоро эта технология появится во всех LLM.

Мой курс "Применение искусственного интеллекта ChatGPT для 1С"

Результаты теста:
— Без MTP: ~55 токенов/сек
— С MTP: 100–105 токенов/сек

Команды запуска (llama.cpp):

Без MTP:


CUDA_VISIBLE_DEVICES=0,1 ./build/bin/llama-server -hf g0chu/Qwen3.6-27B-NVFP4-gguf --host 0.0.0.0 --port 8000 --n-gpu-layers 99 --ctx-size 8192 --flash-attn on --split-mode tensor

С MTP:

CUDA_VISIBLE_DEVICES=0,1 ./build/bin/llama-server -hf g0chu/Qwen3.6-27B-NVFP4-gguf --host 0.0.0.0 --port 8000 --n-gpu-layers 99 --ctx-size 8192 --flash-attn on --spec-draft-n-max 3 --spec-type draft-mtp --split-mode tensor

Что делает каждый флаг:

CUDA_VISIBLE_DEVICES=0,1 - переменная окружения, которая говорит CUDA использовать только видеокарты с индексами 0 и 1. Остальные GPU в системе будут скрыты от процесса. Удобно, если на сервере несколько карт и нужно распределить нагрузку

./build/bin/llama-server - собранный бинарник llama.cpp сервера. Запускается локально из директории сборки

-hf g0chu/Qwen3.6-27B-NVFP4-gguf - автозагрузка модели напрямую с Hugging Face

--n-gpu-layers - number of GPU layers. Значение 99 означает выгрузить все слои на GPU. Если слоёв в модели меньше 99 — выгрузятся все, что есть. Максимум скорости, но требует достаточно VRAM

--ctx-size 8192 - размер контекстного окна 8K токенов. Можно увеличить, но это съест больше VRAM под KV-кэш

--flash-attn on - включение Flash Attention. Сильно экономит память и ускоряет инференс на современных GPU (Ampere и новее)

--spec-type draft-mtp - тип спекулятивного декодирования. Здесь используется встроенный MTP-драфтер вместо отдельной маленькой draft-модели. Не нужно тащить вторую модель в память - драфт-головы уже внутри основной

--spec-draft-n-max 3 - максимум 3 токена в одном спекулятивном черновике. Основная модель проверяет эти 3 предсказания за один проход. Если совпали - получаем их бесплатно, если нет - откатываемся к стандартной генерации

--split-mode tensor - тензоры делятся между GPU (tensor parallelism)

--host 0.0.0.0 — слушать на всех сетевых интерфейсах (доступ извне, не только с localhost)

--port 8000 — порт HTTP API. Совместим с OpenAI API, можно дёргать через /v1/chat/completions

Посмотрите подробное видео: Тест Qwen 3.6 27B MTP: как удвоить скорость LLM на двух RTX 5070 Ti

Тест Qwen 3.6 27B MTP: как удвоить скорость LLM на двух RTX 5070 Ti

Qwen 3.6 27B MTP

Подписывайся и задавай вопросы в моих каналах

Посмотрите подробное видео: Тест Qwen 3.6 27B MTP: как удвоить скорость LLM на двух RTX 5070 Ti