Тест нейросети Qwen 3.6 27B с технологией MTP (Multi-Token Prediction): запускаем модель локально на двух видеокартах RTX 5070 Ti и проверяем, как Multi-Token Prediction удваивает скорость генерации без потери качества.
В этом видео проверим Qwen 3.6 27B на сервере Ubuntu через инференс llama.cpp и сравнивает две версии модели — обычную и с поддержкой MTP. На одинаковом железе и квантовании NVFP4 замеряем скорость генерации на задаче написания кода (нейросеть распознавания цифр на Keras).
Результат впечатляет: без MTP модель выдаёт около 55 токенов в секунду, а с MTP — от 100 до 105 токенов/сек. Качество ответов при этом остаётся на прежнем уровне. Multi-Token Prediction позволяет параллельно предсказывать несколько будущих токенов за один шаг — и, похоже, скоро эта технология появится во всех LLM.
Мой курс "Применение искусственного интеллекта ChatGPT для 1С"
Результаты теста:
— Без MTP: ~55 токенов/сек
— С MTP: 100–105 токенов/сек
Команды запуска (llama.cpp):
Без MTP:
CUDA_VISIBLE_DEVICES=0,1 ./build/bin/llama-server -hf g0chu/Qwen3.6-27B-NVFP4-gguf --host 0.0.0.0 --port 8000 --n-gpu-layers 99 --ctx-size 8192 --flash-attn on --split-mode tensor
С MTP:
CUDA_VISIBLE_DEVICES=0,1 ./build/bin/llama-server -hf g0chu/Qwen3.6-27B-NVFP4-gguf --host 0.0.0.0 --port 8000 --n-gpu-layers 99 --ctx-size 8192 --flash-attn on --spec-draft-n-max 3 --spec-type draft-mtp --split-mode tensorЧто делает каждый флаг:
CUDA_VISIBLE_DEVICES=0,1 - переменная окружения, которая говорит CUDA использовать только видеокарты с индексами 0 и 1. Остальные GPU в системе будут скрыты от процесса. Удобно, если на сервере несколько карт и нужно распределить нагрузку./build/bin/llama-server - собранный бинарник llama.cpp сервера. Запускается локально из директории сборки-hf g0chu/Qwen3.6-27B-NVFP4-gguf - автозагрузка модели напрямую с Hugging Face--n-gpu-layers - number of GPU layers. Значение 99 означает выгрузить все слои на GPU. Если слоёв в модели меньше 99 — выгрузятся все, что есть. Максимум скорости, но требует достаточно VRAM--ctx-size 8192 - размер контекстного окна 8K токенов. Можно увеличить, но это съест больше VRAM под KV-кэш--flash-attn on - включение Flash Attention. Сильно экономит память и ускоряет инференс на современных GPU (Ampere и новее)--spec-type draft-mtp - тип спекулятивного декодирования. Здесь используется встроенный MTP-драфтер вместо отдельной маленькой draft-модели. Не нужно тащить вторую модель в память - драфт-головы уже внутри основной--spec-draft-n-max 3 - максимум 3 токена в одном спекулятивном черновике. Основная модель проверяет эти 3 предсказания за один проход. Если совпали - получаем их бесплатно, если нет - откатываемся к стандартной генерации--split-mode tensor - тензоры делятся между GPU (tensor parallelism)--host 0.0.0.0 — слушать на всех сетевых интерфейсах (доступ извне, не только с localhost)--port 8000 — порт HTTP API. Совместим с OpenAI API, можно дёргать через /v1/chat/completions