LLM Inference Benchmark – как измерить производительность языковых моделей на локальном железе

LLM Inference Benchmark

Привет! Я – Илья Низамов. В мире 1С существует популярный тест Гилёва, который показывает, сколько баллов выдаёт ваше железо на бизнес‑задачах 1С. Переквалифицировавшись в разработку ИИ, я заметил, что в этой области тоже часто задают похожие вопросы: как быстро и эффективно запускать модели, какие ресурсы нужны, как сравнивать разные конфигурации.

Почему нужен собственный бенчмарк?

Существует множество каналов и статей, где публикуются результаты тестов разного железа. Однако они редко охватывают всё многообразие современных LLM и инференсов. Поэтому я решил создать инструмент, который позволит:

Тестировать модели локально – на CPU, GPU или их комбинации.
Собирать результаты и делиться ими с сообществом.
Получать представление о том, как конкретная модель будет вести себя на выбранном оборудовании.

Что входит в бенчмарк?

В репозитории InferenceBenchmark собраны:

Поддержка нескольких популярных инференсов: Ollama, vLLM, llama.cpp и др.
Набор моделей, готовых к запуску – от небольших до больших LLM.
Скрипты для запуска тестов на разных платформах (CPU, GPU, смешанные конфигурации).
Инструменты для сбора и форматирования результатов.

Как использовать?

Скачайте исходники и сборку из GitHub.
Установите необходимые зависимости (Python, CUDA, библиотеки инференсов).
Запустите скрипт тестирования, указав желаемую модель и конфигурацию оборудования.
Получите таблицу с метриками – время инференса, пропускная способность, потребление памяти.
Сохраните результаты и, при желании, поделитесь ими на странице результатов.

Поддерживаемые инференсы и модели

В бенчмарке реализованы основные инференсы, которые позволяют запускать модели как на GPU, так и на CPU+GPU:

Ollama – быстрый запуск LLM с поддержкой различных моделей.
vLLM – высокопроизводительный инференс с динамическим буфером.
llama.cpp – порт LLaMA на C++, работающий без GPU.
И другие, добавляемые по мере необходимости.

Как делиться результатами?

После выполнения тестов вы можете загрузить файл с результатами на сайт или поделиться ссылкой в сообществе. Это поможет другим разработчикам ориентироваться в выборе оборудования и моделей.

Планы и обратная связь

Страничка с тестами и сам бенчмарк пока находятся в стадии разработки. Если у вас есть пожелания, предложения по улучшению или вы хотите доработать проект самостоятельно, пишите в комментариях – ваш вклад будет ценен!

Желаю всем удачи в экспериментах с LLM! 🚀

Посмотрите подробное видео: LLM Inference Benchmark – измерение производительности LLM на CPU/GPU

LLM Inference Benchmark – измерение производительности LLM на CPU/GPU

LLM Inference Benchmark – как измерить производительность языковых моделей на локальном железе

Подписывайся и задавай вопросы в моих каналах