LLM Inference Benchmark
Привет! Я – Илья Низамов. В мире 1С существует популярный тест Гилёва, который показывает, сколько баллов выдаёт ваше железо на бизнес‑задачах 1С. Переквалифицировавшись в разработку ИИ, я заметил, что в этой области тоже часто задают похожие вопросы: как быстро и эффективно запускать модели, какие ресурсы нужны, как сравнивать разные конфигурации.
Почему нужен собственный бенчмарк?
Существует множество каналов и статей, где публикуются результаты тестов разного железа. Однако они редко охватывают всё многообразие современных LLM и инференсов. Поэтому я решил создать инструмент, который позволит:
- Тестировать модели локально – на CPU, GPU или их комбинации.
- Собирать результаты и делиться ими с сообществом.
- Получать представление о том, как конкретная модель будет вести себя на выбранном оборудовании.
Что входит в бенчмарк?
В репозитории InferenceBenchmark собраны:
- Поддержка нескольких популярных инференсов: Ollama, vLLM, llama.cpp и др.
- Набор моделей, готовых к запуску – от небольших до больших LLM.
- Скрипты для запуска тестов на разных платформах (CPU, GPU, смешанные конфигурации).
- Инструменты для сбора и форматирования результатов.
Как использовать?
- Скачайте исходники и сборку из GitHub.
- Установите необходимые зависимости (Python, CUDA, библиотеки инференсов).
- Запустите скрипт тестирования, указав желаемую модель и конфигурацию оборудования.
- Получите таблицу с метриками – время инференса, пропускная способность, потребление памяти.
- Сохраните результаты и, при желании, поделитесь ими на странице результатов.
Поддерживаемые инференсы и модели
В бенчмарке реализованы основные инференсы, которые позволяют запускать модели как на GPU, так и на CPU+GPU:
- Ollama – быстрый запуск LLM с поддержкой различных моделей.
- vLLM – высокопроизводительный инференс с динамическим буфером.
- llama.cpp – порт LLaMA на C++, работающий без GPU.
- И другие, добавляемые по мере необходимости.
Как делиться результатами?
После выполнения тестов вы можете загрузить файл с результатами на сайт или поделиться ссылкой в сообществе. Это поможет другим разработчикам ориентироваться в выборе оборудования и моделей.
Планы и обратная связь
Страничка с тестами и сам бенчмарк пока находятся в стадии разработки. Если у вас есть пожелания, предложения по улучшению или вы хотите доработать проект самостоятельно, пишите в комментариях – ваш вклад будет ценен!
Желаю всем удачи в экспериментах с LLM! 🚀
