LLM тестирование: сравнение Qwen, Deepseek, GigaChat и OpenAI на примере классификации запросов

Введение

В рамках курса по разработке подсистемы тестирования LLM‑проектов автор, Илья Низамов, провёл эксперимент с несколькими крупными моделями. Целью было проверить, как различные LLM‑модели реагируют на промпт классификации запросов.

Методика тестирования

Для сравнения использовались следующие модели:

Qwen 2.5 (14 b и 7 b параметров)
Deepseek‑r1 (14 b)
GigaChat 2 Max (Sberbank)
Модели OpenAI (ChatGPT 4, ChatGPT 4.5)

Тест проводился на одном и том же промпте классификации запросов, без дополнительной настройки и крутки. Результаты фиксировались по качеству ответов и скорости работы.

Результаты

Ниже приведены основные выводы по каждой модели:

Qwen 2.5 14 b – последовательно следует инструкциям и демонстрирует лучший результат среди всех протестированных моделей.
Qwen 2.5 7 b – качество заметно ниже, но всё ещё выше, чем у Deepseek‑r1.
Deepseek‑r1 14 b – результаты скатываются, возможно, из‑за того, что промпт не оптимизирован под модели с размышлениями. Кроме того, работа модели медленная.
GigaChat 2 Max – модель от Sberbank не смогла достичь требуемого качества ответов при стандартном промпте.
OpenAI (ChatGPT 4) – как всегда, показала неплохие результаты, но требовалось дополнительное уточнение промпта.
ChatGPT 4.5 – не тестировался из‑за высокой стоимости, однако в проекте, где использовалась, модель продемонстрировала отличные результаты.

Выводы

Для задач классификации запросов в LLM‑проекте наилучшим выбором оказался Qwen 2.5 14 b. Модели с размышлениями, такие как Deepseek‑r1, требуют более тонкой настройки промптов, а модели от Sberbank пока не демонстрируют конкурентоспособного качества. OpenAI остаётся надёжным вариантом, но стоит учитывать стоимость использования.

Интеграция с 1С

Подсистема тестирования LLM разрабатывается в рамках интеграции с 1С. Для более подробной информации можно обратиться к разработчику по адресу @nizamov_studio_1c.

Медиа

Результаты тестирования LLM