Введение
В рамках курса по разработке подсистемы тестирования LLM‑проектов автор, Илья Низамов, провёл эксперимент с несколькими крупными моделями. Целью было проверить, как различные LLM‑модели реагируют на промпт классификации запросов.
Методика тестирования
Для сравнения использовались следующие модели:
- Qwen 2.5 (14 b и 7 b параметров)
- Deepseek‑r1 (14 b)
- GigaChat 2 Max (Sberbank)
- Модели OpenAI (ChatGPT 4, ChatGPT 4.5)
Тест проводился на одном и том же промпте классификации запросов, без дополнительной настройки и крутки. Результаты фиксировались по качеству ответов и скорости работы.
Результаты
Ниже приведены основные выводы по каждой модели:
- Qwen 2.5 14 b – последовательно следует инструкциям и демонстрирует лучший результат среди всех протестированных моделей.
- Qwen 2.5 7 b – качество заметно ниже, но всё ещё выше, чем у Deepseek‑r1.
- Deepseek‑r1 14 b – результаты скатываются, возможно, из‑за того, что промпт не оптимизирован под модели с размышлениями. Кроме того, работа модели медленная.
- GigaChat 2 Max – модель от Sberbank не смогла достичь требуемого качества ответов при стандартном промпте.
- OpenAI (ChatGPT 4) – как всегда, показала неплохие результаты, но требовалось дополнительное уточнение промпта.
- ChatGPT 4.5 – не тестировался из‑за высокой стоимости, однако в проекте, где использовалась, модель продемонстрировала отличные результаты.
Выводы
Для задач классификации запросов в LLM‑проекте наилучшим выбором оказался Qwen 2.5 14 b. Модели с размышлениями, такие как Deepseek‑r1, требуют более тонкой настройки промптов, а модели от Sberbank пока не демонстрируют конкурентоспособного качества. OpenAI остаётся надёжным вариантом, но стоит учитывать стоимость использования.
Интеграция с 1С
Подсистема тестирования LLM разрабатывается в рамках интеграции с 1С. Для более подробной информации можно обратиться к разработчику по адресу @nizamov_studio_1c.
Медиа
