Проблема непостоянства результатов в LLM‑проекте
При работе над проектом по распознаванию и анализу сканов я столкнулся с непостоянными результатами. Сначала я подозревал, что виновата модель анализа расхождений, но после детального логирования выяснилось, что галлюцинации происходят в модели распознавания текста.
Тестирование OCR‑моделей
Для проверки стабильности я создал тест, который прогоняет один и тот же скан пять раз через OCR‑модели и сравнивает полученные варианты. Это позволило оценить, насколько сильно меняется результат при каждом запуске.
Результаты теста
Полученные данные показали следующий рейтинг стабильности OCR‑моделей:
- Gemini‑2.5‑Pro – самая стабильная модель, выдаёт почти идентичные результаты.
- Claude‑Sonnet‑4.5 – также демонстрирует высокую стабильность, но чуть ниже Gemini.
- Qwen3‑VL‑30B‑A3B‑Instruct – стабильность ниже, но её можно развернуть локально, что удобно для конфиденциальных документов.
Интересно, что ChatGPT 5 отсутствует в топе: она галлюцинирует, но менее сильно, чем остальные облачные модели. На хороших сканах специализированные OCR‑решения могут работать лучше, но они не вошли в данный тест.
Выводы и перспективы
Основные выводы:
- Галлюцинации чаще всего возникают в модели распознавания текста, а не в модели анализа.
- Gemini‑2.5‑Pro и Claude‑Sonnet‑4.5 – предпочтительные варианты для облачных сервисов.
- Qwen3‑VL‑30B‑A3B‑Instruct подходит для локального развертывания, что важно при работе с конфиденциальными данными.
- ChatGPT 5, хотя и галлюцинирует, показывает более мягкие отклонения, но её стоимость и доступность остаются вопросом.
На данный момент проект находится в стадии исследования, и дальнейшее развитие будет зависеть от конкретных задач и требований к качеству и скорости обработки.
Удачи всем, кто работает с LLM и OCR!