Стабильность OCR в LLM: рейтинг моделей Gemini, Claude и Qwen

Проблема непостоянства результатов в LLM‑проекте

При работе над проектом по распознаванию и анализу сканов я столкнулся с непостоянными результатами. Сначала я подозревал, что виновата модель анализа расхождений, но после детального логирования выяснилось, что галлюцинации происходят в модели распознавания текста.

Тестирование OCR‑моделей

Для проверки стабильности я создал тест, который прогоняет один и тот же скан пять раз через OCR‑модели и сравнивает полученные варианты. Это позволило оценить, насколько сильно меняется результат при каждом запуске.

Результаты теста

Полученные данные показали следующий рейтинг стабильности OCR‑моделей:

  • Gemini‑2.5‑Pro – самая стабильная модель, выдаёт почти идентичные результаты.
  • Claude‑Sonnet‑4.5 – также демонстрирует высокую стабильность, но чуть ниже Gemini.
  • Qwen3‑VL‑30B‑A3B‑Instruct – стабильность ниже, но её можно развернуть локально, что удобно для конфиденциальных документов.

Интересно, что ChatGPT 5 отсутствует в топе: она галлюцинирует, но менее сильно, чем остальные облачные модели. На хороших сканах специализированные OCR‑решения могут работать лучше, но они не вошли в данный тест.

Выводы и перспективы

Основные выводы:

  • Галлюцинации чаще всего возникают в модели распознавания текста, а не в модели анализа.
  • Gemini‑2.5‑Pro и Claude‑Sonnet‑4.5 – предпочтительные варианты для облачных сервисов.
  • Qwen3‑VL‑30B‑A3B‑Instruct подходит для локального развертывания, что важно при работе с конфиденциальными данными.
  • ChatGPT 5, хотя и галлюцинирует, показывает более мягкие отклонения, но её стоимость и доступность остаются вопросом.

На данный момент проект находится в стадии исследования, и дальнейшее развитие будет зависеть от конкретных задач и требований к качеству и скорости обработки.

Удачи всем, кто работает с LLM и OCR!