Введение
Недавно к нам обратился клиент с задачей автоматического распознавания реквизитов транспортных накладных и водительских удостоверений и последующего ввода этих данных в 1С. В условиях, когда большинство LLM теперь поддерживают мультимодальные входы, решение стало значительно проще.
Проблема
Нужно быстро и надёжно извлекать текст из изображений, которые могут содержать как данные о клиенте, так и о контрагентах. При этом важно, чтобы решение было гибким и легко интегрировалось в существующую 1С‑систему.
Выбор модели
Я протестировал несколько моделей, включая локальные варианты, но итоговый выбор пал на Gemini 2.0 Flash от Google. Эта модель демонстрирует уровень точности, сопоставимый с ChatGPT 4, но при этом значительно быстрее и экономичнее в использовании.
Реализация
Gemini 2.0 Flash предоставляет собственный API, который позволяет отправлять изображения и получать распознанный текст. В 1С можно реализовать запросы через HTTP‑объект, например:
HTTPЗапрос = Новый HTTPЗапрос("https://api.google.com/gemini/v1/ocr");
HTTPЗапрос.УстановитьЗаголовок("Authorization", "Bearer <TOKEN>");
HTTPЗапрос.УстановитьЗаголовок("Content-Type", "application/octet-stream");
HTTPЗапрос.УстановитьТело(Файл.Содержимое("путь/к/изображению.jpg"));
HTTPОтвет = HTTPЗапрос.Отправить();
Текст = HTTPОтвет.ПолучитьТелоКакСтроку();
Полученный JSON‑ответ можно парсить и заносить данные в нужные реквизиты 1С‑объекта.
Пример распознавания водительских удостоверений
Для демонстрации я собрал несколько публичных изображений водительских удостоверений. При отправке их в Gemini 2.0 Flash модель корректно выделяет фамилию, имя, дату выдачи и номер удостоверения. Точные результаты можно увидеть в видео‑демонстрации (ссылка на RuTube).
Вывод
Использование Gemini 2.0 Flash позволяет быстро и надёжно распознавать реквизиты из транспортных накладных и водительских удостоверений, а API делает интеграцию в 1С простым и удобным. Это решение экономит время и снижает риск ошибок при ручном вводе данных.
Видео‑демонстрация: https://rutube.ru/video/5a74cea46bd8017197f3410aec396df1/
