Готовые базы TenderGuru

Готовая база распознанной тендерной документации

Тексты документов, метаданные и подготовленные фрагменты для нейросетей, полнотекстового поиска, ML и RAG.

OCRRAGJSONLтехнические заданияфрагменты текста
Готовая база распознанной тендерной документации
Описание базы

Что входит и как формируется поставка

База документации включает распознанные тексты файлов, опубликованных вместе с закупками. Это могут быть технические задания, спецификации, проекты контрактов, требования к участникам и другие документы.

Для аналитики и RAG текст связывается с тендером и метаданными: номер закупки, дата, заказчик, тип документа, ОКПД2/КТРУ и источник. По запросу документы делятся на фрагменты подходящего размера с устойчивыми идентификаторами.

База подходит для обучения классификаторов, извлечения требований, внутреннего ИИ-поиска и создания ассистентов по закупочной документации. Качество OCR зависит от исходных файлов.

Состав данных

  • распознанный текст
  • название и тип документа
  • связь с тендером
  • номер и дата закупки
  • заказчик
  • метаданные и источник
  • фрагменты для RAG по запросу
  • дополнительная очистка по заданию
Подходит для

Задачи и сценарии использования

  • RAG и ИИ-поиск
  • извлечение требований
  • классификация документов
  • поиск по техническим заданиям
  • анализ условий контрактов
Нужны данные по запросу?

Для поиска новых записей и точечного обновления используйте соответствующий API-раздел.

Стоимость

Варианты готовой поставки

Цена зависит от периода, состава полей, связей, объема и дополнительной обработки. Финальная стоимость фиксируется после согласования технического задания.

ПакетЧто входитЦена
Тексты документациираспознанные документы по периоду или тематикеот 99 000 ₽
Тексты + метаданныесвязи с тендерами, заказчиками и классификаторамиот 290 000 ₽
RAG-корпус: стартподготовленные фрагменты документов для РАГот 390 000 ₽
RAG-корпус: расширенныйкрупный корпус для ИИ-поиска и анализаот 990 000 ₽
Корпус под запроспериод, тематика, типы документов, очистка и фрагментацияот 150 000 ₽
Демонстрационные файлы

Небольшие примеры выгрузок

Мы публикуем готовые демонстрационные файлы, чтобы показать структуру и форматы поставки. Они не подбираются индивидуально под параметры клиента и не заменяют полноценную коммерческую базу.

Для этого раздела демонстрационные файлы пока не добавлены в таблицу примеров.

Структуру полей можно посмотреть в документации API TenderGuru.

FAQ

Вопросы о готовой базе

Что именно находится в базе документации?

Распознанные тексты закупочных документов, названия файлов, типы, связи с тендерами и другие согласованные метаданные.

Что такое фрагменты для RAG?

Это части документа подходящего размера с идентификаторами и метаданными. Они загружаются в поисковый индекс или векторную базу и используются для поиска контекста перед ответом модели.

Можно ли выбрать только технические задания?

Да, если тип документа удается определить. Также можно фильтровать по периоду, заказчикам, тематике, ОКПД2 и ключевым словам.

Можно ли открыть корпус в бесплатном доступе?

Нет. Открытая публикация распознанных текстов, фрагментов и полного RAG-корпуса запрещена стандартной лицензией.

В каких форматах можно получить базу?

Обычно используются JSONL, Parquet и CSV. JSONL сохраняет вложенные структуры, Parquet удобен для BI и больших объемов, CSV — для простого импорта и Excel. XML доступен для корпоративных интеграций.

Можно ли создать базу под собственный запрос?

Да. Можно согласовать период, список полей, регионы, страны, ключевые слова, ОКПД2/КТРУ, организации и другие фильтры. Стоимость зависит от объема и сложности подготовки.

Как проверить структуру до покупки?

На странице выводятся небольшие готовые демонстрационные файлы из таблицы примеров. Они показывают структуру, но не формируются индивидуально под параметры клиента.

Как лицензируется готовая база?

База предназначена для согласованных внутренних задач или закрытого сервиса. Перепродажа, открытая бесплатная публикация и массовая передача исходных данных запрещены.