Готовая база распознанной тендерной документации
Тексты документов, метаданные и подготовленные фрагменты для нейросетей, полнотекстового поиска, ML и RAG.
Что входит и как формируется поставка
База документации включает распознанные тексты файлов, опубликованных вместе с закупками. Это могут быть технические задания, спецификации, проекты контрактов, требования к участникам и другие документы.
Для аналитики и RAG текст связывается с тендером и метаданными: номер закупки, дата, заказчик, тип документа, ОКПД2/КТРУ и источник. По запросу документы делятся на фрагменты подходящего размера с устойчивыми идентификаторами.
База подходит для обучения классификаторов, извлечения требований, внутреннего ИИ-поиска и создания ассистентов по закупочной документации. Качество OCR зависит от исходных файлов.
Состав данных
- распознанный текст
- название и тип документа
- связь с тендером
- номер и дата закупки
- заказчик
- метаданные и источник
- фрагменты для RAG по запросу
- дополнительная очистка по заданию
Задачи и сценарии использования
- RAG и ИИ-поиск
- извлечение требований
- классификация документов
- поиск по техническим заданиям
- анализ условий контрактов
Состав полей готовой базы ориентируется на API TenderGuru. Для массовой поставки связанные сущности могут передаваться отдельными таблицами.
Открыть документацию APIДля поиска новых записей и точечного обновления используйте соответствующий API-раздел.
Варианты готовой поставки
Цена зависит от периода, состава полей, связей, объема и дополнительной обработки. Финальная стоимость фиксируется после согласования технического задания.
| Пакет | Что входит | Цена |
|---|---|---|
| Тексты документации | распознанные документы по периоду или тематике | от 99 000 ₽ |
| Тексты + метаданные | связи с тендерами, заказчиками и классификаторами | от 290 000 ₽ |
| RAG-корпус: старт | подготовленные фрагменты документов для РАГ | от 390 000 ₽ |
| RAG-корпус: расширенный | крупный корпус для ИИ-поиска и анализа | от 990 000 ₽ |
| Корпус под запрос | период, тематика, типы документов, очистка и фрагментация | от 150 000 ₽ |
Небольшие примеры выгрузок
Мы публикуем готовые демонстрационные файлы, чтобы показать структуру и форматы поставки. Они не подбираются индивидуально под параметры клиента и не заменяют полноценную коммерческую базу.
Структуру полей можно посмотреть в документации API TenderGuru.
Вопросы о готовой базе
Что именно находится в базе документации?
Распознанные тексты закупочных документов, названия файлов, типы, связи с тендерами и другие согласованные метаданные.
Что такое фрагменты для RAG?
Это части документа подходящего размера с идентификаторами и метаданными. Они загружаются в поисковый индекс или векторную базу и используются для поиска контекста перед ответом модели.
Можно ли выбрать только технические задания?
Да, если тип документа удается определить. Также можно фильтровать по периоду, заказчикам, тематике, ОКПД2 и ключевым словам.
Можно ли открыть корпус в бесплатном доступе?
Нет. Открытая публикация распознанных текстов, фрагментов и полного RAG-корпуса запрещена стандартной лицензией.
В каких форматах можно получить базу?
Обычно используются JSONL, Parquet и CSV. JSONL сохраняет вложенные структуры, Parquet удобен для BI и больших объемов, CSV — для простого импорта и Excel. XML доступен для корпоративных интеграций.
Можно ли создать базу под собственный запрос?
Да. Можно согласовать период, список полей, регионы, страны, ключевые слова, ОКПД2/КТРУ, организации и другие фильтры. Стоимость зависит от объема и сложности подготовки.
Как проверить структуру до покупки?
На странице выводятся небольшие готовые демонстрационные файлы из таблицы примеров. Они показывают структуру, но не формируются индивидуально под параметры клиента.
Как лицензируется готовая база?
База предназначена для согласованных внутренних задач или закрытого сервиса. Перепродажа, открытая бесплатная публикация и массовая передача исходных данных запрещены.