Варианты использования

Датасеты для нейросетей, машинного обучения и RAG

Тексты закупок, позиции продукции, классификаторы, документы и метаданные для обучения моделей и внутреннего ИИ-поиска.

MLRAGOCRклассификация
Датасеты для нейросетей, машинного обучения и RAG
Как это работает

Подход к реализации

TenderGuru может подготовить датасеты для классификации тендеров, нормализации продукции, извлечения требований и поиска по документации. В набор включаются исходные тексты, метаданные, связи и существующие классификаторы ОКПД2/КТРУ.

Для RAG используется распознанная документация, разделенная на фрагменты с идентификаторами и метаданными. Модель не обучается на всей базе: при запросе система находит релевантные фрагменты и передает их языковой модели.

Состав обучающего набора зависит от задачи. Готовые метки релевантности поиска не предоставляются, если они не были специально подготовлены.

Рекомендуемый профиль

Состав данных

Тексты тендеров + продукция + ОКПД2/КТРУ + документация и фрагменты.

Последовательность

Основные этапы проекта

описать целевую задачу и метрику
выбрать источники и период
определить поля и метки
подготовить train/validation split
проверить качество и утечки данных
FAQ

Вопросы по внедрению

Что выбрать для запуска: API или готовую базу?

Если нужна история и массовая первичная загрузка, выбирайте готовую базу. Если нужны новые записи, точечный поиск и обновление карточек, используйте API. Часто применяются оба способа вместе.

Можно ли собрать индивидуальный профиль данных?

Да. Профиль можно объединить из тендеров, контрактов, организаций, победителей, продукции, рисков и документации.

Какие форматы подходят для этой задачи?

Для приложений и интеграций обычно используется JSON API. Для BI — Parquet, для ML и RAG — JSONL или Parquet, для простого импорта — CSV.

Нужно ли отдельно согласовывать лицензию?

Да, особенно если данные видят внешние пользователи, используются контакты, документация или создается платный либо публичный сервис.

Можно ли сначала получить небольшой пример?

Да. На страницах готовых баз размещены фиксированные демонстрационные файлы. Индивидуальные тестовые выборки формируются только в рамках отдельного проекта.