Датасеты для нейросетей, машинного обучения и RAG
Тексты закупок, позиции продукции, классификаторы, документы и метаданные для обучения моделей и внутреннего ИИ-поиска.
Подход к реализации
TenderGuru может подготовить датасеты для классификации тендеров, нормализации продукции, извлечения требований и поиска по документации. В набор включаются исходные тексты, метаданные, связи и существующие классификаторы ОКПД2/КТРУ.
Для RAG используется распознанная документация, разделенная на фрагменты с идентификаторами и метаданными. Модель не обучается на всей базе: при запросе система находит релевантные фрагменты и передает их языковой модели.
Состав обучающего набора зависит от задачи. Готовые метки релевантности поиска не предоставляются, если они не были специально подготовлены.
Состав данных
Тексты тендеров + продукция + ОКПД2/КТРУ + документация и фрагменты.
Основные этапы проекта
Вопросы по внедрению
Что выбрать для запуска: API или готовую базу?
Если нужна история и массовая первичная загрузка, выбирайте готовую базу. Если нужны новые записи, точечный поиск и обновление карточек, используйте API. Часто применяются оба способа вместе.
Можно ли собрать индивидуальный профиль данных?
Да. Профиль можно объединить из тендеров, контрактов, организаций, победителей, продукции, рисков и документации.
Какие форматы подходят для этой задачи?
Для приложений и интеграций обычно используется JSON API. Для BI — Parquet, для ML и RAG — JSONL или Parquet, для простого импорта — CSV.
Нужно ли отдельно согласовывать лицензию?
Да, особенно если данные видят внешние пользователи, используются контакты, документация или создается платный либо публичный сервис.
Можно ли сначала получить небольшой пример?
Да. На страницах готовых баз размещены фиксированные демонстрационные файлы. Индивидуальные тестовые выборки формируются только в рамках отдельного проекта.