Форматы поставки

Формат JSONL для больших наборов и ML

Одна запись на строку: удобно читать потоково, делить на части, загружать в хранилища и использовать в ML/RAG.

one record per lineMLRAGпотоковая обработка
Формат JSONL для больших наборов и ML
Описание формата

Когда использовать JSONL

JSONL сохраняет преимущества JSON, но каждая запись хранится в отдельной строке. Поэтому файл можно читать последовательно, не загружая целиком в память.

Формат удобен для больших выгрузок тендеров, документов и организаций, а также для подготовки корпусов ML и RAG. Поврежденная строка не делает нечитаемым весь файл.

Вложенные поля можно оставить массивами и объектами. Для аналитических SQL-запросов Parquet обычно быстрее, но JSONL проще для обмена и обработки скриптами.

Преимущества

Сильные стороны

  • потоковое чтение
  • простое разбиение на файлы
  • сохранение вложенных данных
  • удобство для Python и ML
Ограничения

Что учитывать

  • занимает больше места, чем Parquet
  • не дает колонночного чтения
  • для BI часто требуется предварительный импорт
FAQ

Вопросы о формате JSONL

Для каких объемов подходит JSONL?

Подходящий объем зависит от структуры и инструмента обработки. Для API и отдельных карточек удобен JSON, для потоковых файлов — JSONL, для большой аналитики — Parquet, для простых таблиц — CSV.

Можно ли получить одну и ту же базу в нескольких форматах?

Да. При согласовании поставки можно подготовить основной формат и дополнительный демонстрационный или совместимый формат.

Как передаются вложенные массивы и связанные сущности?

В JSON и JSONL они могут оставаться вложенными. В CSV и Parquet связанные сущности часто передаются отдельными таблицами со стабильными ключами.

Можно ли изменить названия и типы полей?

Для индивидуальной поставки можно согласовать схему, названия полей, типы дат, представление NULL и правила нормализации.

Где посмотреть структуру API?

Полная структура и параметры методов опубликованы в документации API TenderGuru.