Формат JSONL для больших наборов и ML
Одна запись на строку: удобно читать потоково, делить на части, загружать в хранилища и использовать в ML/RAG.
Когда использовать JSONL
JSONL сохраняет преимущества JSON, но каждая запись хранится в отдельной строке. Поэтому файл можно читать последовательно, не загружая целиком в память.
Формат удобен для больших выгрузок тендеров, документов и организаций, а также для подготовки корпусов ML и RAG. Поврежденная строка не делает нечитаемым весь файл.
Вложенные поля можно оставить массивами и объектами. Для аналитических SQL-запросов Parquet обычно быстрее, но JSONL проще для обмена и обработки скриптами.
Параметры запросов, названия полей и полная структура ответов опубликованы в документации API TenderGuru.
Открыть документацию APIСильные стороны
- потоковое чтение
- простое разбиение на файлы
- сохранение вложенных данных
- удобство для Python и ML
Что учитывать
- занимает больше места, чем Parquet
- не дает колонночного чтения
- для BI часто требуется предварительный импорт
Вопросы о формате JSONL
Для каких объемов подходит JSONL?
Подходящий объем зависит от структуры и инструмента обработки. Для API и отдельных карточек удобен JSON, для потоковых файлов — JSONL, для большой аналитики — Parquet, для простых таблиц — CSV.
Можно ли получить одну и ту же базу в нескольких форматах?
Да. При согласовании поставки можно подготовить основной формат и дополнительный демонстрационный или совместимый формат.
Как передаются вложенные массивы и связанные сущности?
В JSON и JSONL они могут оставаться вложенными. В CSV и Parquet связанные сущности часто передаются отдельными таблицами со стабильными ключами.
Можно ли изменить названия и типы полей?
Для индивидуальной поставки можно согласовать схему, названия полей, типы дат, представление NULL и правила нормализации.
Где посмотреть структуру API?
Полная структура и параметры методов опубликованы в документации API TenderGuru.