Форматы поставки

Формат Parquet для BI, DWH и аналитики

Колонночный формат для больших объемов: быстрое чтение нужных полей, сжатие и удобная работа в аналитических системах.

columnarBIDWHSparkDuckDB

Описание формата

Когда использовать Parquet

Parquet — основной формат для крупных аналитических наборов. Он хранит данные по колонкам, сжимает повторяющиеся значения и позволяет читать только нужные поля.

Формат подходит для тендеров, контрактов, товарных позиций, организаций и признаков скоринга. Его удобно использовать с Python, Spark, DuckDB, ClickHouse и облачными хранилищами.

Вложенные и смешанные поля перед поставкой нормализуются или сохраняются как JSON-строки. Схема файла фиксируется для согласованного профиля.

Полная структура данных

Параметры запросов, названия полей и полная структура ответов опубликованы в документации API TenderGuru.

Открыть документацию API

Преимущества

Сильные стороны

высокая скорость аналитики
хорошее сжатие
типизированная схема
поддержка современных DWH

Ограничения

Что учитывать

не предназначен для ручного просмотра
сложнее точечно дописывать записи
вложенные неоднородные поля требуют нормализации

FAQ

Вопросы о формате Parquet

Для каких объемов подходит Parquet?

Подходящий объем зависит от структуры и инструмента обработки. Для API и отдельных карточек удобен JSON, для потоковых файлов — JSONL, для большой аналитики — Parquet, для простых таблиц — CSV.

Можно ли получить одну и ту же базу в нескольких форматах?

Да. При согласовании поставки можно подготовить основной формат и дополнительный демонстрационный или совместимый формат.

Как передаются вложенные массивы и связанные сущности?

В JSON и JSONL они могут оставаться вложенными. В CSV и Parquet связанные сущности часто передаются отдельными таблицами со стабильными ключами.

Можно ли изменить названия и типы полей?

Для индивидуальной поставки можно согласовать схему, названия полей, типы дат, представление NULL и правила нормализации.

Где посмотреть структуру API?

Полная структура и параметры методов опубликованы в документации API TenderGuru.