Форматы поставки

Формат Parquet для BI, DWH и аналитики

Колонночный формат для больших объемов: быстрое чтение нужных полей, сжатие и удобная работа в аналитических системах.

columnarBIDWHSparkDuckDB
Формат Parquet для BI, DWH и аналитики
Описание формата

Когда использовать Parquet

Parquet — основной формат для крупных аналитических наборов. Он хранит данные по колонкам, сжимает повторяющиеся значения и позволяет читать только нужные поля.

Формат подходит для тендеров, контрактов, товарных позиций, организаций и признаков скоринга. Его удобно использовать с Python, Spark, DuckDB, ClickHouse и облачными хранилищами.

Вложенные и смешанные поля перед поставкой нормализуются или сохраняются как JSON-строки. Схема файла фиксируется для согласованного профиля.

Преимущества

Сильные стороны

  • высокая скорость аналитики
  • хорошее сжатие
  • типизированная схема
  • поддержка современных DWH
Ограничения

Что учитывать

  • не предназначен для ручного просмотра
  • сложнее точечно дописывать записи
  • вложенные неоднородные поля требуют нормализации
FAQ

Вопросы о формате Parquet

Для каких объемов подходит Parquet?

Подходящий объем зависит от структуры и инструмента обработки. Для API и отдельных карточек удобен JSON, для потоковых файлов — JSONL, для большой аналитики — Parquet, для простых таблиц — CSV.

Можно ли получить одну и ту же базу в нескольких форматах?

Да. При согласовании поставки можно подготовить основной формат и дополнительный демонстрационный или совместимый формат.

Как передаются вложенные массивы и связанные сущности?

В JSON и JSONL они могут оставаться вложенными. В CSV и Parquet связанные сущности часто передаются отдельными таблицами со стабильными ключами.

Можно ли изменить названия и типы полей?

Для индивидуальной поставки можно согласовать схему, названия полей, типы дат, представление NULL и правила нормализации.

Где посмотреть структуру API?

Полная структура и параметры методов опубликованы в документации API TenderGuru.