Формат Parquet для BI, DWH и аналитики
Колонночный формат для больших объемов: быстрое чтение нужных полей, сжатие и удобная работа в аналитических системах.
Когда использовать Parquet
Parquet — основной формат для крупных аналитических наборов. Он хранит данные по колонкам, сжимает повторяющиеся значения и позволяет читать только нужные поля.
Формат подходит для тендеров, контрактов, товарных позиций, организаций и признаков скоринга. Его удобно использовать с Python, Spark, DuckDB, ClickHouse и облачными хранилищами.
Вложенные и смешанные поля перед поставкой нормализуются или сохраняются как JSON-строки. Схема файла фиксируется для согласованного профиля.
Параметры запросов, названия полей и полная структура ответов опубликованы в документации API TenderGuru.
Открыть документацию APIСильные стороны
- высокая скорость аналитики
- хорошее сжатие
- типизированная схема
- поддержка современных DWH
Что учитывать
- не предназначен для ручного просмотра
- сложнее точечно дописывать записи
- вложенные неоднородные поля требуют нормализации
Вопросы о формате Parquet
Для каких объемов подходит Parquet?
Подходящий объем зависит от структуры и инструмента обработки. Для API и отдельных карточек удобен JSON, для потоковых файлов — JSONL, для большой аналитики — Parquet, для простых таблиц — CSV.
Можно ли получить одну и ту же базу в нескольких форматах?
Да. При согласовании поставки можно подготовить основной формат и дополнительный демонстрационный или совместимый формат.
Как передаются вложенные массивы и связанные сущности?
В JSON и JSONL они могут оставаться вложенными. В CSV и Parquet связанные сущности часто передаются отдельными таблицами со стабильными ключами.
Можно ли изменить названия и типы полей?
Для индивидуальной поставки можно согласовать схему, названия полей, типы дат, представление NULL и правила нормализации.
Где посмотреть структуру API?
Полная структура и параметры методов опубликованы в документации API TenderGuru.