Как класть Parquet презентация

Содержание

Слайд 2

План Что за паркет? Зачем всё это? Сильные и слабые

План

Что за паркет?
Зачем всё это?
Сильные и слабые стороны
Что можно покрутить
Как делать

нельзя
А есть что-нибудь получше?
Слайд 3

Apache Parquet is a columnar storage format available to any

Apache Parquet

is a columnar storage format
available to any project in the

Hadoop ecosystem
regardless of the choice of data processing framework, data model or programming language.

https://parquet.apache.org/

Слайд 4

Как устроен https://github.com/apache/parquet-format

Как устроен

https://github.com/apache/parquet-format

Слайд 5

Колоночное хранение https://habr.com/company/wrike/blog/279797/ https://en.wikipedia.org/wiki/Column-oriented_DBMS Row-oriented Column-oriented

Колоночное хранение

https://habr.com/company/wrike/blog/279797/

https://en.wikipedia.org/wiki/Column-oriented_DBMS

Row-oriented

Column-oriented

Слайд 6

Вложенные структуры https://habr.com/post/207234/ https://ai.google/research/pubs/pub36632 https://stackoverflow.com/questions/43568132/

Вложенные структуры

https://habr.com/post/207234/

https://ai.google/research/pubs/pub36632

https://stackoverflow.com/questions/43568132/

Слайд 7

Колоночное хранение в Parquet

Колоночное хранение в Parquet

Слайд 8

И что?

И что?

Слайд 9

Pages можно кодировать! Bit packing Run-length encoding (RLE) Delta encoding Dictionary encoding ТОДО картинки

Pages можно кодировать!

Bit packing
Run-length encoding (RLE)
Delta encoding
Dictionary encoding
ТОДО картинки

Слайд 10

Кодированные Pages можно сжимать! GZIP LZO Snappy

Кодированные Pages можно сжимать!

GZIP
LZO
Snappy

Слайд 11

Ненужные колонки можно не читать!

Ненужные колонки можно не читать!

Слайд 12

Нужные колонки можно читать параллельно!

Нужные колонки можно читать параллельно!

Слайд 13

Срочно в продакшен!..

Срочно в продакшен!..

Слайд 14

Выбрасываем легаси!.. Postgres VS Parquet MongoDB VS Parquet Cassandra VS Parquet Excel VS Parquet

Выбрасываем легаси!..

Postgres VS Parquet
MongoDB VS Parquet

Cassandra VS Parquet
Excel VS Parquet

Слайд 15

Write once! Append only Read only Только батчевая запись Нет транзакций. Никак. Совсем.

Write once!

Append only
Read only
Только батчевая запись
Нет транзакций. Никак. Совсем.

Слайд 16

Подходит для аналитики Только чтение Большие range scan’ы Сложные фильтры Группирующие запросы

Подходит для аналитики

Только чтение
Большие range scan’ы
Сложные фильтры
Группирующие запросы

Слайд 17

Большие Range Scan’ы Партиционируйте данные! /dataset/2018/07/30/ /dataset/2018/08/01/ /dataset/2018/08/02/

Большие Range Scan’ы

Партиционируйте данные!
/dataset/2018/07/30/
/dataset/2018/08/01/
/dataset/2018/08/02/

Слайд 18

Сложные фильтры

Сложные фильтры

Слайд 19

Predicate Pushdown Только простые условия ( , ==, IN, null)

Predicate Pushdown

Только простые условия (<, >, ==, IN, null)
Заранее заданные константы
Можно

комбинировать логически (OR, AND, NOT)
+ Специальные условия для строк (StartsWith)

https://db-blog.web.cern.ch/blog/luca-canali/2017-06-diving-spark-and-parquet-workloads-example

Слайд 20

Predicate Pushdown Не эффективен для чтения одной строки! select * from table where id = 1234

Predicate Pushdown

Не эффективен для чтения одной строки!
select * from table where

id = 1234
Слайд 21

Pred. Pushdown + Encoding + Sorting

Pred. Pushdown + Encoding + Sorting

Слайд 22

А теперь можно в продакшен?

А теперь можно в продакшен?

Слайд 23

Не всё так просто! Приходится: Сортировать и партиционировать Оптимизировать типы Контролировать размеры

Не всё так просто!

Приходится:
Сортировать и партиционировать
Оптимизировать типы
Контролировать размеры

Слайд 24

Оптимизация типов Чем меньше тип – тем лучше XML, JSON

Оптимизация типов

Чем меньше тип – тем лучше
XML, JSON -> Infer schema

-> Struct
Plain text -> Parsed struct
float -> int (?)
Слайд 25

parquet.block.size Больше => лучше сжатие Больше памяти при записи Требует

parquet.block.size

Больше => лучше сжатие
Больше памяти при записи
Требует х2-х3 памяти
Должен умещаться в

HDFS блоке
64 МБ – 1 ГБ (128 МБ)

https://www.slideshare.net/RyanBlue3/parquet-performance-tuning-the-missing-guide

Слайд 26

Несколько блоков в файле? Формат позволяет Но нарушается граница HDFS блоков

Несколько блоков в файле?

Формат позволяет
Но нарушается граница HDFS блоков

Слайд 27

Один файл – один блок! parquet.block.size == dfs.block.size Делайте repartition перед записью Держите 10-20% запас

Один файл – один блок!

parquet.block.size == dfs.block.size
Делайте repartition перед записью
Держите 10-20%

запас
Слайд 28

Repartition - до df // 200 tasks .write .parquet(path) !hdfs

Repartition - до

df
// 200 tasks
.write
.parquet(path)
!hdfs dfs –ls –h

$path | tail -1
180.9M /dataset/part-00199-hash.parquet
Слайд 29

Repartition – после df .repartition(320) .write .parquet(path) !hdfs dfs –ls

Repartition – после

df
.repartition(320)
.write
.parquet(path)
!hdfs dfs –ls –h $path |

tail -1
118.3M /dataset/part-00319-hash.parquet
Слайд 30

parquet.page.size Больше => лучше сжатие Меньше => эффективнее Predicate Pushdown

parquet.page.size

Больше => лучше сжатие
Меньше => эффективнее Predicate Pushdown
Читается целиком в память
8

кб – 1 МБ (1 МБ)

https://www.slideshare.net/RyanBlue3/parquet-performance-tuning-the-missing-guide

Слайд 31

parquet.dictionary.page.size Одна страница dictionary на колонку Держится в памяти целиком

parquet.dictionary.page.size

Одна страница dictionary на колонку
Держится в памяти целиком при чтении
Увеличивайте при

работе с повторяющимся строками
(1 МБ)

https://www.slideshare.net/RyanBlue3/parquet-performance-tuning-the-missing-guide

Слайд 32

Теперь-то всё будет хорошо!..

Теперь-то всё будет хорошо!..

Слайд 33

Spark Streaming – Append stream .write .mode(Append) .parquet(path)

Spark Streaming – Append

stream
.write
.mode(Append)
.parquet(path)

Слайд 34

Много маленьких файликов Много HDFS блоков Неэффективное использование DataNode Высокая

Много маленьких файликов

Много HDFS блоков
Неэффективное использование DataNode
Высокая нагрузка на NameNode
Много Spark

Tasks
Большой оверхед на старт
Нагрузка на мастер
Слайд 35

1. Убирайте партиции stream .coalesce(1) .write .mode(Append) .parquet(landPath) https://evoeftimov.wordpress.com/2017/08/29/spark-streaming-parquet-and-too-many-small-output-files/

1. Убирайте партиции

stream
.coalesce(1)
.write
.mode(Append)
.parquet(landPath)

https://evoeftimov.wordpress.com/2017/08/29/spark-streaming-parquet-and-too-many-small-output-files/

Слайд 36

2. Перекладывайте потоки spark .read.parquet(landPath) .repartition(partitions, key) .sortWithinPartitions(keys) .write.parquet(path) https://evoeftimov.wordpress.com/2017/08/29/spark-streaming-parquet-and-too-many-small-output-files/

2. Перекладывайте потоки

spark
.read.parquet(landPath)
.repartition(partitions, key)
.sortWithinPartitions(keys)
.write.parquet(path)

https://evoeftimov.wordpress.com/2017/08/29/spark-streaming-parquet-and-too-many-small-output-files/

Слайд 37

Spark VS Impala VS Hive Кто быстрее? Кто совместим?!

Spark VS Impala VS Hive

Кто быстрее?
Кто совместим?!

Слайд 38

Имплементации Parquet apache/parquet-mr (Java) apache/parquet-cpp (C++) Spark Catalyst (Scala) Dask/fastparquet (Python)

Имплементации Parquet

apache/parquet-mr (Java)
apache/parquet-cpp (C++)
Spark Catalyst (Scala)
Dask/fastparquet (Python)

Слайд 39

Decimal Не читается spark.sql.parquet.writeLegacyFormat https://issues.apache.org/jira/browse/IMPALA-2494 https://issues.apache.org/jira/browse/SPARK-10400 https://issues.apache.org/jira/browse/SPARK-6777 https://issues.apache.org/jira/browse/SPARK-20937 https://issues.apache.org/jira/browse/SPARK-20297 https://stackoverflow.com/questions/44279870/

Decimal

Не читается
spark.sql.parquet.writeLegacyFormat

https://issues.apache.org/jira/browse/IMPALA-2494
https://issues.apache.org/jira/browse/SPARK-10400
https://issues.apache.org/jira/browse/SPARK-6777
https://issues.apache.org/jira/browse/SPARK-20937
https://issues.apache.org/jira/browse/SPARK-20297

https://stackoverflow.com/questions/44279870/

Слайд 40

Timestamp Не читается Теряет таймзону spark.sql.parquet.writeLegacyFormat spark.sql.parquet.int96AsTimestamp spark.sql.parquet.outputTimestampType spark.sql.parquet.int64AsTimestampMillis https://issues.apache.org/jira/browse/HIVE-12767 https://issues.apache.org/jira/browse/HIVE-13534 https://issues.apache.org/jira/browse/SPARK-12297 https://github.com/apache/spark/blob/master/sql/catalyst/ src/main/scala/org/apache/spark/sql/internal/SQLConf.scala

Timestamp

Не читается
Теряет таймзону
spark.sql.parquet.writeLegacyFormat
spark.sql.parquet.int96AsTimestamp
spark.sql.parquet.outputTimestampType
spark.sql.parquet.int64AsTimestampMillis

https://issues.apache.org/jira/browse/HIVE-12767
https://issues.apache.org/jira/browse/HIVE-13534
https://issues.apache.org/jira/browse/SPARK-12297

https://github.com/apache/spark/blob/master/sql/catalyst/
src/main/scala/org/apache/spark/sql/internal/SQLConf.scala

Слайд 41

JSON/BSON Не нужен Но там всё равно что-то не работает https://issues.apache.org/jira/browse/SPARK-16216 https://gist.github.com/squito/f348508ca7903ec2e1a64f4233e7aa70

JSON/BSON

Не нужен
Но там всё равно что-то не работает

https://issues.apache.org/jira/browse/SPARK-16216

https://gist.github.com/squito/f348508ca7903ec2e1a64f4233e7aa70

Слайд 42

Spark Legacy Format Был дефолтным до Spark 1.5.9 Примерно 2015ый

Spark Legacy Format

Был дефолтным до Spark 1.5.9
Примерно 2015ый
Примерно Parquet 1.6.x
Не задокументирован
SPARK-20937

«Может, всё-таки задокументируем?»
spark.sql.parquet.writeLegacyFormat
==
!spark.sql.parquet.followParquetFormatSpec

https://issues.apache.org/jira/browse/SPARK-20937

Слайд 43

Impala? Ищет колонки по номерам, а не по именам Не

Impala?

Ищет колонки по номерам, а не по именам
Не поддерживает LZO
Не поддерживает

binary
Проблемы с Decimal и Timestamp
spark.sql.parquet.writeLegacyFormat spark.sql.parquet.binaryAsString

https://www.cloudera.com/documentation/enterprise/5-8-x/topics/impala_parquet.html

Слайд 44

Sqoop? Не используйте Parquet в Sqoop! Не умеет repartitioning OOM’ы

Sqoop?

Не используйте Parquet в Sqoop!
Не умеет repartitioning
OOM’ы

Слайд 45

ColumnWriter.writePage() Проверки, что пора писать очередной Page: initial-page-run check next-page-size

ColumnWriter.writePage()

Проверки, что пора писать очередной Page:
initial-page-run check
next-page-size check
Когда можно ошибиться:
Строки большие

с самого начала
Строки маленькие, но есть несколько больших

https://issues.apache.org/jira/browse/PARQUET-99
https://www.cloudera.com/documentation/enterprise/release-notes/topics/cdh_rn_sqoop_ki.html

Слайд 46

Если совсем нельзя обойти parquet.page.size.row.check.min parquet.page.size.row.check.max parquet.page.size.check.estimate https://github.com/apache/parquet-mr/blob/master/parquet-column/ src/main/java/org/apache/parquet/column/impl/ColumnWriterV1.java

Если совсем нельзя обойти

parquet.page.size.row.check.min
parquet.page.size.row.check.max
parquet.page.size.check.estimate

https://github.com/apache/parquet-mr/blob/master/parquet-column/
src/main/java/org/apache/parquet/column/impl/ColumnWriterV1.java

Слайд 47

Schema Merging _metadata, _common_metadata Можно просто отключить parquet.enable.summary-metadata=false spark.sql.parquet.mergeSchema=false https://stackoverflow.com/questions/36739940/

Schema Merging

_metadata, _common_metadata
Можно просто отключить
parquet.enable.summary-metadata=false
spark.sql.parquet.mergeSchema=false

https://stackoverflow.com/questions/36739940/

Слайд 48

А теперь – дьявольщина! Parquet буферизируется в памяти Контрольные суммы

А теперь – дьявольщина!

Parquet буферизируется в памяти
Контрольные суммы не предусмотрены
Память может

биться
Могут биться файлы

https://lists.apache.org/thread.html/495804dc92af580486c146fdb8e58d89d06d204b611bcc1e911c4fdc@%3Cdev.spark.apache.org%3E

Слайд 49

А нормального ничего нет?

А нормального ничего нет?

Слайд 50

Напомните, зачем нам Parquet? Экономия по месту Быстрая фильтрация Чтение по частям HDFS-native Очень дорогая запись

Напомните, зачем нам Parquet?

Экономия по месту
Быстрая фильтрация
Чтение по частям
HDFS-native
Очень дорогая запись

Слайд 51

Может, CSV? Человекочитаемый Нет оверхеда для текстов Поддерживает append Бейзлайн по ужасности Плоская структура

Может, CSV?

Человекочитаемый
Нет оверхеда для текстов
Поддерживает append
Бейзлайн по ужасности
Плоская структура

Слайд 52

Может, JSON? Человекочитаемый Schema-free Еще более медленный и жирный

Может, JSON?

Человекочитаемый
Schema-free
Еще более медленный и жирный

Слайд 53

А XML?

А XML?

Слайд 54

Avro? Поддерживает append HDFS-native Продвинутая эволюция схем Менее производителен, чем Parquet

Avro?

Поддерживает append
HDFS-native
Продвинутая эволюция схем
Менее производителен, чем Parquet

Слайд 55

Parquet VS ORC – всё сложно По объему и скорости

Parquet VS ORC – всё сложно

По объему и скорости однозначного лидера

нет
Hive отстаёт в поддержке Parquet
Spark отстаёт в поддержке ORC
Impala игнорирует существование ORC

https://medium.com/@denisgabaydulin/choosing-a-columnar-format-e49333395f92
https://www.slideshare.net/HadoopSummit/file-format-benchmark-avro-json-orc-parquet

Слайд 56

MPP? Для структурированных данных специализированные MPP-системы на порядок быстрее Spark + HDFS + Parquet.

MPP?

Для структурированных данных
специализированные MPP-системы
на порядок быстрее Spark + HDFS + Parquet.

Слайд 57

Ясно, понятно…

Ясно, понятно…

Слайд 58

Parquet Прекрасный формат для исторических данных Для Spark, особенно на

Parquet

Прекрасный формат для исторических данных
Для Spark, особенно на CDH – альтернатив

нет
Имеет массу тонкостей
Эффективность варьируется на порядок
Слайд 59

Главные тонкости Пиши один раз, читай много Структурируй данные Партиционируй

Главные тонкости

Пиши один раз, читай много
Структурируй данные
Партиционируй и перекладывай потоки
Оптимизируй размеры
Не

верь в интероперабельность
Имя файла: Как-класть-Parquet.pptx
Количество просмотров: 45
Количество скачиваний: 0