Как класть Parquet презентация

Август 4, 2022

Главная
Маркетинг
Как класть Parquet

Содержание

2. План Что за паркет? Зачем всё это? Сильные и слабые стороны Что можно покрутить Как делать
3. Apache Parquet is a columnar storage format available to any project in the Hadoop ecosystem regardless
4. Как устроен https://github.com/apache/parquet-format
5. Колоночное хранение https://habr.com/company/wrike/blog/279797/ https://en.wikipedia.org/wiki/Column-oriented_DBMS Row-oriented Column-oriented
6. Вложенные структуры https://habr.com/post/207234/ https://ai.google/research/pubs/pub36632 https://stackoverflow.com/questions/43568132/
7. Колоночное хранение в Parquet
8. И что?
9. Pages можно кодировать! Bit packing Run-length encoding (RLE) Delta encoding Dictionary encoding ТОДО картинки
10. Кодированные Pages можно сжимать! GZIP LZO Snappy
11. Ненужные колонки можно не читать!
12. Нужные колонки можно читать параллельно!
13. Срочно в продакшен!..
14. Выбрасываем легаси!.. Postgres VS Parquet MongoDB VS Parquet Cassandra VS Parquet Excel VS Parquet
15. Write once! Append only Read only Только батчевая запись Нет транзакций. Никак. Совсем.
16. Подходит для аналитики Только чтение Большие range scan’ы Сложные фильтры Группирующие запросы
17. Большие Range Scan’ы Партиционируйте данные! /dataset/2018/07/30/ /dataset/2018/08/01/ /dataset/2018/08/02/
18. Сложные фильтры
19. Predicate Pushdown Только простые условия ( , ==, IN, null) Заранее заданные константы Можно комбинировать логически
20. Predicate Pushdown Не эффективен для чтения одной строки! select * from table where id = 1234
21. Pred. Pushdown + Encoding + Sorting
22. А теперь можно в продакшен?
23. Не всё так просто! Приходится: Сортировать и партиционировать Оптимизировать типы Контролировать размеры
24. Оптимизация типов Чем меньше тип – тем лучше XML, JSON -> Infer schema -> Struct Plain
25. parquet.block.size Больше => лучше сжатие Больше памяти при записи Требует х2-х3 памяти Должен умещаться в HDFS
26. Несколько блоков в файле? Формат позволяет Но нарушается граница HDFS блоков
27. Один файл – один блок! parquet.block.size == dfs.block.size Делайте repartition перед записью Держите 10-20% запас
28. Repartition - до df // 200 tasks .write .parquet(path) !hdfs dfs –ls –h $path | tail
29. Repartition – после df .repartition(320) .write .parquet(path) !hdfs dfs –ls –h $path | tail -1 118.3M
30. parquet.page.size Больше => лучше сжатие Меньше => эффективнее Predicate Pushdown Читается целиком в память 8 кб
31. parquet.dictionary.page.size Одна страница dictionary на колонку Держится в памяти целиком при чтении Увеличивайте при работе с
32. Теперь-то всё будет хорошо!..
33. Spark Streaming – Append stream .write .mode(Append) .parquet(path)
34. Много маленьких файликов Много HDFS блоков Неэффективное использование DataNode Высокая нагрузка на NameNode Много Spark Tasks
35. 1. Убирайте партиции stream .coalesce(1) .write .mode(Append) .parquet(landPath) https://evoeftimov.wordpress.com/2017/08/29/spark-streaming-parquet-and-too-many-small-output-files/
36. 2. Перекладывайте потоки spark .read.parquet(landPath) .repartition(partitions, key) .sortWithinPartitions(keys) .write.parquet(path) https://evoeftimov.wordpress.com/2017/08/29/spark-streaming-parquet-and-too-many-small-output-files/
37. Spark VS Impala VS Hive Кто быстрее? Кто совместим?!
38. Имплементации Parquet apache/parquet-mr (Java) apache/parquet-cpp (C++) Spark Catalyst (Scala) Dask/fastparquet (Python)
39. Decimal Не читается spark.sql.parquet.writeLegacyFormat https://issues.apache.org/jira/browse/IMPALA-2494 https://issues.apache.org/jira/browse/SPARK-10400 https://issues.apache.org/jira/browse/SPARK-6777 https://issues.apache.org/jira/browse/SPARK-20937 https://issues.apache.org/jira/browse/SPARK-20297 https://stackoverflow.com/questions/44279870/
40. Timestamp Не читается Теряет таймзону spark.sql.parquet.writeLegacyFormat spark.sql.parquet.int96AsTimestamp spark.sql.parquet.outputTimestampType spark.sql.parquet.int64AsTimestampMillis https://issues.apache.org/jira/browse/HIVE-12767 https://issues.apache.org/jira/browse/HIVE-13534 https://issues.apache.org/jira/browse/SPARK-12297 https://github.com/apache/spark/blob/master/sql/catalyst/ src/main/scala/org/apache/spark/sql/internal/SQLConf.scala
41. JSON/BSON Не нужен Но там всё равно что-то не работает https://issues.apache.org/jira/browse/SPARK-16216 https://gist.github.com/squito/f348508ca7903ec2e1a64f4233e7aa70
42. Spark Legacy Format Был дефолтным до Spark 1.5.9 Примерно 2015ый Примерно Parquet 1.6.x Не задокументирован SPARK-20937
43. Impala? Ищет колонки по номерам, а не по именам Не поддерживает LZO Не поддерживает binary Проблемы
44. Sqoop? Не используйте Parquet в Sqoop! Не умеет repartitioning OOM’ы
45. ColumnWriter.writePage() Проверки, что пора писать очередной Page: initial-page-run check next-page-size check Когда можно ошибиться: Строки большие
46. Если совсем нельзя обойти parquet.page.size.row.check.min parquet.page.size.row.check.max parquet.page.size.check.estimate https://github.com/apache/parquet-mr/blob/master/parquet-column/ src/main/java/org/apache/parquet/column/impl/ColumnWriterV1.java
47. Schema Merging _metadata, _common_metadata Можно просто отключить parquet.enable.summary-metadata=false spark.sql.parquet.mergeSchema=false https://stackoverflow.com/questions/36739940/
48. А теперь – дьявольщина! Parquet буферизируется в памяти Контрольные суммы не предусмотрены Память может биться Могут
49. А нормального ничего нет?
50. Напомните, зачем нам Parquet? Экономия по месту Быстрая фильтрация Чтение по частям HDFS-native Очень дорогая запись
51. Может, CSV? Человекочитаемый Нет оверхеда для текстов Поддерживает append Бейзлайн по ужасности Плоская структура
52. Может, JSON? Человекочитаемый Schema-free Еще более медленный и жирный
53. А XML?
54. Avro? Поддерживает append HDFS-native Продвинутая эволюция схем Менее производителен, чем Parquet
55. Parquet VS ORC – всё сложно По объему и скорости однозначного лидера нет Hive отстаёт в
56. MPP? Для структурированных данных специализированные MPP-системы на порядок быстрее Spark + HDFS + Parquet.
57. Ясно, понятно…
58. Parquet Прекрасный формат для исторических данных Для Spark, особенно на CDH – альтернатив нет Имеет массу
59. Главные тонкости Пиши один раз, читай много Структурируй данные Партиционируй и перекладывай потоки Оптимизируй размеры Не
61. Скачать презентацию

Слайд 2

План
Что за паркет?
Зачем всё это?
Сильные и слабые стороны
Что можно покрутить
Как делать

нельзя
А есть что-нибудь получше?

Слайд 3

Apache Parquet
is a columnar storage format
available to any project in the

Hadoop ecosystem
regardless of the choice of data processing framework, data model or programming language.

https://parquet.apache.org/

Слайд 4

Как устроен
https://github.com/apache/parquet-format

Слайд 5

Колоночное хранение
https://habr.com/company/wrike/blog/279797/
https://en.wikipedia.org/wiki/Column-oriented_DBMS
Row-oriented
Column-oriented

Слайд 6

Вложенные структуры
https://habr.com/post/207234/
https://ai.google/research/pubs/pub36632
https://stackoverflow.com/questions/43568132/

Слайд 7

Колоночное хранение в Parquet

Слайд 8

И что?

Слайд 9

Pages можно кодировать!
Bit packing
Run-length encoding (RLE)
Delta encoding
Dictionary encoding
ТОДО картинки

Слайд 10

Кодированные Pages можно сжимать!
GZIP
LZO
Snappy

Слайд 11

Ненужные колонки можно не читать!

Слайд 12

Нужные колонки можно читать параллельно!

Слайд 13

Срочно в продакшен!..

Слайд 14

Выбрасываем легаси!..
Postgres VS Parquet
MongoDB VS Parquet
Cassandra VS Parquet
Excel VS Parquet

Слайд 15

Write once!
Append only
Read only
Только батчевая запись
Нет транзакций. Никак. Совсем.

Слайд 16

Подходит для аналитики
Только чтение
Большие range scan’ы
Сложные фильтры
Группирующие запросы

Слайд 17

Большие Range Scan’ы
Партиционируйте данные!
/dataset/2018/07/30/
/dataset/2018/08/01/
/dataset/2018/08/02/

Слайд 18

Сложные фильтры

Слайд 19

Predicate Pushdown
Только простые условия (<, >, ==, IN, null)
Заранее заданные константы
Можно

комбинировать логически (OR, AND, NOT)
+ Специальные условия для строк (StartsWith)

https://db-blog.web.cern.ch/blog/luca-canali/2017-06-diving-spark-and-parquet-workloads-example

Слайд 20

Predicate Pushdown
Не эффективен для чтения одной строки!
select * from table where

id = 1234

Слайд 21

Pred. Pushdown + Encoding + Sorting

Слайд 22

А теперь можно в продакшен?

Слайд 23

Не всё так просто!
Приходится:
Сортировать и партиционировать
Оптимизировать типы
Контролировать размеры

Слайд 24

Оптимизация типов
Чем меньше тип – тем лучше
XML, JSON -> Infer schema

-> Struct
Plain text -> Parsed struct
float -> int (?)

Слайд 25

parquet.block.size
Больше => лучше сжатие
Больше памяти при записи
Требует х2-х3 памяти
Должен умещаться в

HDFS блоке
64 МБ – 1 ГБ (128 МБ)

https://www.slideshare.net/RyanBlue3/parquet-performance-tuning-the-missing-guide

Слайд 26

Несколько блоков в файле?
Формат позволяет
Но нарушается граница HDFS блоков

Слайд 27

Один файл – один блок!
parquet.block.size == dfs.block.size
Делайте repartition перед записью
Держите 10-20%

запас

Слайд 28

Repartition - до
df
// 200 tasks
.write
.parquet(path)
!hdfs dfs –ls –h

$path | tail -1
180.9M /dataset/part-00199-hash.parquet

Слайд 29

Repartition – после
df
.repartition(320)
.write
.parquet(path)
!hdfs dfs –ls –h $path |

tail -1
118.3M /dataset/part-00319-hash.parquet

Слайд 30

parquet.page.size
Больше => лучше сжатие
Меньше => эффективнее Predicate Pushdown
Читается целиком в память
8

кб – 1 МБ (1 МБ)

https://www.slideshare.net/RyanBlue3/parquet-performance-tuning-the-missing-guide

Слайд 31

parquet.dictionary.page.size
Одна страница dictionary на колонку
Держится в памяти целиком при чтении
Увеличивайте при

работе с повторяющимся строками
(1 МБ)

https://www.slideshare.net/RyanBlue3/parquet-performance-tuning-the-missing-guide

Слайд 32

Теперь-то всё будет хорошо!..

Слайд 33

Spark Streaming – Append
stream
.write
.mode(Append)
.parquet(path)

Слайд 34

Много маленьких файликов
Много HDFS блоков
Неэффективное использование DataNode
Высокая нагрузка на NameNode
Много Spark

Tasks
Большой оверхед на старт
Нагрузка на мастер

Слайд 35

1. Убирайте партиции
stream
.coalesce(1)
.write
.mode(Append)
.parquet(landPath)
https://evoeftimov.wordpress.com/2017/08/29/spark-streaming-parquet-and-too-many-small-output-files/

Слайд 36

2. Перекладывайте потоки
spark
.read.parquet(landPath)
.repartition(partitions, key)
.sortWithinPartitions(keys)
.write.parquet(path)
https://evoeftimov.wordpress.com/2017/08/29/spark-streaming-parquet-and-too-many-small-output-files/

Слайд 37

Spark VS Impala VS Hive
Кто быстрее?
Кто совместим?!

Слайд 38

Имплементации Parquet
apache/parquet-mr (Java)
apache/parquet-cpp (C++)
Spark Catalyst (Scala)
Dask/fastparquet (Python)

Слайд 39

Decimal
Не читается
spark.sql.parquet.writeLegacyFormat
https://issues.apache.org/jira/browse/IMPALA-2494
https://issues.apache.org/jira/browse/SPARK-10400
https://issues.apache.org/jira/browse/SPARK-6777
https://issues.apache.org/jira/browse/SPARK-20937
https://issues.apache.org/jira/browse/SPARK-20297
https://stackoverflow.com/questions/44279870/

Слайд 40

Timestamp
Не читается
Теряет таймзону
spark.sql.parquet.writeLegacyFormat
spark.sql.parquet.int96AsTimestamp
spark.sql.parquet.outputTimestampType
spark.sql.parquet.int64AsTimestampMillis
https://issues.apache.org/jira/browse/HIVE-12767
https://issues.apache.org/jira/browse/HIVE-13534
https://issues.apache.org/jira/browse/SPARK-12297
https://github.com/apache/spark/blob/master/sql/catalyst/
src/main/scala/org/apache/spark/sql/internal/SQLConf.scala

Слайд 41

JSON/BSON
Не нужен
Но там всё равно что-то не работает
https://issues.apache.org/jira/browse/SPARK-16216
https://gist.github.com/squito/f348508ca7903ec2e1a64f4233e7aa70

Слайд 42

Spark Legacy Format
Был дефолтным до Spark 1.5.9
Примерно 2015ый
Примерно Parquet 1.6.x
Не задокументирован
SPARK-20937

«Может, всё-таки задокументируем?»
spark.sql.parquet.writeLegacyFormat
==
!spark.sql.parquet.followParquetFormatSpec

https://issues.apache.org/jira/browse/SPARK-20937

Слайд 43

Impala?
Ищет колонки по номерам, а не по именам
Не поддерживает LZO
Не поддерживает

binary
Проблемы с Decimal и Timestamp
spark.sql.parquet.writeLegacyFormat spark.sql.parquet.binaryAsString

https://www.cloudera.com/documentation/enterprise/5-8-x/topics/impala_parquet.html

Слайд 44

Sqoop?
Не используйте Parquet в Sqoop!
Не умеет repartitioning
OOM’ы

Слайд 45

ColumnWriter.writePage()
Проверки, что пора писать очередной Page:
initial-page-run check
next-page-size check
Когда можно ошибиться:
Строки большие

с самого начала
Строки маленькие, но есть несколько больших

https://issues.apache.org/jira/browse/PARQUET-99
https://www.cloudera.com/documentation/enterprise/release-notes/topics/cdh_rn_sqoop_ki.html

Слайд 46

Если совсем нельзя обойти
parquet.page.size.row.check.min
parquet.page.size.row.check.max
parquet.page.size.check.estimate
https://github.com/apache/parquet-mr/blob/master/parquet-column/
src/main/java/org/apache/parquet/column/impl/ColumnWriterV1.java

Слайд 47

Schema Merging
_metadata, _common_metadata
Можно просто отключить
parquet.enable.summary-metadata=false
spark.sql.parquet.mergeSchema=false
https://stackoverflow.com/questions/36739940/

Слайд 48

А теперь – дьявольщина!
Parquet буферизируется в памяти
Контрольные суммы не предусмотрены
Память может

биться
Могут биться файлы

https://lists.apache.org/thread.html/495804dc92af580486c146fdb8e58d89d06d204b611bcc1e911c4fdc@%3Cdev.spark.apache.org%3E

Слайд 49

А нормального ничего нет?

Слайд 50

Напомните, зачем нам Parquet?
Экономия по месту
Быстрая фильтрация
Чтение по частям
HDFS-native
Очень дорогая запись

Слайд 51

Может, CSV?
Человекочитаемый
Нет оверхеда для текстов
Поддерживает append
Бейзлайн по ужасности
Плоская структура

Слайд 52

Может, JSON?
Человекочитаемый
Schema-free
Еще более медленный и жирный

Слайд 53

А XML?

Слайд 54

Avro?
Поддерживает append
HDFS-native
Продвинутая эволюция схем
Менее производителен, чем Parquet

Слайд 55

Parquet VS ORC – всё сложно
По объему и скорости однозначного лидера

нет
Hive отстаёт в поддержке Parquet
Spark отстаёт в поддержке ORC
Impala игнорирует существование ORC

https://medium.com/@denisgabaydulin/choosing-a-columnar-format-e49333395f92
https://www.slideshare.net/HadoopSummit/file-format-benchmark-avro-json-orc-parquet

Слайд 56

MPP?
Для структурированных данных
специализированные MPP-системы
на порядок быстрее Spark + HDFS + Parquet.

Слайд 57

Ясно, понятно…

Слайд 58

Parquet
Прекрасный формат для исторических данных
Для Spark, особенно на CDH – альтернатив

нет
Имеет массу тонкостей
Эффективность варьируется на порядок

Слайд 59

Главные тонкости
Пиши один раз, читай много
Структурируй данные
Партиционируй и перекладывай потоки
Оптимизируй размеры
Не

верь в интероперабельность

Как класть Parquet презентация

Содержание

ПланЧто за паркет?Зачем всё это?Сильные и слабые стороныЧто можно покрутитьКак делать

Apache Parquetis a columnar storage formatavailable to any project in the

Как устроенhttps://github.com/apache/parquet-format

Колоночное хранениеhttps://habr.com/company/wrike/blog/279797/https://en.wikipedia.org/wiki/Column-oriented_DBMSRow-orientedColumn-oriented

Вложенные структурыhttps://habr.com/post/207234/https://ai.google/research/pubs/pub36632https://stackoverflow.com/questions/43568132/

Колоночное хранение в Parquet

И что?

Pages можно кодировать!Bit packingRun-length encoding (RLE)Delta encodingDictionary encodingТОДО картинки

Кодированные Pages можно сжимать!GZIPLZOSnappy

Ненужные колонки можно не читать!

Нужные колонки можно читать параллельно!

Срочно в продакшен!..

Выбрасываем легаси!..Postgres VS ParquetMongoDB VS ParquetCassandra VS ParquetExcel VS Parquet

Write once!Append onlyRead onlyТолько батчевая записьНет транзакций. Никак. Совсем.

Подходит для аналитикиТолько чтениеБольшие range scan’ыСложные фильтрыГруппирующие запросы

Большие Range Scan’ыПартиционируйте данные! /dataset/2018/07/30/ /dataset/2018/08/01/ /dataset/2018/08/02/

Сложные фильтры

Predicate PushdownТолько простые условия (<, >, ==, IN, null)Заранее заданные константыМожно

Predicate PushdownНе эффективен для чтения одной строки!select * from table where

Pred. Pushdown + Encoding + Sorting

А теперь можно в продакшен?

Не всё так просто!Приходится:Сортировать и партиционироватьОптимизировать типыКонтролировать размеры

Оптимизация типовЧем меньше тип – тем лучшеXML, JSON -> Infer schema

parquet.block.sizeБольше => лучше сжатиеБольше памяти при записиТребует х2-х3 памятиДолжен умещаться в

Несколько блоков в файле?Формат позволяетНо нарушается граница HDFS блоков

Один файл – один блок!parquet.block.size == dfs.block.sizeДелайте repartition перед записьюДержите 10-20%

Repartition - доdf // 200 tasks .write .parquet(path)!hdfs dfs –ls –h

Repartition – послеdf .repartition(320) .write .parquet(path)!hdfs dfs –ls –h $path |

parquet.page.sizeБольше => лучше сжатиеМеньше => эффективнее Predicate PushdownЧитается целиком в память8

parquet.dictionary.page.sizeОдна страница dictionary на колонкуДержится в памяти целиком при чтенииУвеличивайте при

Теперь-то всё будет хорошо!..

Spark Streaming – Appendstream .write .mode(Append) .parquet(path)

Много маленьких файликовМного HDFS блоковНеэффективное использование DataNodeВысокая нагрузка на NameNodeМного Spark

1. Убирайте партицииstream .coalesce(1) .write .mode(Append) .parquet(landPath)https://evoeftimov.wordpress.com/2017/08/29/spark-streaming-parquet-and-too-many-small-output-files/

2. Перекладывайте потокиspark .read.parquet(landPath) .repartition(partitions, key) .sortWithinPartitions(keys) .write.parquet(path)https://evoeftimov.wordpress.com/2017/08/29/spark-streaming-parquet-and-too-many-small-output-files/

Spark VS Impala VS HiveКто быстрее?Кто совместим?!

Имплементации Parquetapache/parquet-mr (Java)apache/parquet-cpp (C++)Spark Catalyst (Scala)Dask/fastparquet (Python)

JSON/BSONНе нуженНо там всё равно что-то не работаетhttps://issues.apache.org/jira/browse/SPARK-16216https://gist.github.com/squito/f348508ca7903ec2e1a64f4233e7aa70

Spark Legacy FormatБыл дефолтным до Spark 1.5.9Примерно 2015ыйПримерно Parquet 1.6.xНе задокументированSPARK-20937

Impala?Ищет колонки по номерам, а не по именамНе поддерживает LZOНе поддерживает

Sqoop?Не используйте Parquet в Sqoop!Не умеет repartitioningOOM’ы

ColumnWriter.writePage()Проверки, что пора писать очередной Page:initial-page-run checknext-page-size checkКогда можно ошибиться:Строки большие

Если совсем нельзя обойтиparquet.page.size.row.check.minparquet.page.size.row.check.maxparquet.page.size.check.estimatehttps://github.com/apache/parquet-mr/blob/master/parquet-column/src/main/java/org/apache/parquet/column/impl/ColumnWriterV1.java

Schema Merging_metadata, _common_metadataМожно просто отключитьparquet.enable.summary-metadata=falsespark.sql.parquet.mergeSchema=falsehttps://stackoverflow.com/questions/36739940/

А теперь – дьявольщина!Parquet буферизируется в памятиКонтрольные суммы не предусмотреныПамять может

А нормального ничего нет?

Напомните, зачем нам Parquet?Экономия по местуБыстрая фильтрацияЧтение по частямHDFS-nativeОчень дорогая запись

Может, CSV?ЧеловекочитаемыйНет оверхеда для текстовПоддерживает appendБейзлайн по ужасностиПлоская структура

Может, JSON?ЧеловекочитаемыйSchema-freeЕще более медленный и жирный

А XML?

Avro?Поддерживает appendHDFS-nativeПродвинутая эволюция схемМенее производителен, чем Parquet

Parquet VS ORC – всё сложноПо объему и скорости однозначного лидера

MPP?Для структурированных данныхспециализированные MPP-системына порядок быстрее Spark + HDFS + Parquet.

Ясно, понятно…

ParquetПрекрасный формат для исторических данныхДля Spark, особенно на CDH – альтернатив

Главные тонкостиПиши один раз, читай многоСтруктурируй данныеПартиционируй и перекладывай потокиОптимизируй размерыНе

Похожие презентации

План
Что за паркет?
Зачем всё это?
Сильные и слабые стороны
Что можно покрутить
Как делать

Apache Parquet
is a columnar storage format
available to any project in the

Как устроен
https://github.com/apache/parquet-format

Колоночное хранение
https://habr.com/company/wrike/blog/279797/
https://en.wikipedia.org/wiki/Column-oriented_DBMS
Row-oriented
Column-oriented

Вложенные структуры
https://habr.com/post/207234/
https://ai.google/research/pubs/pub36632
https://stackoverflow.com/questions/43568132/

Pages можно кодировать!
Bit packing
Run-length encoding (RLE)
Delta encoding
Dictionary encoding
ТОДО картинки

Кодированные Pages можно сжимать!
GZIP
LZO
Snappy

Выбрасываем легаси!..
Postgres VS Parquet
MongoDB VS Parquet
Cassandra VS Parquet
Excel VS Parquet

Write once!
Append only
Read only
Только батчевая запись
Нет транзакций. Никак. Совсем.

Подходит для аналитики
Только чтение
Большие range scan’ы
Сложные фильтры
Группирующие запросы

Большие Range Scan’ы
Партиционируйте данные!
/dataset/2018/07/30/
/dataset/2018/08/01/
/dataset/2018/08/02/

Predicate Pushdown
Только простые условия (<, >, ==, IN, null)
Заранее заданные константы
Можно

Predicate Pushdown
Не эффективен для чтения одной строки!
select * from table where

Не всё так просто!
Приходится:
Сортировать и партиционировать
Оптимизировать типы
Контролировать размеры

Оптимизация типов
Чем меньше тип – тем лучше
XML, JSON -> Infer schema

parquet.block.size
Больше => лучше сжатие
Больше памяти при записи
Требует х2-х3 памяти
Должен умещаться в

Несколько блоков в файле?
Формат позволяет
Но нарушается граница HDFS блоков

Один файл – один блок!
parquet.block.size == dfs.block.size
Делайте repartition перед записью
Держите 10-20%

Repartition - до
df
// 200 tasks
.write
.parquet(path)
!hdfs dfs –ls –h

Repartition – после
df
.repartition(320)
.write
.parquet(path)
!hdfs dfs –ls –h $path |

parquet.page.size
Больше => лучше сжатие
Меньше => эффективнее Predicate Pushdown
Читается целиком в память
8

parquet.dictionary.page.size
Одна страница dictionary на колонку
Держится в памяти целиком при чтении
Увеличивайте при

Spark Streaming – Append
stream
.write
.mode(Append)
.parquet(path)

Много маленьких файликов
Много HDFS блоков
Неэффективное использование DataNode
Высокая нагрузка на NameNode
Много Spark

1. Убирайте партиции
stream
.coalesce(1)
.write
.mode(Append)
.parquet(landPath)
https://evoeftimov.wordpress.com/2017/08/29/spark-streaming-parquet-and-too-many-small-output-files/

2. Перекладывайте потоки
spark
.read.parquet(landPath)
.repartition(partitions, key)
.sortWithinPartitions(keys)
.write.parquet(path)
https://evoeftimov.wordpress.com/2017/08/29/spark-streaming-parquet-and-too-many-small-output-files/

Spark VS Impala VS Hive
Кто быстрее?
Кто совместим?!

Имплементации Parquet
apache/parquet-mr (Java)
apache/parquet-cpp (C++)
Spark Catalyst (Scala)
Dask/fastparquet (Python)

JSON/BSON
Не нужен
Но там всё равно что-то не работает
https://issues.apache.org/jira/browse/SPARK-16216
https://gist.github.com/squito/f348508ca7903ec2e1a64f4233e7aa70

Spark Legacy Format
Был дефолтным до Spark 1.5.9
Примерно 2015ый
Примерно Parquet 1.6.x
Не задокументирован
SPARK-20937

Impala?
Ищет колонки по номерам, а не по именам
Не поддерживает LZO
Не поддерживает

Sqoop?
Не используйте Parquet в Sqoop!
Не умеет repartitioning
OOM’ы

ColumnWriter.writePage()
Проверки, что пора писать очередной Page:
initial-page-run check
next-page-size check
Когда можно ошибиться:
Строки большие

Если совсем нельзя обойти
parquet.page.size.row.check.min
parquet.page.size.row.check.max
parquet.page.size.check.estimate
https://github.com/apache/parquet-mr/blob/master/parquet-column/
src/main/java/org/apache/parquet/column/impl/ColumnWriterV1.java

Schema Merging
_metadata, _common_metadata
Можно просто отключить
parquet.enable.summary-metadata=false
spark.sql.parquet.mergeSchema=false
https://stackoverflow.com/questions/36739940/

А теперь – дьявольщина!
Parquet буферизируется в памяти
Контрольные суммы не предусмотрены
Память может

Напомните, зачем нам Parquet?
Экономия по месту
Быстрая фильтрация
Чтение по частям
HDFS-native
Очень дорогая запись

Может, CSV?
Человекочитаемый
Нет оверхеда для текстов
Поддерживает append
Бейзлайн по ужасности
Плоская структура

Может, JSON?
Человекочитаемый
Schema-free
Еще более медленный и жирный

Avro?
Поддерживает append
HDFS-native
Продвинутая эволюция схем
Менее производителен, чем Parquet

Parquet VS ORC – всё сложно
По объему и скорости однозначного лидера

MPP?
Для структурированных данных
специализированные MPP-системы
на порядок быстрее Spark + HDFS + Parquet.

Parquet
Прекрасный формат для исторических данных
Для Spark, особенно на CDH – альтернатив

Главные тонкости
Пиши один раз, читай много
Структурируй данные
Партиционируй и перекладывай потоки
Оптимизируй размеры
Не