Содержание
- 2. Два типа больших данных Copyright © Econophysica 2019. All Rights Reserved 2
- 3. «Научные» Big Data Обычно выход датчиков какого-то рода; Может быть ограничение на количество данных, получаемых в
- 4. «Научные» Big Data 4 Copyright © Econophysica 2019. All Rights Reserved
- 5. «Научные» Big Data Насколько растёт точность наших моделей с каждой следующей записью? Сколько стоит получить следующую
- 6. «Научные» Big Data Цена данных обычно низкая; Стабильное хранение данных обычно не требуется; Сами данные не
- 7. «Бизнес» Big Data Бизнес-данные, выросшие настолько, что с ними уже нельзя работать традиционными подходами. Такие данные
- 8. Теорема CAP 8 Copyright © Econophysica 2019. All Rights Reserved
- 9. Теорема CAP Каждое чтение возвращает самые свежие записанные данные либо ошибку. Consistency: 9 Copyright © Econophysica
- 10. Теорема CAP Каждый запрос вернет ответ без гарантий, что в ответе содержатся самые свежие данные. Availability:
- 11. Теорема CAP Система продолжает работать, несмотря на произвольный уровень потери связности её узлов. Partition Tolerance: 11
- 12. Теорема CAP, 3 варианта Система вернет ошибку или таймаут, если не может гарантировать актуальность данных из-за
- 13. Volume, Variety, Veracity, Velocity 13 Copyright © Econophysica 2019. All Rights Reserved
- 14. Volume 14 Copyright © Econophysica 2019. All Rights Reserved
- 15. Volume 15 Copyright © Econophysica 2019. All Rights Reserved CERN
- 16. CERN — Rucio Более350 PB данных, миллиарды файлов, в более чем 120 ЦОД по всему миру.
- 17. Volume CERN Долговременное хранение на плёнке, библиотечные стримерные роботы. 17 Copyright © Econophysica 2019. All Rights
- 18. Volume Wayback Machine http://archive.org >15 петабайт данных, объём растёт на 20 Тб в неделю. 18 Copyright
- 19. Volume Управление объёмом данных; Вложения в хранилища; Разработка специализированного ПО и АО; Использование специализированного ПО от
- 20. Velocity Copyright © Econophysica 2019. All Rights Reserved 20
- 21. Velocity Возможное решение проблемы: 21 Copyright © Econophysica 2019. All Rights Reserved
- 22. Velocity Причина рождения «больших данных»: 22 Copyright © Econophysica 2019. All Rights Reserved
- 23. Velocity ATLAS выдаёт ~100 TB/с со своих датчиков. Лишь ~1 GB/с сохраняется для дальнейшей обработки. Trigger:
- 24. Velocity CERN Trigger hardware 24 Copyright © Econophysica 2019. All Rights Reserved
- 25. Velocity NYSE: 2Gbps link to allow for latency reduction, to allow for even faster high-speed trading.
- 26. Velocity Пути решения проблемы: Kafka, Flume и Logstash дают возможность потокового сбора данных и совместимы с
- 27. Variety Copyright © Econophysica 2019. All Rights Reserved 27
- 28. Variety Copyright © Econophysica 2019. All Rights Reserved 28
- 29. Variety Обработка естественного языка; Текст-в-речь; Классификация изображений; Machine Learning-классификация всего; Семантические технологии, Web 2.0; NoSQL. Универсального
- 30. Veracity Copyright © Econophysica 2019. All Rights Reserved 30
- 31. Veracity Следствие из теории вероятностей Когда объём выборки стремится к бесконечности, вероятность ошибки в данных возрастает
- 32. Veracity: AAA Anyone can say anything about anything at any moment. Разрешение неопределённости: Проверка, либо Реификация.
- 34. Скачать презентацию