Big Data. Революция в области хранения и обработки данных презентация

Июль 26, 2021

Главная
Информатика
Big Data. Революция в области хранения и обработки данных

Содержание

2. Что же такое BIG DATA? Big Data — это наборы данных такого объема, что традиционные инструменты
3. 3 Volume Variety Velocity Volume Реально большие объемы данных в физическом смысле Variety Слабо структурированные и
4. 4 Интернет и мобильные технологии Twitter 175 млн твит сообщений в день Facebook 300 млн фото
5. 5 Основные технологии анализа в BigData MapReduce - это фреймворк для вычисления некоторых наборов распределенных задач
6. 6 Методы анализа используемые в BigData Уникальность подхода больших данных заключается в агрегировании огромного объема неструктурированной
7. Производительность при обработке больших объемов данных можно повысить различными способами: Оборудование: многопроцессорные системы, ОЗУ большой емкости,
8. Комбинирование моделей Пропуская через «сито» моделей можно отсеивать информацию, для анализа которой бесполезны сложные алгоритмы. Для
9. Очень часто оптимальной стратегией анализа является не разработка одной сложной модели, а построение нескольких моделей на
10. Для обработки больших объемов данных нет необходимости перерабатывать всю информацию. Модели можно строить на относительно небольших
11. 11 Самые продвинутые отрасли BigData 01 03 Маркетинг Сегментация рынка Моделирование приобретения и оттока клиентов Рекомендательные
13. Скачать презентацию

Слайд 2

Что же такое BIG DATA?
Big Data — это наборы данных такого

объема, что традиционные инструменты не способны осуществлять их захват, управление и обработку за приемлемое для практики время.
Технология Big Data предоставляет услуги, помогающие раскрыть коммерческий потенциал мегамассивов данных за счет поиска ценных закономерностей и фактов путем объединения и анализа больших объемов данных.
В качестве определяющих характеристик для больших данных выделяют «три V»:

Слайд 3

3
Volume Variety Velocity
Volume
Реально большие
объемы данных в
физическом смысле
Variety
Слабо
структурированные и разнородные данные
Velocity
Необходимость
высокой скорости
обработки

данных

1Gb, 1Tb, 1Pb, 1EXb, 1Zb

DB, XML, Logs, Texts,
Video, Audio

Слайд 4

4
Интернет и мобильные технологии
Twitter 175 млн твит сообщений в день
Facebook 300 млн

фото загружаемых ежедневно Google 24PB ежедневно
AT&T передает 30Pb в день Walmart более 1 млн продаж в час
Объем данных, переданных/полученных на мобильные устройства, — 1,3 эксабайт

Слайд 5

5
Основные технологии анализа в BigData
MapReduce - это фреймворк для вычисления некоторых

наборов распределенных задач с использованием большого количества компьютеров (называемых «нодами»),
образующих кластер, разработанный компанией Google.
Hadoop - набор утилит, библиотек и программный каркас для разработки и выполнения распределённых программ, работающих на кластерах из сотен и тысяч узлов.
NoSql - ряд подходов, направленных на реализацию хранилищ баз данных, имеющих
существенные отличия от моделей, используемых в традиционных реляционных СУБД с доступом к данным средствами языка SQL. Применяется к базам данных, в которых делается попытка решить проблемы масштабируемости и доступности за
счёт атомарности и согласованности данных

Слайд 6

6
Методы анализа используемые в BigData
Уникальность подхода больших данных заключается в агрегировании

огромного объема неструктурированной информации из разных
источников в одном месте.
Классификация (методы категоризации новых данных на основе принципов,
ранее применённых к уже наличествующим данным)
Кластерный анализ
Регрессионный анализ
Рекомендательные системы
Искусственные нейронные сети, в том числе генетические алгоритмы;

Слайд 7

Производительность при обработке больших объемов данных можно повысить различными способами:
Оборудование:

многопроцессорные системы, ОЗУ большой емкости, RAID-массивы...
Базы данных: «тяжелые» СУБД, разбиение на разделы, оптимальное индексирование...
Аналитическая платформа: параллельная обработка, кэширование данных, комбинирование простых и сложных моделей...
Исходная информация: репрезентативные выборки, сегментирование данных, группировка...
Алгоритмы: масштабируемые алгоритмы, комитеты моделей, иерархические модели...

Способы повышения производительности

Слайд 8

Комбинирование моделей
Пропуская через «сито» моделей можно отсеивать информацию, для анализа которой

бесполезны сложные алгоритмы. Для этих данных можно применять простые и быстрые методы. Сложные же модели использовать там, где это имеет смысл.

Сложная модель – низкая производительность

Простая модель – средняя производительность

«Жесткие правила» – высокая производительность

Результат аналитической обработки

Слайд 9

Очень часто оптимальной стратегией анализа является не разработка одной сложной модели,

а построение нескольких моделей на разных сегментах данных и последующее объединение их результатов.

Параллельная обработка

Модель 1

Модель 2

Модель 3

Результат аналитической обработки

Исходные данные

1 сегмент

2 сегмент

3 сегмент

Слайд 10

Для обработки больших объемов данных нет необходимости перерабатывать всю информацию. Модели

можно строить на относительно небольших выборках, а затем применять их ко всему множеству.

Репрезентативные выборки

Исходные данные

Репрезентативная выборка

Модель

Построение модели

Применение модели

Результат

Слайд 11

11
Самые продвинутые отрасли BigData
01
03
Маркетинг
Сегментация рынка
Моделирование
приобретения и оттока клиентов
Рекомендательные системы
Анализ соц.медиа
Финансы
Медицина
02
Детектирование аномального

поведения
Анализ кредитных рисков
Страховое моделирование

Генетический анализ
Анализ клинических
испытаний
Экспертные системы

Big Data. Революция в области хранения и обработки данных презентация

Содержание

Что же такое BIG DATA?Big Data — это наборы данных такого

3Volume Variety VelocityVolumeРеально большиеобъемы данных вфизическом смыслеVarietyСлабоструктурированные и разнородные данныеVelocityНеобходимостьвысокой скоростиобработки

4Интернет и мобильные технологииTwitter 175 млн твит сообщений в деньFacebook 300 млн

5Основные технологии анализа в BigDataMapReduce - это фреймворк для вычисления некоторых

6Методы анализа используемые в BigDataУникальность подхода больших данных заключается в агрегировании

Производительность при обработке больших объемов данных можно повысить различными способами: Оборудование:

Комбинирование моделейПропуская через «сито» моделей можно отсеивать информацию, для анализа которой