Этапы анализа данных презентация

Содержание

Слайд 2

Последовательность этапов Data Mining

Последовательность этапов Data Mining

Слайд 3

Выдвижение гипотез Максимально использовать знание. экспертов о предметной области. Полагаться

Выдвижение гипотез

Максимально использовать знание. экспертов о предметной области.
Полагаться на здравый смысл.
Отталкиваться

от опыта и интуиции специалистов.
Собрать и систематизировать максимум возможных предположений и гипотез.
Слайд 4

Сбор и систематизация данных (подбор факторов) Абстрагироваться от существующих информационных

Сбор и систематизация данных (подбор факторов)

Абстрагироваться от существующих информационных систем и

имеющихся в наличии данных.
Описать факторы, влияющие на анализируемый процесс/объект.
Оценить значимость каждого фактора.
Слайд 5

Сбор и систематизация данных (методы сбора) Получение из существующих информационных

Сбор и систематизация данных (методы сбора)

Получение из существующих информационных систем.
Извлечение необходимых

сведений из косвенных данных.
Использование открытых источников .
Проведение социологических, маркетинговых и подобных исследований .
Ввод данных «вручную».
Слайд 6

Сбор и систематизация данных. Формат. Данные должны быть собраны в

Сбор и систематизация данных. Формат.

Данные должны быть собраны в единую таблицу

в формате MS Excel, текстовые файлы с разделителями или в набор таблиц в любой СУБД.
Необходимо унифицировать представление данных – один и тот же объект должен описываться везде одинаково.
Слайд 7

Сбор упорядоченных данных

Сбор упорядоченных данных

Слайд 8

Объемы упорядоченных данных Если для процесса характерна сезонность/цикличность, необходимо иметь

Объемы упорядоченных данных

Если для процесса характерна сезонность/цикличность, необходимо иметь данные хотя

бы за один полный сезон/цикл с возможностью варьирования интервалов (понедельное, помесячное…).
Максимальный горизонт прогнозирования зависит от объема данных:
данные на 1,5 года – прогноз максимум на 1 месяц
данные за 2-3 года – прогноз максимум на 2 месяца
Слайд 9

Сбор неупорядоченных данных

Сбор неупорядоченных данных

Слайд 10

Объемы неупорядоченных данных Количество примеров (прецедентов) должно быть значительно больше

Объемы неупорядоченных данных

Количество примеров (прецедентов) должно быть значительно больше количества факторов.
Желательно,

чтобы данные покрывали как можно больше ситуаций реального процесса.
Пропорции различных примеров (прецедентов) должны примерно соответствовать реальному процессу.
Слайд 11

Сбор транзакционных данных

Сбор транзакционных данных

Слайд 12

Объемы транзакционных данных Анализ транзакций целесообразно производить на большом объеме

Объемы транзакционных данных

Анализ транзакций целесообразно производить на большом объеме данных, иначе

могут быть выявлены статистически необоснованные правила. Алгоритмы поиска ассоциативных связей способны быстро перерабатывать огромные массивы данных.
Примерное соотношение между количеством объектов и объемом данных:
300-500 объектов – более 10 тыс. транзакций
500-1000 объектов – более 300 тысяч транзакций
Слайд 13

Подбор модели Уделить внимание очистке данных. Комбинировать методики анализа. Не

Подбор модели

Уделить внимание очистке данных.
Комбинировать методики анализа.
Не гнаться за абсолютной точностью

и начать использование при получении первых приемлемых результатов.
При невозможности получения приемлемых результатов вернуться на предыдущие шаги схемы.
Слайд 14

Тестирование, интерпретация Для оценки полученных результатов использовать знания экспертов. Тестировать

Тестирование, интерпретация

Для оценки полученных результатов использовать знания экспертов.
Тестировать построенные модели на

различных выборках для оценки их обобщающих способностей.
При невозможности получения приемлемых результатов вернуться на предыдущие шаги схемы.
Слайд 15

Использование При получении приемлемых результатов начать использование. Периодически оценивать адекватность

Использование

При получении приемлемых результатов начать использование.
Периодически оценивать адекватность модели текущей ситуации.

Даже самая удачная модель со временем перестает ей соответствовать.
Постоянно работать над улучшением модели.
Имя файла: Этапы-анализа-данных.pptx
Количество просмотров: 71
Количество скачиваний: 0