Этапы анализа данных презентация

Содержание

Слайд 2

Последовательность этапов Data Mining

Последовательность этапов Data Mining

Слайд 3

Выдвижение гипотез

Максимально использовать знание. экспертов о предметной области.
Полагаться на здравый смысл.
Отталкиваться

Выдвижение гипотез Максимально использовать знание. экспертов о предметной области. Полагаться на здравый смысл.
от опыта и интуиции специалистов.
Собрать и систематизировать максимум возможных предположений и гипотез.

Слайд 4

Сбор и систематизация данных (подбор факторов)

Абстрагироваться от существующих информационных систем и

Сбор и систематизация данных (подбор факторов) Абстрагироваться от существующих информационных систем и имеющихся
имеющихся в наличии данных.
Описать факторы, влияющие на анализируемый процесс/объект.
Оценить значимость каждого фактора.

Слайд 5

Сбор и систематизация данных (методы сбора)

Получение из существующих информационных систем.
Извлечение необходимых

Сбор и систематизация данных (методы сбора) Получение из существующих информационных систем. Извлечение необходимых
сведений из косвенных данных.
Использование открытых источников .
Проведение социологических, маркетинговых и подобных исследований .
Ввод данных «вручную».

Слайд 6

Сбор и систематизация данных. Формат.

Данные должны быть собраны в единую таблицу

Сбор и систематизация данных. Формат. Данные должны быть собраны в единую таблицу в
в формате MS Excel, текстовые файлы с разделителями или в набор таблиц в любой СУБД.
Необходимо унифицировать представление данных – один и тот же объект должен описываться везде одинаково.

Слайд 7

Сбор упорядоченных данных

Сбор упорядоченных данных

Слайд 8

Объемы упорядоченных данных

Если для процесса характерна сезонность/цикличность, необходимо иметь данные хотя

Объемы упорядоченных данных Если для процесса характерна сезонность/цикличность, необходимо иметь данные хотя бы
бы за один полный сезон/цикл с возможностью варьирования интервалов (понедельное, помесячное…).
Максимальный горизонт прогнозирования зависит от объема данных:
данные на 1,5 года – прогноз максимум на 1 месяц
данные за 2-3 года – прогноз максимум на 2 месяца

Слайд 9

Сбор неупорядоченных данных

Сбор неупорядоченных данных

Слайд 10

Объемы неупорядоченных данных

Количество примеров (прецедентов) должно быть значительно больше количества факторов.
Желательно,

Объемы неупорядоченных данных Количество примеров (прецедентов) должно быть значительно больше количества факторов. Желательно,
чтобы данные покрывали как можно больше ситуаций реального процесса.
Пропорции различных примеров (прецедентов) должны примерно соответствовать реальному процессу.

Слайд 11

Сбор транзакционных данных

Сбор транзакционных данных

Слайд 12

Объемы транзакционных данных

Анализ транзакций целесообразно производить на большом объеме данных, иначе

Объемы транзакционных данных Анализ транзакций целесообразно производить на большом объеме данных, иначе могут
могут быть выявлены статистически необоснованные правила. Алгоритмы поиска ассоциативных связей способны быстро перерабатывать огромные массивы данных.
Примерное соотношение между количеством объектов и объемом данных:
300-500 объектов – более 10 тыс. транзакций
500-1000 объектов – более 300 тысяч транзакций

Слайд 13

Подбор модели

Уделить внимание очистке данных.
Комбинировать методики анализа.
Не гнаться за абсолютной точностью

Подбор модели Уделить внимание очистке данных. Комбинировать методики анализа. Не гнаться за абсолютной
и начать использование при получении первых приемлемых результатов.
При невозможности получения приемлемых результатов вернуться на предыдущие шаги схемы.

Слайд 14

Тестирование, интерпретация

Для оценки полученных результатов использовать знания экспертов.
Тестировать построенные модели на

Тестирование, интерпретация Для оценки полученных результатов использовать знания экспертов. Тестировать построенные модели на
различных выборках для оценки их обобщающих способностей.
При невозможности получения приемлемых результатов вернуться на предыдущие шаги схемы.

Слайд 15

Использование

При получении приемлемых результатов начать использование.
Периодически оценивать адекватность модели текущей ситуации.

Использование При получении приемлемых результатов начать использование. Периодически оценивать адекватность модели текущей ситуации.
Даже самая удачная модель со временем перестает ей соответствовать.
Постоянно работать над улучшением модели.
Имя файла: Этапы-анализа-данных.pptx
Количество просмотров: 56
Количество скачиваний: 0