Данные в экономике, их визуализация и предварительная обработка. Выбросы и их обработка в Microsoft Excel презентация
- Главная
- Экономика
- Данные в экономике, их визуализация и предварительная обработка. Выбросы и их обработка в Microsoft Excel
Содержание
- 2. В предыдущей лекции Визуализация качественных признаков в Microsoft Excel. Сводные таблицы и сводные диаграммы в Microsoft
- 3. 1. Предварительная обработка данных В предыдущих лекциях мы рассмотрели визуализацию количественных и качественных признаков. Это помогает
- 4. 2. Выбросы и их обработка в Microsoft Excel Одной из самых типичных и самых важных проблем,
- 5. 2. Выбросы и их обработка в Microsoft Excel В ряде ситуаций выбросы являются важнейшим предметом исследования.
- 6. 3. Пропущенные значения и их обработка в Microsoft Excel Следующей проблемой анализа данных является отсутствие в
- 7. 3. Пропущенные значения и их обработка в Microsoft Excel В реальных наборах данных пропущенным значениям не
- 8. 3. Пропущенные значения и их обработка в Microsoft Excel Общие варианты работы с пропущенными значениями: замена
- 9. 4. Повторяющиеся строки и их обработка в Microsoft Excel Повторяющиеся в наборе данных строки искажают результаты
- 10. 5. Синтетические признаки Важным этапом решения задач анализа данных является поиск синтетических признаков (проектирование признаков). Синтетические
- 11. 5. Синтетические признаки Признаки в наборе данных могут иметь одинаковую природу и одинаковые единицы измерения (сколько
- 12. 5. Синтетические признаки Как правило, нужно приводить признаки к единому масштабу. Чтобы это сделать, наиболее часто
- 13. 6. Заключение В любом случае, при анализе выбросов; при обработке пропущенных значений; при удалении повторяющихся строк;
- 15. Скачать презентацию
В предыдущей лекции
Визуализация качественных признаков в Microsoft Excel.
Сводные
В предыдущей лекции
Визуализация качественных признаков в Microsoft Excel.
Сводные
Таблицы сопряженности и парадокс Симпсона.
Иерархия признаков в Microsoft Excel.
1. Предварительная обработка данных
В предыдущих лекциях мы рассмотрели визуализацию количественных и
1. Предварительная обработка данных
В предыдущих лекциях мы рассмотрели визуализацию количественных и
Это помогает правильно определить дальнейшие направления анализа данных.
Другой важной задачей является предварительная подготовка данных. Это составляет значительную часть работы по анализу данных. Это связано с тем, что:
Данные, с которыми мы имеем дело на практике, не идеальны (ошибки, пропущен, повторы, выбросы), что сильно осложняющие их анализ.
Предварительная обработка данных может занимать столько же времени, сколько их анализ с помощью различных интеллектуальных технологий, а часто даже больше.
2. Выбросы и их обработка в Microsoft Excel
Одной из самых типичных
2. Выбросы и их обработка в Microsoft Excel
Одной из самых типичных
Выбросы - это значения признака, не попадающие в отрезок
[x0,25 – 1,5IQR; x0,75 + 1,5IQR].
Первым шагом при поиске выбросов является визуализация данных с помощью диаграмм размаха и диаграмм рассеяния.
Первый вопрос – является ли «кандидат» в выбросы действительно выбросом, либо в данных есть важные специальные подмножества, которые нужно рассматривать отдельно.
Часто выбросы связаны с ошибками людей, участвовавших в подготовке наборов данных – ошибки ввода данных (пропуск десятичной запятой или ввод не в ту ячейку).
Иногда выбросы следует отбросить, чтобы избежать искажения результатов.
2. Выбросы и их обработка в Microsoft Excel
В ряде ситуаций выбросы
2. Выбросы и их обработка в Microsoft Excel
В ряде ситуаций выбросы
Например,
в задаче обнаружения мошеннических транзакций по банковским картам именно выбросы — необычные, нетипичные транзакции — представляют основной интерес. Если отбросить выбросы или заменить их типичными транзакциями, то, очевидно, что задача определения мошеннических транзакций решена не будет.
В общем случае, варианты работы с выбросами:
- замена выброса значением в соответствующих границах отрезка
[x0,25 – 1,5IQR; x0,75 + 1,5IQR];
- обработка выброса как пропущенного значения. Замечание. Как правило, для каждого признака X целесообразно добавить в набор данных специальный признак Xвыбр., значение которого равно единице, в случае, если значение при знака X в данной строке исходного набора данных было классифицировано как выброс.
3. Пропущенные значения и их обработка в Microsoft Excel
Следующей проблемой анализа
3. Пропущенные значения и их обработка в Microsoft Excel
Следующей проблемой анализа
ВАЖНО: Многие методы анализа данных невозможно использовать, если набор данных содержит пустые ячейки.
Иногда можно догадаться, какое значение должно быть в соответствующей ячейке.
Догадаться, сколько кредитов было выдано 2 августа, невозможно. В таком случае можно, например, заполнить пропущенное значение средним, медианой или модой.
3. Пропущенные значения и их обработка в Microsoft Excel
В реальных наборах
3. Пропущенные значения и их обработка в Microsoft Excel
В реальных наборах
Например:
- в Microsoft Excel используются следующие коды ошибок: «#ДЕЛ/0!», «#Н/Д», «#ИМЯ?», «#ПУСТО!», «#ЧИСЛО!», «#ССЫЛКА!», «#ЗНАЧ!».
- в других системах могут использоваться коды «NA» (Not Available), «NaN» (Not a Number) и др.
- ряд систем для обозначения ошибок и отсутствующих значений числовых признаков вставляют нули или специальные числовые коды, например, «9999» или «99999999».
3. Пропущенные значения и их обработка в Microsoft Excel
Общие варианты работы
3. Пропущенные значения и их обработка в Microsoft Excel
Общие варианты работы
замена средним или медианой (это два наиболее часто используемых метода, но только для количественных признаков);
удаление целой строки (удаление строки приводит к потере информации. Этим методом пользуются тогда, когда потеря информации допустима);
замена специальным значением (пропуск признака «Число задержек платежей по кредиту» в наборе данных о заемщиках банка целесообразно заменить нулем, т.е. «Долгов нет»);
замена с помощью метода ближайших соседей (вычисление среднего, но не по всему столбцу, а по нескольким близким строкам — ближайшим соседям);
замена модой (замена модой применяется к качественным признакам);
замена с помощью специальных методов (заполнения пропущенных значений с помощью сингулярного разложения, линейной регрессии, случайного леса, метода K-средних и др. — «Машинное обучение»).
Замечание. Как правило, при замене пропущенных значений для каждого признака X целесообразно добавить в набор данных специальный признак Xпропущ., значение которого равно единице, в случае, если значение признака X в данной строке исходного набора данных от сутствовало и было каким либо образом синтезировано.
4. Повторяющиеся строки и их обработка в Microsoft Excel
Повторяющиеся в наборе
4. Повторяющиеся строки и их обработка в Microsoft Excel
Повторяющиеся в наборе
Перед проведением анализа данных из нескольких дублирующих строк оставляет оставить одну.
В общем случае, варианты обработки повторяющихся строк:
- сохранение первой строки с удалением оставшихся;
- сохранение последней строки с удалением оставшихся;
- объединение повторяющихся строк в одну с вычислением средних значений для каждого количественного признака и мод для каждого качественного признака.
5. Синтетические признаки
Важным этапом решения задач анализа данных является поиск синтетических
5. Синтетические признаки
Важным этапом решения задач анализа данных является поиск синтетических
Синтетические признаки являющихся определенными функциями от исходных признаков: удачно построенные синтетические признаки очень помогают находить в данных закономерности, определять общие свойства объектов и различия между ними.
Например: Если в задаче анализа данных о заемщиках известен размер ежемесячного платежа по кредиту и средний размер месячного дохода, то, как правило, полезно рассмотреть дополнительный признак — долю ежемесячного платежа по кредиту в месячном доходе.
Синтез новых признаков связан не столько с содержательным смыслом задачи, сколько с необходимостью использования статистических методов, основанных на применении следствий из законов распределения данных.
Бывает полезно рассмотреть синтетические признаки, являющиеся квадратами, квадратными корнями, логарифмами исходных признаков, произведениями и частными парами признаков и т. п.
5. Синтетические признаки
Признаки в наборе данных могут иметь одинаковую природу и
5. Синтетические признаки
Признаки в наборе данных могут иметь одинаковую природу и
Но так бывает редко. Большинство реальных наборов данных, с которыми приходится иметь дело в экономике, управлении, финансах, состоят из нескольких признаков, имеющих принципиально разную природу и измеряющихся в разных единицах.
При анализе данных бывают важны относительные взаимосвязи между признаками, не только между их абсолютными значениями. Кроме того, многие методы анализа данных работают только в том случае, когда признаки имеют одинаковый масштаб.
5. Синтетические признаки
Как правило, нужно приводить признаки к единому масштабу. Чтобы
5. Синтетические признаки
Как правило, нужно приводить признаки к единому масштабу. Чтобы
- переход от признака X к признаку
приводит к тому, что у нового признака будет нулевое среднее и стандартное отклонение, равное единице. Это z-преобразование;
- преобразование признака X в признак
гарантирует, что новый признак будет принимать значения из отрезка [0; 1].
Это min-max преобразование;
- может подойти и обычное нормирование Х/хмах.
6. Заключение
В любом случае,
при анализе выбросов;
при обработке пропущенных
6. Заключение
В любом случае,
при анализе выбросов;
при обработке пропущенных
при удалении повторяющихся строк;
синтезировании признаков,
очень важно разбираться в предметной области, соответствующей исследуемому набору данных, и принимать решения об очистке, трансформации и проектировании данных с учетом специфики предметной области, содержательного смысла конкретной ситуации и задачи.