Гипотезы, переменные, валидность, данные. Введение в статистику, лекция 1 презентация

Октябрь 8, 2021

Главная
Математика
Гипотезы, переменные, валидность, данные. Введение в статистику, лекция 1

Содержание

2. Как начинается исследование? Сначала вы наблюдаете то, что вы хотите понять. Потом вы придумываете некоторые объяснения
3. Что такое валидное исследование? Валидное исследование спланировано так, чтобы исключить альтернативные объяснения наблюдаемого явления. Условия валидности
4. Зависимые и независимые переменные Для того, чтобы проверить гипотезы, мы должны измерить переменные. Переменные меняются (варьируются)
5. Уровни измерения Переменные бывают дискретные и непрерывные. В статистике дискретные переменные называют категориальными. Категориальные переменные бывают:
6. Частотное распределение После того, как вы собрали данные, полезно для каждой переменной посчитать, сколько раз встречается
7. Гистограмма и нормальное распределение
8. Центральная тенденция После того, как мы сделали частотное распределение, нам нужно найти его центр, который называют
9. Мода Мода – это значение, которое встречается чаще всего. Ее легко увидеть на графике. Ее легко
10. Котики бывают разные…
11. Как найти моду?
12. Бимодальное распределение
13. Мультимодальное распределение
14. Медиана Еще один способ определить центр распределения – это посчитать медиану. Медиана – это значение, которое
15. Медиана размера котиков
16. А если у нас четное число котиков?
17. Среднее (Mean) Среднее – это среднестатистическое значение нашего распределение (average) Для того, чтобы его вычислить надо
18. Почему среднее не всегда является лучшим показателем типичности?
19. Как корректировать данные при выбросах? Надо убрать 5-10% самых больших и самых маленьких значений, и посчитать
20. Усредненное среднее
21. Меры разнообразия Межквартильный размах. Размах – различие между самой большой и самой маленькой величиной. Если мы
22. С котиками все то же самое…
23. Дисперсия и стандартное отклонение
24. Как посчитать дисперсию и стандартное отклонение? Если взять и сложить все отклонения от среднего, то получится
25. Меры разнообразия Дисперсия Среднее отклонение
26. Важно помнить!
27. Важно помнить!
28. Свойства нормального распределения
29. Особенность нормального распределения Особенностью нормального распределения является то, что 99,73% всех случаев находятся в пределах трех
30. Визуализация мер типичности и разнообразия - «Ящик с усами»
31. Явка и голосование за партию власти Санкт-Петербург Чечня
32. Явка и голосование за партию власти 2011 год 2016 год
33. Явка на избирательных участках
34. Явка на участки в России
35. Распределение голосов от явки 2011 2016
36. Аномалии в регионах Воронежская область Татарстан
37. Реальная явка
38. Распределение голосов за партии
39. Выборы в Приморье
41. Скачать презентацию

Слайд 2

Как начинается исследование?
Сначала вы наблюдаете то, что вы хотите понять.
Потом вы

придумываете некоторые объяснения того, что вы хотите понять. Эти объяснения в статистике называются теорией.
Теория позволяет вам сделать некоторые предположения о зависимостях между вашими наблюдениями. Такие предположения называются гипотезами.
Чтобы проверить гипотезы, вам нужны данные. Вы их собираете.
После того, как вы их собрали, вы их анализируете.
Анализ данных либо подтверждает теорию, либо ее уточняет.

Слайд 3

Что такое валидное исследование?
Валидное исследование спланировано так, чтобы исключить альтернативные объяснения

наблюдаемого явления.
Условия валидности (условия для установления причинно-следственной зависимости от явления А к явлению В):
Во-первых, А должно предшествовать по времени В; это хронологическая валидность.
Во-вторых, должна существовать статистическая зависимость между А и В; т.е. должно быть установлено, что А сопутствует В. Это – валидность статистического вывода.
В третьих, не должно быть альтернатив причине появления В помимо А. Это условие называется внутренней валидностью.
Существует и конструктная валидность, которая связана с верным выбором теории.
Наконец, в-пятых, существует внешняя валидность – возможность обобщения результатов для различных периодов времени, условий и групп.

Слайд 4

Зависимые и независимые переменные
Для того, чтобы проверить гипотезы, мы должны измерить

переменные.
Переменные меняются (варьируются) между людьми (IQ, рост, вес), от условий (работающие или безработные), во времени (настроение, доход, количество детей).
Большинство гипотез может быть выражено в терминах двух переменных: причина и следствие.
Те переменные о которых мы думаем, что они причина, называются независимыми.
Те переменные, которые мы воспринимаем как следствие – называются зависимыми.

Слайд 5

Уровни измерения
Переменные бывают дискретные и непрерывные. В статистике дискретные переменные называют

категориальными.
Категориальные переменные бывают:
Биноминальными
Номинальными
Порядковыми
Непрерывные переменные бывают:
Метрические
Интервальные

Слайд 6

Частотное распределение
После того, как вы собрали данные, полезно для каждой переменной

посчитать, сколько раз встречается каждое ее значение и построить график.
Такие расчеты называются частотным распределением, а график – гистограммой.
В идеальном мире наше распределение должно быть нормальным.
Потому что все случайные переменные распределены нормально.

Слайд 7

Гистограмма и нормальное распределение

Слайд 8

Центральная тенденция
После того, как мы сделали частотное распределение, нам нужно найти

его центр, который называют центральной тенденцией.
Есть три основных измерения центральной тенденции: среднее, мода и медиана.

Слайд 9

Мода
Мода – это значение, которое встречается чаще всего.
Ее легко увидеть

на графике.
Ее легко вычислить: надо посчитать сколько раз встречается то или иное значение переменной и выбрать то, которое встречается чаще.

Слайд 10

Котики бывают разные…

Слайд 11

Как найти моду?

Слайд 12

Бимодальное распределение

Слайд 13

Мультимодальное распределение

Слайд 14

Медиана
Еще один способ определить центр распределения – это посчитать медиану.
Медиана –

это значение, которое делит нашу выборку пополам, т.е половина выборки имеет значение этого параметра ниже, чем медиана, а вторая половина выборки – выше, чем медиана.
Пример: количество друзей в Facebook: 108, 103, 252, 121, 93, 57, 40, 53, 22, 116, 98
Для того, чтобы посчитать медиану, надо расположить значения в порядке возрастания: 22, 40, 53, 57, 93, 98, 103, 108, 116, 121, 252
Затем найдем элемент выборки, который находится посередине: n=11, (n+1)/2=6
Значение 6-го элемента равно 98.
Медиана=98.
У номинальных переменных медианы нет!!! Они не числовые!!!!

Слайд 15

Медиана размера котиков

Слайд 16

А если у нас четное число котиков?

Слайд 17

Среднее (Mean)
Среднее – это среднестатистическое значение нашего распределение (average)
Для того, чтобы

его вычислить надо сложить все значения нашего распределения и поделить на размер выборки:
Σ(xi) = 22 + 40 + 53 + 57 + 93 + 98 + 103 + 108 + 116 + 121 + 252
= 1063
X̅=Σ(xi)/n=1063/11=96.64

Слайд 18

Почему среднее не всегда является лучшим показателем типичности?

Слайд 19

Как корректировать данные при выбросах?
Надо убрать 5-10% самых больших и самых

маленьких значений, и посчитать среднее для оставшихся величин.
Такой показатель называется усредненное среднее.

Слайд 20

Усредненное среднее

Слайд 21

Меры разнообразия
Межквартильный размах.
Размах – различие между самой большой и самой маленькой

величиной.
Если мы уберем 25% самых больших значений и самых маленьких значений, то получим межквартильный размах.

Слайд 22

С котиками все то же самое…

Слайд 23

Дисперсия и стандартное отклонение

Слайд 24

Как посчитать дисперсию и стандартное отклонение?
Если взять и сложить все отклонения

от среднего, то получится 0, так как отклонения бывают в разную сторону.
Поэтому отклонения от среднего надо возвести в квадрат, а потом уже сложить.
Полученную сумму надо разделить на общее количество наблюдений.
σх2=Σ(xi–μx)2/N
σ (корень из σх2 )- стандартное отклонение

Слайд 25

Меры разнообразия
Дисперсия
Среднее отклонение

Слайд 26

Важно помнить!

Слайд 27

Важно помнить!

Слайд 28

Свойства нормального распределения

Слайд 29

Особенность нормального распределения
Особенностью нормального распределения является то, что 99,73% всех случаев

находятся в пределах трех стандартных отклонений от среднего значения.
В пределах двух стандартных отклонения находится 96% всех случаев.
95% всех случаев будут находиться в пределах ±1,96 стандартных отклонений от средней.

Слайд 30

Визуализация мер типичности и разнообразия - «Ящик с усами»

Слайд 31

Явка и голосование за партию власти
Санкт-Петербург
Чечня

Слайд 32

Явка и голосование за партию власти
2011 год
2016 год

Слайд 33

Явка на избирательных участках

Слайд 34

Явка на участки в России

Слайд 35

Распределение голосов от явки
2011
2016

Слайд 36

Аномалии в регионах
Воронежская область
Татарстан

Слайд 37

Реальная явка

Слайд 38

Распределение голосов за партии

Слайд 39

Гипотезы, переменные, валидность, данные. Введение в статистику, лекция 1 презентация

Содержание

Как начинается исследование?Сначала вы наблюдаете то, что вы хотите понять.Потом вы

Что такое валидное исследование?Валидное исследование спланировано так, чтобы исключить альтернативные объяснения

Зависимые и независимые переменныеДля того, чтобы проверить гипотезы, мы должны измерить

Уровни измеренияПеременные бывают дискретные и непрерывные. В статистике дискретные переменные называют

Частотное распределениеПосле того, как вы собрали данные, полезно для каждой переменной

Гистограмма и нормальное распределение

Центральная тенденцияПосле того, как мы сделали частотное распределение, нам нужно найти

МодаМода – это значение, которое встречается чаще всего. Ее легко увидеть

Котики бывают разные…

Как найти моду?

Бимодальное распределение

Мультимодальное распределение

МедианаЕще один способ определить центр распределения – это посчитать медиану.Медиана –

Медиана размера котиков

А если у нас четное число котиков?

Среднее (Mean)Среднее – это среднестатистическое значение нашего распределение (average)Для того, чтобы

Почему среднее не всегда является лучшим показателем типичности?

Как корректировать данные при выбросах?Надо убрать 5-10% самых больших и самых

Усредненное среднее

Меры разнообразияМежквартильный размах.Размах – различие между самой большой и самой маленькой

С котиками все то же самое…

Дисперсия и стандартное отклонение

Как посчитать дисперсию и стандартное отклонение?Если взять и сложить все отклонения

Меры разнообразияДисперсияСреднее отклонение

Важно помнить!

Важно помнить!

Свойства нормального распределения

Особенность нормального распределенияОсобенностью нормального распределения является то, что 99,73% всех случаев

Визуализация мер типичности и разнообразия - «Ящик с усами»

Явка и голосование за партию властиСанкт-ПетербургЧечня

Явка и голосование за партию власти2011 год2016 год

Явка на избирательных участках

Явка на участки в России

Распределение голосов от явки20112016

Аномалии в регионахВоронежская областьТатарстан

Реальная явка

Распределение голосов за партии

Выборы в Приморье

Похожие презентации

Как начинается исследование?
Сначала вы наблюдаете то, что вы хотите понять.
Потом вы

Что такое валидное исследование?
Валидное исследование спланировано так, чтобы исключить альтернативные объяснения

Зависимые и независимые переменные
Для того, чтобы проверить гипотезы, мы должны измерить

Уровни измерения
Переменные бывают дискретные и непрерывные. В статистике дискретные переменные называют

Частотное распределение
После того, как вы собрали данные, полезно для каждой переменной

Центральная тенденция
После того, как мы сделали частотное распределение, нам нужно найти

Мода
Мода – это значение, которое встречается чаще всего.
Ее легко увидеть

Медиана
Еще один способ определить центр распределения – это посчитать медиану.
Медиана –

Среднее (Mean)
Среднее – это среднестатистическое значение нашего распределение (average)
Для того, чтобы

Как корректировать данные при выбросах?
Надо убрать 5-10% самых больших и самых

Меры разнообразия
Межквартильный размах.
Размах – различие между самой большой и самой маленькой

Как посчитать дисперсию и стандартное отклонение?
Если взять и сложить все отклонения

Меры разнообразия
Дисперсия
Среднее отклонение

Особенность нормального распределения
Особенностью нормального распределения является то, что 99,73% всех случаев

Явка и голосование за партию власти
Санкт-Петербург
Чечня

Явка и голосование за партию власти
2011 год
2016 год

Распределение голосов от явки
2011
2016

Аномалии в регионах
Воронежская область
Татарстан