Основы теории проверки статистических гипотез презентация

Содержание

Слайд 2


Процедура сопоставления высказанного предположения (гипотезы) с выборочными данными называется проверкой гипотез.
Задачи статистической

проверки гипотез:
Относительно некоторой генеральной совокупности высказывается та или иная гипотеза Н0.
Из этой генеральной совокупности извлекается выборка.
Требуется указать правило, при помощи которого можно было бы по выборке решить вопрос о том, следует ли отклонить гипотезу Н0 или принять ее.

Слайд 3

Гипотеза – предположение о свойстве популяции (каком-либо параметре, форме распределения…).
Тестирование гипотезы (hypothesis testing)

– – процедура, в которой мы решаем, принять гипотезу («accept») или отвергнуть (reject).

Примечание. На самом деле мы никогда не можем действительно принять гипотезу: можем либо отвергнуть, либо не иметь достаточных оснований, чтобы её отвергнуть.

Слайд 4

Предполагается, что мы формулируем гипотезу ДО сбора данных.

Слайд 5

Тестирование гипотез в статистике

Гипотеза формулируется о свойствах ПОПУЛЯЦИИ = генеральной совокупности, (предположения о

самой выборке легко проверить без статистики).
Опровергнуть гипотезу в принципе легче, чем подтвердить.

Формулируем ДВЕ взаимоисключающие гипотезы:
H0 (нулевая гипотеза, null hypothesis) – её мы собираемся опровергать; обычно говорит, что нет различий, нет эффекта, нет изменений…
H1 (альтернативная гипотеза, alternative hypothesis) – её мы примем, если удастся отвергнуть H0 .

Решение о том, принять или отвергнуть гипотезу принимается на основе статистики критерия (test statistic).

Слайд 7


Уровнем значимости критерия (α) называется вероятность допустить ошибку 1-го рода.
Уровень значимости

— процент появления ошибок первого рода (отклонение верной нулевой гипотезы).
• первый уровень — 5% или 0.05, т. е. вероятность ошибиться 5 к 100 или 1 к 20.
• второй уровень — 1% или 0.01, т. е. вероятность 1 к 100.
• третий уровень — 0.1% или 0.001, вероятность 1 к 1000.

Слайд 8

Тестирование гипотез в статистике

Хорошая практика при изложении результатов в публикации –
Приводить точную

оценку вероятности ошибки 1-го рода p (например, р=0.025, р=0.0001). Тогда читатель может сам выбирать уровень значимости.
* - достоверные различия – р<0.05
** - высокодостоверные различия - р<0.01
*** - р<0.001
Если вероятность ошибки близка к α, лучше всего провести дополнительные исследования и не делать окончательных выводов (Zar, 2010)

Слайд 9

Тестирование гипотез в статистике

Односторонняя альтернатива
(one-tailed hypothesis)
H0: μ ≤ 90 г;
H1 : μ

> 90 г

Двусторонняя альтернатива
(two-tailed hypothesis)
H0: μ = 90 г;
H1 : μ ≠ 90 г

Одновыборочные критерии
сравнивающие среднее значение с заданным числом.

Слайд 10

Сравнение групп

Слайд 11

Виды критериев
Параметрические т.е. основанные на расчете параметрв генеральной совокупности (X, σ2).
Достоинства:


более мощные и точные.
Трудности:
требуют измерений по шкале интервалов или равных отношений;
только нормальное распределение!;
желательный объем выборки N>50

Слайд 12

t-критерий Стьюдента - общее название для класса методов статистической проверки гипотез  (статистических критериев), основанных на распределении Стьюдента.


Наиболее частые случаи применения t-критерия связаны с проверкой равенства средних значений в двух выборках.

Слайд 13

Применение t-критерия
Критерий позволяет найти вероятность того, что оба средних значения в выборке

относятся к одной и той же совокупности. Данный критерий наиболее часто используется для проверки гипотезы: «Средние двух выборок относятся к одной и той же совокупности».

При использовании критерия можно выделить два случая.
В первом случае его применяют для проверки гипотезы о равенстве генеральных средних двух неза­висимых, несвязанных выборок (так называемый двухвыборочный t-критерий). В этом случае есть контрольная группа и экспериментальная (опытная) группа, количество испытуемых в группах может быть различно.
Во втором случае, когда одна и та же группа объектов порождает числовой матери­ал для проверки гипотез о средних, используется так называемый парный t-критерий. Выборки при этом называют зависимыми, связанными.

Слайд 14

Критерий Стьюдента применяется, если нужно сравнить только две группы количественных признаков с нормальным

распределением (частный случай дисперсионного анализа).
Примечание: этим критерием нельзя пользоваться, сравнивая попарно несколько групп, в этом случае необходимо применять дисперсионный анализ.

Слайд 18

Виды критериев
Непараметрические т.е. не включающие в формулу расчета параметров распределения, основанные на

оперировании частотами или рангами.
Достоинства:
просты в расчете;
применимы на малых выборках (N<10);
не привязаны к характеру распределения.
Недостатки:
менее мощные (β),
имеют табличные ограничения по макс. N

Слайд 20

Критерий Вилкоксона - вычисляются разности между индивидуальными значениями показателя после проведения эксперимента и

до него.
Алгоритм проверки:
Модули разностей ранжируются в порядке возрастания.
Отмечаются ранги, соответствующие сдвигам в нетипичном направлении. Например, если в большинстве случаев после проведения эксперимента наблюдалось увеличение измеряемого параметра, то его уменьшение следует считать нетипичным сдвигом.
Эмпирическое значение критерия определяется как сумма рангов, соответствующих нетипичным сдвигам.
Если критическое значение не превосходит эмпирического, то на данном уровне значимости отсутствуют основания для отклонения нулевой гипотезы о несущественности различий. В противном случае нулевая гипотеза отвергается.

Слайд 44

КОРРЕЛЯЦИОННЫЙ и РЕГРЕССИОННЫЙ АНАЛИЗ

Слайд 45

Если из множества значений аргумента Х одному значению соответствуют множество значений Y на

конечном интервале значений, то такая взаимосвязь называется корреляционной.

Слайд 46

Различают корреляции нескольких направлений:

Прямая положительная корреляция, при которой увеличение причинного фактора вызывает

увеличение следственного фактора; например, увеличение силы мышц разгибателей ног положительно сказывается на росте результатов в прыжках в высоту с разбега.

Слайд 47

Прямая отрицательная корреляция, при которой уменьшение причинного фактора вызывает уменьшение следственного фактора; например,

уменьшение длины дистанции приводит к сокращению времени её преодоления.

Слайд 48

Обратная положительная корреляция, при которой уменьшение причинного фактора вызывает увеличение следственного фактора; например,

уменьшение длины дистанции приводит к увеличению скорости бега.

Слайд 49

Обратная отрицательная корреляция, при которой увеличение причинного фактора вызывает уменьшение следственного; например, увеличение

силы мышц может привести к уменьшению скорости их сокращения.

Слайд 50

Коэффициент корреляции

Коэффициент корреляции (r)– показатель тесноты взаимосвязи между парой показателей, получивший

широкое применение в практике.

Слайд 51

Количественную меру коэффициента корреляции принято различать по нескольким уровням:
Слабая связь – при

/r/ < /0,30/
Средняя связь – при /0,31/ < /r/ < /0,69/
Сильная связь – при /0,70/ < /r/ < /0,99/

Слайд 52

Качественный анализ коэффициента корреляции принято различать по характеру взаимосвязи:
Отрицательная связь – при

r < 0
Положительная связь – 0 < r
При r=0 – взаимосвязь отсутствует.

Слайд 53

Результат вычисления коэффициента корреляции позволяет отвечать на три вопроса:

Имеется ли взаимосвязь между

двумя величинами?
Какова направленность этой взаимосвязи (прямо или обратно пропорциональная)?
Какова теснота взаимосвязи?

Слайд 54

Цель корреляционного анализа – установить, можно ли значения одного показателя предсказывать по значениям

другого.
Задачи корреляционного анализа:
Установить, надёжны ли исходные данные при оценке корреляции.
Установить, имеет ли она практическое значение.

Слайд 55

Если величина коэффициента корреляции по модулю больше или ровна 0,7 , то говорят,

что корреляция, имеет практическое значение, если значение меньше 0,7 , то корреляция не имеет практического значения.

Слайд 56

Корреляция

Корелляция Пирсона (параметрический)
Ранговая корреляция Спирмена(непараметрический)

Слайд 57

ТЕОРИЯ
КОРРЕЛЯЦИИ

ЗАДАЧИ

Установить
ФОРМУ
корреляционной
связи

Установить
ТЕСНОТУ
корреляционной
связи

решает

регрессионный анализ

решает

корреляционный анализ

Слайд 58

Регрессионный анализ

Задачей регрессионного анализа является нахождение функциональной зависимости между зависимой у и независимой

х переменными y = f(x), которую называют регрессией (или функцией регрессии). График функции называют линией или кривой регрессии.
Hа практике x задается, а y - это наблюдение какой-либо величины на опыте, в эксперименте.

Слайд 59

В ходе регрессионного анализа определяется аналитическое выражение связи зависимой случайной величины Y (результативный

признак) с независимыми случайными величинами Х1, Х2, …Хm (факторами).
Практически речь идёт о том, чтобы, анализируя множество точек на графике (т.е. множество статистических данных), найти линию, по возможности точно отражающую заключённую в этом множестве закономерность, тенденцию – линию регрессии.

Слайд 60

1.В зависимости от числа явлений

– простой (регрессия между двумя переменными);

– множественной (регрессия между зависимой переменной

Y и несколькими независимыми переменными (X1, X2, …, Xn)).

Слайд 61

– линейной (отображается линейной функцией, а между изучаемыми явлениями существуют линейные отношения);

– нелинейной (отображается нелинейной

функцией, между изучаемыми переменными связь носит нелинейный характер).

2.В зависимости от формы

Слайд 62

3. По характеру связи между включенными в рассмотрение переменными

– положительной (увеличение значения независимой переменной

приводит к увеличению значения зависимой переменной и наоборот);

– отрицательной (с увеличением значения независимой переменной значение зависимой переменной уменьшается).

Слайд 63

Основные задачи

1. Определение формы зависимости.
2. Отыскание подходящих значений неизвестных параметров.
3. Оценка неизвестных значений зависимой переменной.

Слайд 64

1. Определение формы зависимости

Слайд 65

1. Определение формы зависимости

Слайд 66

Линейную регрессию можно отразить уравнением прямой линии:
Y = а · X + в,

где:
Y – значения признака по линии регрессии, т. е. теоретические значения,
а – угловой коэффициент регрессии,
X – значения признака-фактора (предиктора),
в – свободный член, константа.
Если независимая переменная одна, то регрессия называется парной.
Простейшая парная регрессионная модель – линейная.

Слайд 67

Нелинейная регрессия

Полиномиальная
Гиперболическая
Степенная
Показательная
Экспоненциальная

Слайд 68

Определение коэффициента детерминации
Для анализа общего качества уравнения линейной многофакторной регрессии используют множественный коэффициент

детерминации , называемый также квадратом коэффициента множественной корреляции R
и определяют долю вариации результативного признака, обусловленную изменением факторных признаков, входящих в многофакторную регрессионную модель.

Слайд 69

Коэффициент детерминации

Свойства:
а) 0≤RI≤1;
б) Чем ближе коэффициент детерминации к 1, тем лучше регрессия «объясняет»

зависимость данных;
в) В случае линейной регрессии

Слайд 70

Порядок действий

при использовании методов корреляционно-регрессионного анализа

1. Исследование природы рассматриваемых переменных для установления типа

зависимости между переменными.

Слайд 71

Порядок действий

2.1. Случайность выборки: несвязанность i-го наблюдения с предыдущими и отсутствие влияния на последующие.
2.2. Однородность

дисперсий: рассеяния должны быть одинаковыми для всех значений независимого переменного.
2.3. Нормальность распределений.

2. Сбор экспериментальных данных, обсуждение вопроса об ограничениях:

Слайд 72

Порядок действий

4. Измерение тесноты связи, вычисление
выборочного коэффициента корреляции.

 3. Построение диаграммы разброса.


5. Установление общего вида зависимости
(линейная, параболическая и т.д.)

Имя файла: Основы-теории-проверки-статистических-гипотез.pptx
Количество просмотров: 78
Количество скачиваний: 0