Лекция 2 Биомедстатистика. Гармонизация статистических доказательств и предсказаний презентация

Содержание

Слайд 2

Эпиграфы

Один из самых обычных и ведущих к самым большим бедствиям соблазнов есть

соблазн словами: «Все так делают». Л.Н.Толстой

Эпиграфы Один из самых обычных и ведущих к самым большим бедствиям соблазнов есть

Слайд 3

В науку нет царского пути

Однажды египетский царь Птолемей I выразил желание изучать геометрию.

Призвал он к себе математика Эвклида (III век до.н.э) и спросил, как можно выучить геометрию быстрее и легче? Великий ученый сурово и с достоинством ответил: «Царских путей к геометрии нет!»

В науку нет царского пути Однажды египетский царь Птолемей I выразил желание изучать

Слайд 4

Итоги ХХ века

Статистическая теория и анализ данных, несомненно, являются одними из главнейших научных

технологий, развитых в ХХ веке, наравне с другими научными и технологическими достижениями, такими как электроника, компьютеры, Интернет, биотехнология, геномика и проч.
Статистическая теория и анализ данных оказали, возможно, наибольшее влияние на способность земного сообщества заботиться о миллиардах людей, обитающих на нашей планете.
(Wegman, 2001).

Итоги ХХ века Статистическая теория и анализ данных, несомненно, являются одними из главнейших

Слайд 5

Myron Tribus (Letter to Science)

If experimentation is the queen of the sciences, surely

statistical methods must be regarded as the guardian of the royal virtue.
Если экспериментация - королева всех наук, то статистические методы несомненно следует признать блюстителями ее непорочности.
Если Эксперимент – Король всех наук, то Статистика – его Телохранитель

Myron Tribus (Letter to Science) If experimentation is the queen of the sciences,

Слайд 6

Лекция 2. Гармонизация статистических доказательств и предсказаний

Лекция 2. Гармонизация статистических доказательств и предсказаний

Слайд 7

Эпидемиологи смотрят на мир сквозь решетку таблицы 2×2.
При этом надо помнить, что результат

обследования является бинарным (дихотомическим):
либо положительным, либо отрицательным, т.е. без промежуточных градаций.
Дихотомическое деление привлекательно своей простотой.
Однако такое упрощение является серьезным ограничением, поскольку результаты подобных обследований зачастую являются мерными.

Эпидемиологи смотрят на мир сквозь решетку таблицы 2×2. При этом надо помнить, что

Слайд 8

Интерфероны и диагностика ЗВУР - задержки внутриутробного развития

Королева Л.И.

Интерфероны и диагностика ЗВУР - задержки внутриутробного развития Королева Л.И.

Слайд 9

ЗВУР

Термин задержка внутриутробного развития плода (ЗВУР) используется для описания плода, масса которого гораздо меньше ожидаемой

для данного гестационного возраста.
Согласно последним отечественным данным частота (распространенность) ЗВУР находится в пределах 3,5 – 8,5%.
Плод с задержкой внутриутробного развития  подвержен повышенному риску внутриутробной гибели или неонатальной смерти, асфиксии до или во время родов.

ЗВУР Термин задержка внутриутробного развития плода (ЗВУР) используется для описания плода, масса которого

Слайд 10

ЗВУР

Сразу после рождения ему угрожает аспирация мекония, гипогликемия, гипотермия, респираторный дистресс-синдром (РДС)и множество

других состояний.
Частота перинатальной смертности при ЗВУР повышена в 7-10 раз, очень велика и перинатальная заболеваемость.
Перечисленные отрицательные обстоятельства показывают, как важно выявлять ЗВУР еще до родов, оптимизировать условия внутриутробного развития плода, планировать и проводить роды, используя наиболее безопасные средства, и обеспечивать наилучший уход в послеродовом периоде.

ЗВУР Сразу после рождения ему угрожает аспирация мекония, гипогликемия, гипотермия, респираторный дистресс-синдром (РДС)и

Слайд 11

Содержание INF-α/β у 16 здоровых матерей здоровых детей и у 20 матерей доношенных

новорожденных с ЗВУР (Королева Л.И.)

Содержание INF-α/β у 16 здоровых матерей здоровых детей и у 20 матерей доношенных

Слайд 12

Гистограмма

Гистограмма 
(от др.-греч. ἱστός — столб + γράμμα — черта, буква, написание)
— столбиковая диаграмма
— способ графического представления табличных

данных.

Гистограмма Гистограмма (от др.-греч. ἱστός — столб + γράμμα — черта, буква, написание)

Слайд 13

Сопоставление гистограмм содержания INF-α/β у здоровых матерей здоровых детей и матерей доношенных новорожденных

с ЗВУР

Сопоставление гистограмм содержания INF-α/β у здоровых матерей здоровых детей и матерей доношенных новорожденных с ЗВУР

Слайд 14

ROC-анализ: удобный инструмент для оценки качества диагностических исследований на основе мерных признаков

ROC-анализ: удобный инструмент для оценки качества диагностических исследований на основе мерных признаков

Слайд 15

Распределения мерного диагностического признака у субъектов с болезнью и без нее

Значения мерного диагностического

признака

Субъекты с болезнью

Субъекты без болезни

Распределения мерного диагностического признака у субъектов с болезнью и без нее Значения мерного

Слайд 16

Значения мерного диагностического признака

Пороговое отсекающее значение

Значения мерного диагностического признака Пороговое отсекающее значение

Слайд 17

Значения мерного диагностического признака

Субъекты без болезни

Субъекты с болезнью

Истинные «позитивы»

Se – доля «позитивов» среди

субъектов с болезнью

Значения мерного диагностического признака Субъекты без болезни Субъекты с болезнью Истинные «позитивы» Se

Слайд 18

Значения мерного диагностического признака

Субъекты без болезни

Субъекты с болезнью

Ложные «позитивы»

coSp – доля «позитивов» среди

субъектов без болезни

Значения мерного диагностического признака Субъекты без болезни Субъекты с болезнью Ложные «позитивы» coSp

Слайд 19

Значения мерного диагностического признака

Субъекты без болезни

Субъекты с болезнью

Истинные «негативы»

Sp – доля «негативов» среди

субъектов без болезни

Значения мерного диагностического признака Субъекты без болезни Субъекты с болезнью Истинные «негативы» Sp

Слайд 20

Значения мерного диагностического признака

Субъекты без болезни

Субъекты с болезнью

Ложные «негативы»

coSe – доля «негативов»

у субъектов с болезнью

Значения мерного диагностического признака Субъекты без болезни Субъекты с болезнью Ложные «негативы» coSe

Слайд 21

Наилучший тест: распределения значений мерного диагностического признака в двух группах не перекрываются

Наилучший тест: распределения значений мерного диагностического признака в двух группах не перекрываются

Слайд 22

Наихудший тест: распределения значений мерного диагностического признака в двух группах полностью перекрываются

Наихудший тест: распределения значений мерного диагностического признака в двух группах полностью перекрываются

Слайд 23

Операционная характеристика приёмника

Термин операционная характеристика приёмника (Receiver Operating Characteristic, ROC) пришёл из теории обработки сигналов,


Эту характеристику впервые ввели во время II мировой войны, после поражения американского военного флота в Пёрл Харборе в 1941 году, когда была осознана проблема повышения точности распознавания самолётов противника по радиолокационному сигналу.
Позже нашлись и другие применения: медицинская диагностика, приёмочный контроль качества, кредитный скоринг, предсказание лояльности клиентов, и т.д.

Операционная характеристика приёмника Термин операционная характеристика приёмника (Receiver Operating Characteristic, ROC) пришёл из

Слайд 24

Слайд 25

ROC-кривая
– графическая характеристика качества диагностического теста,
зависимость чувствительности, т.е. доли позитивов среди

субъектов с болезнью:
Se = f(T+|D+) = f(T+,D+)/f(D+)
от контр-специфичности, т.е. доли позитивов среди субъектов без болезни:
coSp = f(T+|D-) = f(T+,D-)/f(D-)
при варьировании порога отсечения для распознавания наличия или отсутствия болезни.

ROC-кривая – графическая характеристика качества диагностического теста, зависимость чувствительности, т.е. доли позитивов среди

Слайд 26

Нахождение оптимального порога отсечения, Tr = 121 или 115

Нахождение оптимального порога отсечения, Tr = 121 или 115

Слайд 27

ROC-кривая, программа MedCalc

ROC-кривая, программа MedCalc

Слайд 28

Графическая интерпретация порога отсечения на ROC-кривой для данных о содержании INF-α/β у матерей

здоровых детей и детей с ЗВУР. Программа AtteStat

Порог отсечения Tr есть такое значение мерного диагностического признака, для которого расстояние от диагонали на ROC-кривой является максимальным.
В данном случае это точка, для которой
Se = 0,95 и Sp = 0,875

Графическая интерпретация порога отсечения на ROC-кривой для данных о содержании INF-α/β у матерей

Слайд 29

Наилучший тест:

Наихудший тест:

Распределения значений мерного признака не пересекаются вовсе

Распределения значений мерного признака полностью

совпадают

Предельные варианты ROC-кривых

Наилучший тест: Наихудший тест: Распределения значений мерного признака не пересекаются вовсе Распределения значений

Слайд 30

AUC (area under curve) – площадь под ROC-кривой

Общее число ячеек в матрице сравнений:
20

× 16 = 320
Число желтых ячеек: U = 285
Доля желтых ячеек:
AUC = 285/320 = 0,89
Непараметрические ДИ:
95%-й ДИ: 0,720,890,96
99%-й ДИ: 0,650,890,97
99,9%-й ДИ: 0,570,890,98

AUC (area under curve) – площадь под ROC-кривой Общее число ячеек в матрице

Слайд 31

Программа GENERALISEDMW1.xls

Программа GENERALISEDMW1.xls

Слайд 32

Идеальный и бесполезный тесты в терминах AUC

Если тест идеальный, то
AUC = 1.
Если
AUC

≤ 0,5,
то тест бесполезен.

Идеальный и бесполезный тесты в терминах AUC Если тест идеальный, то AUC =

Слайд 33

AUC = 50%

AUC = 90%

AUC = 65%

AUC = 100%

Сравнение ROC-кривых

AUC = 50% AUC = 90% AUC = 65% AUC = 100% Сравнение ROC-кривых

Слайд 34

Словесные интерпретации для градаций AUC

Словесные интерпретации для градаций AUC

Слайд 35

Результаты ROC-анализа

Оптимальный порог отсечения: Tr = 115
AUC = 0,750,891,00
Указаны границы параметрического 99%-го

ДИ для AUC.
Чувствительность: Se = 0,95
Специфичность: Sp = 0,875

Результаты ROC-анализа Оптимальный порог отсечения: Tr = 115 AUC = 0,750,891,00 Указаны границы

Слайд 36

Обсуждение результатов

99,9%-й ДИ для AUC = 0,570,890,98 не накрывает неинформативное значение AUC =

0,50.
Следовательно, оцениваемое этим интервалом неизвестное нам значение AUC статистически значимо отличается от неинформативного значения 0,5 на уровне значимости α = 0,001.
Однако с практической точки зрения способность проверяемого диагностического теста распознавать наличие или отсутствие болезни следует признать всего лишь неудовлетворительной, (или посредственной), поскольку нижняя граница 99,9%-го ДИ для AUCL = 0,57 не выходит за границы соответствующего интервала (0,5 – 0,6).

Обсуждение результатов 99,9%-й ДИ для AUC = 0,570,890,98 не накрывает неинформативное значение AUC

Слайд 37

Решающее правило:

Значения признака, превышающие порог Tr = 115, принимаются за положительный результат диагностического

теста.
Значения признака ниже порога Tr ≤ 115 или равные ему принимаются за отрицательный результат диагностического теста.

Решающее правило: Значения признака, превышающие порог Tr = 115, принимаются за положительный результат

Слайд 38

Графическое представление оптимального порога отсечения, программа MedCalc

Графическое представление оптимального порога отсечения, программа MedCalc

Слайд 39

Результирующая таблица 2 × 2 на основе ROC-анализа

Результирующая таблица 2 × 2 на основе ROC-анализа

Слайд 40

Слайд 41

Обсуждение результатов

Se = 0,610,911,00
Sp = 0,470,830,99
99,9%-ые ДИ и для Se и для Sp

не накрывают неинформативные значения Se = 0,5 и Sp = 0,5.
Следовательно, оцениваемые значения этих параметров статистически значимо отличаются от указанных неинформативных значений.
Однако, поскольку нижняя граница 99,9%-го ДИ для Se слегка превышает значение 0,6, то чувствительность проверяемого диагностического теста следует признать средней.
Для Sp нижняя граница 99,9%-го ДИ не превышает значение 0,5.
Поэтому специфичность проверяемого диагностического теста следует признать ничтожно низкой.

Обсуждение результатов Se = 0,610,911,00 Sp = 0,470,830,99 99,9%-ые ДИ и для Se

Слайд 42

Слайд 43

Обсуждение результатов

LR[+] = 1,65,597,5
LR[-] = 1,99,2134,9
99,9%-ые ДИ и для LR[+] и для LR[-]

не накрывают неинформативные значения LR[+] = 1,0 и LR[-] = 1,0.
Следовательно, оцениваемые значения этих параметров статистически значимо отличаются от указанных неинформативных значений.
Однако нижние границы 99,9%-х ДИ для LR[+] не превышают значение 3,0.
Поэтому способность как положительных, так и отрицательных результатов данного диагностического теста распознавать как наличие, так и отсутствие болезни следует признать неудовлетворительными.

Обсуждение результатов LR[+] = 1,65,597,5 LR[-] = 1,99,2134,9 99,9%-ые ДИ и для LR[+]

Слайд 44

Номограмма Фейгена

Номограмма Фейгена

Слайд 45

Распространенность Prev = 0,16, при которой PPV = 0,5

Распространенность Prev = 0,16, при которой PPV = 0,5

Слайд 46

График прогностичностей

99%-й ДИ

99,9%-й ДИ

График прогностичностей 99%-й ДИ 99,9%-й ДИ

Слайд 47

Предостережение

Подобные исследования следует рассматривать как сугубо предварительные
(пилотные, разведочные, обучающие).
Об этом свидетельствуют в

частности чрезвычайно широкие доверительные интервалы (ДИ) для оцениваемых параметров.
Поэтому такие исследования надо обязательно повторить с выборками гораздо большего объема и удостовериться, воспроизводятся ли результаты.

Предостережение Подобные исследования следует рассматривать как сугубо предварительные (пилотные, разведочные, обучающие). Об этом

Слайд 48

Одно распределение «вложено» в другое: ROC-анализ неприменим

Гистограмма

Одно распределение «вложено» в другое: ROC-анализ неприменим Гистограмма

Слайд 49

Еще пример, когда ROC-анализ неприменим

Гистограмма

Еще пример, когда ROC-анализ неприменим Гистограмма

Слайд 50

Гистограммы содержания INF-α/β у здоровых матерей здоровых детей и матерей доношенных новорожденных с

ЗВУР. Программа PAST (URL: http://folk.uio.no/ohammer/past/)

Здоровые

ЗВУР

Гистограммы содержания INF-α/β у здоровых матерей здоровых детей и матерей доношенных новорожденных с

Слайд 51

Нормальные вероятностные графики

Здоровые

ЗВУР

Нормальные вероятностные графики Здоровые ЗВУР

Слайд 52

Проверка нормальности (гауссовости) распределения у матерей здоровых детей и детей с ЗВУР

Все Р-значения

превышают пороговое значение 0,05 или почти равны ему. Следовательно у нас нет оснований сомневаться в гипотезе о нормальности распределения, порождающего наблюдаемые данные.

Проверка нормальности (гауссовости) распределения у матерей здоровых детей и детей с ЗВУР Все

Слайд 53

Диаграммы «короб с усами» для данных об уровне индуцированной продукции IFN‑α/β у здоровых

матерей здоровых детей и у матерей доношенных новорожденных с ЗВУР. Программа Instat+ (URL: http://www.reading.ac.uk/ssc/n/n_instat.htm)

Диаграммы «короб с усами» для данных об уровне индуцированной продукции IFN‑α/β у здоровых

Слайд 54

Исключение резко выделяющихся наблюдений

С рекомендаций по отбрасыванию выскакивающих (экстремальных) наблюдений («выбросов», «засорений») начинаются

многие руководства по прикладной статистике.
Очень часто авторы и (или) пользователи забывают, что большинство таких процедур предназначено для отбрасывания одного и только одного такого значения.
Тем не менее, можно найти тексты, в которых, скажем, из 6-и наблюдений отбрасываются три.
Это совершенно недопустимо.

Исключение резко выделяющихся наблюдений С рекомендаций по отбрасыванию выскакивающих (экстремальных) наблюдений («выбросов», «засорений»)

Слайд 55

Отбрасывание выскакивающих значений основано на очень серьезных изначальных предположениях.
Обычно подразумевается, что наблюдаемые

выборочные значения принадлежат нормальному распределению.
Поэтому процедура такого отбрасывания тесно связана с процедурами проверки нормальности выборочных значений.
Ситуация оказывается парадоксальной: для надежной проверки нормальности необходимы большие объемы выборок (50-100).
При таких объемах нормальность исходного (модельного) распределения зачастую перестает быть решающим фактором для применения классических критериев типа t-Стьюдента, F- Снедекора–Фишера и т.п.

Отбрасывание выскакивающих значений основано на очень серьезных изначальных предположениях. Обычно подразумевается, что наблюдаемые

Слайд 56

Резко выделяющиеся значения – «выбросы»

Выскакивающие значения можно и нужно выявлять.
Но отбрасывать их

следует на основе внестатистических соображений.
Например, если записано значение для артериального давления 1100, то очевидно, что здесь опечатка: лишняя 1 или лишний 0.

Резко выделяющиеся значения – «выбросы» Выскакивающие значения можно и нужно выявлять. Но отбрасывать

Слайд 57

Если же в малой выборке содержатся «выскакивающие» значения, то это может означать, что

исходное распределение не является нормальным; например, его моделью может оказаться смесь нормальных распределений, и для проверки такого предположения потребуется изучение дополнительных выборок большего объема.
«Выбросы могут оказаться наиболее важными наблюдениями»
[Айвазян С. А., Енюков И. С., Мешалкин Л. Д. Прикладная статистика: Основы моделирования и первичная обработка данных. Справочное издание. – М.: Финансы и статистика, 1983. – 471 с., с. 417].
Как сказал известный специалист по экстремальным статистикам Э. Гумбель, «лучший способ борьбы с выскакивающими наблюдениями – не иметь их»
[Гумбель Э. Статистика экстремальных значений. - М.: Мир, 1965].

Если же в малой выборке содержатся «выскакивающие» значения, то это может означать, что

Слайд 58

Сжатие (свертка, редукция) статистических данных

Статистика – любая функция от случайных величин, порождающих получаемые

статистические данные.
Простейший пример - выборочное среднее:

Сжатие (свертка, редукция) статистических данных Статистика – любая функция от случайных величин, порождающих

Слайд 59

Основная логика статистического оценивания: интервальные оценки

Понятно, что если мы многократно повторим эксперимент, то

вычисленные средние значения неизбежно будут варьировать.
Поэтому задача математиков – вывести математический закон (вероятностное распределение), которому подчиняется варьирование этих выборочных средних.
Если такой закон найден, то тогда можно построить доверительные интервалы (ДИ) для оцениваемого среднего с заданной доверительной вероятностью (1 – α).

Основная логика статистического оценивания: интервальные оценки Понятно, что если мы многократно повторим эксперимент,

Слайд 60

Статистические гипотезы

В обычном языке слово «гипотеза» означает предположение.
В том же смысле оно

употребляется и в научном языке для предположений, которые подлежат экспериментальной проверке, в ходе которой гипотеза либо подтверждается, либо опровергается.
В математической статистике, термин «гипотеза» означает предположение о тех или иных свойствах распределений, которые служат моделями для получаемых данных.
Проверка статистической гипотезы состоит в выяснении того, насколько совместима эта гипотеза с имеющимися данными.

Статистические гипотезы В обычном языке слово «гипотеза» означает предположение. В том же смысле

Слайд 61

Проверяемая гипотеза

В подавляющем большинстве реальных ситуаций проверяемая статистическая гипотеза является гипотезой об отсутствии

того или иного эффекта:
об отсутствии различий, например, о равенстве средних, т.е. о равенстве нулю разности средних;
об отсутствии связей, соответствий, зависимостей и т.п.
Поэтому проверяемую гипотезу принято назвать нулевой и обозначать символом H0.

Проверяемая гипотеза В подавляющем большинстве реальных ситуаций проверяемая статистическая гипотеза является гипотезой об

Слайд 62

Использование доверительных интервалов (ДИ) для проверки нулевых гипотез

Например, для проверки нулевой гипотезы о

равенстве двух средних:
H0: M1 – M2 = 0
можно построить ДИ для разности средних.
Тогда, если вычисленный 100(1 – α)%-й ДИ не накрывает постулируемое этой гипотезой значение 0, то отклонение оцениваемой разности от 0 можно признать статистически значимым на заранее выбранном уровне значимости α.

Использование доверительных интервалов (ДИ) для проверки нулевых гипотез Например, для проверки нулевой гипотезы

Слайд 63

Визуализация результатов проверки статистических гипотез с помощью доверительных интервалов для размера эффекта

Визуализация результатов проверки статистических гипотез с помощью доверительных интервалов для размера эффекта

Слайд 64

Графическое представление результатов статистического сравнения групп матерей здоровых детей и детей с ЗВУР,

1-α = 0,99. Программа ESCI JSMS.xls http://www.latrobe.edu.au/psy/esci/

99%-й ДИ для разности средних не накрывает значение 0.
Следовательно оцениваемое этим интервалом неизвестное нам значение разности средних статистически значимо отличается от 0 на уровне значимости 0,01.
Соответственно мы можем взять на себя смелость отклонить нулевую гипотезу о равенстве средних и принять альтернативную.

Графическое представление результатов статистического сравнения групп матерей здоровых детей и детей с ЗВУР,

Слайд 65

Статистики критериев (тестовые статистики)

Тестовая статистика – статистика, используемая для проверки конкретной статистической гипотезы.
Пример:

статистика t-критерия Стьюдента
В этом случае проверка гипотезы H0 о равенстве двух средних: H0: M1 – M2 = 0 сводится к проверке гипотезы о том, что t = 0.
Когда эта нулевая гипотеза верна, то распределение этой статистики известно – это t-распределение Стьюдента с параметром (числом степеней свободы), равным df.

Статистики критериев (тестовые статистики) Тестовая статистика – статистика, используемая для проверки конкретной статистической

Слайд 66

Проблема Беренса-Фишера

Если дисперсии сравниваемых двух независимых случайных величин не равны, то, то следует

использовать модификацию t-критерия Стьюдента, которая называется критерием Уэлча:

Проблема Беренса-Фишера Если дисперсии сравниваемых двух независимых случайных величин не равны, то, то

Слайд 67

Статистика Уэлча приближенно имеет t-распределение Стьюдента, но с параметром νW, который задается выражением:
где

Статистика Уэлча приближенно имеет t-распределение Стьюдента, но с параметром νW, который задается выражением: где

Слайд 68

Р-значение

Для проверки нулевых гипотез с помощью статистических критериев основным приемом является вычисление

значения вероятности, которое называется
Р-значением.
Строго говоря, его следует называть значением P, поскольку оно варьирует от опыта к опыту и является всего лишь реализацией соответствующей вероятностной переменной P.

Р-значение Для проверки нулевых гипотез с помощью статистических критериев основным приемом является вычисление

Слайд 69

Р-значение

P-значение есть условная вероятность, а именно:
Вероятность получить наблюдаемое значение tнабл. статистики некоего

критерия T и все остальные еще менее вероятные значения этой статистики (или значения, еще более отклоняющиеся от ожидаемых) ПРИ УСЛОВИИ, что верна нулевая гипотеза H0:
Pval = Pr{|T| ≥ |tнабл.| | H0}.
Тут следует обратить внимание на то, что «еще менее вероятные данные» не являются «данными», мы их не наблюдаем.
Мы их додумываем из всех возможных значений статистики критерия T в рамках выбранной нами (нулевой) модели.

Р-значение P-значение есть условная вероятность, а именно: Вероятность получить наблюдаемое значение tнабл. статистики

Слайд 70

P-значение есть вероятность наблюдать исход (x), плюс все «еще более экстремальные исходы». Они

представлены затушеванной областью хвоста распределения, соответствующего нулевой модели

Goodman S. A Dirty Dozen: Twelve P-Value Misconceptions.
Semin. Hematol., 2008. – Vol. 45. – P. 135-140.

P-значение есть вероятность наблюдать исход (x), плюс все «еще более экстремальные исходы». Они

Слайд 71

Односторонние Р-значения

Односторонние Р-значения

Слайд 72

Двухстороннее Р-значение

Двухстороннее Р-значение

Слайд 73

Основная логика использования наблюдаемого значения величины P состоит в том, что если оно

малó, то считается, что малоправдоподобно получить имеющиеся данные при условии, что справедлива нулевая гипотеза.
Как следствие делается вывод, что в таком случае малоправдоподобна и сама нулевая гипотеза.
Это считается достаточным аргументом для того, чтобы отклонить Н0 и принять альтернативную гипотезу Н1.

Основная логика использования наблюдаемого значения величины P состоит в том, что если оно

Слайд 74

Выбор порога для значения P, и можно ли его обосновать?

Когда наблюдаемое значение P

мало, то появляется соблазн отвергнуть H0.
Однако нет никаких статистических соображений, какое значение P следует считать настолько малым, чтобы смело отклонить H0.
Это решение является внестатистическим.
На практике решение отклонить или принять H0 должно зависеть от обстоятельств.
Исследователь в каждой конкретной ситуации должен сам сделать этот выбор.

Выбор порога для значения P, и можно ли его обосновать? Когда наблюдаемое значение

Слайд 75

Традиционная интерпретация значений P (шкала Michelin)

Традиционная интерпретация значений P (шкала Michelin)

Слайд 76

Глотов Н.В., Животовский Л.А., Хованов Н.В., Хромов-Борисов Н.Н. Биометрия, Л.: Изд-во ЛГУ, 1982.

– 264 с.

Выбор уровня значимости определяется важностью биологических выводов, которые должен сделать экспериментатор.
В настоящее время многие биометрики склоняются к следующему правилу:
а) если P > 0,05, то принимается нулевая гипотеза;
б) если P < 0,01, то нулевая гипотеза отклоняется и принимается конкурирующая;
в) если 0,01 < P < 0,05, то результат считается неопределенным.

Глотов Н.В., Животовский Л.А., Хованов Н.В., Хромов-Борисов Н.Н. Биометрия, Л.: Изд-во ЛГУ, 1982.

Слайд 77

[0,05; 0,01] – «серая зона»

[0,05; 0,01] – «серая зона»

Слайд 78

«Фильтруйте базар»: Sterne J.A.C., Davey Smith G. Sifting the evidence – what’s wrong

with significance tests? BMJ, 2001. – Vol. 322. – P. 227-231.

Значение P близкое к 0,05 не является сильным свидетельством против нулевой гипотезы.
Сильными свидетельствами против Н0 следует признавать значения P < 0,001.
В публикациях надо представлять точные значения P без соотнесения их с какими-либо пороговыми (критическими) значениями (типа P < 0,05).
Наравне со значениями P (или даже вместо них) следует указывать доверительные интервалы.

«Фильтруйте базар»: Sterne J.A.C., Davey Smith G. Sifting the evidence – what’s wrong

Слайд 79

В модных ныне изысканиях различного рода генетических предрасположенностей, когда проверяются миллионы аллелей различных

генов, исследователи ориентируются на значения P порядка
10-7.
При таком уровне значимости приходится обследовать сотни тысяч людей.
Но даже при столь суровой требовательности результаты далеко не всегда воспроизводятся в повторных проверочных исследованиях.

В модных ныне изысканиях различного рода генетических предрасположенностей, когда проверяются миллионы аллелей различных

Слайд 80

Sir Ronald Aylmer Fisher 17.02.1890 – 29.07.1962

Sir Ronald Aylmer Fisher 17.02.1890 – 29.07.1962

Слайд 81

Пожелание: «гибкие» P-значения

«В действительности ни один исследователь не пользуется фиксированным уровнем значимости с

которым из года в год и при любых обстоятельствах он отвергает нулевые гипотезы.
Он больше доверяет своему уму и каждый конкретный случай рассматривает в свете совокупности имеющихся доказательств и своих идей и представлений».
R. A. Fisher R. A. Statistical Methods and Scientific Inference, 1956

Пожелание: «гибкие» P-значения «В действительности ни один исследователь не пользуется фиксированным уровнем значимости

Слайд 82

Результаты статистического сравнение групп матерей здоровых детей и детей с ЗВУР, 1-α =

0,99. Программа ESCI JSMS.xls http://www.latrobe.edu.au/psy/esci/

В данном случае
Pval = 3,0E-06 ≡ 3∙10-6.
Вывод:
различие в содержании IFN-α/β у матерей здоровых детей и детей с ЗВУР статистически высоко значимо;
во второй группе оно выше, чем в первой.

Результаты статистического сравнение групп матерей здоровых детей и детей с ЗВУР, 1-α =

Слайд 83

Акт интеллектуальной смелости

Когда значение P очень мало, мы берем на себя смелость отклонить

нулевую гипотезу (и принять альтернативную).
Всякий раз, принимая решение отклонить или принять нулевую гипотезу, мы совершаем акт интеллектуальной смелости.
И этот акт является внестатистическим.

Акт интеллектуальной смелости Когда значение P очень мало, мы берем на себя смелость

Слайд 84

Распространенный соблазн

Квинтэссенцию традиционных (частотнических) заключений при проверке статистических гипотез принято интерпретировать так:
чем

меньше значение P, тем весомее доводы против нулевой гипотезы H0, которые предоставляют нам имеющиеся данные; тем больше у нас оснований сомневаться в H0.
Отсюда невольно (и вроде бы естественно) возникает соблазн интерпретировать значение P как вероятность нулевой гипотезы.

Распространенный соблазн Квинтэссенцию традиционных (частотнических) заключений при проверке статистических гипотез принято интерпретировать так:

Слайд 85

Распространенное заблуждение

Значение P не есть вероятность нулевой гипотезы !
Поскольку P-значение вычисляется
при условии,
что справедлива

нулевая гипотеза H0:
Pval = Pr{|T| ≥ |tнабл.||H0},
то оно никак не может быть вероятностью нулевой гипотезы:
P{t|H0} ≠ P{H0|t}

Распространенное заблуждение Значение P не есть вероятность нулевой гипотезы ! Поскольку P-значение вычисляется

Слайд 86

P-значение не есть вероятность нулевой гипотезы!

К сожалению, даже в известной книге С.Гланца

можно встретить утверждение:
«Упрощая, можно сказать, что Р — это вероятность справедливости нулевой гипотезы»
Гланц С. Медико-биологическая статистика. — М.: Практика, 1998. — с. 119.
Это мнение глубоко ошибочно и чревато пагубными последствиями.
К чести автора, в последующих (у нас не переведенных) изданиях этой его книги оно отсутствует.

P-значение не есть вероятность нулевой гипотезы! К сожалению, даже в известной книге С.Гланца

Слайд 87

Р-значение потому столь привлекательно для ученых, что с ним очень легко получить «значимый»

(«достоверный») результат, даже когда на самом деле эффекта нет.

Р-значение потому столь привлекательно для ученых, что с ним очень легко получить «значимый»

Слайд 88

Калибровка значения P

Sellke T., Bayarri M.J., Berger J.O.
Calibration of p values for

testing precise null hypotheses
The American Statistician, 2001. - Vol. 55. - No. 1. - P. 62-71.
При

Калибровка значения P Sellke T., Bayarri M.J., Berger J.O. Calibration of p values

Слайд 89

Калибровка значений P

Held L. A nomogram for P values.
BMC Medical Research Methodology 2010,

10:21 doi:10.1186/1471-2288-10-21
http://www.biostat.uzh.ch/static/pnomogram/

Калибровка значений P Held L. A nomogram for P values. BMC Medical Research

Слайд 90

Слайд 91

Слайд 92

Слайд 93

«Цена» значения P

Для наглядности значения в таблице округлены до первой значащей цифры.

Более точно значения для P(H0) (сверху вниз) равны 29%, 11% и 1,8%.
Posavac E.J. Using p values to estimate the probability of statistically significant replication // Understanding Statistics, 2002. – Vol. 1. – No. 2. – P. 101-112.

«Цена» значения P Для наглядности значения в таблице округлены до первой значащей цифры.

Слайд 94

Бейзовская интерпретация значения P

Обычно принято интерпретировать значения P как меру доказательства, предоставляемого

имеющимися данными, против нулевой гипотезы.
Однако с точки зрения бейзовской статистики значение P есть всего лишь вероятность того, что при повторении эксперимента будет получена разность средних с противоположным знаком.
При такой интерпретации понятно, что значение P ничего не говорит ни о вероятности нулевой гипотезы P{H0|t}, ни о размере эффекта, в данном случае о разности средних.

Бейзовская интерпретация значения P Обычно принято интерпретировать значения P как меру доказательства, предоставляемого

Слайд 95

Привычка свыше нам дана

Это прекрасно понимал Р.А. Фишер:
«Критерий значимости не позволяет нам

делать какие-либо выводы о проверяемой гипотезе в терминах математической вероятности» (Fisher R.A. The design of experiments. Edinburgh: Oliver & Boyd, 1935).
Тем не менее многие исследователи (авторы) имеют дурную привычку обращать внимание исключительно на значение P,
игнорируя практическую (клиническую) важность полученных ими результатов, игнорируя размер эффекта.

Привычка свыше нам дана Это прекрасно понимал Р.А. Фишер: «Критерий значимости не позволяет

Слайд 96

Статистическая значимость и размер эффекта

Эффект (различие, связь, риск, польза, ассоциация и т. п.)

может быть статистически значимым, но его практическая (например, клиническая) ценность может оказаться ничтожной.
«Статистически значимый» не означает «значительный», «практически важный», «ценный».
Эффекты могут быть реальными, неслучайными, но практически пренебрежимо малыми.

Статистическая значимость и размер эффекта Эффект (различие, связь, риск, польза, ассоциация и т.

Слайд 97

Размер эффекта

Вопрос о клинической (практической) ценности (важности) наблюдаемого
Размера Эффекта
является ключевым при интерпретации

результатов биомедицинских исследований, таких как диагностические исследования, клинические испытания и т.п.
Размер эффекта можно выражать в реальных единицах, а можно сделать его безразмерным – Стандартизированным.

Размер эффекта Вопрос о клинической (практической) ценности (важности) наблюдаемого Размера Эффекта является ключевым

Слайд 98

Стандартизированный размер эффекта по Коуэну (Cohen) dC

Стандартизированный размер эффекта по Коуэну (Cohen) dC

Слайд 99

Интерпретация стандартизированного размера эффекта dC http://www.sportsci.org/resource/stats/

Интерпретация стандартизированного размера эффекта dC http://www.sportsci.org/resource/stats/

Слайд 100

Результаты статистического сравнения групп матерей здоровых детей и детей с ЗВУР, (1 -

α) = 0,99. Программа ESCI JSMS.xls http://www.latrobe.edu.au/psy/esci/

В данном примере абсолютный размер эффекта ES есть попросту разность средних:
ES = M2 – M1 = 26,652,177,6 у.е.
Стандартизированный размер эффекта по Коуэну:
dC = 1,87
Его можно интерпретировать как сильный (большой).

Результаты статистического сравнения групп матерей здоровых детей и детей с ЗВУР, (1 -

Слайд 101

Непараметрическая оценка dC
95%-й ДИ:
0,81,72,5
99%-й ДИ:
0,61,72,6
99,9%-й ДИ:
0,31,72,8

Непараметрическая оценка dC 95%-й ДИ: 0,81,72,5 99%-й ДИ: 0,61,72,6 99,9%-й ДИ: 0,31,72,8

Слайд 102

Бейзов фактор, BF

Бейзов фактор BF принципиально отличается от значения P.
Бейзов фактор не

является вероятностью сам по себе, а является отношением вероятностей, и он может варьироваться от нуля до бесконечности.
Он требует знания двух гипотез, тем самым четко указывая, что если есть свидетельства против нулевой гипотезы, то должны существовать свидетельства и в пользу альтернативной гипотезы.
BF01 = P(D|H0) / P(D|H1)
BF10 = 1 / BF01 = P(D|H1) / P(D|H0)

Бейзов фактор, BF Бейзов фактор BF принципиально отличается от значения P. Бейзов фактор

Слайд 103

Интерпретация убедительности Бейзовых факторов, BF10 и BF01

Интерпретация убедительности Бейзовых факторов, BF10 и BF01

Слайд 104

Бейзов фактор, программа Bayes Factor Calculators http://pcl.missouri.edu/bayesfactor

Бейзов фактор, программа Bayes Factor Calculators http://pcl.missouri.edu/bayesfactor

Слайд 105

Вывод результатов (output)

В 5555 раз (1/0,00018) более правдоподобно получить наблюдаемое различие
(ES =

52,1 у.е.) между сравниваемыми группами при условии, что верна гипотеза H1: ES ≠ 0, нежели при условии, что верна гипотеза H0: ES = 0.
Такое значение BF01 принято интерпретировать как чрезвычайно убедительное свидетельство против нулевой гипотезы H0: ES = 0 в пользу альтернативной гипотезы H1: ES ≠ 0.

Вывод результатов (output) В 5555 раз (1/0,00018) более правдоподобно получить наблюдаемое различие (ES

Слайд 106

Достаточно малое значение P заставляет думать, что произошло нечто неожиданное.
И обычно это интерпретируется

как неверность нулевой гипотезы.
Однако, если для этих же данных бейзов фактор BF01 не мал, то причину таких неожиданностей следует искать не в том, что неверна научная нулевая гипотеза.
Возможны иные причины этого, такие как экспериментальное смещение или неверная модель.
Для исследования иных причин, нужны другие альтернативные гипотезы.

Достаточно малое значение P заставляет думать, что произошло нечто неожиданное. И обычно это

Слайд 107

Статистические предсказания и воспроизводимость

Статистические предсказания и воспроизводимость

Слайд 108

Значение вероятностной P-величины

Значение P есть наблюдаемое значение (реализация) соответствующей случайной величины
Всякий раз мы

наблюдаем одно из ее возможных значений.
Когда H0 верна, то Pval имеет непрерывное равномерное распределение на отрезке
[0; 1].

Значение вероятностной P-величины Значение P есть наблюдаемое значение (реализация) соответствующей случайной величины Всякий

Слайд 109

Отсюда следует, что, строго говоря, на основе всего лишь одного изолированного исследования нельзя

делать определенные выводы.
Любое научное исследование должно повторяться многократно, и должна исследоваться воспроизводимость результатов.

Отсюда следует, что, строго говоря, на основе всего лишь одного изолированного исследования нельзя

Слайд 110

Доверяя, повторяй

Часто считается, что если получен «статистически значимый» результат, то это исключает необходимость

повторить исследование.
Повторность (воспроизведение) часто рассматривается как нечто суетное и мирское.
«Проверка нулевой гипотезы есть метод обнаружения маловероятных событий, которые заслуживают дальнейшего изучения» (Fisher).

Доверяя, повторяй Часто считается, что если получен «статистически значимый» результат, то это исключает

Слайд 111

Повторение – мать познания

Повторение составляет суть науки:
ученый должен всегда задумываться о том,

что произойдет, если он или другой ученый повторят его эксперимент (Guttman, 1977).
Ученые разработали метод определения надежности (валидности) своих результатов.
Они научились задавать вопрос: воспроизводимы ли они? (Scherr, 1983).

Повторение – мать познания Повторение составляет суть науки: ученый должен всегда задумываться о

Слайд 112

Воспроизводимость и предсказания абсолютного размера эффекта для групп матерей здоровых детей и детей

с ЗВУР. Программа LePrep http://www.univ-rouen.fr/LMRS/Persopage/Lecoutre/PAC.htm

Воспроизводимость и предсказания абсолютного размера эффекта для групп матерей здоровых детей и детей

Слайд 113

Воспроизводимость и предсказания стандартизированного размера эффекта по Коуэну (Cohen) dC

Воспроизводимость и предсказания стандартизированного размера эффекта по Коуэну (Cohen) dC

Слайд 114

Воспроизводимость и предсказания размеров эффекта ES и dC для групп матерей здоровых детей

и детей с ЗВУР

При независимом повторении эксперимента эффект может не воспроизвестись и оказаться статистически незначимым (нижняя граница 99%-го ПИ для Pval = 0,071 > 0,05) и размер эффекта по Коуэну может оказаться малым, достигая нижней границы 99%-го ПИ для него: 0,5.

Воспроизводимость и предсказания размеров эффекта ES и dC для групп матерей здоровых детей

Слайд 115

Ошибки I и II рода и мощность статистического критерия

Ошибки I и II рода и мощность статистического критерия

Слайд 116

Истинный позитив, верна H1

Истинный негатив, верна H0

Ложный позитив, ошибка I рода,

ложная тревога

Ложный негатив, ошибка II рода, халатная беспечность

H1: есть беременность; H0: нет беременности

Истинный позитив, верна H1 Истинный негатив, верна H0 Ложный позитив, ошибка I рода,

Слайд 117

Судебные ошибки

Судебные ошибки

Слайд 118

Диагностика

Болезнь

Тест

Диагностика Болезнь Тест

Слайд 119

Теория Неймана-Пирсона: Ошибки I и II рода и мощность критерия

Действи-тельность

Критерий

Теория Неймана-Пирсона: Ошибки I и II рода и мощность критерия Действи-тельность Критерий

Слайд 120

Ошибки I и II рода

Ошибка I рода: отклонение верной нулевой гипотезы;
Аналитик решает

(берет на себя смелость) отклонить нулевую гипотезу, когда в действительности она верна.
Вероятность ошибки I рода традиционно обозначается α.
Ошибка II рода: принятие неверной (ложной) нулевой гипотезы;
Аналитик решает (берет на себя смелость) принять нулевую гипотезу, когда в действительности она неверна.
Вероятность ошибки II рода традиционно обозначается β.

Ошибки I и II рода Ошибка I рода: отклонение верной нулевой гипотезы; Аналитик

Слайд 121

Ошибки I и II рода

Ошибки I и II рода

Слайд 122

Компромисс

Например, в случае металлодетектора
повышение чувствительности прибора приведёт к увеличению риска ошибки первого рода (ложная

тревога), а
понижение чувствительности - к увеличению риска ошибки второго рода (пропуск запрещённого предмета).

Компромисс Например, в случае металлодетектора повышение чувствительности прибора приведёт к увеличению риска ошибки

Слайд 123

Мощность статистического критерия

Мощность статистического критерия есть вероятность того, что критерий правильно отклонит ложную

нулевую гипотезу (правильно примет верную альтернативную гипотезу).
Традиционно ее обозначают (1 – β), где β - вероятность ошибки II рода.
Чем больше мощность критерия, тем меньше вероятность совершить ошибку II рода.

Мощность статистического критерия Мощность статистического критерия есть вероятность того, что критерий правильно отклонит

Слайд 124

Мощность статистического критерия

Мощность статистического критерия измеряет способность критерия выявлять истинные различия (эффекты).
Ее можно

интерпретировать как чувствительность статистического критерия к отклонениям от условий нулевой гипотезы.

Мощность статистического критерия Мощность статистического критерия измеряет способность критерия выявлять истинные различия (эффекты).

Слайд 125

Мощность отвечает на вопрос:
Если эффект (определенного размера) действительно существует, то какова вероятность того,

что эксперимент с выборкой определенного размера даст «статистически значимый» результат?

Мощность отвечает на вопрос: Если эффект (определенного размера) действительно существует, то какова вероятность

Слайд 126

Анализ мощности a priori или post-hoc

Анализ мощности можно проводить либо a priori, т.е.

до получения данных, либо post hoc, т.е. после получения данных.
A priori анализ мощности обычно используется для оценки объема выборки N, необходимого для достижения приемлемой мощности.
Post hoc анализ мощности используется для оценки достигнутой мощности.
В этом случае предполагается, что наблюдаемый эффект и его варьирование равны истинным значениям параметров.

Анализ мощности a priori или post-hoc Анализ мощности можно проводить либо a priori,

Слайд 127

Оценка достигнутой мощности (post hoc). Программа G*Power http://www.psycho.uni-duesseldorf.de/aap/projects/gpower/

Достигнутая мощность проведенного исследования составила
(1 – β)

= 0,9967

Оценка достигнутой мощности (post hoc). Программа G*Power http://www.psycho.uni-duesseldorf.de/aap/projects/gpower/ Достигнутая мощность проведенного исследования составила

Слайд 128

Элементы планирования эксперимента

Элементы планирования эксперимента

Слайд 129

Программа G*Power http://www.psycho.uni-duesseldorf.de/abteilungen/aap/gpower3

Оценка a priori минимально необходимого объема выборки N для достижения статистически

значимого отличия наблюдаемой доли от ожидаемого значения при заданных уровне значимости α и мощности (1 – β).

Программа G*Power http://www.psycho.uni-duesseldorf.de/abteilungen/aap/gpower3 Оценка a priori минимально необходимого объема выборки N для достижения

Слайд 130

Оценка необходимых объемов выборок (a priori)

Для достижения приемлемой статистической мощности
(1 – β)

= 0,95
достаточно было иметь группы по 12 человек.

Оценка необходимых объемов выборок (a priori) Для достижения приемлемой статистической мощности (1 –

Слайд 131

Научный метод

Ни один уважающий себя ученый не ограничится в своих исследованиях одним-единственным

экспериментом, хотя бы ради того, чтобы исключить неизбежные ошибки наблюдения, измерений, подсчетов и т. д.
Законы Менделя стали законами только после того, как их справедливость была продемонстрирована для всех диплоидных организмов, размножающихся половым путем – от растений до человека.
Смешно было бы, если Мйкельсон и Морли провели бы всего лишь одно измерение скорости света и на основании такого этого единственного измерения утверждали бы, что скорость света постоянна (в пределах точности измерения, которую и оценить-то невозможно, если измерение одно).

Научный метод Ни один уважающий себя ученый не ограничится в своих исследованиях одним-единственным

Слайд 132

Культ одиночного изолированного исследования

Чрезмерное «увлечение» анализом одиночных наборов данных пронизывает почти всю статистическую

литературу и является серьезной болезнью статистического образования.
Конечно же, не всегда возможно собрать больше данных, и некоторые научные эксперименты столь дорогостоящи, что правомочно извлекать из данных как только возможно больше информации.
Однако, во многих других ситуациях можно и нужно собирать как можно больше данных, и это представляется благоразумным.
Наука не дается малой кровью.

Культ одиночного изолированного исследования Чрезмерное «увлечение» анализом одиночных наборов данных пронизывает почти всю

Слайд 133

Джон Уайлдер Тьюки (John Wilder Tukey, 16.04.1915 — 26.07.2000)

Исследования должны быть как минимум двухэтапными.
Первый этап

– разведочное (пилотное, порождающее гипотезы) исследование.
Второй этап – проверочное (подтверждающее или опровергающее) исследование.
Оно планируется на основе результатов разведочного исследования.

Джон Уайлдер Тьюки (John Wilder Tukey, 16.04.1915 — 26.07.2000) Исследования должны быть как

Имя файла: Лекция-2-Биомедстатистика.-Гармонизация-статистических-доказательств-и-предсказаний.pptx
Количество просмотров: 60
Количество скачиваний: 0