Чтение онлайн

на главную - закладки

Жанры

Лягушка в кипятке и еще 300 популярных инструментов мышления, которые сделают вас умнее
Шрифт:

Ложноположительный результат получится, если между двумя группами обнаружится большая разница (как там, где p– значение равно 0,01), но на самом деле приложение не действует. Это произойдет, если кто-то из группы без приложения случайно долго не мог уснуть, а кто-то из группы с приложением случайным образом легко уснул.

Статистическая значимость

И

наоборот, ложноотрицательный результат получится, если приложение на самом деле помогает людям уснуть быстрее, но наблюдаемая разница слишком мала, чтобы обладать статистической значимостью. Если исследование имеет типичную мощность 80 %, этот ложноотрицательный сценарий будет происходить в 20 % случаев.

Предположим, что размер выборки остается фиксированным. Снижение вероятности ложноположительной ошибки эквивалентно переносу пунктирной линии вправо с сокращением светло-серой области. Но при этом шанс сделать ложноотрицательную ошибку возрастает (сравните верхний рисунок с оригиналом).

Если хотите уменьшить процент одной из ошибок, не увеличивая другую, придется увеличить размер выборки. При этом каждая из кривых нормального распределения станет уже (сравните нижний рисунок также с оригиналом).

Статистическая значимость

Увеличение размера выборки и сужение кривых нормального распределения уменьшают наложение двух кривых, в процессе сокращая общую серую область. Конечно, это привлекательно, потому что уменьшается вероятность совершить ошибку. Но, как мы отметили в начале раздела, есть множество причин, по которым увеличение размера выборки может оказаться нецелесообразным (время, деньги, риск для участников и т. д.).

В таблице показано, как изменяется размер выборки для разных пределов уровня ошибки в исследовании приложения для сна. Вы увидите, что, если процент ошибок понизится, размер выборки придется увеличить.

Все значения размеров выборки в следующей таблице зависят от выбранной альтернативной гипотезы с разницей в 15 %. Размеры выборки увеличивались бы и дальше, если бы разработчики хотели обнаружить еще меньшую разницу, и уменьшились бы, если бы хотели найти только большую разницу.

Размер выборки изменяется с мощностью и значимостью

Исследователям часто приходится брать выборку поменьше, чтобы сэкономить время и деньги, из-за чего выбор большей разницы для альтернативной гипотезы становится привлекательным. Но такой выбор сопряжен с высоким риском. Например, разработчики могли бы сократить размер выборки всего до 62 человек (вместо 268), если бы заменили разницу в альтернативной гипотезе на 30 % между двумя группами (а не 15 %).

Но если в действительности приложение дает разницу всего 15 %, с этим меньшим размером выборки они смогут обнаружить такую меньшую разницу только в 32 % случаев! Это меньше, чем изначальные 80 %, и значит, что в 2/3 случаев будет получен ложноотрицательный результат, который не покажет разницу в 15 %. В идеале любой эксперимент нужно разрабатывать так, чтобы обнаруживать малейшую существенную разницу.

Последнее замечание о p

значениях и статистической значимости: большинство статистиков предостерегают, что нельзя чрезмерно полагаться на p– значения при интерпретации результатов исследования. Неспособность найти значимый результат (достаточно малое p– значение) – это не то же самое, что уверенность в отсутствии эффекта.

Отсутствие доказательств не является доказательством отсутствия.

Точно так же, даже несмотря на то, что исследование могло достичь лишь низкого p– значения, этот результат может быть неприменим, что мы рассмотрим в заключительном разделе.

Статистическую значимость не следует путать с научной, человеческой или экономической значимостью. Даже самый мизерный заметный эффект будет статистически значимым, если размер выборки достаточно велик. Например, если в исследовании сна примет участие достаточное количество людей, вы потенциально обнаружите разницу в 1 % между двумя группами, но будет ли это значимо для покупателей? Нет.

И наоборот, больше внимания стоит обратить на разницу, измеренную в исследовании, вместе с соответствующим доверительным интервалом. Потребители приложения хотят знать не только то, будут ли они лучше спать с ним, чем без него, но и насколько лучше. Возможно, разработчикам даже захочется увеличить размер выборки, чтобы гарантировать определенную погрешность в своих оценках.

Кроме того, Американская ассоциация статистики в одном из выпусков своего журнала за 2016 год подчеркнула, что «научные выводы и деловые или политические решения не должны опираться только на то, преодолевает ли p– значение определенный порог». Слишком большое внимание к p– значению поощряет черно-белое мышление и сокращает до одного числа весь объем информации, полученной из исследования. Такой исключительный фокус заставит вас упустить из виду возможные неоптимальные варианты в проекте исследования (например, размер выборки) или погрешности, которые могли закрасться в него (например, систематическую ошибку отбора).

Получится ли воспроизвести?

Вы уже знаете, что результаты некоторых экспериментов – просто счастливая случайность. Чтобы удостовериться в том, что результат исследования не случаен, его необходимо воспроизвести. Интересно, что в некоторых областях, таких как психология, для воспроизведения положительных результатов предпринимались согласованные усилия, но эти усилия показали, что более 50 % положительных результатов невозможно воспроизвести.

Это низкий показатель и такая проблема с исключительно положительными результатами называется кризисом воспроизводимости. В этом последнем разделе мы предлагаем кое-какие модели, которые объясняют, как это происходит и как все равно получить больше доверия в своей области исследований.

Попытки воспроизведения – это попытки отличить ложноположительные результаты от истинно положительных.

Подумайте, каковы шансы воспроизведения в каждой из этих двух групп. Предполагается, что ложноположительный результат повторится – то есть ожидается получение второго ложноположительного результата при повторном эксперименте – всего в 5 % случаев. С другой стороны, ожидается, что истинно положительный результат повторится в 80–90 % случаев, в зависимости от мощности повторного исследования. Предположим, что это 80 %, как в предыдущем разделе.

Поделиться:
Популярные книги

70 Рублей

Кожевников Павел
1. 70 Рублей
Фантастика:
фэнтези
боевая фантастика
попаданцы
постапокалипсис
6.00
рейтинг книги
70 Рублей

Ваше Сиятельство

Моури Эрли
1. Ваше Сиятельство
Фантастика:
фэнтези
попаданцы
5.00
рейтинг книги
Ваше Сиятельство

Я не Монте-Кристо

Тоцка Тала
Любовные романы:
современные любовные романы
5.57
рейтинг книги
Я не Монте-Кристо

Метатель. Книга 2

Тарасов Ник
2. Метатель
Фантастика:
боевая фантастика
попаданцы
рпг
фэнтези
фантастика: прочее
постапокалипсис
5.00
рейтинг книги
Метатель. Книга 2

Мама из другого мира. Дела семейные и не только

Рыжая Ехидна
4. Королевский приют имени графа Тадеуса Оберона
Любовные романы:
любовно-фантастические романы
9.34
рейтинг книги
Мама из другого мира. Дела семейные и не только

Истребитель. Ас из будущего

Корчевский Юрий Григорьевич
Фантастика:
боевая фантастика
попаданцы
альтернативная история
5.25
рейтинг книги
Истребитель. Ас из будущего

Академия

Кондакова Анна
2. Клан Волка
Фантастика:
боевая фантастика
5.40
рейтинг книги
Академия

Убивать чтобы жить 5

Бор Жорж
5. УЧЖ
Фантастика:
боевая фантастика
космическая фантастика
рпг
5.00
рейтинг книги
Убивать чтобы жить 5

Девочка-лед

Джолос Анна
Любовные романы:
современные любовные романы
5.00
рейтинг книги
Девочка-лед

Жена по ошибке

Ардова Алиса
Любовные романы:
любовно-фантастические романы
7.71
рейтинг книги
Жена по ошибке

Ведьма Вильхельма

Шёпот Светлана
Любовные романы:
любовно-фантастические романы
8.67
рейтинг книги
Ведьма Вильхельма

Дракон с подарком

Суббота Светлана
3. Королевская академия Драко
Любовные романы:
любовно-фантастические романы
6.62
рейтинг книги
Дракон с подарком

Законы Рода. Том 7

Flow Ascold
7. Граф Берестьев
Фантастика:
юмористическое фэнтези
попаданцы
аниме
5.00
рейтинг книги
Законы Рода. Том 7

Ох уж этот Мин Джин Хо 1

Кронос Александр
1. Мин Джин Хо
Фантастика:
попаданцы
5.00
рейтинг книги
Ох уж этот Мин Джин Хо 1