Лягушка в кипятке и еще 300 популярных инструментов мышления, которые сделают вас умнее
Шрифт:
Ложноположительный результат получится, если между двумя группами обнаружится большая разница (как там, где p– значение равно 0,01), но на самом деле приложение не действует. Это произойдет, если кто-то из группы без приложения случайно долго не мог уснуть, а кто-то из группы с приложением случайным образом легко уснул.
Статистическая значимость
И
Предположим, что размер выборки остается фиксированным. Снижение вероятности ложноположительной ошибки эквивалентно переносу пунктирной линии вправо с сокращением светло-серой области. Но при этом шанс сделать ложноотрицательную ошибку возрастает (сравните верхний рисунок с оригиналом).
Если хотите уменьшить процент одной из ошибок, не увеличивая другую, придется увеличить размер выборки. При этом каждая из кривых нормального распределения станет уже (сравните нижний рисунок также с оригиналом).
Статистическая значимость
Увеличение размера выборки и сужение кривых нормального распределения уменьшают наложение двух кривых, в процессе сокращая общую серую область. Конечно, это привлекательно, потому что уменьшается вероятность совершить ошибку. Но, как мы отметили в начале раздела, есть множество причин, по которым увеличение размера выборки может оказаться нецелесообразным (время, деньги, риск для участников и т. д.).
В таблице показано, как изменяется размер выборки для разных пределов уровня ошибки в исследовании приложения для сна. Вы увидите, что, если процент ошибок понизится, размер выборки придется увеличить.
Все значения размеров выборки в следующей таблице зависят от выбранной альтернативной гипотезы с разницей в 15 %. Размеры выборки увеличивались бы и дальше, если бы разработчики хотели обнаружить еще меньшую разницу, и уменьшились бы, если бы хотели найти только большую разницу.
Размер выборки изменяется с мощностью и значимостью
Исследователям часто приходится брать выборку поменьше, чтобы сэкономить время и деньги, из-за чего выбор большей разницы для альтернативной гипотезы становится привлекательным. Но такой выбор сопряжен с высоким риском. Например, разработчики могли бы сократить размер выборки всего до 62 человек (вместо 268), если бы заменили разницу в альтернативной гипотезе на 30 % между двумя группами (а не 15 %).
Но если в действительности приложение дает разницу всего 15 %, с этим меньшим размером выборки они смогут обнаружить такую меньшую разницу только в 32 % случаев! Это меньше, чем изначальные 80 %, и значит, что в 2/3 случаев будет получен ложноотрицательный результат, который не покажет разницу в 15 %. В идеале любой эксперимент нужно разрабатывать так, чтобы обнаруживать малейшую существенную разницу.
Последнее замечание о p–
Отсутствие доказательств не является доказательством отсутствия.
Точно так же, даже несмотря на то, что исследование могло достичь лишь низкого p– значения, этот результат может быть неприменим, что мы рассмотрим в заключительном разделе.
Статистическую значимость не следует путать с научной, человеческой или экономической значимостью. Даже самый мизерный заметный эффект будет статистически значимым, если размер выборки достаточно велик. Например, если в исследовании сна примет участие достаточное количество людей, вы потенциально обнаружите разницу в 1 % между двумя группами, но будет ли это значимо для покупателей? Нет.
И наоборот, больше внимания стоит обратить на разницу, измеренную в исследовании, вместе с соответствующим доверительным интервалом. Потребители приложения хотят знать не только то, будут ли они лучше спать с ним, чем без него, но и насколько лучше. Возможно, разработчикам даже захочется увеличить размер выборки, чтобы гарантировать определенную погрешность в своих оценках.
Кроме того, Американская ассоциация статистики в одном из выпусков своего журнала за 2016 год подчеркнула, что «научные выводы и деловые или политические решения не должны опираться только на то, преодолевает ли p– значение определенный порог». Слишком большое внимание к p– значению поощряет черно-белое мышление и сокращает до одного числа весь объем информации, полученной из исследования. Такой исключительный фокус заставит вас упустить из виду возможные неоптимальные варианты в проекте исследования (например, размер выборки) или погрешности, которые могли закрасться в него (например, систематическую ошибку отбора).
Получится ли воспроизвести?
Вы уже знаете, что результаты некоторых экспериментов – просто счастливая случайность. Чтобы удостовериться в том, что результат исследования не случаен, его необходимо воспроизвести. Интересно, что в некоторых областях, таких как психология, для воспроизведения положительных результатов предпринимались согласованные усилия, но эти усилия показали, что более 50 % положительных результатов невозможно воспроизвести.
Это низкий показатель и такая проблема с исключительно положительными результатами называется кризисом воспроизводимости. В этом последнем разделе мы предлагаем кое-какие модели, которые объясняют, как это происходит и как все равно получить больше доверия в своей области исследований.
Попытки воспроизведения – это попытки отличить ложноположительные результаты от истинно положительных.
Подумайте, каковы шансы воспроизведения в каждой из этих двух групп. Предполагается, что ложноположительный результат повторится – то есть ожидается получение второго ложноположительного результата при повторном эксперименте – всего в 5 % случаев. С другой стороны, ожидается, что истинно положительный результат повторится в 80–90 % случаев, в зависимости от мощности повторного исследования. Предположим, что это 80 %, как в предыдущем разделе.