Чтение онлайн

на главную - закладки

Жанры

Том13. Абсолютная точность и другие иллюзии. Секреты статистики
Шрифт:

Тщательное изучение генеральной совокупности возможно крайне редко. Опросить всех избирателей, чтобы узнать, за кого они будут голосовать на следующих выборах, нереально и также нереально опросить всех, кто болеет определенной болезнью, чтобы узнать, как подействовало новое лекарство. Конечно, если нас интересует прочность изготовленных изделий, которую нельзя определить, не разрушив изделие, то можно разрушить все произведенные изделия, чтобы определить прочность каждого, но такой подход не выглядит самым разумным.

Вместо этого изучается часть генеральной совокупности, которая называется выборкой. На основе результатов, полученных при изучении выборки, оцениваются характеристики генеральной совокупности. Правила вычисления вероятностей позволяют нам

получить информацию о качестве этой оценки с помощью ряда понятий, в частности «доверительный интервал» и «предельная ошибка».

Очевидно, что наши выводы будут справедливы тогда и только тогда, когда выборка будет репрезентативной. Если она не является репрезентативной, то очевидно, что по ней нельзя будет сделать какие-либо выводы о генеральной совокупности. В некоторых источниках повышенное внимание уделяется математическим аспектам (так как использование непонятных математических терминов — эффектный, хотя и дешевый прием), а способ формирования выборки не указывается. Правильное формирование выборки — достаточно дорогостоящий процесс, но этот аспект крайне важен, так как именно он гарантирует корректность выводов.

Оценка параметров генеральной совокупности с помощью репрезентативной выборки.

Сколько рыб в озере? Сколько машин такси в городе?

Далее мы рассмотрим два примера оценки параметров генеральной совокупности, в частности ее размера, с помощью выборок.

Рыбы

Подсчитать, сколько всего рыб в озере, непросто, особенно если озеро большое, а вода в нем мутная. Тем не менее биологи знают, как решить эту задачу. Разумеется, для этого нужно использовать методы статистики. Очень часто используется так называемый метод двойного охвата, который заключается в следующем.

1. Нужно выловить некоторое количество рыб, пометить их и выпустить обратно в озеро. Разумеется, ловить рыбу нужно так, чтобы не поранить ее. Для этого рыбу можно оглушить электрическим током. Метка не должна влиять ни на подвижность рыбы, ни на ее выживаемость. Также необходимо, чтобы метка сохраняла длительную устойчивость к воздействиям среды.

2. Должно пройти некоторое время (порядка нескольких дней), чтобы помеченные рыбы распространились по всему озеру. Затем нужно заново выловить определенное количество рыб (именно в этом заключается суть метода двойного охвата), необязательно такое же, как в первый раз.

3. Нужно произвести расчеты: если в озере N рыб, а мы пометили М из них, то соотношение помеченных рыб к общему их числу равно M/N. Объем повторно взятой выборки, которую можно считать репрезентативной выборкой рыбы в озере, равен С. Из С выловленных рыб R помеченных. Разумно предположить, что доля помеченных рыб во второй выборке равна доле помеченных рыб в озере, иными словами,

Таким образом, примерное число рыб в озере N равно

Рассмотрим пример с конкретными числами.

Сначала вылавливается и помечается М рыб (их можно считать случайной выборкой из N

рыб, обитающих в озере). В нашем случае М = 13.

Мы выжидаем некоторое время, чтобы помеченные рыбы равномерно распределились по всему озеру, и вылавливаем С рыб, из которых имеют метку. В нашем случае С = 15, = 3.

Произведем вычисления. Число рыб в озере примерно равно:

N = M·C/R = 15·15/3 = 75

Но что означает «примерно равно»? Если вы подсчитаете число рыб на рисунке в нашем примере, то увидите, что их всего 67. Следовательно, погрешность в расчетах составляет 12 %. Эта ошибка больше или меньше, чем следовало ожидать? Какова возможная величина ошибки при использовании этого метода?

Статистика отвечает на эти вопросы, используя разумные предположения и математические инструменты. Однако чтобы получить достаточно точный результат, мы можем прибегнуть к помощи небольшой компьютерной программы, моделирующей вылов рыбы из озера. Мы можем повторить вышеописанные действия произвольное число раз и на основе примерной оценки числа рыб, полученной при каждом моделировании, оценить величину ошибки и частоту, с которой они возникают.

Если мы будем использовать те же числа, что и в нашем примере, то увидим, что в 85 % случаев число помеченных рыб во второй выборке будет варьироваться от 2 до 5. Используя выведенную нами формулу, получим, что число рыб в озере лежит в интервале от 45 до 112. В 15 % случаев число рыб будет лежать вне этого интервала.

Распределение числа помеченных рыб в повторной выборке (моделирование было выполнено 10 000 раз).

Оценка числа рыб бывает чаще избыточной, чем недостаточной. Среднее оценочное значение 82 также больше фактического числа рыб в озере. В этом случае говорят, что оценка является смещенной и не отражает истинного значения оцениваемой величины.

Оценка существенно улучшится, если внести в формулу небольшие изменения. Проблема в том, что объяснить, почему следует внести именно эти поправки, достаточно сложно.

Выполнив расчеты с помощью этой формулы, получим, что если в повторной выборке встретилось 2 помеченных рыбы, то оценка общего числа равна 85, если число помеченных рыб равно 5, то оценка общего числа равна 42. Следовательно, в 85 % случаев оценка численности рыб будет лежать в интервале от 42 до 85. Кроме того, в 27 % случаев число помеченных рыб будет равно 3, что соответствует числу в 64 рыбы, и это очень близко к истинному значению. Эта оценка является несмещенной: если мы повторим вышеописанные действия множество раз, то средняя оценка будет совпадать с истинным значением.

Поделиться:
Популярные книги

Вечный. Книга VI

Рокотов Алексей
6. Вечный
Фантастика:
рпг
фэнтези
5.00
рейтинг книги
Вечный. Книга VI

Личник

Валериев Игорь
3. Ермак
Фантастика:
альтернативная история
6.33
рейтинг книги
Личник

Убивать чтобы жить 8

Бор Жорж
8. УЧЖ
Фантастика:
боевая фантастика
космическая фантастика
рпг
5.00
рейтинг книги
Убивать чтобы жить 8

Хозяйка расцветающего поместья

Шнейдер Наталья
Фантастика:
попаданцы
фэнтези
5.00
рейтинг книги
Хозяйка расцветающего поместья

Запрети любить

Джейн Анна
1. Навсегда в моем сердце
Любовные романы:
современные любовные романы
5.00
рейтинг книги
Запрети любить

Санек 4

Седой Василий
4. Санек
Фантастика:
попаданцы
альтернативная история
5.00
рейтинг книги
Санек 4

Камень Книга одиннадцатая

Минин Станислав
11. Камень
Фантастика:
фэнтези
аниме
5.00
рейтинг книги
Камень Книга одиннадцатая

Мастер 7

Чащин Валерий
7. Мастер
Фантастика:
фэнтези
боевая фантастика
попаданцы
технофэнтези
аниме
5.00
рейтинг книги
Мастер 7

Наследник павшего дома. Том IV

Вайс Александр
4. Расколотый мир
Фантастика:
фэнтези
попаданцы
аниме
5.00
рейтинг книги
Наследник павшего дома. Том IV

Найденыш

Гуминский Валерий Михайлович
1. Найденыш
Фантастика:
альтернативная история
6.00
рейтинг книги
Найденыш

Кодекс Крови. Книга V

Борзых М.
5. РОС: Кодекс Крови
Фантастика:
фэнтези
попаданцы
аниме
5.00
рейтинг книги
Кодекс Крови. Книга V

Небо для Беса

Рам Янка
3. Самбисты
Любовные романы:
современные любовные романы
5.25
рейтинг книги
Небо для Беса

Вернуть невесту. Ловушка для попаданки

Ардова Алиса
1. Вернуть невесту
Любовные романы:
любовно-фантастические романы
8.49
рейтинг книги
Вернуть невесту. Ловушка для попаданки

Кодекс Крови. Книга VII

Борзых М.
7. РОС: Кодекс Крови
Фантастика:
боевая фантастика
попаданцы
аниме
5.00
рейтинг книги
Кодекс Крови. Книга VII