Шрифт:
Интервал:
Закладка:
К счастью, вам известен средний вес пассажиров автобуса, а также среднеквадратическое отклонение для всей совокупности Americans’ Changing Lives. Кроме того, мы имеем общее представление о центральной предельной теореме и знаем, как оказать первую помощь пострадавшему животному. Средний вес участников исследования Americans’ Changing Lives составляет 162 фунта; среднеквадратическое отклонение равняется 36. На основе этой информации вы можете вычислить стандартную ошибку для выборки из 62 человек (количество пассажиров автобуса, потерявших сознание): s / √62 = 36/7,9, или 4,6.
Разница между средним значением этой выборки (194 фунта) и средним значением совокупности (162 фунта) равна 32 фунта, то есть значительно больше трех стандартных ошибок. Из центральной предельной теоремы вам известно, что 99,7 % средних значений всех выборок будут отстоять от среднего значения совокупности на расстоянии, не превышающем трех стандартных ошибок. Таким образом, крайне маловероятно, что встретившийся вам автобус перевозит группу участников исследования Americans’ Changing Lives. Будучи видным общественным активистом города, вы звоните организаторам мероприятия, чтобы сообщить, что в повстречавшемся вам автобусе, скорее всего, находится какая-то другая группа людей. Правда, в этом случае вы можете опираться на статистические результаты, а не свои «интуитивные догадки». Вы сообщаете организаторам, что отрицаете вероятность того, что найденный вами автобус именно тот, который они разыскивают, с 99,7 % доверительным уровнем. А поскольку в данном случае вы разговариваете с людьми, знакомыми со статистикой, то можете не сомневаться, они понимают, что вы правы. (Всегда приятно иметь дело с умными людьми!)
Сделанные вами выводы находят дальнейшее подтверждение, когда врачи скорой помощи берут пробы крови у пассажиров автобуса и обнаруживают, что средний уровень холестерина в их крови превышает средний уровень холестерина в крови участников исследования Americans’ Changing Lives на пять стандартных ошибок. Из этого следует, что впавшие в бессознательное состояние пассажиры – участники Фестиваля любителей сосисок. (Впоследствии это было неопровержимо доказано.)
[У этой истории оказался счастливый конец. Когда к пассажирам автобуса вернулось сознание, организаторы исследования Americans’ Changing Lives посоветовали им проконсультироваться у специалистов-диетологов относительно опасности употребления в пищу продуктов с высоким содержанием насыщенных жиров. После таких консультаций многие из любителей сосисок решили порвать со своим позорным прошлым и вернуться к более здоровому рациону питания. Пострадавшего лося выходили в местной ветеринарной клинике и выпустили на свободу под одобрительные возгласы членов местного Общества защиты животных. Да, история почему-то умалчивает о судьбе водителя автобуса. Возможно, потому, что статистика не занимается судьбами отдельно взятых людей. Лось – совсем другое дело, замолчать его судьбу не удастся! В случае чего за него может вступиться Общество защиты животных.][42]
В этой главе я пытался говорить только об основах. Вы, наверное, обратили внимание, что центральная предельная теорема применима лишь в случаях, когда размер выборки достаточно велик (как правило, не менее 30). Кроме того, нам требуется относительно большая выборка, если мы намерены предположить, что ее среднеквадратическое отклонение будет примерно таким же, как и среднеквадратическое отклонение генеральной совокупности. Существует немало статистических поправок, которые можно применять в случае несоблюдения указанных условий, но все это похоже на сахарную глазурь на торте (и, возможно, даже на шоколадные крошки, которыми присыпают эту глазурь сверху). «Общая картина» здесь проста и чрезвычайно эффективна.
1. Если вы формируете на основе какой-либо совокупности большие (по объему) случайные выборки, то их средние значения будут распределены по нормальному закону вблизи среднего значения соответствующей совокупности (какой бы вид ни имело распределение исходной совокупности).
2. Большинство средних значений выборок будет расположено достаточно близко к среднему значению совокупности (что именно следует в том или ином случае считать «достаточно близким», определяется стандартной ошибкой).
3. Центральная предельная теорема говорит нам о вероятности того, что среднее значение выборки будет находиться не дальше определенного расстояния от среднего значения совокупности. Относительно маловероятно, что среднее значение выборки будет отстоять от среднего значения совокупности дальше, чем на расстояние двух стандартных ошибок, и крайне маловероятно, что среднее значение выборки будет отстоять от среднего значения совокупности дальше, чем на расстояние трех и более стандартных ошибок.
4. Чем меньше вероятность того, что какой-то исход оказался чисто случайным, тем больше мы можем быть уверены в том, что здесь не обошлось без воздействия какого-то другого фактора.
В этом по большому счету и заключается сущность статистического вывода. Центральная предельная теорема главным образом делает все это возможным. И до тех пор, пока Леброн Джеймс не станет столько раз чемпионом НБА, сколько Майкл Джордан (шесть), центральная предельная теорема будет производить на нас гораздо большее впечатление, чем знаменитый баскетболист.
9. Статистические выводы
Почему моему преподавателю статистики казалось, что я пытаюсь его обмануть
Весной, будучи уже в старших классах колледжа, я решил прослушать курс лекций по статистике. Вообще говоря, в то время я не испытывал особой любви ни к ней, ни к любым другим наукам, базирующимся на математике, но пообещал отцу, что прослушаю этот курс лекций с условием, что мне разрешат на десять дней поехать в СССР. Короче говоря, это был взаимовыгодный обмен, причем, как оказалось, статистика увлекла меня гораздо больше, чем я предполагал, к тому же мне удалось побывать в СССР весной 1988 года. Кто же тогда знал, что эта страна буквально через несколько лет расстанется со своим коммунистическим прошлым!
В действительности эта история имеет непосредственное отношение к материалу данной главы: дело в том, что в то время я не уделял изучению статистики должного внимания. Помимо всего прочего, я писал тогда дипломную работу, и до ее сдачи у меня оставалось не так уж много времени. По мере прохождения курса статистики мы периодически сдавали промежуточные экзамены, многие из которых я либо проваливал, либо попросту игнорировал. К середине семестра багаж знаний, полученных мною по данной дисциплине, был настолько скудным, что я мог рассчитывать исключительно на чудо. Но буквально за несколько недель до окончания семестра произошли два важных события. Во-первых, я дописал дипломную работу, в результате чего у меня появилось довольно много свободного времени. И во-вторых, осознал, что статистика не такая уж сложная наука, как мне казалось до этого. Я начал усиленно штудировать учебники по статистике, наверстывая упущенный материал. Итоговый экзамен по статистике я сдал на отлично.
Именно тогда преподаватель статистики (к сожалению, я забыл его имя) вызвал меня к себе в кабинет. Не помню точно, что он мне сказал, но это было нечто вроде: «Вы добились потрясающих успехов по сравнению с серединой семестра». Однако его слова звучали отнюдь не как похвала моим достижениям. Напротив, в них мне послышалось скрытое обвинение в том, что во время сдачи экзамена я пользовался шпаргалками. Учитель не мог поверить в то, что студент, так «мелко плававший» на промежуточных экзаменах, способен на столь мощный рывок к концу семестра. Тогда мне было очень обидно, что меня подозревают в обмане, но со временем я понял этого человека и нисколько не осуждаю. Практически по всем предметам, изучаемым в колледже, наблюдается высокая степень корреляции между результатами, которые студенты демонстрируют на промежуточных и итоговых экзаменах. Очень маловероятно, что студент, получивший на промежуточных экзаменах оценку ниже средней, покажет блестящий результат во время сдачи итоговых экзаменов.
Я объяснил преподавателю, что, завершив написание дипломной работы, решил со всей серьезностью отнестись к изучению курса статистики (для этого мне понадобилось всего лишь читать рекомендованные им главы учебника и своевременно выполнять домашние задания). Мне показалось, что я его убедил, хотя его подозрение в том, что во время экзамена я пользовался шпаргалками (пусть даже не высказанное вслух), по-прежнему не давало мне покоя.
Хотите верьте, хотите нет, но этот случай воплощает в себе многое из того, что вам нужно знать о статистическом выводе, в том числе о его достоинствах и потенциальных недостатках. Статистика не может ничего утверждать с определенностью. Напротив, сила статистического вывода проистекает из наблюдения некой картины или исхода и последующего использования теории вероятностей для получения его (ее) самого вероятного объяснения. Допустим, в ваш город прибыл большой любитель азартных игр и предлагает вам пари: он выигрывает 1000 долларов, если в результате подбрасывания игральной кости выпадет шестерка; вы выигрываете 500 долларов, если выпадет любое другое число, – очень выгодный, на ваш взгляд, вариант. Затем в результате десяти подбрасываний игральной кости у него десять раз подряд выпадает шестерка. Вам не остается ничего другого, как уплатить 10 000 долларов.