Шрифт:
Интервал:
Закладка:
В этом и состоит интуитивная основа центральной предельной теоремы. Воспользовавшись кое-какими статистическими «прибамбасами», можно вычислить вероятность того, окажетесь ли вы правы или неправы. Например, мы можем подсчитать, что в случае, когда речь идет о 10 000 участниках марафонского забега, средний вес которых равняется 155 фунтов, вероятность того, что средний вес случайной выборки из 60 таких бегунов (примерная вместимость одного автобуса) окажется не ниже 220 фунтов, составляет менее одного шанса из 100. Давайте на данном этапе доверимся интуиции; впоследствии у нас будет немало возможностей выполнить соответствующие вычисления.
Центральная предельная теорема позволяет нам сделать перечисленные ниже выводы (их мы детально проанализируем в следующей главе).
1. Располагая подробными сведениями о какой-то совокупности, мы можем сделать далекоидущие выводы о любой надлежащим образом сформированной из нее выборке. Допустим, например, что у директора школы есть детальная информация о результатах сдачи стандартизованного теста всеми учащимися школы (среднее значение, среднеквадратическое отклонение и т. д.). Это значимые характеристики всей совокупности. Теперь предположим, что на следующей неделе ожидается прибытие некоего чиновника окружного управления образования, который намерен провести такой же стандартизованный тест для 100 случайным образом отобранных учеников. Результаты, продемонстрированные этой выборкой учащихся, будут использованы для оценки качества преподавания в данной школе.
Может ли директор школы с уверенностью утверждать, что баллы этих 100 произвольно отобранных учеников будут точно отражать результаты всех учащихся данной школы при сдаче этого теста? Вполне. Согласно центральной предельной теореме, средний тестовый балл группы из 100 учащихся, как правило, не будет существенно отличаться от среднего балла всех учеников данной школы.
2. Располагая подробными сведениями о какой-либо надлежащим образом сформированной выборке (среднее значение и среднеквадратическое отклонение), мы можем сделать чрезвычайно точные выводы относительно совокупности, из которой эта выборка была получена. По сути, это обратный вариант ситуации, которую мы рассматривали в приведенном выше примере. Иными словами, мы должны поставить себя на место чиновника окружного управления образования, который оценивает школы в своем округе. В отличие от директора школы, этот чиновник не располагает результатами (или не доверяет им) сдачи стандартизованного теста всеми учащимися конкретной школы. Вместо этого он проводит в каждой школе аналогичный тест для произвольной выборки из 100 учеников.
Может ли этот чиновник быть уверен, что качество преподавания в какой-либо конкретной школе в целом можно точно оценить, основываясь на результатах сдачи стандартизованного теста группой из 100 учащихся соответствующей школы? Да, может. Центральная предельная теорема гласит, что достаточно большая выборка, как правило, не будет существенно отличаться от генеральной совокупности, а это означает, что результаты, продемонстрированные этой выборкой (то есть баллы 100 случайным образом отобранных учащихся), с достаточной степенью точности отражают результаты соответствующей совокупности в целом (то есть баллы всех учащихся конкретной школы). Разумеется, именно на таком принципе строятся все опросы. Методологически правильный опрос 1200 человек может многое поведать о настроениях всего населения страны.
Итак, если сказанное выше в п. 1 верно, то сказанное в п. 2 также должно быть верно, и наоборот. Если какая-то выборка, как правило, хорошо отражает совокупность, из которой она была сформирована, то верно и обратное: совокупность, как правило, будет похожа на выборку, сформированную из нее. (Если дети похожи на своих родителей, то и родители должны быть похожи на своих детей.)
3. Наличие данных о какой-то конкретной выборке и данных о какой-то конкретной совокупности позволяет определить, согласуется ли эта выборка с другой выборкой, которая, возможно, получена из той же совокупности. Здесь речь идет, по сути, о примере с пропавшим автобусом, приведенном в начале главы. Нам известен (приблизительно) средний вес участников марафона. Нам также известен (приблизительно) средний вес пассажиров сломавшегося автобуса. Центральная предельная теорема позволяет нам вычислить вероятность того, что конкретная выборка (упитанные люди в автобусе) была сформирована из данной совокупности (участники марафонского забега). Если эта вероятность невелика, то с высокой степенью уверенности можно заключить, что данная выборка сформирована не из интересующей нас совокупности (например, люди в автобусе отнюдь не похожи на группу бегунов-марафонцев, направляющихся к месту старта).
4. Наконец, если нам известны исходные характеристики двух выборок, то мы можем определить, сформированы ли они из одной и той же совокупности. Вернемся еще раз к становящемуся все более абсурдным примеру с автобусом. Теперь нам известно, что марафонский забег будет проводиться в данном городе – равно как и Международный фестиваль любителей сосисок. Допустим, что в обеих группах тысячи участников и обе наняли десятки автобусов, в каждый из которых поместили произвольные выборки либо бегунов-марафонцев, либо поглотителей сосисок. Допустим также, что при перевозке участников этих мероприятий столкнулись два автобуса. (Я уже признал абсурдность своего примера, поэтому сценарий развития событий не должен вас удивлять. Просто продолжайте спокойно читать дальше.) Будучи, как было сказано выше, одним из видных общественных активистов в городе, вы прибываете на место происшествия и пытаетесь определить, ехали ли оба автобуса на одно и то же мероприятие (фестиваль любителей сосисок или марафонский забег). К несчастью, никто из пострадавших не говорит по-английски, но врачи скорой помощи, оперативно прибывшие на место происшествия, сообщают вам подробную информацию о весе каждого из пассажиров в столкнувшихся автобусах.
Основываясь лишь на этих сведениях, вы можете заключить, куда направлялись эти автобусы: на одно и то же мероприятие или на два разных. Как и прежде, положимся на интуицию. Допустим, что средний вес пассажиров в одном автобусе равняется 157 фунтам при среднеквадратическом (стандартном) отклонении 11 фунтов (это означает, что вес значительной части пассажиров находится в диапазоне от 146 до 168 фунтов). Теперь предположим, что средний вес пассажиров второго автобуса составляет 211 фунтов при среднеквадратическом отклонении 21 фунт (это означает, что вес значительной части пассажиров находится в диапазоне от 190 до 232 фунтов). Забудем на какое-то время о статистических формулах и будем опираться исключительно на логику: представляется ли вам вполне вероятным, что пассажиры обоих автобусов были случайным образом извлечены из одной и той же совокупности?
Вовсе нет. Более вероятным кажется то, что в одном из двух автобусов ехали бегуны-марафонцы, а в другом – любители сосисок. Помимо ощутимой разницы в показателях среднего веса пассажиров двух автобусов, нетрудно также заметить, что разброс в весе между этими двумя автобусами очень велик по сравнению с разбросом в весе в каждом из двух автобусов. Максимальный вес людей в «худощавом» автобусе (168 фунтов, что на одно среднеквадратическое отклонение больше среднего значения) меньше, чем минимальный вес людей в «упитанном» автобусе (190 фунтов, что на одно среднеквадратическое отклонение меньше среднего значения). Это верный признак (как со статистический, так и с логической точки зрения) того, что две выборки сформированы, скорее всего, из разных совокупностей.
Если на интуитивном уровне все это представляется вам вполне логичным, то вы уже на 93,2 % приблизились к пониманию сути центральной предельной теоремы[40]. Чтобы придать этому интуитивному выводу некую техническую солидность, нам необходимо продвинуться еще на один шаг вперед. Очевидно, когда вы заглядываете в поломанный автобус и видите там группу довольно упитанных людей в спортивных брюках свободного покроя, у вас тотчас же мелькает догадка, что вряд ли это бегуны на марафонские дистанции. Центральная предельная теорема позволяет нам подвести под свои предположения солидную теоретическую базу и придать им определенную степень уверенности.
Например, исходя из неких базовых вычислений я могу заключить, что в 99 случаях из 100 средний вес пассажиров любого случайным образом выбранного автобуса с бегунами будет отличаться не более чем на девять фунтов от среднего веса всех зарегистрированных участников марафона. Именно это служит статистическим подтверждением моей догадки, когда я натыкаюсь на поломанный автобус с людьми. Средний вес его пассажиров на двадцать один фунт превышает средний вес всех зарегистрированных участников марафона, а это значит, что вероятность принадлежности пассажиров этого автобуса к составу участников забега не превышает 1 шанс из 100. Это позволяет мне с 99-процентной уверенностью отвергнуть гипотезу о том, что встретившийся мне автобус перевозил спортсменов (иными словами, я могу рассчитывать на то, что сделанный мною вывод окажется правильным в 99 случаях из 100).