Между тем ничего этого вам, скорее всего, делать не следует (а идея с оскорбительным письмом боссу – глупая в любом случае). Когда вы повторно приходите к врачу, чтобы получить от него направление в хоспис, ассистент врача сообщает вам, что результаты вашего анализа крови находятся в пределах нормы. Как такое возможно? «Мой показатель HCb2 превышает среднее значение на целых 12 пунктов!» – недоумеваете вы.
«Среднеквадратическое отклонение для HCb2 равняется 18», – успокаивает вас ассистент врача.
Что все это значит?
Дело в том, что у HCb2, как и у большинства других биологических явлений (например, роста человека), существует вполне естественный разброс значений. В то время как среднее значение HCb2 действительно может составлять 122, у огромного числа здоровых людей оно может быть несколько выше или ниже. Опасность возникает только тогда, когда значение HCb2 намного выше или ниже указанного среднего значения. Но что именно следует понимать под «намного» в данном контексте? Как уже говорилось, среднеквадратическое отклонение является показателем разброса, то есть оно демонстрирует, насколько плотно группируются наблюдения вокруг среднего значения. Для многих типичных распределений данных высокая доля наблюдений располагается в пределах одного среднеквадратического отклонения от среднего значения (это означает, что они находятся в диапазоне, простирающемся от одного среднеквадратического отклонения ниже среднего значения до одного среднеквадратического отклонения выше среднего значения). Проиллюстрируем это на простом примере. Средний рост взрослого мужчины-американца равняется 5 футам 10 дюймам. Среднеквадратическое отклонение составляет примерно 3 дюйма. Рост значительной доли взрослых мужчин находится между 5 футами 7 дюймами и 6 футами 1 дюймом.
То же самое можно сформулировать несколько иначе: любой мужчина в этом диапазоне роста не считался бы слишком высоким или низким. Это возвращает нас к результатам количественного анализа HCb2, которые так нас встревожили. Да, значение HCb2 на 12 пунктов выше среднего, но это меньше, чем одно среднеквадратическое отклонение, что является аналогом роста, близкого к 6 футам, – следовательно, никакой особой аномалии здесь не наблюдается. Разумеется, гораздо меньшее число наблюдений находится на расстоянии двух стандартных отклонений от среднего значения; еще меньшее число наблюдений находится на расстоянии трех или четырех стандартных отклонений. (Что касается роста, то американский мужчина выше среднего роста на три среднеквадратических отклонения достигал бы 6 футов 7 дюймов или был бы даже еще выше.)
Некоторые распределения более рассредоточены, чем другие. Следовательно, среднеквадратическое отклонение значений веса 250 пассажиров самолета будет выше, чем значений веса 250 бегунов-марафонцев. Распределение частот веса пассажиров самолета оказалось бы более «разбросанным», чем бегунов-марафонцев. После того как мы узнаем среднее значение и стандартное отклонение для какой-либо совокупности данных, мы получаем о ней весьма ценные сведения. Допустим, я сообщаю вам, что по результатам проведения единого экзамена по математике какого-либо штата средняя сумма баллов составила 500 при стандартном отклонении, равном 100. Как и в случае с ростом мужчин, большая часть учащихся, сдаваших экзамен, продемонстрировала результаты в пределах одного среднеквадратического отклонения от среднего значения, то есть между 400 и 600 баллами. Сколько учеников, по вашему мнению, получили 720 и выше? Наверное, очень немногие, поскольку такой показатель превышает два среднеквадратических отклонения от среднего значения.
Теперь не мешало бы уточнить, что в данном случае имеется в виду под словами «очень немногие». Думаю, самое время познакомить читателей с одним из наиболее важных, полезных и распространенных распределений в статистике – нормальным распределением. Данные, которые распределены согласно этому закону, располагаются симметрично относительно своего среднего значения, причем это распределение имеет колоколообразную форму, которая наверняка вам хорошо знакома.
Нормальное распределение описывает многие явления, часто встречающиеся в жизни. Представьте себе распределение частот, описывающее, как стреляют зерна воздушной кукурузы (попкорна) на плите. Некоторые зерна начинают лопаться раньше остальных, издавая примерно один-два хлопка в секунду; через десять или пятнадцать секунд зерна уже взрываются как сумасшедшие. Постепенно количество хлопков в секунду сокращается приблизительно до частоты, наблюдавшейся в самом начале поджаривания. Значения роста мужчин-американцев распределены практически в соответствии с законом нормального распределения, то есть расположены почти симметрично относительно среднего значения (5 футов 10 дюймов). Каждый тест SAT специально разрабатывается таким образом, чтобы обеспечить нормальное распределение результатов со средним значением 500 при среднеквадратическом отклонении, равном 100. Согласно Wall Street Journal, американцы даже склонны по закону нормального распределения парковать свои автомобили у крупных торговых центров: большинство автомобилей паркуются напротив центрального входа в торговый центр («вершина» кривой нормального распределения), а «хвосты» машин расходятся вправо и влево от центрального входа.
Красота нормального распределения – его мощь, изящество и элегантность – обусловлена тем, что нам по определению известно, какая именно доля наблюдений в нормальном распределении находится в пределах одного среднеквадратического отклонения от среднего значения (68,2 %), двух среднеквадратических отклонений от среднего значения (95,4 %), трех среднеквадратических отклонений от среднего значения (99,7 %) и т. д. Хотя все это может показаться тривиальным, это именно тот фундамент, на котором строится значительная часть статистики. Мы вернемся к концепции нормального распределения чуть позже, чтобы рассмотреть ее подробнее.
Средним значением является средняя линия, которую часто обозначают греческой буквой µ. Среднеквадратическое (стандартное) отклонение зачастую обозначают греческой буквой σ. Каждая вертикальная полоса на графике представляет одно среднеквадратическое отклонение.
Описательные статистики часто служат для сравнения двух значений или величин. Я на один дюйм выше своего брата; сегодня температура воздуха на девять градусов больше «исторического среднего» для этой даты и т. д. Такие сравнения имеют смысл, поскольку большинство из нас признают используемые в этих случаях шкалы единиц измерения. Один дюйм – не так много, когда речь идет о человеческом росте, поэтому вы можете заключить, что у нас с братом примерно одинаковый рост. И напротив, девять градусов – значительное отклонение температуры воздуха практически для любого климата в любое время года; поэтому, если в какой-то из дней было зафиксировано превышение средней температуры на девять градусов, это существенная аномалия. Но допустим, я сообщу, что хлопья Granola Cereal A содержат на 31 миллиграмм больше натрия, чем хлопья Granola Cereal B. Если вы не знакомились со специальной литературой, в которой рассматриваются последствия употребления в пищу натрия, и не знаете, о какой величине порции хлопьев идет в данном случае речь, на основе приведенной выше информации вы не сделаете полезных выводов. А если я скажу вам, что мой кузен Эл заработал в текущем году на 53 000 долларов меньше, чем в прошлом? Следует ли нам тревожиться за судьбу Эла? А что если он управляющий хедж-фонда, для которого сумма 53 000 долларов соизмерима с ошибкой округления при подсчете его годового дохода?
В примерах с содержанием натрия в хлопьях и доходом Эла отсутствует контекст, который позволил бы оценить масштаб проблемы, если таковая имеется. Самый простой способ придать смысл этим сравнениям – использовать процентные величины. Если бы я сообщил вам, что хлопья Granola Cereal A содержат на 50 % больше натрия, чем хлопья Granola Cereal B, а доход моего кузена Эла сократился в прошлом году на 47 %, это позволило бы вам сделать определенные выводы. Оценка тех или иных изменений в процентах предоставляет нам нечто наподобие шкалы.
Поскольку в школе вас наверняка научили вычислять проценты, не исключено, что у вас возникнет соблазн не читать несколько следующих абзацев. Что ж, возможно, вы правы. Однако прежде чем принять окончательное решение, выполните одно простое упражнение. Допустим, в универмаге продается платье за 100 долларов. Заместитель директора универмага решает снизить цену всех товаров на 25 %. Но впоследствии его увольняют за то, что он зависает в баре с Биллом Гейтсом[13], а новый заместитель директора распоряжается повысить все цены на 25 %. Какой окажется окончательная цена платья? Если вы скажете (или подумаете), что 100 долларов, то вам лучше все же читать текст подряд.