В каждой комнате все же будет наблюдаться некоторый разброс величин веса: вес людей одного пола и роста, имеющих примерно одинаковый доход, будет разным, хотя, наверное, в этом случае эта разница будет гораздо меньшей, чем в выборке в целом. Сейчас наша цель – увидеть, какую долю остающегося разброса величин веса в каждой комнате можно объяснить уровнем образования. Иными словами, какова «наилучшая» линейная связь между образованием и весом в каждой комнате?
Конечная проблема, однако, заключается в том, что мы не хотели бы использовать разные коэффициенты для каждой комнаты. Весь смысл этого упражнения – рассчитать единственный коэффициент, который бы наилучшим образом отражал связь между образованием и весом для рассматриваемой нами выборки в целом – при неизменности других факторов. Мы хотели бы определить единый коэффициент для образования, который можно было бы использовать в каждой комнате, чтобы минимизировать сумму квадратов разностей для совокупности всех комнат. Какой коэффициент для образования минимизирует квадрат необъясненного веса для каждого человека по всем комнатам? Этот коэффициент становится нашим коэффициентом регрессии, поскольку является наилучшим объяснением линейной зависимости между образованием и весом для данной выборки при неизменности таких факторов, как пол, рост и доход.
Данный пример позволяет понять, почему так полезны большие совокупности данных. Они дают нам возможность контролировать многие факторы, располагая при этом большим количеством наблюдений в каждой «комнате». Очевидно, компьютер может выполнить соответствующие вычисления буквально за доли секунды, не распределяя тысячи людей по разным комнатам.
Завершу главу тем же, с чего начал, – зависимостью между стрессом на работе и развитием сердечно-сосудистых заболеваний. Цель исследований, выполняемых по заказу британского правительства в отношении государственных служащих, заключалась в том, чтобы определить связь между невозможностью человека в достаточной степени контролировать содержание, способы и условия выполнения своей работы и развитием сердечно-сосудистых заболеваний за определенный период времени. В ходе одного из первых исследований, проводившегося на протяжении семи с половиной лет, использовалась выборка из 17 530 государственных служащих{73}. Авторы исследования пришли к следующему заключению: «Служащие (мужчины) низшего ранга, как правило, ниже ростом, полнее, имеют проблемы с артериальным давлением, больше курят и меньше занимаются спортом, чем чиновники более высоких рангов. Даже после внесения поправки, учитывающей влияние на уровень смертности всех этих факторов плюс содержание холестерина в крови, отрицательная закономерность между рангом госслужащего и уровнем смертности от сердечно-сосудистых заболеваний оставалась достаточно сильной». Упоминаемая «поправка» вносится посредством регрессионного анализа[63]. Результаты исследования демонстрируют, что при фиксации остальных факторов здоровья (включая рост, который является надежным показателем здоровья и качества питания в раннем детстве) работа на «низких» должностях может в буквальном смысле вас убить.
Скептицизм – вполне разумная первая реакция. В начале главы я написал, что невозможность человека в достаточной степени влиять на содержание, способы и условия выполнения своей работы отрицательно сказывается на его здоровье. Это может быть (или не быть) синонимом пребывания работника на нижних ступенях административной иерархии. Дальнейшее исследование, в ходе которого использовалась вторая выборка из 10 308 британских государственных служащих, было призвано более глубоко уяснить эту разницу{74}. Работников еще раз разделили на административные ранги – высокий, промежуточный и низкий, – но на сей раз предложили заполнить анкету из пятнадцати пунктов, чтобы оценить уровень «диапазона принятия решений или контроля» работника. Анкета содержала вопросы типа: «Можете ли вы выбирать, как именно будете выполнять порученную вам работу?»; кроме того, предлагались разные варианты ответа (от «никогда» до «часто») на утверждения наподобие: «Я могу самостоятельно решать, когда устроить себе перерыв». Исследователи пришли к выводу, что за время проведения эксперимента у работников с «низким уровнем контроля» риск развития сердечно-сосудистых заболеваний был значительно выше, чем у работников с «высоким уровнем контроля». Вместе с тем ученые обнаружили, что риск развития сердечно-сосудистых заболеваний у служащих с жесткими требованиями к выполняемой работе ничуть не выше, чем у работников с низким уровнем социальной поддержки на работе. Похоже, что невозможность человека в достаточной степени влиять на содержание, способы и условия выполнения поставленных задач убивает его в буквальном смысле этого слова.
Упомянутое нами исследование британских служащих обладает двумя характеристиками, типичными для таких солидных экспериментов. Во-первых, его результаты подтверждены аналогичными исследованиями в других странах. В медицинской литературе представление о «низком контроле» (то есть недостаточной возможности человека влиять на содержание, способы и условия выполнения своей работы) привело к появлению термина «переутомление на работе», который характеризует должности с «высокой психологической нагрузкой» и «недостаточностью полномочий для принятия решений». В период с 1981 по 1993 год были опубликованы результаты тридцати шести исследований по этому вопросу; в большинстве из них найдена значительная положительная взаимосвязь между переутомлением на работе и развитием сердечно-сосудистых заболеваний{75}.
Во-вторых, исследователи выявили дополнительные биологические свидетельства, объясняющие механизм, посредством которого этот особый вид стресса на работе приводит к ухудшению здоровья работника. Условия работы, предусматривающие строгие требования, но не позволяющие человеку влиять на процесс выполнения поставленных задач, могут вызывать физиологические реакции (например выделение гормонов, связанных со стрессом), повышающие риск развития сердечно-сосудистых заболеваний в долгосрочной перспективе. Раскрыть этот механизм помогают даже опыты над животными: у обезьян и павианов, занимающих низкий статус (и имеющих немало общего с мелкими государственными служащими), есть физиологические отличия от их высокостатусных сородичей, причем эти отличия обусловливают их большую склонность к сердечно-сосудистым заболеваниям{76}.
При прочих равных условиях лучше, конечно, не становиться низкостатусным павианом (именно эту мысль я пытаюсь как можно чаще доносить до сознания своих детей – особенно сына). Более значительный месседж заключается в том, что регрессионный анализ, пожалуй, – самый важный из имеющихся в распоряжении исследователей инструментов для поиска значимых закономерностей и связей в крупных совокупностях данных. Как правило, у нас нет возможности проводить управляемые эксперименты для получения данных о дискриминации на работе или выявления факторов, вызывающих развитие сердечно-сосудистых заболеваний. Источником наших представлений об этих и многих других социально значимых проблемах являются статистические инструменты, о которых шла речь в этой главе. В сущности, не будет преувеличением сказать, что значительная часть всех важных исследований, выполненных в области социальных наук за последние полстолетия (особенно после появления сравнительно недорогих компьютеров), проводилась с применением регрессионного анализа.
Регрессионный анализ представляет собой важную разновидность научного метода исследований; благодаря ему мы стали более здоровыми, защищенными и информированными людьми.
Какие же потенциальные ловушки подстерегают нас при использовании столь мощного и впечатляющего инструмента? Об этом я расскажу в следующей главе.
Приложение к главе 11
t-распределение
Жизнь несколько усложняется при выполнении регрессионного анализа (или других видов статистического вывода) с малой выборкой данных. Допустим, нам нужно проанализировать зависимость между весом и ростом на основе выборки, состоящей всего из 25 взрослых, вместо того чтобы использовать огромный набор данных, как в исследовании Americans’ Changing Lives. Логика подсказывает, что надо с меньшей уверенностью обобщать полученные результаты на все взрослое население, если выборка состоит не из 3000 взрослых, а лишь из 25. Одно из положений, которые неоднократно подчеркивались в этой книге, заключается в том, что меньшие выборки, как правило, порождают больший разброс исходов. Выборка из 25 взрослых по-прежнему обеспечивает значимые результаты, как обеспечивала бы выборка из 10 и даже 5 человек, но насколько значимыми они являются?