Шрифт:
Интервал:
Закладка:
Вряд ли нам удастся получить достоверные коэффициенты регрессии по какой-либо из этих двух переменных (кокаин или героин); мы можем также проигнорировать более сильную и важную зависимость между результатами экзаменов и употреблением какого-то одного из этих наркотиков. Когда две объясняющие переменные сильно коррелированны между собой, исследователи обычно используют в уравнении регрессии какую-то одну из них; как вариант, они могут создать некую составную переменную, например «употреблял кокаин или героин». Если же исследователи хотят контролировать в целом социально-экономическое положение учащегося, они могут включить переменные «образование матери» и «образование отца», поскольку это обеспечивает важное указание на уровень образования соответствующей семьи в целом. Однако если цель регрессионного анализа – вычленить влияние либо образования отца, либо образования матери, то включение в уравнение обеих переменных скорее запутает вопрос, чем внесет в него ясность. Корреляция между уровнями образования мужа и жены столь высока, что мы не можем полагаться на то, что регрессионный анализ даст нам коэффициенты, которые позволят надлежащим образом вычленить влияние образования кого-либо из родителей (это так же трудно, как обособить влияние употребления кокаина от влияния употребления героина)[69].
Экстраполяция за границы имеющихся данных. Регрессионный анализ, как и все формы статистического вывода, помогает нам лучше понять окружающий мир. Мы пытаемся выявить закономерности, которые будут общими и для более крупной совокупности. Однако наши результаты будут справедливы лишь для совокупности, подобной выборке, в отношении которой выполнялся анализ. В предыдущей главе я создал уравнение регрессии, позволяющее предсказывать вес, основываясь на ряде независимых переменных. Значение R² в моей окончательной модели равнялось 0,29; это означает, что оно дает возможность объяснить разброс веса для крупной выборки людей, если все они оказались взрослыми.
Итак, что же произойдет, если мы воспользуемся нашим уравнением регрессии для предсказания вероятного веса новорожденного младенца? Давайте проверим. При рождении рост моей дочери составлял 21 дюйм. Допустим, ее возраст в момент рождения равнялся нулю; у нее, конечно же, не было образования и она не занималась спортом. Она относилась к белой расе и была женского пола. Уравнение регрессии, основанное на данных America’s Changing Lives, предсказывает, что ее вес при рождении должен иметь отрицательную величину: ‒19,6 фунта. (В действительности она весила 8,5 фунта.)
Авторы одного из исследований, выполнявшихся по заказу британского правительства (мы упоминали о них в предыдущей главе), сделали совершенно четкий вывод: «Неспособность работника влиять на свою рабочую среду ассоциируется с повышенным риском развития заболеваний сердечно-сосудистой системы среди государственных служащих»{81} (курсив мой).
Интеллектуальный анализ (слишком много переменных). Если игнорирование важных переменных представляет собой потенциальную проблему, то, может быть, ее возможным решением будет максимальное наращивание количества объясняющих переменных в уравнении регрессии? Отнюдь! Ваши результаты могут быть поставлены под угрозу, если вы включите в уравнение регрессии чересчур большое число переменных, особенно если речь идет о дополнительных объясняющих переменных без какого-либо теоретического обоснования такого решения. Например, не следует разрабатывать стратегию исследования, построенную на следующей предпосылке: поскольку нам неизвестно, что вызывает аутизм, нужно включить в уравнение регрессии как можно больше потенциальных объясняющих переменных, чтобы увидеть, что именно может оказаться статистически значимым; затем, возможно, мы сумеем получить кое-какие ответы. Если вы включите в уравнение регрессии достаточно большое число лишних переменных, то одна из них, по чистой случайности, обязательно достигнет порога статистической значимости. Еще одна опасность заключается в том, что лишние переменные порой не так-то легко распознать именно как лишние. Опытные исследователи могут всегда обосновать теоретически, постфактум, почему та или иная необычная переменная, которая в действительности совершенно бессмысленна, оказывается статистически значимой[70].
Чтобы доказать это, я нередко проделываю то же упражнение с подбрасыванием монетки, которое приводил при обсуждении вероятностей. В аудитории примерно из сорока студентов я предлагаю каждому подбросить монетку. Все, у кого выпадает решка, выводятся из игры; остальные продолжают подбрасывание. Во втором раунде те, у кого выпадает решка, снова выводятся из игры. Я продолжаю раунды до тех пор, пока у кого-то из студентов пять или шесть раз подряд не выпадет орел. Наверняка вам придут на память глупые вопросы, которые обычно задают в таких случаях: «В чем ваш секрет? Вы достаете этих орлов из рукава? Можете ли вы научить нас подбрасывать монетку так, чтобы каждый раз выпадал орел? Может быть, все дело в фирменной футболке Гарвардского университета, в которой вы пришли сегодня на лекцию?»
Разумеется, череда следующих друг за другом выпаданий орлов – чистая случайность: студенты, присутствовавшие в аудитории, были свидетелями происходящего. Однако полученный результат мог по-разному интерпретироваться в научном контексте. Вероятность пятикратного (подряд) выпадания орлов равняется 1/32, или 0,03. Это существенно ниже порога 0,05, который мы обычно используем, чтобы отвергнуть основную гипотезу. Наша нулевая гипотеза в данном случае заключается в том, что этот студент не обладает особым талантом подбрасывать монетку. Тем не менее удачная череда выпаданий орлов (которая обязательно произойдет по крайней мере у одного студента, если этот эксперимент будет проводиться с достаточно большим количеством участников) позволяет нам отклонить нулевую гипотезу и принять альтернативную гипотезу, утверждающую, что данный студент обладает особым талантом подбрасывать монетку так, чтобы каждый раз выпадал орел. После того как он достиг этого впечатляющего результата, мы можем подвергнуть его более детальному изучению в надежде выявить причины столь блестящих достижений: методика подбрасывания монетки, особая физическая подготовка, умение полностью сконцентрироваться на монетке, пока она вращается в воздухе, и т. п. Все это совершеннейшая чепуха!
Подобное явление способно расстроить даже безупречно организованное исследование. Считается, что нулевую гипотезу следует отвергнуть, когда мы наблюдаем нечто, что должно было бы произойти по чистой случайности не чаще, чем в 1 случае из 20, если бы наша основная гипотеза была верна. Разумеется, если мы проведем 20 исследований или включим в одно уравнение регрессии 20 лишних переменных, то в среднем получим один ложный статистически значимый результат. Журнал The New York Times блестяще выразил это противоречие, процитировав Ричарда Пето, медицинского статистика и эпидемиолога: «Эпидемиология так восхитительна и позволяет получить столь важные представления о жизни и смерти человека! Удручает лишь невероятное количество никому не нужных, бестолковых публикаций»{82}.
Даже к результатам клинических испытаний, которые обычно представляют собой статистические эксперименты и, следовательно, являются «золотым стандартом» медицинских исследований, следует относиться с изрядной долей скептицизма. В 2011 году газета The Wall Street Journal разместила на первой странице материал, который охарактеризовала как один из «грязных маленьких секретов» медицинских исследований: «Большинство результатов, в том числе и публикуемых в солидных научных периодических изданиях, рецензируемых коллегами авторов статей, невозможно воспроизвести повторно»{83}. (Речь идет о публикациях, предварительно проверяемых с точки зрения их методологической надежности другими экспертами в той же области; лишь после такой проверки материал отправляется в печать. Такие публикации принято считать заслуживающими особого доверия с научной точки зрения.) Одна из причин этого «грязного маленького секрета» – систематическая ошибка позитивной публикации, описанная в главе 7. Если исследователи и медицинские журналы склонны обращать внимание на позитивные результаты и игнорировать негативные, то они вполне могут опубликовать итоги исследования, свидетельствующие об эффективности некоего лекарства, и проигнорировать девятнадцать других исследований, доказывающих его бесполезность. Некоторые клинические испытания могут также основываться на небольших выборках (что бывает обусловлено объективными факторами, например редко встречающейся болезнью), что повышает вероятность того, что случайное отклонение в данных привлечет к себе больше внимания, чем оно того заслуживает. Самое главное – у исследователей может быть предубеждение (осознаваемое или нет), вызванное или непоколебимой уверенностью в чем-либо, или пониманием того, что позитивный результат будет способствовать их научной карьере. (Никто еще не разбогател и не стал знаменитым, доказав, что то или иное лекарство не излечивает от рака.)