Читать интересную книгу Голая статистика. Самая интересная книга о самой скучной науке - Чарльз Уилан

Шрифт:

-
+

Интервал:

-
+

Закладка:

Сделать
1 ... 60 61 62 63 64 65 66 67 68 ... 82

Ниже перечислены семь самых типичных злоупотреблений этим замечательным инструментом.

Использование регресии для анализа нелинейной связи[67]. Приходилось ли вам читать предостережение, которое обычно наносится на корпус фена для волос: «Не пользоваться во время мытья в ванне»? Читая эти слова, вы, наверное, думали: «Какой болван может до такого додуматься?» Ведь это электроприбор, им нельзя пользоваться в воде. Электроприборы для этого не предназначены. Если бы регрессионный анализ снабжался подобным предостережением, то оно должно было бы гласить: «Не пользоваться, когда между анализируемыми переменными существуют нелинейные зависимости». Запомните: коэффициент регрессии описывает степень наклона «линии наилучшего приближения» для рассматриваемых вами данных; непрямая линия будет характеризоваться разными степенями наклона в разных точках. Рассмотрим, например, следующую гипотетическую связь между числом уроков игры в гольф, которые я беру в течение месяца (объясняющая переменная), и моим средним результатом для восемнадцатилункового раунда за тот же месяц (зависимая переменная). Как нетрудно заметить из приведенной ниже диаграммы разброса данных, в этом случае отсутствует устойчивая линейная зависимость.

Итак, мы видим некую картину, которую невозможно описать с помощью одной прямой линии. Первые несколько уроков игры в гольф, похоже, привели к быстрому улучшению моих показателей (количество очков уменьшилось – в гольфе это считается положительным результатом). На этом отрезке времени наблюдается отрицательная зависимость между уроками и набранным мною количеством очков; наклон линии отрицательный. Чем больше уроков, тем меньше очков.

Но когда я начинаю тратить на уроки игры в гольф от 200 до 300 долларов в месяц, это, по-видимому, не оказывает на мои результаты вообще никакого влияния. На данном отрезке времени не наблюдается какой-либо четкой взаимосвязи между дополнительными уроками и моими результатами; наклон линии – нулевой.

Наконец наступает момент, когда уроки становятся контрпродуктивными. Если сумма, потраченная на уроки игры в гольф, достигает 300 долларов в месяц, дополнительные уроки ассоциируются с большим количеством набранных мною очков; на этом отрезке времени наблюдается положительный наклон линии. (Ниже в этой главе мы обсудим вероятность того, что плохие результаты игры в гольф могут стимулировать брать дополнительные уроки, а не наоборот.)

Самое важное здесь то, что с помощью единственного коэффициента регрессии мы не можем точно выразить зависимость между уроками и результатами. Наилучшей интерпретацией описанной выше картины будет то, что уроки игры в гольф характеризуются несколькими линейными связями с моими результатами. Вы можете видеть это, а пакет статистического программного обеспечения – нет. Если вы введете эти данные в уравнение регрессии, то компьютер выдаст вам единственный коэффициент. И он не будет точно отражать истинную взаимосвязь между интересующими нас переменными. Полученные результаты будут представлять собой статистический эквивалент использования фена для волос во время принятия ванны.

Регрессионный анализ предназначен для использования в случае линейной зависимости между переменными[68]. В солидных учебниках по статистике указаны также другие базовые условия его применения. Как и при использовании любого другого инструмента, чем больше вы отклоняетесь от заранее оговоренных условий его применения, тем менее эффективным – и даже потенциально опасным – он становится.

Корреляция и причинно-следственные зависимости – не одно и то же. Регрессионный анализ может лишь продемонстрировать взаимосвязь между двумя переменными. Как я уже упоминал, с помощью только статистики невозможно доказать, что изменение одной переменной обусловило изменение другой переменной. Вообще говоря, неправильное уравнение регрессии может указать на существование внушительной и статистически значимой зависимости между двумя переменными, которые в действительности между собой никак не связаны. Допустим, мы планируем выявить потенциальные причины роста числа случаев аутизма в Соединенных Штатах за последние два десятилетия. Наша зависимая переменная – исход, который мы хотели бы объяснить, – могла бы служить показателем заболеваемости аутизмом, таким как количество диагностированных случаев на каждых 1000 детей определенного возраста. Если бы мы включили в качестве объясняющей переменной годовой доход на душу населения в Китае, то почти наверняка выявили бы положительную и статистически значимую зависимость между повышением доходов в Китае и ростом заболеваемости аутизмом в США за последние два десятилетия.

Чем это объясняется? Всего лишь тем, что оба показателя резко увеличились за указанный период. Между тем, я очень сомневаюсь, что наступление экономической рецессии в Китае приведет к снижению заболеваемости аутизмом в США. (Справедливости ради должен заметить, что если бы я наблюдал четкую связь между быстрым экономическим ростом в Китае и заболеваемостью аутизмом только в Китае, то я, возможно, приступил бы к поиску какого-либо фактора окружающей среды, связанного с экономическим ростом (например, загрязнение окружающей среды отходами промышленного производства), который мог бы объяснить подобную зависимость.)

Только что продемонстрированный мной род ложной зависимости между двумя переменными – лишь один пример более универсального явления, известного как фиктивные причинно-следственные связи. Существует несколько других вариантов, когда связь между A и B может быть неправильно интерпретирована.

Обратная причинно-следственная зависимость. Статистическая зависимость между A и B не доказывает, что A является причиной B. Вообще говоря, не исключено, что B – это причина A. Я указывал на такую вероятность ранее в примере с уроками игры в гольф. Допустим, что когда я построил сложную модель, чтобы объяснить свои результаты в гольфе, оказалось, что переменная, обозначающая количество уроков игры в гольф, демонстрирует четкую взаимосвязь с ухудшением моих показателей. Чем больше уроков я беру, тем хуже результаты! Одним из объяснений может быть то, что мне попался очень плохой тренер. Более правдоподобное объяснение: я обычно беру дополнительные уроки, когда начинаю плохо играть, то есть плохие результаты являются причиной увеличения количества уроков, а не наоборот. (Существует ряд простых методологических исправлений проблем такого рода. Например, я мог бы включить количество уроков игры в гольф в одном месяце в качестве объясняющей переменной для моих показателей в следующем месяце.)

Как указывалось выше в этой главе, причинно-следственные связи могут действовать в обоих направлениях. Допустим, согласно проводимому вами исследованию, штаты, которые тратят больше денег на школьное образование, демонстрируют более высокие темпы экономического роста, чем штаты, вкладывающие в школьное образование меньше денег. Наличие положительной и значимой зависимости между этими двумя переменными ничего нам не говорит о направлении этой зависимости. Инвестиции в программу школьного образования могут вызывать экономический рост. С другой стороны, штаты, демонстрирующие более высокие темпы экономического роста, могут себе позволить больше инвестировать в школьное образование; стало быть, сильная экономика может быть причиной увеличения расходов на образование. Другой вариант: дополнительные траты на школьное образование могут стимулировать экономический рост, что позволяет вкладывать больше средств в образование, то есть причинно-следственные связи могут носить двусторонний характер.

Следовательно, мы не должны использовать объясняющие переменные, зависящие от исхода, который мы пытаемся объяснить, – в противном случае результаты могут оказаться безнадежно запутанными. Например, было бы неуместно использовать коэффициент безработицы в уравнении регрессии, объясняющем рост ВВП, поскольку совершенно очевидно, что уровень безработицы зависит от темпов роста ВВП. Или, иначе говоря, результат регрессионного анализа, заключающийся в том, что снижение безработицы обусловит рост ВВП, представляется совершенно бессмысленным, потому что именно рост ВВП обычно приводит к снижению безработицы.

У нас должны быть все основания полагать, что наши объясняющие переменные влияют на зависимую переменную, а не наоборот.

Систематическая ошибка, вызванная пропущенной переменной. Увидев в газете броский заголовок: «Игроки в гольф чаще болеют сердечно-сосудистыми заболеваниями, раком и артритом!», не относитесь к нему серьезно. Я не был бы удивлен, если бы это было так. Я также подозреваю, что гольф полезен для здоровья, поскольку обеспечивает не только возможность социализации, но и умеренную физическую нагрузку. Как совместить оба утверждения? Очень просто! Любое исследование, измеряющее влияние игры в гольф на состояние здоровья человека, должно надлежащим образом контролировать возраст. Вообще говоря, гольфом в большей степени увлекаются люди старших возрастов – особенно пенсионеры. Любой анализ, не принимающий во внимание возраст как объясняющую переменную, упускает из виду тот факт, что гольфисты в среднем – более пожилые люди, чем те, кто в него не играет. Не гольф убивает людей, а старость. Так уж случается, что гольф предпочитают именно пожилые люди. Я полагаю, что при использовании возраста в регрессионном анализе в качестве управляющей переменной мы получим другой результат: для людей одного и того же возраста игра в гольф может стать профилактикой серьезных заболеваний. Это весьма существенная разница.

1 ... 60 61 62 63 64 65 66 67 68 ... 82
На этом сайте Вы можете читать книги онлайн бесплатно русская версия Голая статистика. Самая интересная книга о самой скучной науке - Чарльз Уилан.

Оставить комментарий