50
Ошибка второго рода – это вероятность принятия нулевой гипотезы тогда, когда она неверна. Прим. ред.
51
Согласно сайту движения Occupy Wall Street, это народное движение, которое возникло 17 сентября 2011 года в Либерти-сквер, финансовый округ Манхэттена, и распространилось на более чем 100 городов Соединенных Штатов, а также инициировало акции протеста в более чем 1500 городах по всему миру. Occupy Wall Street выступает против засилья крупных банков и транснациональных корпораций, оказывающих разлагающее влияние на демократический процесс, и против роли Уолл-стрит в создании экономического коллапса, который породил тяжелейшую рецессию за все время существования человечества. Это движение вызвано народными волнениями в Египте и Тунисе и ставит своей задачей показать, как 1 % самых богатых людей диктуют правила несправедливой глобальной экономики, которая становится непреодолимым препятствием на нашем пути в будущее.
52
Можно ожидать, что истинный процент голосов избирателей, отданных за кандидата от республиканцев, окажется за пределами доверительного интервала экзитпола приблизительно в 5 случаях из 100. В таких случаях истинный процент голосов избирателей, отданных за кандидата республиканцев, окажется меньше 50 % или больше 54 %. Если, однако, он получит больше 54 % голосов избирателей, ваша телекомпания не ошибется, назвав его победителем (просто его победа окажется еще более убедительной, чем вы предсказывали). Таким образом, вероятность того, что проведенный вами экзитпол заставит вас ошибочно объявить победителем кандидата-республиканца, составляет лишь 2,5 %.
53
Неравенство стандартных ошибок здесь обусловлено наличием третьего, «независимого» кандидата и, соответственно, процентом избирателей, отдавших ему свои голоса. Если было бы только два кандидата, то стандартные ошибки для каждого из них были бы всегда равны. Прим. ред.
54
Формула для вычисления стандартной ошибки опроса, которую я использовал в данном случае, предполагает, что опрос проводится в произвольной выборке из соответствующей совокупности. Организации, специализирующиеся на проведении опросов общественного мнения, могут отходить от этого метода проведения выборочных исследований; в таком случае формула для вычисления стандартной ошибки опроса также несколько изменяется. Однако базовая методика остается той же.
55
По-видимому, самое простое доказательство, что функция f(p) = p(1 − p) = p − p² принимает максимальное значение при р = 0,5, – это математическое доказательство. Находим производную f′(p) = 1 − 2p, приравниваем ее к нулю и получаем уравнение 1 − 2p = 0. Решением этого уравнения будет р = 0,5. Что и требовалось доказать. (О том, что это максимум, свидетельствует вторая производная f″(p) = −2.) Прим. ред.
56
Согласно Международному своду сигналов, поднятый желтый флаг означает карантин. Таким образом автор предостерегает читателя об «опасности» дальнейшего текста, где описывает возможные «ловушки» регрессионного анализа. Прим. ред.
57
Это упражнение следует рассматривать как «игру с данными», а вовсе не как заслуживающее доверия исследование каких-либо зависимостей, описанных в последующих уравнениях регрессии. Наша цель – предоставить читателям интуитивно понятный пример того, как «работает» регрессионный анализ, а не выполнить строго научное исследование, касающееся веса американцев.
58
«Параметр» – это термин, обозначающий любую статистику, которая описывает ту или иную характеристику какой-либо совокупности; средний вес для всех взрослых мужчин – параметр соответствующей совокупности. То же можно сказать о среднеквадратическом отклонении. В приведенном примере истинная связь между ростом и весом для данной совокупности является параметром этой совокупности.
59
Когда нулевая гипотеза заключается в том, что коэффициент регрессии равняется нулю (а это имеет место в большинстве случаев), отношение наблюдаемого коэффициента регрессии к стандартной ошибке называется t-статистикой. Это также объясняется в приложении к данной главе.
60
В статистике этот показатель называется коэффициентом детерминации. Прим. ред.
61
Квинтиль – это квантиль порядка 0,2. Если выборочные значения организовать в порядке возрастания, то квинтили делят эту выборку на пять равных (по количеству) частей. В данном случае «нижний квинтиль склонности к регулярным занятиям спортом» – это группа наименее склонных к регулярным занятиям спортом, составляющая пятую часть из совокупности лиц, регулярно им занимающихся. Прим. ред.
62
Более широкие силы дискриминационного характера могут влиять на выбор женщинами той или иной служебной карьеры или на тот факт, что женщинам гораздо чаще, чем мужчинам, приходится брать отпуск по уходу за детьми. Однако эти важные вопросы не следует путать с более узким вопросом, платят ли женщинам меньше, чем мужчинам, за одну и ту же работу.
63
Эти исследования несколько отличаются от уравнений регрессии, о которых рассказывалось выше в настоящей главе. В этих исследованиях интересующий нас исход, или независимая переменная, являются двоичными. За время исследования у его участника либо возникло то или иное заболевание сердца, либо нет. Таким образом, исследователи используют инструмент под названием многомерная логистическая регрессия. Основополагающая идея остается такой же, как и в случае обычных моделей наименьших квадратов, описанных в настоящей главе. Каждый коэффициент выражает влияние конкретной объясняющей переменной на зависимую переменную при неизменности влияния других переменных в данной модели. Ключевая разница заключается в том, что все переменные в нашем уравнении влияют на вероятность наступления некоторого события, например на вероятность сердечного приступа за период проведения исследования. Например, в этом исследовании вероятность возникновения за период его проведения каких-либо проблем с сердцем у работников, входящих в состав контрольной группы с низкими должностями, в 1,99 раза выше, чем у работников, входящих в состав контрольной группы с высокими должностями, после фиксации всех остальных «сердечных факторов риска».
64
Степень свободы и в русской статистической литературе обозначается как df (от англ. degrees of freedom). См. ниже в Приложении диаграмму. Прим. ред.
65
Для тех, кто еще не догадался: t-распределение – это распределение Стьюдента. В русской литературе чаще всего оно называется именно так. Прим. ред.
66
Более общая формула для вычисления t-статистики имеет следующий вид: tb = (b − b0) ÷ SEb, где b – наблюдаемый коэффициент, b0 – нулевая гипотеза для этого коэффициента, а SEb – стандартная ошибка для наблюдаемого коэффициента b.
67
Чтобы приспособить регрессионный анализ для использования данных с нелинейными связями, существуют более сложные методы. Однако прежде чем их применять, вам нужно уяснить, почему использование обычного метода наименьших квадратов с нелинейными связями лишено смысла.
68
Необходимо уточнить, что метод наименьших квадратов (МНК), который автор объявил основой регрессионного анализа, действительно можно использовать только для линейных уравнений регрессии. Но линейных относительно коэффициентов регрессии, а не переменных. Поэтому МНК вполне можно применять и для нелинейных (по переменным) уравнений регрессии, которые, однако, являются линейными относительно коэффициентов регрессии либо становятся таковыми после преобразований. Также отметим, что в арсенале регрессионного анализа есть методы, отличные от МНК, которые предназначены для нахождения коэффициентов регрессии в существенно нелинейных уравнениях. Прим. ред.
69
Проще говоря (так, как принято в этой книге), мультиколлинеарность заключается в наличии сильной линейной (статистической) зависимости внутри некоторой группы объясняющих переменных. Это порождает вычислительные сложности или вообще невозможность рассчитать коэффициенты функции регрессии. Прим. ред.