Но это еще не все. Гладуэлл также отмечает, что в формуле Car and Driver такой показатель, как рекомендованная цена автомобиля, тоже имел ничтожный вес. Если бы этому важному показателю был присвоен больший вес (так, чтобы у цены, дизайна кузова и характеристик двигателя были одинаковые весовые коэффициенты), то на первом месте оказался бы Chevrolet Corvette.
Любой индекс очень чувствителен к описательным статистикам, которые включены в его состав, а также к весу, присваиваемому каждой из составляющих. В результате диапазон индексов простирается от полезных, но весьма несовершенных инструментов, до полнейших курьезов. Примером первого может служить так называемый индекс человеческого развития (Human Development Index – HDI), применявшийся ООН. HDI разрабатывался как более широкий показатель экономического благосостояния, чем доход как таковой. Доход является лишь одним из компонентов HDI, который включает также показатели средней продолжительности жизни и уровня образования. По объему производства на душу населения Соединенные Штаты находятся на одиннадцатом месте в мире (пропустив вперед такие богатые запасами нефти страны, как Катар, Бруней и Кувейт), а по индексу человеческого развития занимают четвертое место в мире{10}. Правда, HDI-рейтинги слегка изменились бы в результате трансформации составных частей индекса, но вряд ли это бы привело к примерному равенству рейтингов Зимбабве и Норвегии. Иными словами, индекс HDI неплохо отражает текущую картину, касающуюся жизненных стандартов в разных странах мира.
Описательные статистики дают нам понимание сути интересующих нас явлений. Исходя из этого мы можем вернуться к вопросам, поставленным в начале главы. Кого же считать лучшим бейсболистом всех времен и народов? С точки зрения целей этой главы, гораздо важнее было бы выяснить, какие описательные статистики больше всего помогли бы нам ответить на этот вопрос. Согласно Стиву Мойеру, президенту Baseball Info Solutions, тройку ключевых статистик (кроме возраста) для оценивания эффективности действий любого игрока, за исключением питчера (подающего), составили бы следующие:
1. Процент попаданий в базу (on-base percentage – OBP), иногда называемый средним показателем попаданий в базу (on-base average – OBA). Оценивает процент успешных попаданий игрока в базу, в том числе и так называемые уоки (которые не учитываются в среднем показателе).
2. Процент отбивания (slugging percentage – SLG). Измеряет процент отбивания мячей путем вычисления совокупного количества попаданий в базу на каждый отбитый мяч. Одинарный оценивается в 1, двойной соответствует 2, тройной – 3, а хоумран – 4. Таким образом, процент отбивания у беттера (отбивающего), который отбил одинарный и тройной из пяти попаданий, составил бы (1 + 3) / 5, или 0,800.
3. Попадания (at bats – AB). Этот показатель помещает все сказанное выше в единый контекст. Любой игрок может продемонстрировать потрясающую статистику в одной-двух играх. Но лишь суперзвезда накапливает впечатляющие показатели на протяжении многих лет выступления за профессиональные бейсбольные команды.
По мнению Стива Мойера (которое я полностью разделяю), лучшим бейсболистом всех времен и народов является Бейб Рут из-за его уникальной способности отбивать броски и выполнять точные подачи. Именно Бейбу Руту до сих пор принадлежит рекорд Высшей лиги «процент отбивания, достигнутый на протяжении всей карьеры бейсболиста»: 0,690{11}.
Теперь обратимся ко второму вопросу: что происходит с экономическим благополучием американского среднего класса? Как и в первом случае, я поинтересовался мнением экспертов, обратившись по электронной почте к Джеффу Гроггеру (моему коллеге по Чикагскому университету) и Алану Крюгеру (вы, наверное, помните: именно он изучал причины терроризма, а в настоящее время занимает пост председателя Совета экономических консультантов Барака Обамы). Ни тот ни другой не смог дать мне однозначного ответа на этот вопрос. Чтобы оценить экономическое благополучие американского среднего класса, нам следует проанализировать изменения медианной заработной платы (с поправкой на инфляцию) за последние несколько десятилетий. Кроме того, они порекомендовали проанализировать изменения величины заработных плат в 25-м и 75-м процентилях (есть все основания интерпретировать их как верхнюю и нижнюю границы для среднего класса).
Стоит также упомянуть еще об одном различии. При оценивании экономического благосостояния мы можем анализировать доход или заработную плату. Это не одно и то же. Заработная плата – это то, что нам платят за некое фиксированное количество труда (например, она может быть почасовой или понедельной). Доход представляет собой сумму всех платежей из разных источников. Если у работника есть вторая работа или он отработал большее количество часов, его доход может увеличиться, тогда как заработная плата останется прежней. (Именно поэтому доход может расти даже в случае, когда заработная плата снижается, – при условии, что работник трудится дольше.) Если, однако, работнику приходится больше работать, чтобы больше получать, то оценить, как это скажется на его благосостоянии, довольно сложно. Заработная плата является менее неоднозначным показателем того, как оплачивается труд американцев; чем она выше, тем больше человек получает за каждый час, проведенный на работе.
В дополнение к вышесказанному я привожу график заработной платы американцев за последние три десятилетия. Я также добавил 90-й процентиль, чтобы проиллюстрировать изменения заработной платы работников, относящихся к среднему классу, в сравнении (за тот же период времени) с заработной платой работников, находящихся на вершине этого распределения.
Источник: Changes in the Distribution of Workers’ Hourly Wages between 1979 and 2009, Congressional Budget Office, 16 февраля 2011 года. Данные для этой диаграммы можно найти на сайте https://www.cbo.gov/sites/default/files/112th-congress-2011-2012/reports/02-16-wagedispersion.pdf
На основе этих данных можно сделать немало выводов. Они не позволяют получить единственный «правильный» ответ на вопрос о том, в какую сторону изменяется экономическое благополучие американского среднего класса, зато четко показывают, что типичный американский рабочий, получающий медианную заработную плату, на протяжении почти тридцати лет «топчется на месте». Работники в 90-м процентиле добились за это время гораздо больших успехов. Описательные статистики помогают очертить проблему. Какие именно действия мы предпримем в ответ на это (если вообще предпримем) – вопрос сугубо идеологический и политический.
* * *
Приложение к главе 2
Данные для графического отображения дефектов принтера
Формула для дисперсии и среднеквадратического отклонения
Дисперсия и среднеквадратическое отклонение – самые распространенные статистические механизмы для измерения и описания разброса того или иного распределения. Дисперсия, которая часто обозначается символом σ2, вычисляется путем определения, насколько далеко от среднего значения расположены наблюдения в рамках того или иного распределения. Однако фишка в данном случае состоит в том, что расстояние (разница) между каждым наблюдением и средним значением возводится в квадрат; сумма таких составляющих, возведенных в квадрат, затем делится на количество наблюдений.
А именно:
Для любой совокупности из n наблюдений x1, x2, x3 … xn со средним значением μДисперсия = σ² = [(x1 –μ)² + (x2 – μ)² + (x3 – μ)² + … (xn – μ)²] / nПоскольку разница между каждым членом и средним значением возводится в квадрат, формула для вычисления дисперсии присваивает определенный вес наблюдениям, которые расположены вдали от среднего значения (то есть «отщепенцам»), как показано в приведенной ниже таблице роста учащихся.
* Абсолютное значение – это расстояние между двумя числами, независимо от знака разности между ними, то есть это значение всегда положительное. В данном случае оно представляет собой разницу в дюймах между ростом конкретного человека и средним значением.
Средний рост обеих групп учащихся составляет 70 дюймов. Суммы абсолютных отклонений от среднего значения в обеих группах также одинаковы – 14 дюймов. По этому показателю разброса указанные два распределения идентичны. Однако дисперсия для группы 2 оказалась выше из-за веса, присвоенного в формуле дисперсии значениям, которые расположены особенно далеко от среднего значения (в нашем случае эти значения относятся к Сахар и Нарцисо).