Неважные продажи главного продукта для неприятного совещания с акционерами можно замаскировать, отразив на графике цифры совокупных продаж — не за этот год, а за все время, что этот продукт представлен на рынке. Для манипуляторов совокупные графики прекрасны тем, что они не могут идти вниз. Невозможно получить в этом году меньшую цифру совокупных продаж, чем в прошлом, если только ваша компания не отличается необыкновенно либеральными условиями возврата. Президент корпорации Apple Тим Кук представил таблицу «Совокупных продаж iPhone» в 2013 г., спрятав таким способом два квартала падения. Месяц спустя он прибег к этому приему, докладывая о продажах iPad, которые тоже снижались в течение двух кварталов. Сайт деловых новостей Quartz резюмировал: «Apple либо вообще не умеет делать графики, либо думает, что мы не заметим разницы»33.
В интернете можно найти чудесный график, сопоставляющий снижение числа пиратов после 1820 г. с повышением средних температур на Земле. Корреляция безупречна: с уменьшением числа пиратов в мире становилось все теплее. Очевидно, укрощение разбоя в открытом море способствовало развитию межконтинентальной торговли, которая и вызвала глобальное потепление!
Безусловно, вывод смехотворный. Дураку понятно, что все было наоборот: повышение температуры привело к испарению алкоголя из корабельных запасов рома, что ослабило боевой дух пиратов и подтолкнуло их переключиться на более мирные занятия.
Этот пародийный анализ предостерегает нас от поспешного признания причинно-следственной связи между двумя коррелирующими последовательностями цифр. Замечено, что чем больше мороженого продается на морских курортах, тем больше там тонет людей. Это не означает, что мороженое вызывает смертельно опасные судороги: люди склонны лакомиться мороженым, когда теплеет, а еще они более склонны купаться в море в жару. Никакой причинно-следственной связи между потреблением мороженого и несчастными случаями на воде нет: и то и другое обусловлено действием третьего фактора.
В эту ловушку легко попадаются дезинформаторы. Вот один тревожный феномен, появившийся недавно, — связь между бедностью и ожирением в странах третьего мира. «Можно почти безошибочно определить социальное положение человека по его весу», — заметила парламентская помощница министра здравоохранения Великобритании Анна Субри в 2013 г.34 В Британии дети из беднейших семей в два раза чаще страдают ожирением, чем дети из самых богатых. Значит ли это, что бедность вызывает ожирение и, соответственно, опасна для жизни?
Некоторые политики так и говорят, ссылаясь на дешевизну вредной еды, и эту корреляцию использовали в кампаниях за искоренение бедности. Но четкой связи все же не видно. В дешевой еде не обязательно много сахара и жиров. Ожирение могут провоцировать образовательные и культурные факторы, присущие беднейшим сообществам. Простое повышение финансовой помощи бедным семьям не гарантирует улучшения их диеты. Вероятно, деньги можно с большей пользой потратить на просветительские кампании, спортивные сооружения и питательные школьные обеды. Борьба с бедностью, пожалуй, нужна, но призывать к ней, ссылаясь на связь бедности с ожирением, будет нечестным использованием конкурентной правды.
Ложь и наглая ложь
Популярное изречение гласит: «Есть ложь, наглая ложь и статистика». В то же время статистика необходима нам, чтобы не ошибиться с выбором во множестве разных областей: медицине, политике, образовании, вложении денег. Статистика — это не ложь, но статистические данные, хотя они и правдивы, бывают куда более пластичны, чем можно ожидать от сухих цифр.
Один из самых известных видов статистических данных — средняя величина. Чтобы вычислить средний рост населения, статистика измеряет рост 75 человек и подсчитывает среднее арифметическое. Вы можете подумать, что у такой простой вещи, как средняя величина, не может быть конкурентных правд, но существует не один вид средней величины. Есть собственно среднее значение, которое мы получаем, складывая все значения роста в нашей выборке и деля сумму на 75. А есть медиана: если мы выстроим 75 человек по росту, рост человека, оказавшегося ровно посредине, станет медианным значением. Две эти средние величины будут выражены разными цифрами[14].
(window.adrunTag = window.adrunTag || []).push({v: 1, el: 'adrun-4-390', c: 4, b: 390})
Разницу между средним значением и медианой могут использовать манипуляторы, обращаясь к аудитории, которая таких тонкостей не знает. В 2014–2015 финансовом году медианный доход без вычета налогов в Великобритании составил £22 400. Средний доход без вычета налогов в том же году равнялся £31 800 (обе цифры относятся только к налогоплательщикам)35. Крупная цифра среднего значения неудивительна в обществе, где незначительное число людей имеет многомиллионные доходы: эти люди почти не влияют на медианное значение, но их огромные компенсационные пакеты заметно увеличивают цифру среднего.
И значит, для 2015 г. будут верны оба утверждения:
Учитель с зарплатой £28 000 фунтов в год получает меньше среднего дохода.
Учитель с зарплатой £28 000 фунтов в год получает больше среднего дохода.
Большинство комментаторов не затрудняются уточнять, на какую именно из средних величин они ссылаются. Ловкие политики, профсоюзные боссы и общественные деятели выберут тот тип среднего, который лучше отвечает их задачам.
Средняя величина бывает коварна и в других аспектах. Многих родителей беспокоит слишком большая численность классов в школах, где учатся их дети: обычно им хочется, чтобы классы были поменьше и учитель мог уделять каждому ребенку больше внимания. Поэтому чиновники стремятся показать, что численность учеников в классе в среднем невелика. Однако это не означает, что средний ученик учится в таком классе.
Чтоб увидеть наглядно это парадоксальное явление, представьте, что в вашем городе есть только два школьных класса. В одном 10 человек, в другом 50. Средний размер класса получится 30, что, в общем, кажется нормальным. Но большинство детей при этом учится в классе из 50 человек. Поэтому и «средний» ученик окажется в классе из 50 человек. Если сказать точнее, среднее число учеников в классе каждого ребенка будет чуть больше 43.
Поэтому когда чиновники, не греша против истины, говорят о средней численности школьного класса в регионе или в стране, эта цифра всегда будет меньше, чем численность учеников в классе, где учится средний ребенок. Такой же трюк можно применить к переполненным тюрьмам, поездам, больницам и т.п. Значение по стране или области неизменно занижает то среднее, с которым на практике сталкивается средний человек.
Есть такая загадка. Мужчина с волосами длиннее среднего входит в бар, и средняя длина волос у находящихся в баре уменьшается. Как такое возможно?
Загадка это простая, но она резюмирует противоречивый аспект статистики, известный как парадокс Симпсона. Его противоречивость в том, что одни и те же цифры могут выражать две совершенно разные правды. Прежде чем мы найдем ответ на эту загадку, давайте взглянем на пример из жизни.
Между 2000 и 2012 г. медианная зарплата в США с поправкой на инфляцию выросла на 0,9%36. Казалось бы, хорошая новость. Однако в тот же период медианная зарплата людей, не закончивших среднюю школу, упала на 7,9%, медианная зарплата людей, окончивших среднюю школу, упала на 4,7%, медианная зарплата людей, окончивших колледж, упала на 7,6%, а медианная зарплата людей, имеющих хотя бы один диплом, упала на 1,2%.
Проще говоря, каждая из экономических страт в США пережила снижение заработной платы, даже при том что в общем по стране средняя зарплата выросла.
Теперь вы видите, почему это называется парадоксом.
Вернемся к загадке. Ответ зависит от того, что мы понимаем под определением «длиннее среднего». Мы не говорим о «среднем» для всего населения; у мужчины в баре волосы были длиннее, чем в среднем у мужчин. Но в баре, конечно, были и женщины, и длина волос нового посетителя меньше, чем средняя для женщин. Средняя длина волос для подгруппы мужчин в этом баре увеличилась, средняя длина для подгруппы женщин не изменилась; следовательно, среднее для всей группы посетителей бара уменьшилось.