Шрифт:
Интервал:
Закладка:
Проблема состоит в том, что наша способность анализировать данные развилась значительно больше, чем понимание того, как нам следует поступать с результатами этого анализа. Вы можете соглашаться или нет с решением Еврокомиссии, запрещающим применение страховых надбавок, связанных с полом человека, но я абсолютно уверен, что это далеко не последнее спорное решение такого рода. Нам нравится думать о числах как о «холодных, неумолимых фактах». Если вычисления выполнены правильно, то у нас должен получиться правильный ответ. Однако более интересная и опасная реальность заключается в том, что подчас мы можем правильно все рассчитать – и двинуться в опасном направлении. Мы можем разрушить финансовую систему или упечь за решетку двадцатидвухлетнего белого парня, которому не повезло оказаться в определенное время в определенном месте, потому что, согласно нашей статистической модели, он явился сюда затем, чтобы купить наркотики. Какой бы соблазнительной ни была элегантность и точность вероятностных моделей, они не заменят нам здравого размышления о сути и цели выполняемых вычислений.
7. Почему так важны данные
«Мусор на входе – мусор на выходе»
Весной 2012 года в популярном журнале Science вышел сенсационный материал. В нем говорилось, что на основании результатов одного исследования, опирающегося на последние достижения науки, ученые сделали вывод, что когда самка дрозофилы (плодовой мушки) категорически отвергает ухаживания самца, он впадает в отчаяние и начинает топить горе в алкоголе. Газета The New York Times так описывала этот эксперимент в своей передовице: «Это были молодые самцы, ищущие любовных приключений. Будучи многократно отвергнутыми группой привлекательных самок, порхавших неподалеку, они поступили так же, как и многие мужчины в аналогичном случае, – запили с горя, используя алкоголь как болеутоляющее средство от неразделенной любви»{51}.
Это исследование дает нам возможность лучше уяснить работу системы вознаграждения, встроенную в мозг человека, что, в свою очередь, должно помочь в поиске новых стратегий борьбы с алкоголизмом и наркоманией. Один специалист по вопросам наркозависимости написал, что знакомство с результатами этого эксперимента позволило ему «заглянуть в далекое прошлое и увидеть там истоки системы вознаграждения, которая определяет фундаментальные модели поведения, такие как секс, еда и сон».
Поскольку я не являюсь экспертом в данной области, после прочтения публикации о неразделенной любви самцов дрозофилы у меня возникли две несколько различающиеся между собой реакции. Во-первых, появилось чувство ностальгии по временам студенческой молодости. Во-вторых, мой «внутренний исследователь» заинтересовался, каким образом самцам дрозофилы удавалось запить с горя. Может быть, где-то поблизости находился миниатюрный бар для мушек-дрозофил с широким ассортиментом фруктовых алкогольных напитков, которые подавал бармен-дрозофил, всегда готовый выслушать вас и посочувствовать вашему горю? Наверное, в баре ненавязчиво звучала музыка в стиле кантри, вызывавшая сильный прилив чувств у мушек-дрозофил, чьи жизненые мечты потерпели крушение?
В действительности все оказалось гораздо проще и прозаичнее. Одной группе самцов дрозофилы исследователи предоставили возможность беспрепятственно спариваться с самками, еще не подобравшими себе пару. Другой разрешили попытать счастья среди самок, которые уже подобрали себе пару и по этой причине были равнодушны к ухаживаниям других самцов. Затем обеим группам самцов дрозофилы были предложены на выбор питательные соломинки, содержащие две разные «диеты»: стандартное питание мушек-дрозофил плюс закваска и сахар, а также кое-что «покрепче»: закваска, сахар и 15-процентный раствор спирта. Самцы, которые провели несколько дней в бесплодных попытках найти себе пару среди безразличных к ним самок, оказались более склонны к «горячительному».
Какими бы легкомысленными ни казались эти выводы, они очень важны для человека, поскольку указывают на связь между стрессом, ответными химическими реакциями в мозгу человека и тягой к алкоголю. Тем не менее эти результаты – не триумф статистики. Это триумф данных, сделавших возможным этот относительно фундаментальный статистический анализ. Изюминка исследования заключалась в нахождении пути формирования двух групп – сексуально удовлетворенных и сексуально неудовлетворенных самцов дрозофилы – и последующем поиске способа сравнения их тяги к спиртному. После того как ученым удалось реализовать свой замысел, обработка соответствующих данных оказалась не сложнее, чем написание школьного реферата по математике.
Данные для статистики – примерно то же самое, что для выдающегося куортербека мощная линия блокирующих игроков. Сами по себе они не представляют особого интереса для зрителей, но без них выдающийся куортербек не сможет проявить свои способности. В большинстве книг по статистике предполагается, что вы используете надежные данные, точно так же как в любой кулинарной книге предполагается, что для приготовления блюд вы не станете покупать тухлое мясо или гнилые овощи. Даже самый замечательный рецепт не сделает вкусным блюдо, приготовленное из некачественных продуктов. То же касается статистики: даже самый изощренный анализ не принесет никакой пользы, если за основу взяты сомнительные данные. Отсюда выражение: «Мусор на входе – мусор на выходе»[35]. Данные заслуживают уважительного отношения – как и линия блокирующих игроков в американском футболе.
Как правило, данные выполняют одну из трех функций. Во-первых, нам может потребоваться определенная выборка данных, соответствующая характеристикам генеральной совокупности (так называемая репрезентативная выборка). Если наша задача – оценить отношение избирателей к конкретному политическому деятелю, нам понадобится опросить некоторую их часть (выборку) в соответствующем избирательном округе или в целом в стране. (Обратите внимание: нас не интересует выборка, которая представляла бы каждого, кто проживает на искомой территории; нам требуется выборка лиц, планирующих участвовать в голосовании.) Одно из самых фундаментальных положений статистики, более глубокому разъяснению которого мы уделим место в двух следующих главах, заключается в том, что выводы, сделанные на основе достаточно больших, надлежащим образом сформированных выборок, могут оказаться такими же точными, как и в случае, если бы мы попытались получить ту же информацию от всего населения.
Самый легкий способ собрать репрезентативную выборку большой генеральной совокупности – выбрать ее некоторое подмножество случайным образом. (Вы, наверное, испытаете потрясение, когда узнаете, что это называется простой случайной выборкой.) Ключом к данной методологии является то, что каждое наблюдение в соответствующей совокупности должно иметь одинаковые шансы на включение в выборку. Если вы собираетесь опросить случайную выборку, состоящую из 100 взрослых, на территории, где проживает 4328 взрослых, то ваша методология должна гарантировать, что у каждого из этих 4328 человек одинаковые шансы оказаться в числе той сотни, которую вы намерены опросить. Книги по статистике почти всегда иллюстрируют это положение вытаскиванием разноцветных шариков из урны. (В действительности это практически единственное место, где слово «урна» используется более или менее регулярно.) Если в какой-нибудь гигантской урне находится 60 000 голубых и 40 000 красных шариков, то наиболее вероятным составом выборки из 100 шариков, случайным образом вынутых из урны, было бы 60 голубых и 40 красных шариков. Если бы мы проделали такой эксперимент несколько раз, то, разумеется, всякий раз наблюдались бы какие-то отклонения (например, в одной выборке оказалось бы 62 голубых и 38 красных шариков, а в другой – 58 голубых и 42 красных шарика). Однако вероятность вытащить какую-либо произвольную выборку, которая по своему составу существенно отличалась бы от общего соотношения голубых и красных шариков, крайне мала.
Правда, на практике возникают кое-какие проблемы. Большинство совокупностей, которые могут представлять для нас интерес в реальной жизни, как правило, гораздо сложнее, чем урна с разноцветными шариками. Как, например, получить случайную выборку взрослого населения Америки, которую можно было бы использовать для проведения телефонного опроса? Даже такое элегантное на первый взгляд решение, как устройство для произвольного набора телефонных номеров, не лишено определенных недостатков. У некоторых людей (например, у малоимущих) может не быть телефона. Другие (обычно люди с высоким уровнем дохода) зачастую бывают не очень-то склонны отвечать на телефонные звонки, не представляющие для них непосредственного интереса. В главе 10 я опишу ряд стратегий, используемых компаниями, проводящими опросы, для решения проблем подобного рода, возникающих при формировании выборки (с появлением мобильной связи эти проблемы еще больше усложнились). Ключевая идея заключается в том, что надлежащим образом сформированная выборка будет полностью отражать структуру той совокупности, из которой она извлечена. Интуитивно вы можете представить себе это на примере варки супа в большой кастрюле. Если предварительно хорошенько размешать суп, то одна его ложка позволит вам составить достаточно полное представление о его вкусовых качествах.
- Управление бизнесом по методикам спецназа. Советы снайпера, ставшего генеральным директором - Джон Манн - Бизнес
- Классические работы по менеджменту - Питер Друкер - Бизнес
- На одной волне: Как управлять эмоциональным климатом в коллективе - Энни Макки - Бизнес
- Полная вовлеченность. Вдохновляйте, мотивируйте и раскрывайте все лучшее в своей команде - Брайан Трейси - Бизнес
- Управление на основе данных. Как интерпретировать цифры и принимать качественные решения в бизнесе - Тим Филлипс - Бизнес