Чикаго предлагали нечто подобное людям из списка SSL. Обладателей высоких баллов, хотя они не совершали никаких преступлений, навещала полиция вместе с работниками социальных служб и общественными лидерами. Но, как выяснили Куничофф и Сиер, на такие
приглашения откликнулось лишь немногие из списка, в то время как сотни были арестованы. Более важное различие между этими двумя подходами заключается в том, что DMI основан на физическом наблюдении за конкретными субъектами: людям, которых вызывает полиция, видны фактические фотографические доказательства их преступной деятельности. Алгоритмы же не дают такой уверенности.
Но сработал ли SSL? Чтобы ответить на этот вопрос, мы сначала должны определить, что мы подразумеваем под срабатыванием. Если уменьшение числа людей, погибших от огнестрельных ранений, то в случае Чикаго ответ будет вероятно, нет. По крайней мере, мы увидим, что список не был решающим фактором.
Проведенное корпорацией Rand исследование первой версии SSL показало, что у лиц, включенных в список, вероятность погибнуть или пострадать от пули не выше, чем у контрольной группы. Однако у них больше шансов оказаться под арестом за стрельбу. Департамент полиции Чикаго сообщил авторам исследования Rand, что список использовался в качестве источника для сбора данных, и авторы утверждали: когда происходила стрельба, полиция рассматривала людей из SSL как возможных подозреваемых. Это говорит о том, что SSL повлиял на расследование именно перестрелок, а не случаев насилия с применением огнестрельного оружия в целом[177].
Нет ничего плохого в том, что полиция создает инструмент, который помогает быстро расследовать перестрелки. Но этот инструмент не помогает повышать общественную безопасность или эффективно снижать уровень насилия с применением огнестрельного оружия. В 2013 году, когда был введен SSL, в Чикаго зарегистрировано 415 убийств, а в 2018 году – 539. Промежуточными числами были 407, 468, 762 и 650.
Доводы в пользу алгоритмов освобождения под залог и политики геопространственного прогнозирования тоже неоднозначны. В исследовании, проведенном профессором компьютерных наук Хани Фарид и (тогдашней) студенткой Дартмута Джулией Дрессел, протестирован алгоритм, известный под аббревиатурой COMPAS (профилирование лиц, отбывающих исправительные наказания, для целей применения альтернативных санкций). Суды применяют его для прогнозирования вероятности повторных правонарушений[178]. Он опирается на 137 особенностей жизни и криминальной истории обвиняемого, чтобы предсказать, совершит ли он или она еще одно преступление в течение двух лет.
Авторы исследования случайным образом отобрали 1000 обвиняемых из пула в 7 214 человек, которые были арестованы в округе Бровард, штат Флорида, в 2013 и 2014 годах и получили оценки по системе COMPAS. Испытуемых разделили на 20 групп по 50 человек в каждой. Каждого обвиняемого из этих групп оценивали участники эксперимента, выбранные случайным образом, по 20 человек на группу.
Участники читали истории преступлений каждого члена группы, включая их текущие обвинения, возраст и пол, но не расу. Затем их попросили высказать предположения, был ли обвиняемый повторно арестован в течение двух лет после предъявления ему первоначального обвинения. Они угадали правильно в 62,1 % случаев. Когда предположения всех участников группы из 20 человек были сведены вместе, цифра выросла до 67 % – это немного выше результата системы COMPAS в 65,2 %.
Затем авторы повторили эксперимент еще с 400 добровольцами, но на этот раз в список раскрытых факторов добавили расу. Это мало что изменило: показатель коллективной точности составил 66,5 %. Однако некоммерческая организация ProPublica, которая занимается журналистскими расследованиями, провела анализ более многочисленной группы обвиняемых, арестованных в том же округе в тот же период времени и тоже оцененных алгоритмом COMPAS. Анализ показал, что алгоритм почти в два раза чаще ошибочно идентифицирует чернокожих обвиняемых, чем белых, как лиц высокого риска, и с точно такой же вероятностью ошибочно определяет белых обвиняемых как лиц с низким уровнем риска[179].
Например, 18-летняя Бриша Борден взяла чей-то велосипед, попыталась поехать на нем, затем поняла, что он слишком маленький, и уронила его, услышав, как незнакомая женщина кричит, что это велосипед ее ребенка. Тем не менее сосед, который видел этот инцидент, вызвал полицию. Борден была арестована за мелкую кражу и кражу со взломом велосипеда стоимостью 80 долларов, который она на самом деле не крала. Шкала риска COMPAS оценила ее на 8 баллов из 10 – высокий риск повторного правонарушения. Напротив, Вернон Пратер, 41-летний белый мужчина, который украл инструменты на сумму 86,35 доллара из магазина Home Depot и ранее был осужден за вооруженное ограбление и попытку вооруженного ограбления, за что отсидел пять лет в тюрьме, получил по шкале COMPAS 3 балла. Через два года после ареста Борден не предъявляли никаких других обвинений, в то время как Пратер в итоге получил восьмилетний тюремный срок за проникновение на склад с целью кражи электронных товаров на тысячи долларов.
В скобках заметим, компания Northpointe, производящая COMPAS, возражала против работы ProPublica и направила авторам исследования письмо с таким текстом: «Northpointe не согласна с тем, что результаты вашего анализа или утверждения, сделанные на основе этого анализа, являются правильными или точно отражают результаты применения модели». Проницательные читатели заметят, что в этом банальном заявлении полностью отсутствуют возражения по существу дела – да и само существо вообще не обсуждается.
Работа Дрессель и Фарид поднимает два важных вопроса об алгоритмах, предсказывающих рецидивизм. Первый касается ценности. Алгоритм COMPAS учитывает 137 факторов, включая ответы испытуемых на такие вопросы, как сколько ваших друзей/знакомых незаконно принимают наркотики? как часто вы дрались в школе? и согласны ли вы с утверждением, что у голодного человека есть право на кражу? Как именно программа взвешивает эти факторы – коммерческая тайна.
Алгоритмы Дрессель и Фарид показали такую же производительность, как и алгоритмы COMPAS, хотя знали всего семь параметров, взятых из уголовных дел. Затем исследовательницы еще больше сократили число параметров и в итоге обнаружили, что сочетание всего двух – возраста и количества предыдущих судимостей – дает результаты с такой же точностью, что и программа COMPAS. Исследование, проведенное пятью учеными во главе с Синтией Рудин, профессором компьютерных наук из Университета Дьюка, пришло к аналогичному выводу: учет всего трех факторов – возраста, числа судимостей и пола – дал результаты столь же точные, как у COMPAS[180].
Это в принципе неудивительно: если вы молоды и склонны нарушать закон, вы, вероятно, совершите больше преступлений, чем более старший и законопослушный человек. Но это ставит под сомнение ценность программной оценки рисков: нет уверенности, что программы будут справляться с этим заданием лучше, чем люди, и получать более точные результаты. Вопрос, который должны задать себе полицейские менеджеры по закупкам и другие сотрудники уголовного правосудия, заключается в следующем: если алгоритм предсказывает рецидивы чуть менее