2) На втором шаге размерность матрицы "участник — пометка" была сокращена с помощью формального математического метода "сингулярно-значимой декомпозиции" (singular-value decomposition, SVD)[14]. В результате исходная матрица была преобразована в матрицу "участник — компоненты" (представлена на рис. 1 в центре), у которой количество столбцов сокращено до 100 в соответствие с числом выделенных значимых факторов (компонент). Клетки этой матрицы заполнялись не "1", а специально рассчитанными "коэффициентами значения" той или иной компоненты.
3) На третьем шаге весь массив предсказываемых параметров ("атрибутов"), характеризующих каждого из участников, был разбит на три группы (на рис. 1 справа):
а) параметры, соответствующие профилю Facebook;
б) демографической "картине"
;в) проведенным тестам.
К группе а) были отнесены такие параметры, как возраст, пол, политические и религиозные взгляды, семейное положение, сексуальная ориентация, размеры и плотность личной социальной сети. В группу б) вошёл только один параметр — этническая принадлежность. В группу в) были включены психологические параметры, характеризующие индивидуальность личности человека по общепризнанной 5-факторной модели (невроз или эмоциональная стабильность, экстраверт или интраверт, открытость к новому опыту или закрытость, уступчивость или конфликтность, добросовестность или нет)[15]. В данной работе использовались данные по 5-факторной модели для 54 373 участников, полученные с помощью обобщения ответов на вопросы международного обследования[16].
Кроме того в группу в) попали оценки уровня интеллектуального развития[17], удовлетворённости жизнью[18] и статус взаимоотношений между родителями подростка до достижения им 21 года.
Для предсказания параметров каждой группы использовались различные методы. Для прогнозирования количественных параметров (возраста или уровня интеллектуального развития) использовались линейные регрессионные модели; для дихотомических параметров (пол или сексуальная ориентация) модели логической регрессии. В обоих случаях применялась 10-кратная перекрёстная оценка параметров регрессионных уравнений, построенных по 100 выделенным значимым факторам (SVD components). Для предсказания таких параметров, как сексуальная ориентация, статус взаимоотношений между родителями подростка, а также потребление алкоголя, наркотиков и сигарет, было выбрано 30 значимых факторов (из-за относительно небольшого количества представленной информации). Результаты предсказания дихотомичных "атрибутов" представлены на рис. 2.
Точность предсказания дихотомичных «атрибутов»
Сверху вниз:
— семейное положение (одинокий или нет);
— жили ли родители вместе до достижения подростком 21 года;
— употребление сигарет, алкоголя, наркотиков;
— являешься ли белым американцем или африканского происхождения;
— христианин или мусульманин;
— демократ или республиканец;
— являешься ли геем, лесбиянкой;
— пол.
Учёные обнаружили, что надёжнее всего данная методика различает пол участника (вероятность 93 %), а также его этническую принадлежность, точнее, является ли он белым американцем или африканского происхождения (вероятность 95 %). Далее, выяснилось, что, анализируя пометки like на предпочитаемых пользователями фильмах и телевизионных шоу (на фоне прочей информации), можно с 88-процентной точностью угадать сексуальную ориентацию мужчин и с 75-процентной — женщин[19]; с точностью 82 % определить христиан и мусульман; с точностью 85 % отличать американских "демократов" от "республиканцев". Достаточно высоким оказалось доверие в отношении употребления наркотиков, алкоголя и сигарет (примерно 70 %).
Оценивая это исследование, уместно вспомнить, что развитие методов предсказания тех или иных индивидуальных наклонностей и "атрибутов" личности на основе её различных проявлений (поведения) имеет долгую историю. Психологической науке давно известны работы, в которых в качестве исходных использовались такие материалы, как образцы письменного текста[20], ответы на специальные психометрические тесты[21] (например, обследование на "детекторе лжи") или анкетирование для выявления "ролевой функции" данной личности в среде её обитания[22].
Сегодня в психологической науке многое изменилось. Во-первых, если раньше особые и весьма специфические по своему характеру методы и методики применялись, как правило, немногочисленными высококвалифицированными профессиональными экспертами-психологами и только в рамках научных, медицинских и/или криминалистических исследований, то сегодня такие методы и методики стали доступны для использования в коммерческих целях и без каких-либо морально-этических ограничений. Во-вторых, если раньше такие методы и методики применялись для анализа малых выборок (примерно несколько сотен представителей), то сегодня они могут использоваться для классификации широких масс обитателей киберпространства (сотни миллионов и более).
И, наконец, в-третьих, если раньше реализация аналогичных по своему содержанию исследовательских проектов в области практической психологии (в частности, осуществление масштабных социологических опросов и обработка их материалов), сталкивалась с ограничениями из-за своей чрезмерной трудоёмкости и дороговизны, то теперь такая колоссальная по объёму работа становится дешёвой. Можно сказать, что "миграция" людей в цифровую киберсреду качественно упростила процедуры сбора и обработки первичной социо-психологической информации. В результате, психология как наука потеряла ореол "элитарности", а её весьма специфические методики стали доступны для свободного применения как в коммерческих, так и в политических целях[23]. При отлаженной методике, когда за исходными материалами никуда ездить не надо (их сбор, систематизация и обобщение запрограммированы и осуществляются автоматически), эту работу легко могут выполнять подростки, не отягощенные моральными ценностями правового демократического общества (см. начало статьи).
А информации, представляющей значительный интерес с точки зрения коммерческих приложений методов практической психологии, в современном киберпространстве уже накопилось много.
Как отмечалось в ряде опубликованных ранее работ, о возрасте, поле, месте работы, уровне образования и некоторых иных параметрах личности пользователя можно судить на основе тех "логинов", которыми он пользуется для входа на Web-сайт[24]. Другие параметры личности пользователя могут быть предсказаны на основе содержания его персонального Web-сайта[25], его музыкальной коллекции[26], а также данных из его "профилей" в Facebook или Twitter, содержащих информацию о количестве друзей, плотности дружеских сетевых связей[27] и месте (роли) самого пользователя в кругу его сетевых связей (как было установлено, это указывает на его сексуальную ориентацию)[28].
Таким образом, предсказывая персональную информацию с какими-либо благими намерениями, следует иметь в виду, что это может привести к разглашению и несанкционированному использованию личной информации, к опасному вмешательству в частную жизнь человека (нарушению его privacy).
О проблеме охраны конфиденциальности личности
В начале 2009 г. министр европейского правительства М. Кунева, выступая на Круглом столе по сбору данных, таргетированию и профилированию потребителей (Брюссель, 31.03.2009), сделала очень важный вывод: "Правовая защита персональных данных явно отстаёт от технологических и коммерческих возможностей их использования"[29]. Она стала первым официальным лицом, признавшим, что в настоящее время "персональные данные" стали реальным мотором коммерческого Интернета, "нефтью Интернета", "новой валютой цифрового мира".
Министр М. Кунева также отметила, что "одним из наиболее важных и наиболее противоречивых вопросов быстро развивающейся сферы цифровых коммуникаций является вопрос о взрывном характере увеличения объёма собираемых персональных данных и их использовании в коммерческих целях". Для современного бизнеса разработано целое "поколение" новых организационно-технологических приёмов, схем, методов, бизнес-моделей, практик и рекомендаций по изучению ("профилированию") потребителей (клиентов, конкурентов) и использованию добытой информации для "прицельной работы" с их уязвимостями.