Читать интересную книгу Цифровой журнал «Компьютерра» № 115 - Коллектив Авторов

Шрифт:

-
+

Интервал:

-
+

Закладка:

Сделать
1 2 3 4 5 6 7 8 9 10

Эк меня понесло! Короче говоря, один из разработчиков, Дмитрий Силницкий, зная о моих слабостях в сфере интерпретации смыслов и дата-майнинга, прислал на тестирование демо-версию совершенно уникального движка, который выполняет сравнительный анализ текстов по авторскому стилю и жанру.  

При этом движок понятия не имеет о существовании автора имярек, да и вообще не догадывается о смысле слов и денотатах в принципе. Основа движка -  графематический анализ, оперирующий лишь цепочками языковых символов -  знаками, буквами и словоформами!

Для хотя бы приблизительного объяснения этого монстра позволю небольшую цитату из теоретического сопровождения разработок (текст Игоря Ножова из РГГУ): 

«Основная цель графематического блока получить выборку полных словоформ из массива текстов базы данных.  Графематический анализ работает с внешним представлением текста и использует таблицу стоп-слов. В этой таблице хранятся цифры, спецсимволы и частотные слова языка, нерелевантные для поиска по текстам.

Графематический анализ выполняет три функции:

1. отсечение стоп-слов в тексте;

2. разбиение данных на три потока;

3. индексация каждого потока.

Единицей графематического анализа является цепочка символов, выделенная с двух сторон пробелами. Выделенная цепочка символов подвергается последовательной обработке эвристическими правилами: отсечь знаки пунктуации, проверить присутствие гласных внутри цепочки, чередование верхнего и нижнего регистров и т.д. В зависимости от результатов обработки полученная цепочка символов направляется в один из трех потоков данных:

- цифровые и символьные комплексы (‘кг’, ‘ст.’, ’12.01.99’);

- аббревиатуры — названия государств, организаций, предприятий (‘СССР’, ‘ЮНЕСКО’, ‘ДорСтройСервис’);

- полные словоформы»

В результате столь необычного и внешне совершенно схоластического анализа мы получаем более, чем осмысленные результаты. Именно созерцание практических результатов произвело на меня неизгладимое впечатление.

Я получил демо-версии аналитического движка для двух баз данных. Первая — англоязычная — проводила  стилистический и жанровый анализ относительно хоть и скромной, но вполне репрезентативного массива данных, насчитывающего 2995 авторов и 6266 произведений. Вторая — русскоязычная — чисто номинальная — лишь 700 книг авторов, выражающих мысли на великом и могучем. 

Естественно я начал тестирование с себя любимого: ввел в анализатор текст книги «Как зовут вашего бога». На выходе получил такой результат:

Как видите графематический анализатор опознал мой стиль почти с абсолютной точностью — коэффициент корреляции 95,84 %! Далее идет Вильгельм Адам (кто это?) и много всяких незнакомых товарищей — вплоть до Ильфа и Петрова (62,70 %) и Михаила Веллера (42,66%).

Проверим теперь анализатор на коротких текстах — ввожу «Дело русских медведей», то есть одну из последних Голубятен:

Забавно, не правда ли? Корреляция с самим собой пропала, что не удивительно: на 5 тысячах знаков никакой глубины ожидать не приходится. Зато всплыли чужие ассоциации. Так мой сегодняшний стиль демонстрирует самый высокий коэффициент стилистической и жанровой корреляции с Михаилом Веллером (55,76 %). Далее следует Вячеслав Алексеев (это кто?), Хорхе Луис Борхес (я старался!), Шарль Бодлер (откуда анализатор знает про моего самого любимого поэта?!) и т.д. Даже обожаемый Аутагава Рюноскэ  присутствует в первой десятке корреляции!

Тысяча чертей: но ведь это же не в бровь, а в самый глаз! 

Как и полагается, честному смекалкину, советского замеса, я тут же захотелось всунуть лом между приводной цепью и шестернями анализатора, поэтому скормил ему голубятню образца 2004 года («Лингвистический анализ одного отстойника: призраки ФИДО в XXI веке»)! 

Опять нет прямой корреляции с автором, но подтвердился Веллер на первом месте. И Рюноскэ. Зато исчез Бодлер (старею?).

Признаюсь, результат сразил меня наповал. Понимаете, в чем дело: я же очень хорошо знаю креативные импульсы, наполняющие мои тексты. Меняется рациональное осмысление письма, его техника, приемы, стилистические фигуры и уловки, но стилистическую основу изменить нельзя — она сидит глубоко в подсознании! И там у меня — кладезь морализма, детского идеализма, романтизма, замешанного на трагичном восприятии жизни. Рюноскэ и Бодлер — очень точное описание моих чувств, преломленных через создаваемые тексты. Плюс -  l’art naif на уровне семантики, синтаксиса, подбора метафор. 

Все эти довольно своеобразные жанровые и стилистические особенности моих текстов, отделенных друг от друга 9 годами, графематический анализатор уловил поразительным образом! Не зная ни имен, ни культурологических контекстов автора! Не говоря уже о консистентности стиля и жанра во времени (9 лет дистанции все-таки!). Потрясающе!

Ради чистоты эксперимента подверг жанрово-стилистическому анализу текст Михаила Веллера («Легенды Арбата»):

Текст большой, поэтому анализатор безупречно определяет первым в списке самого автора! Забавно, что Сергей Михайлович Голубицкий числится в корреляционном списке Веллера под номером 11 (44,26 %)! Вот она — диалектика взаимовлияния :)

Теперь — Юрий Бондарев («Берег»):

И тот же результат — первым в списке корреляций — сам автор  (78,48 %), далее следуют Александр Абрамов, Василий Аксенов, Стругацкие, Акунин. 

Дмитрий Силницкий со товарищи трезво отдают себе отчет о непомерной работе, которая предстоит до того, чтобы придать концепту сколько-нибудь практический (не говоря о товарном!) вид. Самое, однако, главное, что уже сейчас четко вырисовываются как минимум несколько аспектов применения этой разработки: во-первых, на основе графематического анализатора можно создать платформу для продвижения неизвестных авторов и разработать систему книжных рекомендаций; во-вторых, можно построить интеллектуальный журнал типа ZITE, который будет задействовать совершенно иные критерии для кастомизации потребительского контента (жанрово-стилистические — и это мне кажется будет посильнее Фауста Гете на фоне современного чисто тематического — «топики» и «лайки» — подхода); в-третьих, можно будет разработать самые разнообразные системы для тестирования и типизирования личности. 

И это — лишь на поверхности. Лингвистические методы анализа действительности столь обширны и универсальны, что навскидку даже затрудняюсь обозначить хоть приблизительно глобальные сферы применения. Психологическая (и психиатрическая) терапия? Извольте! Дата-майнинг стратегического назначения? Не вопрос! Банальная информационная разведка? You bet! Полиграф? Да вот он — уже тут! Ну и так далее.

Короче говоря, я радуюсь, что так много жизни пульсирует вокруг и не все еще потеряно!

К оглавлению

1 2 3 4 5 6 7 8 9 10
На этом сайте Вы можете читать книги онлайн бесплатно русская версия Цифровой журнал «Компьютерра» № 115 - Коллектив Авторов.
Книги, аналогичгные Цифровой журнал «Компьютерра» № 115 - Коллектив Авторов

Оставить комментарий