Читать интересную книгу Аналитика: методология, технология и организация информационно-аналитической работы - Юрий Курносов

Шрифт:

-
+

Интервал:

-
+

Закладка:

Сделать
1 ... 83 84 85 86 87 88 89 90 91 ... 153

Чаще всего языковые средства коммуникации реализуют неоперативный режим коммуникации с использованием средств символьного представления информации (текстов). Поэтому, когда речь идет о неоперативной языковой коммуникации, в качестве источников принято рассматривать второй класс источников (материальные носители текстов). Если ввести строгие классификационные основания, то к классу источников, обеспечивающих неоперативные языковые коммуникации, следует причислять:

— источники неоперативной информации (хранилища, архивы и библиотеки, содержащие текстовые документы):

— на традиционных носителях символьных данных: бумага, фотопленка и т. д. (книги, журналы, реферативные журналы, газеты, рукописи, микропленки и иные);

— на нетрадиционных носителях символьных данных: магнитные ленты и диски, магнитооптические и оптические накопители ЭВМ, голографические накопители, электронные запоминающие устройства, сети ЭВМ различного уровня интеграции и т. д. (файлы, базы данных, хранилища данных, геоинформационные системы, глобальные, региональные и локальные сети ЭВМ и иные);

— источники оперативной информации (коммуникационные и связные системы, реализующие функцию коммуникации посредством передачи текстовых данных в символьном формате):

— воспроизводимые данные (зарегистрированные на материальных носителях, для которых существует возможность повторного воспроизведения), передаваемые в каналах связных и телекоммуникационных систем, основанных на различных физических принципах действия, в том числе, воспроизведенные методом оптической проекции и т. д.;

— невоспроизводимые данные (возможность регистрации которых на материальных носителях и повторного воспроизведения отсутствует по тем или иным причинам), передаваемые в каналах связных и телекоммуникационных систем, основанных на различных физических принципах действия, в том числе, воспроизведенные методом оптической проекции и т. д.

Источники информации, не воспроизводимой с требуемой степенью точностью, мы исключим из рассмотрения в силу их малой полезности, а также по причине того, что их поиск становится невозможным в силу отсутствия доступа к материальной копии. Впрочем, определив потенциального носителя таких данных или расположение материальной копии, возможно организовать доступ к материальной копии или носителю сведений, как, например, в случае захвата вражеского «языка», получения несанкционированного доступа к данным и иных случаях насильственного изъятия информации.

При наличии доступа к материальной копии информации (данным) всю совокупность доступных данных можно рассматривать в качестве источниковой базы проведения исследований. В этом случае, решив проблему согласования форматов представления, аналитик получает возможность применения комплекса информационных технологий к полученному массиву текстов. При этом, как мы уже указывали, аналитиком решается задача сжатия или обобщения информации, первыми этапами которой является отбор текстов, релевантных теме исследования, то есть — формирование специализированного массива текстов, которые имеют отношение к решаемой задаче.

При этом выделяются два класса источников, не рассматривавшихся в предложенной ранее классификации, а именно: класс источников неструктурированных текстовых данных и класс источников структурированных текстовых данных. При этом под текстом можно понимать и числа, как частный случай.

5.1 Неструктурированные текстовые данные

Наиболее доступным источниками информации на сегодня можно считать средства массовой информации и издания в диапазоне от художественной литературы и публицистики до специализированных научных изданий. Предположим, что в результате применения некоторого комплекса инструментальных средств вами получен неспециализированный массив текстовой информации на компьютерных носителях, обеспечивающий возможность применения разнообразных технологий обработки и анализа информации с применением программных и аппаратно-программных средств.

Также будем считать, что существует возможность оперативного пополнения этого массива за счет ресурсов глобальных, региональных и локальных телекоммуникационных сетей, подключения к ресурсам информационных агентств, а также получения текстов, публикуемых в электронных и обычных средствах массовой информации.

Такими возможностями на сегодня располагает большинство субъектов ИАР, обладающих возможностью подключения к ГСТК Интернет (Спринтнет, Гласнет, Релком, локальной вычислительной сети организации) и несложным комплектом технических средств, включающим в свой состав ЭВМ и периферийные устройства типа сканера, среднескоростного модема для аналоговых или цифровых каналов связи. Возможны и иные варианты комплектации, что в данном случае несущественно.

Задача состоит в том, чтобы осуществить над имеющимся массивом данных некие манипуляции, в результате которых будет получен специализированный массив каталогизированных и, возможно, аннотированных данных, необходимых для проведения дальнейших исследований.

Одним из вариантов решения задачи является использование неавтоматизированного режима поиска и отбора информации (в этом случае массив источников последовательно прочитывается на предмет поиска необходимой информации, и тексты, содержащие необходимые сведения подвергаются копированию/перемещению в некоторую область дискового пространства и/или каталогизации, при этом возможно параллельное аннотирование/комментирование текстов). Однако на достаточно больших массивах текстов такая технология представляется крайне трудоемкой и малоэффективной. Несмотря на то, что существуют технологии быстрого чтения, обеспечивающие человеку за счет оптимизации траектории перемещения точки фиксации зрения по носителю текста скорость чтения порядка 3000 знаков в минуту, эти технологии не могут сравниться с быстродействием, которое способны обеспечить компьютерные системы. Поэтому основное внимание мы сосредоточим на инструментальном обеспечении процессов поиска, отбора и экспресс анализа текстовых данных.

Тем не менее, начальный этап поиска, а именно, синтез поискового задания, требует привлечения интеллектуальных усилий аналитика.

Существует один, возможно, экстравагантный, но эффективный подход к формированию поискового словаря в условиях слабого знакомства с предметной областью исследований: он заключается в использовании… разнообразных словарей, предназначенных для любителей отгадывания кроссвордов. Учитывая, что систематические тезаурусы представляют собой достаточно редкое явление (рынок сбыта таких изданий весьма специфичен и тиражи невысоки), такие словари могут служить неплохим инструментом для подобных исследований. Зная цель исследования, по подобному словарю аналитик может отобрать ключевые слова, наиболее ярко свидетельствующие о принадлежности текста к заданной отрасли.

После того, как первая версия поискового словаря создана, дальнейшие операции могут быть возложены на ЭВМ. Произведя первичный поиск и обнаружив в массиве текстов/документов текст, содержащий ключевые слова и наилучшим образом освещающий исследуемую проблему, аналитик переходит к следующему этапу — этапу коррекции поискового словаря. Наиболее распространенным подходом в настоящее время является статистический подход, основанный на применении статистических закономерностей, открытых Дж. К. Зипфом (в этой книге мы уже упоминали закон Зипфа-Мандельброта или принцип экономии в лингвистике). В результате построения частотно-рангового распределения длин слов в данном тексте выбирается специфичный для данного языка диапазон частот встречаемости слов — именно в этом диапазоне будут содержаться те слова, которые наилучшим образом отражают тематику и содержание текста. Однако ориентация этого метода на такую единицу как слово, несколько сокращает полезность этого метода, поскольку человеку свойственно оперировать не столько словами, сколько терминами (то есть, сочетаниями слов, обеспечивающими наилучшее различение описываемых сущностей).

Так или иначе, но закономерности Зипфа широко используются в компьютерных системах анализа текстов и формирования поисковых словарей. Наибольшее распространение эти методы получили в поисковых системах ГСТК Интернет. Поэтому, если вы хотите получить наилучшие результаты при поиске информации с применением специальных поисковых серверов, вам имеет смысл вооружиться настольной компьютерной системой, на которой установлено программное обеспечение, реализующее функцию генерации поискового словаря по той же схеме (с теми же критериями), что реализуется поисковым сервером. В настоящее время поисковые системы, основанные на использовании статистических закономерностей, наиболее широко представлены на рынке и предоставляют пользователю различные возможности при осуществлении поиска. Наиболее распространен следующий набор сервисов/режимов (опций):

1 ... 83 84 85 86 87 88 89 90 91 ... 153
На этом сайте Вы можете читать книги онлайн бесплатно русская версия Аналитика: методология, технология и организация информационно-аналитической работы - Юрий Курносов.
Книги, аналогичгные Аналитика: методология, технология и организация информационно-аналитической работы - Юрий Курносов

Оставить комментарий