Шрифт:
Интервал:
Закладка:
Если остановиться на этих четырех уровнях, то в «осгудовских представлениях» мы получим группировку слов в четырехмерном качественно-признаковом пространстве, то есть как бы разрежем облака тумана на четко разграниченные зоны.
А компьютеру только того и нужно. Теперь он легко разложит по полочкам наши зыбкие и неопределенные представления о качественных ореолах слов. Скажем, попадают в компьютерный классификатор слова автомобиль и лягушка. Компьютер проверяет их оценки по шкале «хорошее — плохое»: автомобиль — 1,9, лягушка — 4,2. Компьютеру ясно — автомобиль нужно направить в «хорошую» группу, а лягушку в «плохую». Далее проверяются оценки по шкале «сильное — слабое», и автомобиль попадает в «хорошую и сильную» группу, лягушка — в «плохую и слабую», так как по этой шкале автомобиль имеет оценку 1,8, а лягушка — 4,3. Затем, пройдя шкалы третьего и четвертого уровней («быстрое — медленное», «мужественное — женственное»), автомобиль оказывается в «хорошей, сильной, быстрой, мужественной» группе, лягушка — в «плохой, слабой, медленной, женственной».
Четыре уровня сортировки минимально необходимы, иначе качественный ореол не будет охвачен полностью. Но останавливаться на четвертом уровне не обязательно. Добавляя к автоматическому классификатору все новые и новые шкалы-уровни, мы обучаем компьютер все более тонким оттенкам качественно-ореольной семантики. Понятно, что с увеличением числа уровней сортировки будет увеличиваться число групп «на выходе» классификатора и группы будут все более дробными. А слова, в них попавшие, будут все теснее объединяться по качественно-ореольным характеристикам.
Четырехуровневый компьютерный классификатор исправно работает и формирует группы слов на удивление «осмысленно». Ничто не мешает подключить к нему новые шкалы и сортировать новые порции слов. Но вот беда: лингвисты уже 30 лет гадают, куда «приплыл» Ч. Осгуд — в Индию или в Америку, да все прикидывают, нужны ли нам такие измерения. А словаря качественных ореолов русских слов все нет. Классификатор есть, и работает хорошо, а классифицировать нечего. До сих пор всего несколько исследователей ведут измерения русских слов — это в основном А. Клименко, В. Петренко, А. Павлюк. Измерено несколько сотен слов, но главным образом по трем-четырем основным шкалам. А ведь нужно измерить десятки тысяч слов, да и шкал набрать побольше. Работа эта ведется, но столь малыми силами, что результатов придется ждать еще долго.
Многоуровневый классификатор будет иметь огромное число выходов. Так, при десяти уровнях количество классификационных групп приближается к 20 тысячам. Но это лишь теоретически возможные группы. На практике большое число выходов окажутся пустыми, то есть на этих выходах не будет не только групп, но и ни одного слова. А на других выходах классификатора соберутся группы, включающие множество слов. Кстати сказать, интересен и сам этот результат. Ведь если на каком-то выходе образовалась большая группа слов, значит, такая комбинация признаков очень важна для нас, а если выход пустой — это свидетельство несовместимости признаков или ненужности такой их комбинации.
Возникает еще вот какой вопрос: как быть со словами внутри групп, как разобраться в них компьютеру? Не окажутся ли они для него все на одно лицо? Ведь на первый взгляд кажется, что в группах слова перемешаны без какой-либо системы, как бы свалены в какую-то ячейку пространства «навалом». Это впечатление обманчиво. Во-первых, для более дробного деления групп компьютер всегда может подключать новые шкалы-уровни. Во-вторых, если некая группа слов не будет поддаваться такому способу дробления, а компьютеру все же нужно как-то упорядочить слова внутри ее, он всегда может обратиться к исходным данным — к средним оценкам слов по любому из нужных в данный момент признаков.
Например, если в четырехуровневом классификаторе слова корабль, автомобиль, самолет объединились в группу, оказавшись «хорошими, сильными, быстрыми, мужественными», то легко можно сравнить их между собой по какому-либо признаку, ранжируя их средние оценки. Скажем, по признаку «быстрое» они располагаются в зависимости от средних оценок так: самолет (1,8), автомобиль (2,2), корабль (2,4). Отсюда компьютер сделает вывод, что «нечто самое быстрое» среди этих слов — самолет, а «самое медленное» — корабль. По признаку «большое» расположение будет другим: корабль, самолет, автомобиль. Такое сравнение можно провести и по любому другому признаку, включенному в классификатор.
Качественный классификатор справляется и со словами, имеющими двойную оценку, и даже с «размытыми» по всей шкале — такие слова просто попадут одновременно на несколько выходов классификатора.
Например, слово регби по шкале «хорошее — плохое» имеет двойную оценку (и «хорошее» и «плохое»). Для классификатора не нужно вычислять среднюю оценку (все равно она будет фиктивной), вместо этого слову приписывается индекс (например, Д), который будет означать, что слово необходимо направить и на «хороший», и на «плохой» выходы. Попав на «хороший» выход, регби окажется в одной группе со словами игра, футбол, забава, спорт и т. п. На «плохом» выходе у того же слова окажутся другие соседи: грубость, драка, свалка, потасовка и т. п.
Слово женщина тоже имеет двойную оценку. Пройдя классификатор, «хорошая женщина» попадет в одну группу со словами мать, невеста, ласка, забота, любовь, нежность и т. п. Ну а «плохая женщина» будет окружена словами зависть, глупость, карга, выдра и т. п.
«Размытые» слова, такие, как дождь, попадут не на два, а на несколько выходов. «Слабый и хороший» дождь окажется в группе со словами лето, радуга, свежесть; «сильный и плохой» — со словами гроза, буря; «слабый и плохой» будет соседствовать со слякотью, осенью, моросью, гнилью; «сильный и хороший» — с урожаем, добром и т. д.
Как видим, классификатор работает гораздо лучше, чем пространство. Но особое его удобство заключается еще и в том, что он легко может быть объединен с понятийным классификатором, то есть с автоматизированной системой анализа понятийной семантики. Для этого нужно просто пропускать через качественный классификатор те группы слов, которые образовались после работы понятийного.
Опора на два семантических аспекта — на понятийное ядро и качественный ореол — позволяет компьютеру неплохо ориентироваться в семантике текста и вести вполне «человеческую» беседу, хотя на самом первом, «понятийном» этапе компьютеру придется основательно помогать.
Например, вы спрашиваете компьютер:
— Как можно добраться из Ленинграда в Таллин?
В этом вопросе компьютер, увы, ничего не поймет.
Ему тут просто не за что зацепиться. Глагол добираться слишком многозначен, его понятийное ядро размыто, неопределенно. Будем великодушными, снизойдем к непонятливости компьютера и переформулируем вопрос:
— На каком транспорте можно доехать от Ленинграда до Таллина?
Казалось бы, теперь все предельно ясно. Но это нам ясно. А компьютеру все еще не по силам разобраться в понятийной семантике вопроса. Слово транспорт объединяет слишком много самых разных понятийных групп. Скажем, городской транспорт — трамвай, троллейбус, метро — здесь не годится. Грузовой транспорт — тоже. А есть ведь еще транспорт как тип морского судна. Да и с Ленинградом и Таллином тоже все не просто. Компьютеру нужно знать, что это города, а не районы одного города, не разные страны или материки, что оба города расположены на берегах одного моря. И много еще чего нужно. Короче говоря, чтобы понять смысл даже такого простенького вопроса, необходимо сознавать ситуацию, чего компьютер сделать не в состоянии.
Допустим, мы как-то оградили нашего, мягко говоря, несообразительного собеседника от излишних семантических трудностей и задаем ему донельзя «разжеванный» вопрос:
— На каком пассажирском транспорте можно доехать от города Ленинграда до города Таллина?
Компьютер включает «понятийный классификатор», обнаруживает в группе «междугородный пассажирский транспорт» слова поезд, самолет, корабль, автобус, автомобиль и, наконец отвечает:
— Поездом, самолетом, на корабле, автобусе или на автомобиле.
Вы говорите:
— Только мне хотелось бы побыстрей.
Если бы компьютер обладал эмоциями, то здесь он бы облегченно вздохнул — кончилась непосильная для него работа с понятийными ядрами, он вырвался в область семантических ореолов, где чувствует себя гораздо более уверенно. Пробежав оценки этих ореолов по шкале «быстрое — медленное» и установив, что самое быстрое — самолет, а самое медленное — корабль, он уверенно отвечает:
— Быстрее всего, конечно, самолетом.
Вы сомневаетесь:
— Самолетом — это риск: вдруг дождь.
Компьютер не понял причины ваших колебаний, но
уловил «размытое» слово дождь и спешит получить уточнения:
- MySQL 5.0. Библиотека программиста - Виктор Гольцман - Программирование
- C++ - Страустрап Бьярн - Программирование
- Взломать всё. Как сильные мира сего используют уязвимости систем в своих интересах - Брюс Шнайер - Программирование
- 97 этюдов для архитекторов программных систем - Нил Форд - Программирование
- Delphi. Учимся на примерах - Сергей Парижский - Программирование