Шрифт:
Интервал:
Закладка:
Многие посмеивались над компьютером — кто добродушно, кто злорадно — вот, мол, смотрите-ка, в одной группе оказались слова зерно и женщина. Ничего себе, семантическое сходство — в огороде бузина, а в Киеве дядька. Но других те же самые результаты восхищали: ай да компьютер — собрал в одну группу все злаковые, сюда же включил и овощи, да не все, а только с зернышками (огурец, помидор, тыква), про хлеб не забыл, глагол кормить тоже здесь оказался, и даже женщину вспомнил. А как же — она ведь кормилица! И снова споры, снова дискуссии.
Что ж, новое должно доказать свою жизнеспособность в борьбе мнений, должно пробить себе дорогу. А это было не просто новое, это было никогда раньше не виданное и не слыханное: компьютер делал первые шаги к постижению понятийного ядра значения. Пусть даже, как и положено на первых шагах, его вел за руку человек: компьютер, разумеется, значений слов не понимал, он сравнивал по разным словарям описания значений слов людьми — составителями словарей, а найдя сходство в описаниях, относил слова к одной группе, то есть считал слова сходными по значению.
Пока еще не все у компьютера получается гладко, не со всеми его решениями можно согласиться, но главное в том, что оказалось принципиально возможным обучить машину имитации понимания понятийного ядра — основы значения слова.
Скажем, в одну группу со словом бабочка компьютер отнес и слово хоккей. Что-либо общего в значениях этих слов трудно отыскать, не правда ли? Они оказались в одной группе на том основании, что в словарных описаниях и того и другого значений есть слово поле, а откуда машине знать, что хоккейное поле вовсе не тот лужок, над которым порхают мотыльки. Зато другие слова в соседи к бабочке компьютер подобрал с явным «пониманием» их значения: цветок, пыльца, пестик, крыло, птица и т. п.
Получается, что программа, по которой составлялся «Русский семантический словарь», является как бы автоматическим понятийным классификатором слов, распределяющим слова по группам в зависимости от сходств их понятийных ядер.
В целом машина неплохо освоила понятийную семантику почти десяти тысяч русских слов, распределив их по семантическим группам так, что непосвященному человеку и в голову не придет подозревать в этой явно интеллектуальной работе компьютер.
Вот, к примеру, такая группа: архитектура, архитектор, кремль, крепость, башня, пирамида, колокольня, дворец, здание, портал и т. п. Можно ли сомневаться в семантической общности этих слов? Конечно, нет. А ведь их подобрал компьютер, который действительно не понимает их значений. Просто трудно поверить, что машина не знает смысла слов, когда объединяет такую «театральную» лексику: спектакль, актер, балкон, кукла, отделение, премьера, самодеятельность, темп, афиша, кино, опера, постановка, программа, сцена, уборная, балет, кинотеатр, оркестр, представление, пьеса, театр, цирк.
Работа машины особенно поражает в тех случаях, когда семантика сформированных ею групп и человеку-то не всякому доступна. Например: альтруизм, самопожертвование, уступка, польза, делиться, ближайший, сосед.
Электронный языковед настолько правдоподобно имитировал понимание значений слов, что даже критиков словаря ввел в заблуждение. Ведь, подмечая семантические неточности в работе компьютера, они как бы спорили с ним на равных.
Разумеется, «Русский семантический словарь» — лишь первый приступ к машинному оперированию с самым важным, но и с самым сложным аспектом значения слова, с его понятийным ядром. Сейчас еще рано говорить о перспективах развития этого направления и конкретных приложениях его результатов, одно несомненно — принципиальная новизна направления приведет к принципиально новым решениям и результатам в этой важнейшей области обучения компьютера человеческому языку.
Работа эта чрезвычайно сложна, она только в популярном описании выглядит так просто. На самом деле предстоит еще долгий путь, пройдет еще немало времени, прежде чем компьютер сможет разнообразно оперировать понятийной семантикой, хотя человека он в этом не сможет ни заменить, ни даже повторить никогда.
А мы с вами вспомним, что понятийное ядро — только один (пусть и главный) аспект значения слова. И если компьютер добился успехов в постижении языковой семантики, опираясь даже на один этот аспект, то подключение к рассмотрению и других сторон семантики должно привести к еще более глубокому проникновению в сущность языкового значения. Поэтому перейдем к следующему семантическому аспекту — к качественно-признаковому ореолу слова.
Поиски, находки, потериТридцать лет назад группа американских исследователей под руководством Ч. Осгуда опубликовала сенсационную книгу под вызывающим заглавием «Измерение значения». Для языковедов само сочетание этих слов было бессмыслицей: каждому ясно, что значение слова, его смысл невозможно как-то там измерить — это ведь не отрез на платье. И добро бы еще Ч. Осгуд выражался метафорически, просто для большей завлекательности употребил бы слово «измерение» в каком-нибудь переносном смысле. Тогда можно было бы упрекнуть его в стремлении к саморекламе, да и все тут. Так ведь нет — в книге рассказывалось именно об измерении значений слов буквально с помощью линеек, с помощью числа и даже (!) с помощью еще таинственных тогда ЭВМ! Это было непостижимо для солидных языковедов, которые в глубине души были уверены, что научно-техническая революция с ее числами и машинами касается физики, химии и других «прикладных» наук, что она не затронет их любимых членов предложения и уж, конечно, никогда не посмеет коснуться святая святых языка, его семантики.
Книга, понятно, была поначалу встречена в штыки и в Америке, и в других странах. Объявлялось, что Ч. Осгуд вообще ничего не измерил, а если измерил, то совсем не так, как надо бы, а если и так, то совсем не то, что следовало бы измерять. Появилась даже расхожая шутка: мол, Ч. Осгуд хотел открыть неведомую Америку, а приплыл в хорошо известную Индию. А чтобы уж не совсем обижать энтузиастов, к этой шутке снисходительно добавлялось, что опыт незадачливых мореплавателей все же, мол, оказался полезным. Правда, осталось непонятным, в каком смысле этот опыт признавался полезным: то ли в том, что группа Ч. Осгуда все же получила какие-то результаты, то ли в том, что убедилась в невозможности выполнить поставленную задачу.
Теперь, по прошествии времени, видно, сколь несправедлива была критика. И еще видно, как трудно, как невозможно трудно новой идее пробить стереотипы мышления. Ведь Ч. Осгуд действительно открыл для языкознания новые земли.
Прежде всего он доказал, что в области семантики возможны измерения. И не только доказал, но и показал, как их можно выполнить. Это принципиально важно вообще для науки, а сегодня особенно важно, потому что возможность семантических измерений открывает дорогу к семантике для компьютера. И как оказалось — дорогу к самым тонким и неуловимым аспектам значения, к которым пока никакими другими путями компьютеру прийти невозможно.
А кроме того, если уж проводить сравнение с Колумбом, то «экипаж» Ч. Осгуда скорее повторил открытие и
заблуждение первооткрывателя Америки. Ч. Осгуд считал, что измеряет значение слова, тогда как на самом деле он 01 крыл и измерил новый аспект семантики. Те, кто критиковал Ч. Осгуда, ставили ему в упрек то, что он не измерил значения, имея в виду понятийное ядро. Да, это так — понятийное ядро с помощью методики Осгуда не измеряется. Измеряется другое — качественный аспект, качественный ореол значения. Но кто знал тогда, что значение слова — не монолит, что оно само по себе сложное, многоаспектное явление?! Кто четко представлял себе, что у слова имеется понятийное ядро и семантические ореолы?! Это теперь ясно, что Ч. Осгуд впервые выделил и измерил качественно-признаковый аспект значения слова.
Как же удалось группе Осгуда сделать то, что казалось явно невозможным? Представьте себе, в принципе достаточно просто. Свой «измерительный инструмент» Ч. Осгуд назвал весьма внушительно — «семантический дифференциал», видимо, стараясь весомостью терминов как-то затушевать предельную простоту, можно даже сказать, примитивность самого этого инструмента. По сути дела, это просто линейка, а посолиднее говоря, шкала, которая у Ч. Осгуда еще выглядела довольно замысловато, а теперь, после многих лет «обкатки», оказалась и совсем простой: очень хорошее — 1, хорошее — 2, никакое — 3, плохое — 4, очень плохое — 5. Вот и все. Трудно поверить, но действительно все.
А дальше — измерения с помощью этого «инструмента». Этап трудоемок, но тоже в общем-то прост. Измерительная шкала дается носителям языка. Это те, кто говорит на данном языке и для кого язык является родным. Их называют информантами, потому что они дают исследователю нужную информацию. Так вот, информантам дается шкала и предъявляются слова (в произношении и написании или только в написании). Предъявляются как угодно: просто диктуются и записываются на доске или с помощью каких-либо технических средств — неважно. Задача информантов несложна — нужно поставить очередному слову «оценку», то есть цифру по данной шкале. Например, предъявлено слово дом. Если информант почему-либо считает, что это «что-то очень хорошее», он доставит слову оценку 1, если, по его мнению, это «нечто очень плохое» — оценку 5 и так далее. Если возникают затруднения с оценкой, или слово для информанта не обозначает ничего — ни хорошего, ни плохого, или информант вообще почему-либо не желает оценивать слово, он всегда может поставить тройку («никакое»).
- MySQL 5.0. Библиотека программиста - Виктор Гольцман - Программирование
- C++ - Страустрап Бьярн - Программирование
- Взломать всё. Как сильные мира сего используют уязвимости систем в своих интересах - Брюс Шнайер - Программирование
- 97 этюдов для архитекторов программных систем - Нил Форд - Программирование
- Delphi. Учимся на примерах - Сергей Парижский - Программирование