Шрифт:
Интервал:
Закладка:
Конечно, в школе учат различать звук и букву, поэтому сознанием человек может уяснить, что ю это не ю, а i+у. Но подсознательно он все равно считает ю единым звуком, или, лучше сказать, единой звукобуквой. Так что же, давать компьютеру буквы, да и все?
Нет, это тоже крайность. Есть, оказывается, психологически чрезвычайно важные моменты звучащей речи, которые в буквах не отражены. Любопытно, что если, скажем, француз или англичанин, не знающие русского языка, услышат слова мел и мель, то они будут уверены, что это одно слово. Разницу в их звучании они просто не уловят. И очень удивятся, если им сказать, что русские совершенно четко и определенно слышат здесь два разных слова, которые никогда не спутают. Так же как француз не может перепутать разные звуки е — открытый и закрытый, — тогда как русскому разница в их звучании представляется почти неуловимой.
Дело здесь в том, что в разных языках особенно важными становятся разные характеристики звуков речи. Для русских мягкость согласных чрезвычайно важна — она является смыслоразличительной, то есть от замены в слове одного только твердого звука на парный ему мягкий резко меняется смысл. Замените л в слове угол на ль — получится совсем другое слово уголь, хотя звучание изменилось чуть-чуть, еле заметно.
Иногда носителю одного языка кажется просто странным, что носитель другого языка не замечает таких, казалось бы, явных различий в звучании. Например, узбеки, изучая русский язык, поначалу путают п и ф.
Учительница, преподающая русский язык в узбекской школе, рассказывала:
— Диктую слово «профессор», а Сайд пишет на доске: «фропессор». Его дружок шипит с первой парты:
— Сайд, первая п — не такая п (руки в бока кренделем), а такая п (свесил руки коромыслом).
Русские удивляются: как же не замечать такой разницы? А удивляться-то нечему: в узбекском языке эта разница не играет никакой роли, вот они ее и не замечают.
Со мной был случай, когда я поразился собственной языковой «тугоухости». На одной конференции в перерыве мы беседовали с англичанином, который неплохо знал русский язык, но учил его в Англии и разных русских-говоров не слышал. И вдруг он меня спрашивает:
— Скажите, что такое по-русски «хайка»?
Я растерялся.
— Не знаю, — отвечаю, — такого слова. Где вы его слышали?
А рядом двое рабочих устанавливают к очередному докладу демонстрационную аппаратуру.
— Да вот же рабочий несколько раз сказал «хайка», — говорит англичанин.
И тут только меня осенило: рабочий произносил г-фрикативный на южнорусский манер. Получалось действительно вместо гайка почти что хайка. Говорящие по-русски замечают, конечно, эту черту произношения, но особенного значения ей не придают, потому что это изменение звучания хотя и очень резкое, но несмыслоразличительное, смысла слов оно не изменяет.
Зато уж если от произношения зависит смысл слова, то даже самые тонкие особенности звука становятся для носителя языка очень важными и заметными. Такова мягкость согласных для русских.
И в оценках содержательности звуков по измерительным шкалам разница твердых и мягких согласных проявляется совершенно определенно: твердые согласные «сильнее, мужественнее, грубее», тогда как мягкие — «слабее, женственнее, нежнее».
Что и говорить — компьютеру обязательно нужно учесть эту особенность восприятия звуков. Да только вот как получается — твердость и мягкость согласных, важнейшее свойство русских звуков речи, не отражено в буквах. В слове рад начальный согласный твердый, а в слове ряд — мягкий, но буква одна — р.
Пришлось обучать компьютер самостоятельно обнаруживать твердые и мягкие согласные. Правда, сделать это оказалось не так уж сложно, потому что согласные становятся мягкими в основном в определенных позициях, которые компьютер научился находить.
А что касается других различий звуков и букв, то они оказались либо практически несущественными для расчета фоносемантики слов, либо выбор пришлось сделать в пользу буквы, как то подсказала «примерка на манекенах». Для компьютера это большое удобство, так как слова можно вводить в обычном печатном виде. Компьютер сам устанавливает мягкость согласных и приступает к расчету содержательности «звукобуквенной» формы слов.
Да, форма не звуковая и не буквенная, а именно звукобуквенная. Например, слово любовь в таком виде и вводится в компьютер, но он преображает ее так: л'юбов' (апостроф — знак мягкости). Как видите, компьютер отметил мягкость звуков и в то же время сохранил букву ю. Но чтобы не вводить нового, непривычного термина, станем по-прежнему говорить «звук», и только там, где это необходимо для правильного понимания сказанного, будем употреблять термин «звукобуква».
В расчетах тоже есть свои особенности. Не все звуки в составе слова равноценны, не все вносят равный вклад в восприятие слова как единого звукобуквенного комплекса.
Ясно, что ударные гласные заметнее безударных. Они звучат четче, громче и дольше. Значит, их роль должна быть подчеркнута, вес их средних оценок при расчетах должен быть увеличен.
Но оказывается, первый звук слова информативно еще более важен, чем ударный. Действительно, все первое ново и свежо, особенно заметно, сразу бросается в глаза, выделяется, запоминается. Все последующее блекнет, становится обычным, теряет свою информативность. Так и в жизни, так и в слове. Первый звук слова своей содержательностью как бы задает тон, окраску всем последующим звукам, будто включает регистр, в котором будет звучать слово. Замените «красивый» звук мь на «отталкивающий» хь, и получится вместо красивого слова милый отталкивающее хилый. А ведь поменялись только первые звуки, остальные остались теми же. Или прочитайте наоборот нейтральное, не вызывающее никаких особых эмоций слово мах — получите «грубое» слово хам. Это «грубый» х, став первым, окрасил своей содержательностью всю звуковую форму слова. Следовательно, вес средней оценки первого звука тоже должен быть увеличен, и еще больше, чем ударного.
Однако самая большая разница в информативности звуков слова вызвана обстоятельством, которое мы, казалось бы, не замечаем, а именно — разницей в частотности, или встречаемости, звукобукв в речи. Опять-таки, как и часто повторяющиеся события становятся обычными, теряют информативность, как слова от частого повторения «в привычку входят, ветшают, как платье», так и часто встречающиеся в речи звуки тоже оказываются малоинформативными, не задерживают на себе внимания, а значит, и незначительно влияют на восприятие слова, на формирование его фоносемантического ореола.
Редкие события высокоинформативны, они останавливают на себе внимание, выделяются из общего потока. И если в слове встречается редкий звук, он переключает на себя внимание воспринимающего, его содержательность становится доминирующей. И чем больше разница в частоте встречаемости между частыми и редкими звуками слова, тем выше информативность редких звуков, тем больше нужно увеличивать вес их средних оценок по сравнению со средними оценками остальных звуков.
Все эти расчеты компьютер выполнит легко, но ему для этого нужны данные об употребительности звукобукв. Те сведения, которые имелись в печати, не совсем подходили — ведь нужны данные именно о звукобуквах, а не о звуках или о буквах, да еще и отдельно по ударным и безударным гласным, да еще в какой-то нейтральной «усредненной» речи. Пришлось вести подсчеты по разным текстам, записывать на диктофоны разговорную речь в разных ситуациях. Работа большая, однообразная, изнурительная. Но что делать, других путей не было.
Забегая вперед, следует сказать, что теперь и эту работу смог бы выполнить сам компьютер. Когда мы перешли от отдельных слов к целым текстам (о чем будет рассказано ниже), компьютер все равно подсчитывал вероятности звукобукв. Не удержусь и похвастаю: компьютерные подсчеты, проведенные на гигантском материале, мало что изменили в наших данных, полученных вручную тяжелым трудом на выборках несравненно более скромного размера. Но это так, к слову, и не в укор машине. Ведь сколько времени и сил пришлось потратить на эту в общем-то подсобную, подготовительную работу! А компьютер выполнил ее походя, играючи.
Но наконец готово все. Многократно выверена, уточнена и перепроверена основная таблица, содержащая средние оценки всех русских звукобукв по 20 признаковым шкалам. Готова и таблица вероятностей звукобукв. Теперь слово за компьютером. Вот тут уж с ним вручную не потягаешься. Ручной расчет фоносемантического ореола даже для одного слова по всем шкалам — дело длинное, а печать машины стрекочет безостановочно, успевай только перфокарты загружать. А если работать с дисплеем, то время расчета — это фактически время набора слова на алфавитной клавиатуре. Иначе говоря, компьютер, как и человек, моментально «схватывает» фоносемантику слова.
- MySQL 5.0. Библиотека программиста - Виктор Гольцман - Программирование
- C++ - Страустрап Бьярн - Программирование
- Взломать всё. Как сильные мира сего используют уязвимости систем в своих интересах - Брюс Шнайер - Программирование
- 97 этюдов для архитекторов программных систем - Нил Форд - Программирование
- Delphi. Учимся на примерах - Сергей Парижский - Программирование