Читать интересную книгу Введение в теоретическую лингвистику - Джон Лайонз

Шрифт:

-
+

Интервал:

-
+

Закладка:

Сделать
1 ... 27 28 29 30 31 32 33 34 35 ... 168

2.4.4. НЕРАВНЫЕ ВЕРОЯТНОСТИ

Поскольку каждый двоичный знак несет только один бит информации, группа из m двоичных знаков может нести максимум m битов. До сих пор мы предполагали, что вероятности различаемых таким образом единиц высшего уровня равны. Теперь рассмотрим более интересный и более обычный случай, когда эти вероятности не равны. Для простоты возьмем множество из трех единиц, а, b и с, со следующими вероятностями: ра = 1/2, рb = 1/4, = 1/4. Единица а несет 1 бит, а b и с несут по 2 бита информации каждая. Их можно закодировать в двоичной системе реализации, как а : 00, b : 01 и с : 10 (оставив 11 незанятым). Но если бы знаки передавались в последовательности по некоторому каналу связи и передача и получение каждого знака занимали бы один и тот же отрезок времени, было бы неразумным принимать столь неэффективное условие кодирования. Ведь для а требовалась бы такая же мощность канала, как для b и для с, хотя оно несло бы вдвое меньше информации. Более экономичным было бы закодировать а с помощью одного знака, скажем 1, и отличать b и с от а, закодировав их противоположным знаком — 0 — в первой позиции; b и с тогда отличались бы друг от друга во второй позиции контраста (которая, конечно, пуста для а). Итак, а : 1, b : 00 и с : 01. Это второе соглашение более экономичным образом использует пропускную способность канала, так как оно увеличивает до предела количество информации, которое несет каждая группа в один или два знака. Поскольку на передачу а, которое встречается вдвое чаще, чем b и c, тратится вдвое меньше времени, данное решение позволило бы в кратчайшее время передать наибольшее число сообщений (исходя из предположения, что эти сообщения достаточно длинны или достаточно многочисленны, чтобы отражать средние частоты появления). В действительности эта простая система представляет собой теоретический идеал: каждая из трех единиц a, b и с несет целое число битов информации и реализуется в субстанции именно этим числом различий. 

2.4.5. ИЗБЫТОЧНОСТЬ И ШУМ

Этот теоретический идеал никогда не достигается на практике. Прежде всего вероятности появления единиц обыкновенно находятся между величинами ряда 1, 1/2, 1/4, 1/8, 1/16, . . . , 1/2m, а не соответствуют им в точности. Например, вероятность появления отдельной единицы может быть равна 1/5, поэтому она может передавать log2 5 — приблизительно 2,3 — бита информации. Но в субстанции не бывает различия, измеряемого числом 0,3; субстанциальные различия абсолютны в поясненном выше смысле (см. § 2.2.10). Если же мы используем три знака для отождествления единицы с вероятностью появления в 1/5, мы тем самым введем избыточность в субстанциальную реализацию. (Среднюю избыточность системы можно сделать сколь угодно малой; математическая теория связи занимается-главным образом этой задачей. Но нам здесь нет необходимости вдаваться в более специальные подробности.) Важным является то, что некоторая степень избыточности на самом деле желательна в любой системе связи. Причина состоит здесь в том, что, какая бы среда ни использовалась в целях передачи информации, она будет подвержена разнообразным непредсказуемым природным помехам, которые уничтожат или исказят часть сообщения и таким образом приведут к потере информации. Если бы система была свободна от избыточности, потеря информации была бы невосполнима. Инженеры связи обозначают случайные помехи в среде или канале связи термином шумы. Оптимальная система для отдельного канала такова, что в ней ровно столько избыточности, сколько требуется, чтобы получатель мог восстановить информацию, потерянную из-за шумов. Заметим, что термины «канал» и «шумы» следует толковать в самом общем смысле. Их применение не ограничивается акустическими системами и тем более системами, созданными инженерами (телефон, телевизор, телеграф и т. п.). Искажения в почерке, получающиеся при письме в движущемся поезде, можно также причислить к «шумам»; сюда же относятся искажения, возникающие в речи при насморке, в состоянии опьянения, от рассеянности или ошибок памяти и т. п. (Опечатки — это одно из следствий воздействия шумов при «кодировании» письменного языка; читатель часто не замечает их, потому что избыточность, характерная для большей части письменных предложений, достаточна для того, чтобы нейтрализовать искажающее влияние случайных ошибок. Опечатки более существенны в цепочке знаков, любая комбинация которых a priori возможна. С этим на практике считаются бухгалтеры, которые умышленно вводят в свои книги избыточную информацию, требуя баланса сумм в разных колонках. Обычай ставить сумму к выплате на чеках и прописью и цифрами позволяет банкам обнаружить, если не исправить, многие ошибки, вызванные шумами того или иного рода.) Что же касается устной речи, то термин «шум» включает любой источник искажения или непонимания, относится ли он к недостаткам речевой деятельности говорящего и слушающего или к акустическим условиям физической среды, в которой производятся высказывания.

2.4.6. КРАТКОЕ ИЗЛОЖЕНИЕ ОСНОВНЫХ ПРИНЦИПОВ ТЕОРИИ ИНФОРМАЦИИ

С начала 1950-х гг. теория связи (или теория информации) оказывает большое влияние на множество других наук, в том числе на лингвистику. Основные ее принципы можно резюмировать следующим образом:

(i) Вся коммуникация основывается на возможности выбора, или селекции, из множества альтернатив. В главе, посвященной семантике, мы увидим, что этот принцип дает нам толкование термина «значимый» (в одном из смыслов): языковая единица любого уровня не обладает значением в некотором данном контексте, если она полностью предсказуема в этом контексте.

(ii) Информационное содержание изменяется обратно пропорционально вероятности. Чем более предсказуема единица, тем меньше значения она несет. Этот принцип хорошо согласуется с мнением стилистов о том, что клише (или «избитые выражения» и «мертвые метафоры») менее действенны, чем более «оригинальные» обороты речи.

(iii) Избыточность субстанциальной реализации языковой единицы (ее «кодирования») измеряется разницей между количеством отличительных признаков субстанции, требуемых для ее отождествления, и ее информационным содержанием. Определенная степень избыточности необходима для противодействия шумам. Наше предшествующее рассуждение об устойчивости субстанции, в которой реализуется язык, и о необходимости некоторого «запаса прочности», позволяющего различать реализации контрастирующих элементов, можно также подвести под более общий принцип избыточности (ср. § 2.2.10).

(iv) Язык будет более эффективным (с точки зрения теории информации), если синтагматическая длина единиц будет обратно пропорциональна вероятности их появления. То, что в языке действительно имеет силу подобный принцип, подтверждается тем фактом, что наиболее употребительные слова и выражения обычно бывают более короткими. Это было сначала эмпирическим наблюдением, а не дедуктивным (подлежащим проверке) выводом из определенных теоретических предпосылок; в дальнейшем для выражения связи между длиной и частотой употребления была выработана специальная формула, известная как «закон Ципфа» (по имени ее автора). (Мы не будем приводить здесь «закон Ципфа» или обсуждать его математическую и лингвистическую основу; он подвергся видоизменениям в последующих работах.) В то же время следует признать, что длина слова в буквах или звуках (в том смысле, в каком мы употребляли термин «звук» до сих пор) не обязательно служит непосредственной мерой синтагматической длины. Этот чрезвычайно важный момент (к которому мы еще вернемся) не всегда подчеркивался в статистических исследованиях языка.

2.4.7. ДИАХРОНИЧЕСКИЕ ИМПЛИКАЦИИ *

Поскольку язык развивается во времени и «эволюционирует», удовлетворяя изменяющиеся потребности общества, его можно рассматривать как гомеостатическую (или «саморегулирующуюся») систему; при этом состояние языка в каждый данный момент «регулируется» двумя противоположными принципами. Первый из них (иногда называемый принципом «наименьшего усилия») заключается в тенденции увеличить до предела эффективность системы (в том смысле, в каком слово «эффективность» толковалось выше); его действие заключается в приближении синтагматической длины слов и высказываний к теоретическому идеалу. Другой принцип заключается в «стремлении быть понятым»; он тормозит действие принципа «наименьшего усилия» путем введения избыточности на разных уровнях. Следует, таким образом, ожидать стремления сохранить, при изменяющихся условиях общения, обе тенденции в равновесии. Из того, что среднее количество шумов постоянно для разных языков и разных стадий развития одного языка, следует, что степень избыточности языка постоянна. К несчастью, нельзя (по крайней мере в настоящее время) проверить гипотезу о том, что языки сохраняют оба названных противоположных принципа в «гомеостатичееком равновесии». (Мы рассмотрим этот вопрос ниже.) Тем не менее эта гипотеза является многообещающей. Ее вероятность поддерживается «законом Ципфа», а также тенденцией (отмеченной задолго до начала теоретико-информационной эры) к замене слов более длинными (и более «яркими») синонимами, особенно в разговорном языке, в тех случаях, когда частое употребление тех или иных слов лишает их «силы» (снижая их информационное содержание). Крайняя быстрота смены жаргонных выражений объясняется именно этим.

1 ... 27 28 29 30 31 32 33 34 35 ... 168
На этом сайте Вы можете читать книги онлайн бесплатно русская версия Введение в теоретическую лингвистику - Джон Лайонз.

Оставить комментарий