Читать интересную книгу Профессия: переводчик - Геннадий Мирам

Шрифт:

-
+

Интервал:

-
+

Закладка:

Сделать
1 ... 23 24 25 26 27 28 29 30 31 32

г) регистрирует информацию, имеющуюся в словарном файле для данного слова, - переводные эквиваленты, грамматические и семантические признаки исходного

слова и его переводного эквивалента, например, для слова RADIATION эти данные могут выглядеть таким образом: RADIATION; (N); (process; characteristics) = РАДИАЦИЯ, (N); (процесс, характеристика); ИЗЛУЧЕ­НИЕ, (N); (процесс, характеристика);

д) формирует синтаксическое и семантическое представ­ление входного текста (как правило, предложения), на­пример, для предложения LEAD ABSORBS RADIATION такое синтактико-семантическое представление может иметь вид:

(lead)=V(TRANS/OBJ=Nanim,inanim)/N (MATER/ ABSTR); (absorbs) =V(TRANS,SUBJ=Ninanim, mater; OBJ=Ninanim, mater);

(radiation)=N(PROC/PARAM).

Здесь нужно сделать оговорку. Я думаю, достаточно очевидно, что приведенная в примерах информация по синтаксическим и семантическим моделям носит иллюст­ративный характер и ни в коей мере не претендует на пол­ноту или универсальность. То же можно сказать и о тех примерах, которыми будет иллюстрироваться работа дру­гих модулей системы автоматического перевода.

В каждой конкретной системе данные и процедуры их обработки имеют свою специфику. Зачастую такая ин­формация даже носит конфиденциальный характер.

Моя же задача состоит лишь в том, чтобы показать на примерах основные функции программного модуля авто­матического словаря и других типовых модулей перево­дящего автомата. Но вернемся к описанию функций.

Выходные данные модуля автоматического словаря, т.е. синтаксическое и семантическое представление исходного текста и семантико-синтаксическая информация о пере­водных эквивалентах поступают на вход второго этапа об­работки, т.е. на вход модуля преобразования синтактико-семантического представления входного текста в синтак­тико-семантическое представление выходного. Это преоб­разование в специальной литературе носит заимствован­ное название "трансфер".

В процессе трансфера:

1. Производится анализ синтаксиса и семантики вход­ного текста и уточняется его структура. При этом структу­ра предложения выражается в форматах так называемой машинной грамматики, т.е. в виде формального описания синтаксических (и, как правило, семантических) элементов предложения и отношений между ними.

Сейчас чаще всего используют грамматику зависимо­стей или непосредственно составляющих в форматах "уни-фикационной грамматики {unification grammar)"37.

Так, например, в результате обработки на этапе анализа уточненная синтактико-семантическая структура того же английского предложения может иметь вид:

N(MATER/ABSTR)(SUBJECT)<=(PREDICATE) V(TRANS,SUBJ=Ninanim, mater; OBJ=Ninanim, mater)=> (OBJECT)N(PROQPARAM).

2. Преобразование структуры входного предложения в промежуточную (ядерную) структуру по правилам ма­шинной грамматики. Например, по правилам грамматики непосредственно составляющих такое преобразование бу­дет иметь вид:

NVN=>NV=>V.

3. Синтез синтаксической структуры выходного пред­ложения. Для нашего простого примера она может быть двоякой:

- для предложения с глаголом-сказуемым в действи­тельном залоге:

Nl(nomin) V(active) N2(accus.);

- для предложения с глаголом-сказуемым в страдатель­ном залоге:

N2(nomin) V(passive) Nl (instr.).

После этапа трансфера следует этап лексического синте­за элементов выходного предложения, т.е. выбор эквива­лентов по синтаксическим и семантическим признакам.

За лексическим синтезом следует графемный синтез (преобразование словарных форм переводных эквивален­тов в соответствующие текстовые формы - в нужном па­деже, лице, числе и т.д.). В результате выходное предложе­ние принимает вид:

свинец (лот / грузило / проводник) всасывает (впиты­вает / абсорбирует / амортизирует / поглощает) излуче­ние (радиацию) или

излучение (радиация) впитывается (абсорбируется / амортизируется / поглощается) свинцом (лотом / гру­зилом / проводником).

Так в общих чертах работает переводящий автомат второго уровня, построенный по схеме синтактико-семан-тического трансфера. Такой автомат строится для опреде­ленной пары языков и, как вы сами можете судить, ис­пользует алгоритмические процедуры анализа и синтеза на основе синтаксической и семантической информации.

Как уже говорилось, большинство коммерческих пере­водящих систем работает на этом принципе. В некоторых из них синтактико-семантическая информация более пол­ная и алгоритмы анализа более тонкие, чем в других. Такие "электронные переводчики" переводят чуть лучше, чем их более примитивно устроенные "братья по классу", но в лю­бом случае без привлечения фоновой информации они не в состоянии конкурировать с человеком.

Кроме схемы трансфера в переводящих системах второ­го уровня применяется также так называемый язык-посредник. Язык-посредник (interlingua, pivot language) -это некий универсальный код, с помощью которого мож­но единым образом выразить грамматическую и семанти­ческую информацию, содержащуюся в тексте на любом языке.

Задача переводящего автомата, применяющего язык-посредник, будет состоять в том, чтобы преобразовать текст на одном языке в форму языка-посредника, а затем, используя средства другого языка, генерировать выходной текст из форматов языка-посредника.

Привлекательность этой идеи достаточно очевидна, но ее практическое воплощение оказалось очень непростым. И хотя некоторые зарубежные системы в своих рекламных буклетах пишут об использовании единого языка-посредника для автоматического перевода с разных язы­ков, это, насколько мне известно, скорее рекламный при­ем, чем действительное положение вещей.

Описать в едином формате даже структурно подобные языки достаточно сложная задача сама по себе, не говоря уже о ее алгоритмической реализации. Поэтому в настоя­щее время, несмотря на обширный теоретический матери­ал, едва ли можно говорить о коммерческих системах ма­шинного перевода, работающих на принципе языка-посредника.

Такова ситуация с практической реализацией систем второго уровня.

Что же касается систем третьего уровня, то, как уже го­ворилось выше, экспериментальные системы такого типы разработаны лишь для некоторых очень ограниченных тематических сфер.

В этих системах окончательное решение о выборе пере­водного эквивалента принимается "блоком принятия ре­шений" на основе так называемой базы знаний - формаль­ного описания фрагмента реального мира (его составляю­щих и отношений между ними). Сложность концептуаль­ной и программной реализации таких систем, я думаю, очевидна.

Особое место в теории и практике машинного перевода занимают системы, основанные на статистических моделях переводных соответствий.

Согласно статистическому подходу к конструированию систем автоматического перевода, любое слово одного языка может быть переведено любым словом другого, только с разной вероятностью.

Задача переводящего автомата, работающего на веро­ятностном принципе достаточно проста.

На первом этапе, называемом этапом обучения, этот

автомат должен сравнивать оригинальные тексты и вы­полненные человеком переводы этих текстов и регистри­ровать величины вероятности разных переводных эквива­лентов.

Параллельно на этапе обучения автомата в зависимости от используемой модели регистрируется либо порядок слов в исходном и переводном предложении, либо вероят­ность перевода двух-, трехсловных словосочетаний.

В итоге на основании анализа параллельных двуязыч­ных текстов автомат после этапа обучения составляет сло­варь наиболее вероятных эквивалентов.

После этого следует этап перевода, когда автомат, поль­зуясь составленным таким образом вероятностным слова­рем, переводит новый текст. В случае неполноты словаря обучение автомата продолжают на новом массиве парал­лельных текстов.

Такова общая идея. Конечно, она представлена упро­щенно - в действительности вычисление вероятности пе­реводных эквивалентов производится по сложным много­параметрическим формулам, учитывающим текстовое ок­ружение исходного и переводного слова.

Идея статистического машинного перевода появилась еще в пятидесятые годы, но сейчас она снова становится популярной. Возрождение идеи статистического машин­ного перевода можно объяснить следующим:

• Огромными технологическими возможностями со­временных компьютеров (память, быстродействие).

• Наличием больших объемов двуязычных параллель­ных текстов на машинных носителях.

• Отсутствием стройной и непротиворечивой теории перевода, которая смогла бы выдержать проверку на компьютерной модели.

Статистические модели перевода активно разрабатыва­ются в США и в некоторых других странах, и, на мой взгляд, у них большое будущее.

Учитывая огромное число факторов, определяющих качество перевода (значительная часть которых либо не

1 ... 23 24 25 26 27 28 29 30 31 32
На этом сайте Вы можете читать книги онлайн бесплатно русская версия Профессия: переводчик - Геннадий Мирам.

Оставить комментарий