8. SomersH. Machine Translation: Latest Development // Mitkov R. (ed.). The Oxford Handbook of Computational Linguistics. Oxford University Press, 2004.
Рекомендуемое домашнее заданиеВоспользоваться одной из переводческих программ. Проинтерпретировать результаты.
Девятый урок
Тема: Программы обработки звучащей речи
Цель в предметной области: систематизация представлений о фонетике русского языка.
Цель в формировании информационно-коммуникационной компетенции: формирование некоторых навыков работы со звуковыми файлами.
Задачи:
1. Систематизировать знания основных характеристик звуков речи.
2. Выяснить принципы работы программ обработки звучащей речи.
3. Попытаться интерпретировать «видимую речь» (осциллограммы и спектрограммы).
Формы: семинар.
Приемы реализации задач:
1. Индивидуальные задания ученикам по подготовке презентаций программ и интернет-ресурсов.
2. Прослушивание текста и просмотр его записи в одной из программ.
3. Подготовка и обсуждение мультимедийных презентаций.
4. Просмотр и прослушивание звуковых файлов, доступных в Интернете.
Материалы к уроку
Компьютерные технологии обработки и хранения звукового сигнала.
Основными проблемами в области речевых компьютерных технологий являются проблемы распознавания и синтеза речи, которые напрямую связаны с решением проблемы речевого общения человека с машиной.
В области автоматического распознавания речи в последние два десятилетия достигнуты определенные успехи. Существующие программы по распознаванию речи можно разделить на три большие группы: средства речевого управления; средства диктовки; средства идентификации по образцу речи.
Основная идея средств речевого управления заключается в том, что человек обращается к компьютеру с некоторыми словами, тот его понимает и выполняет требуемые действия. Наибольшей популярностью приложения этой группы пользуются у различных телефонных служб. Например, довольно сложная система используется компанией Charles Schwab & Co (США), специализирующейся на предоставлении брокерских услуг участникам фондового рынка. Система Charles Schwab ежедневно обрабатывает по 50 000 звонков – полностью автоматически. Она предназначена для ответа на вопросы о цене популярных на рынке акций. Учителя и ученики в России могли сталкиваться с работой подобной системы при выяснении оценок за ЕГЭ по телефону.
Программы для диктовки текста применяются на практике вот уже несколько лет. Они используются как в сложных печатных машинках, так и на компьютерах. Например, программа компании Dragon Systems, которая называется DragonDictate, позволяет непосредственно надиктовывать текст в программы Word, WordPerfect, Netscape Navigator, Internet Explorer и многие другие популярные приложения. Пользователь может управлять компьютером голосом, в частности – позиционировать курсор мыши с абсолютной точностью. Предусмотрена последовательная система меню и команд для единообразного управления любыми приложениями, что существенно упрощает работу. Русская версия этой системы автоматического распознавания речи называется «Горыныч». По сути, модуль «Горыныч» – это русификация системы Dragon с добавлением русских словарей и русских команд. Данная система позволяет вводить в компьютер тексты с помощью голоса на русском и английском языках; управлять с помощью голоса периферийным офисным оборудованием; отдавать компьютеру голосовые команды, перемещать курсор, открывать меню и выполнять множество других операций; голосом управлять различными функциями текстовых редакторов и прикладных программ; использовать программы «голосовая мышь» и «голосовой калькулятор». Скорость голосового набора текстов может достигать 500–700 печатных знаков в минуту, что сравнимо со скоростью двух-трех одновременно работающих машинисток.
Цель идентификации по образцу речи – убедиться, что говорящий является именно тем, за кого себя выдает, либо идентифицировать незнакомого человека. Идентификация по образцу речи тесно связана с биометрическими технологиями, предназначенными для идентификации людей по их уникальным физическим признакам, таким как отпечатки пальцев или рисунок радужной оболочки глаза. Эти технологии используются в криминалистике и в системах безопасности.
Технология синтеза речи обеспечивает преобразование любого хранимого в компьютерном формате текста в синтетическую речь, звучащую приблизительно как человеческая. Речевой вывод используется на компьютерах уже в течение некоторого времени. Однако «репертуар» первых систем был сильно ограничен. Сегодня имеется широкий выбор синтезаторов речи, большинство из которых укомплектовано собственным текстовым процессором. В основном синтезаторы говорят на американском английском, но некоторые на других языках, в том числе и русском. Иногда можно выбирать и голос: нормальный мужской, нормальный женский, басовитый мужской, хриплый женский и т. д.
И при распознавании, и при синтезе речи основная опора при анализе идет на акустическую картину звука. В связи с этим современному учителю русского языка необходимы представления об акустической структуре звука и о возможностях работы со звуковыми базами данных.
Современные компьютерные программы, позволяющие производить акустический анализ звучащей речи, многочисленны. Каждая из них имеет свои особенности и предназначена для определенного типа задач. Рассмотрим одну из самых простых.
Программа Goldwave – это звуковой редактор, который позволяет проигрывать, записывать и преобразовывать звуки. С помощью этой программы можно создавать звуковые файлы для web-сайтов, автоответчиков, системные звуки Windows. Программа позволяет вырезать часть звукового файла, измерять спектральные и временные характеристики звука, менять параметры частоты и амплитуды, накладывать на запись звуковые эффекты и т. д., при этом вы можете работать одновременно с несколькими звуковыми файлами. Goldwave написана под Windows, и владение другими приложениями Windows существенно облегчит использование программы. Goldwave поддерживает целый ряд надежных звуковых форматов (.wav, voc, mp3, au, aif, iff, snd, smp, vox и др.). Программа снабжена удобной справкой (правда, на английском языке). Интерфейс также англоязычный. На сайте разработчика Goldwave www.goldwave.com можно найти демонстрационную версию программы.
Пример использования программы Goldwave для анализа звукового фрагментаКак уже говорилось выше, интерфейс программы англоязычный. Ниже дан перевод команд основного меню в той последовательности, как они представлены в программе (количество и состав команд могут отличаться в разных версиях программы. Первая строка: File (файл), Edit (правка), Effects (эффекты), View (вид), Tools (инструменты), Options (сервис), Window (оюго), Help (справка). Если вы хотите получить информацию о возможностях программы или о ее использовании, нажмите Help (меню справки частично русифицировано).
Рис. 11. Основное меню программы Goldwave
• Вторая строка: New (новый), Open (открыть), Save (сохранить), Undo (отменить), Copy (копировать), Past
(вставить), P.New (вставить новое), Mix (совместить), Repl (заменить), Del (удалить), Trim (обрезать), Sel Vw (выделить), Sel All (выделить все), Set (установить), All (показать общий вид), Sel (показать выделенное), Prev (предыдущий масштаб), In (увеличить), Out (уменьшить), 1:1 (в масштабе 1:1), Cues (ключевые точки), Eval (параметры сигнала), CDX (компакт-диск), Chain (цепь эффектов), Help (справка). Последняя клавиша дублирует клавишу Help первой строки.
• Третья строка содержит ряд символов, обозначающих эффекты: допплер, динамики, эхо, сжатие/растяжение, преобразовать, интерполяция, инвертировать, модуляция, офсет, частота, реверберация, реверс, эквалайзер, фильтры, частотные фильтры, параметрический эквалайзер, уменьшение шума, поп/клик, удаление тишины, сглаживание, громкость, постепенное увеличение громкости, постепенное уменьшение громкости, совместить, максимальная громкость, форма, баланс, скорость воспроизведения (без пересчета частот), скорость воспроизведения (с пересчетом частот), микшер каналов, максимальное соответствие, понижение громкости голоса, время звучания.
• Четвертая строка объединяет клавиши управления звуком (кнопки магнитофона): играть зеленую, играть желтую, стоп, назад, вперед, пауза, запись, остановить запись, установки.
Все команды снабжены выходом в справку непосредственно из команды.
Для примера был выбран коротенький фрагмент из звуковой хрестоматии «Городские социолекты: Пермская городская речь» (Ерофеева Т.И. и др. 2000) – слово «мясо» в произнесении информанта № 23 (мужчина, место рождения – Пермская область, образование среднее, 52 года) из фразы Беру мясо, нарезаю его кусочками.
В окне представлена осциллограмма данного слова. Для того чтобы получить в окне осциллограмму звукового файла, щелкните левой клавишей мыши по кнопке Open (открыть) и выберите нужный вам звуковой файл (в данном случае файл mjaso. wav).