Контролируемый язык и машинный перевод на основе базы знаний: принципы и практика

Эрик Нюберг, Теруко Митамура
Центр машинного перевода
Университет Карнеги Меллон, Питтсбург, США
(Статья была представлена на Первом международном конгрессе по контролируемому языку, 1996)

Краткая формулировка

Для приложений, характеризующихся определенными параметрами (вполне определенная техническая тематика, технический словарь, несложная грамматика), использование контролируемого языка может повышать точность машинного перевода, основанного на базе знаний. При постоянном развитии системы КАНТ мы исследовали различные сублингвистические способы, которые ограничивают сложность анализа естественного языка, что вызывает повышение точности трансляции. В данной статье мы описываем некоторые общие способы, которые были разработаны для сублингвистического использования совместно с системой КАНТ.

1. Представление

В последнее время наблюдается повышенное внимание к использованию контролируемого языка-источника при машинном переводе. В данной статье мы концентрируем внимание на использовании контролируемого языка-источника в системе КАНТ-МТ. Контролируемый English используется для повышения ясности выражений исходного текста и повышения качества трансляции.

КАНТ является системой машинного перевода на основе базы знаний. КАНТ использует определенную исходную лексику, грамматику а также семантику конкретной области для создания интерлингвистической модели - interlingva representation (IR) каждого предложения. Каждая интерлингвистическая модель (IR) является семантическим фреймом, содержащим признаки и семантические роли, которые могут заполняться другими (IR). Если исходное предложение имеет более, чем один вариант анализа, КАНТ производит более, чем одну (IR) модель. Входом для модуля генерации выходного языка является набор (IR), произведенный для входного предложения. Разъединение фазы анализа и генерации представляет определенные преимущества, особенно для мульти-лингвистических систем трансляции. В данной статье мы поясняем, каким образом анализ входного языка может давать результаты в неопределенных (дизъюнктивных) IR конструкциях , которые в свою очередь обуславливают проблемы точности конструкций выходного языка.

1.1 Унифицированная грамматика и Tomita-parser

Анализатор КАНТа основан на парсере Tomita LR Parser/Compiler, который компилирует псевдо-унифицируемую грамматику в парсинг-таблицы (run-time LR parsing tables ). Исполнительный парсер (run-time parser) не является детерминистским: он использует оптимально сформированный "лес репрезентаций" для параллельной реализации мульти-парсинговых "деревьев-разветвлений".
В обычном случае лексическая структура также может быть недетерминистской. Если исходный элемент соответствует более чем одному лексическому вводу, LR парсер будет параллельно создавать дизъюнктивное (OR) представление для обоих прочтений . Например термин типа rip может иметь оба основных значения (1-разрез и 2-специальное техническое значение). Один и тот же термин может также быть представлен различными частями речи. В случае с rip можно использовать термин для отображения физического состояния (прочтение как существительного), а также как для отображения действия (прочтение как глагола). Если такие особенности для обоих вышеуказанных значений возможны, то парсер построит OR с 4 дизъюнкциями для термина:

(Формулы приведены на стр 3 оригинала.)
(* denote semantic concepts
*U object concept
* A action concept)

1.2 Неопределенности

Рассмотрим пример из компьютерной тематики.
Push the button on the lower left of the screen. Неясно расположение кнопки.
Речь может идти о трехмерном экране (тело монитора) или двухмерном экране (дисплей).
См формулы на стр. 3 оригинала.
Как система трансляции разрешает эти неопределенности?

1.3 Источники неточности анализа

Типы неопределенностей
- Синтаксические (множественность вариантов синтаксического анализа)
- Лексические (множественность частей речи, множественность значений)
- Ссылочные(WH формы, WH перемещения, местоимения, и т.д.)

2. Использование контролируемого языка

Использование контр. языка в КАНТе соответствует 2-м категориям:
лексическому и грамматическому контролю. Мы также коснемся контроля ссылочных неопределенностей.

2.1 Лексический контроль

Каждая ограниченная предметная область (домен) будет содержать набор элементов, имеющих неопределенности. Следует уточнить относительную частоту их употребления и количество значений, передаваемых ими. При наличии множества элементов с высокой степенью неопределенности создание базы знаний, достаточной для производства семантически пригодных интерпретаций может стать дорогостоящим занятием. Наш опыт показывает, что единственным наиболее пригодным способом для повышения точности МТ, основанного на базе знаний, является ограничение лексической неопределенности.

Типы контроля лексической неопределенности в системе КАНТ:

- Часть речи
Там где это возможно, следует ограничивать наличие различных частей речи для каждого элемента до необходимого минимума, при котором осуществляется адекватное описание предметной области (домене). Можно также рассмотреть предложения об исключении целых лексических категорий. Например, наш опыт показывает, что техническая документация (описания, инструкции) в общем случае не требует использования WH слов или конструкций с местоимениями.

- Другие ограничения лексики
Кроме принадлежности к части речи, лексические элементы могут нести на себе различные комплексы лексических свойств, которые характеризуют их грамматическое поведение. Это используется при контроле вариаций одиночных терминов. Например, валентность глаголов может быть ограничена до точной субкатегоризации, которая проявляется в домене. Другим примером является ограничение дополнительных предложений. Важно ограничить типы дополнительных предложений до создания частичных подклассов глаголов (например глаголов причинности). Допустимые аргументы глаголов представляются в лексиконе явным образом.

- Ограничение значений слова в домене.
Следует контролировать количество значений, допустимых для каждого термина. В специализированной технической предметной области иногда возможно ограничить значение термина до единственного, с исключением даже общих значений (например, термин flaps может быть ограничен единственным техническим значением в авиац.  инструкциях).

- Ограничения семантических моделей домена
Синтаксические неопределенности могут ограничиваться посредством ограничений семантических ролей в интерлингвистических моделях (IR).

- Аннотация ввода
Следует учитывать различные характерные метки в тексте (сокращения, цифровые обозначения и т.п.)

-Техническая терминология
По возможности, при разборе длинных наборов технических терминов система должна предпочтительно анализировать их в виде отдельных элементов со своими значениями, а не в виде производных композиционных структур. Кроме того, следует учитывать, что часто значения составных фраз сложно произвести из значений отдельных элементов. Например фразу oil pan следует рассматривать как отдельный концепт, особенно, если при анализе этой же фразы как композиции, для pan может "вылезти" значение : кастрюля. Фразы на основе глаголов такие как, abide by также легче анализировать в виде цельных концептов. Подобный подход обуславливает следующие сложности. В  конкретной предметной области количество фраз, которые в лексиконе могут быть представлены отдельно, значительно увеличивается. Поэтому для больших приложений следует предусматривать автоматические и полуавтоматические способы для анализа и создания лексикона.

- Техническая символика
В технических доменах следует стандартизировать символы и обозначения.

- Орфография
Следует стандартизировать орфографию, разделители (знаки препинания) и т.п.

2.2 Грамматический контроль

Следует контролировать типы синтаксических конструкций, которые допускаются во входном тексте.
- Ограничение присоединения неопределенностей
Техническая документация изобилует длинными предложениями со множественными препозиционными фразами (РР) (фразами на основе предлогов). Они являются одними из наиболее неопределенных при разборе текста, так как за счет них изменяются значения других слов предложения.

Torque the bolt with the wrench (main verb)
Select the model with turbocharger (object NP)
The indicator is red in color (adjective)

В системе КАНТ (РР)-присоединения должны быть лицензированы посредством комбинирования правил, которые соединяют грамматические функции (например, подлежащее, дополнение, предлог) с семантическими ролями (например, AGENT, PATIENT, INSTRUMENT) и фреймами моделей предметной области, которые специфицируют подходящие наполнители для данной семантической роли.

- Координатные ограничения
Другим источником сложности грамматики является использование координации (соединений типа and и or). Границы координации и ее взаимодействие с другими присоединениями (особенно с РР присоединениями) сложно определить:

Check [[the amount of dirt and [debris in the coolant.
Check [[the amount of [dirt and debris in the coolant.
Check [[the amount of [dirt and [debris in the coolant.
Check [the amount of [dirt and debris in the coolant.

Одним из существенных способов ограничения координации является недопущение распределенных прочтений на участке координации, например (engine oil) and (coolant)
*engine (oil and coolant)

(push) and (pull the rod)
*push and pull (the rod)

В аналитической грамматике КАНТа мы старались ограничить координацию случаями коньюнкции и дизъюнкции только полных составляющих.
Использование распределенных прочтений, подобных вышеуказанным, не допускается.

- Ограничение времени/пространства для сложных предложений.
Другой способ контроля сложности входного текста реализуется через простые ограничения ресурсов. Например, возможно установить некоторый предварительный ресурс времени, который имеется в наличии для анализа каждого предложения: если этот предел достигается прежде, чем завершается обработка (processing), то система может выдать сигнал о том, что предложение является слишком сложным и должно быть переписано. Также возможно ограничение дискового пространства (памяти) используемого для анализа, или ограничение общего размера памяти, требуемого для представления.

2.3 Ссылочные неопределенности

Другой источник потенциальной неопределенности и сложности разбора проявляется при анализе ссылочных выражений таких как WH-слов, местоимений и относительных предложений; все они могут быть отнесены к long-distance dependencies.
Так как КАНТ преимущественно применяется в технических описаниях и инструкциях, то при этом нет необходимости в использовании таких конструкций.

3. Когда и как применяются различные способы

- Лексический контроль в ограниченном домене
Исключение отдельных лексических категорий дает результаты только на текстах определенного стиля. Как только предметная область становится более общей, эффект от лексического контроля снижается.

- Возможность представления семантической модели
Для кодирования множества семантических ограничений требуется оптимальное сочетание:
Автоматизированного сбора данных из области
Ручного кодирования
Обобщений посредством семантической иерархии, правил обобщения

- Грамматический контроль
Грамматические ограничения осуществимы только для определенных стилей текста (например, для описаний и инструкций к оборудованию). Наиболее подходят для грамматического контроля те области, где трансляция является частью процесса создания интернациональной документации. Грамматический контроль менее осуществим, если трансляция является частью процесса ассимиляции информации, произведенной во множестве наружных источников.

- Порог сложности
При измерении сложности требуется точность. Ограничение ресурса должно применяться только для слишком сложных для анализа и точно переводимых предложений, а не для часто встречающихся в домене конструкций.

ЗАКЛЮЧЕНИЕ
Результаты тестов системы КАНТ показывают, что фактор ограничения лексикона наиболее значительно влияет на снижение number of parses per sentence (количество вариантов разбора одного предложения). Ограничение главных источников синтаксической неопределенности (РР присоединения, координация) также важно. Относительно других способов следует сказать, что значимость их применения возрастает при превалировании в предметной области определенных конструкций или феноменов.
(Перевод В.Р.Лесова, 05.97. Отредактировано, 12.2011)