Валерий Лесов

Прелести машинного перевода

Конечно, для ленивых это удобно. Но не только для них.

Вот что пишет опытный переводчик:

«Превратит ли машинный перевод переводчиков в редакторов? Этот вопрос обсуждается не первое десятилетие. На середину 90-х доля машинных переводов составляла всего 1,3% от общего количества переводов в мире – в 1996 году на 450 миллионов страниц, переведенных "живыми" переводчиками пришлось 6 миллионов страниц, переведенных машиной… переводчик, в среднем, способен качественно перевести в день 4-6 страниц.»

Давайте прикинем затраты времени и финансов на переводы текстов. Даже если переводчик делает по 8 страниц в день с помощью вспомогательных средств – электронных словарей, тематических словарных баз, программ помощи переводчику, то за месяц (такой работы на износ) он отработает порядка 200 страниц. Пять переводчиков сделают около 1000. Хороший проект, например от автомобильной или судостроительной компании содержит десятки тысяч страниц. То есть, за три месяца команда из 20 переводчиков выполнит задание. При этом все переводчики должны иметь опыт перевода с заданного языка на свой родной по заданной тематике.

Однако обычно переводческая компания набирает команду под проект, оплачивает ее услуги, а потом распускает. «Сводят» фрагменты перевода редакторы, причем они должны не только владеть языками, но и обладать знаниями в заданной области техники. Квалифицированный технический перевод, как правило, выполняют сотрудники с техническим образованием и знанием языков. Где же взять столько профессионалов?

Вот в чем вопрос. Не хватает квалифицированных специалистов для перевода больших массивов данных.  И сами массивы растут с каждым годом, дай бог узнать, по какой формуле. Поэтому машинный перевод -- Machine Translation -- насущная необходимость.

За страницу переводчику в России платят по-разному, но $4 вполне для прикидки. На зарплату по подобному проекту потребуется порядка $40 000. Без учета оплаты редакторов и технических экспертов. Это на один язык. А если, например, перевод технической документации на самолет выполняется на несколько языков, тогда -- в несколько раз больше.

Для снижения затрачиваемых ресурсов – времени и финансов – компании применяют различные средства, например Translation Memory, или программы памяти переводов, такие как Trados или Transit. Переводчики, работающие в локальной сети, обращаются к такой программе за помощью. Если переводимый фрагмент текста совпадает с переведенным ранее, то программа напоминает об этом переводчику, сообщая о проценте совпадения (например 90%). Тогда нажимая на клавишу Enter, можно выполнить перевод такого фрагмента.

Однако это не спасает от «завалов», когда, например, проект надо срочно «перелопатить» на очередной язык. И нейронные сети, суперкомпьютеры тут не помогут. Машинные переводчики популярны у полных чайников. Известная программа ПроМТ при всех ее новейших «наворотах» не справляется с качественным переводом текста. И позабытый уже «старина Сократ», компании «АрсеналЪ» способен транслировать текст с похожим результатом.

Хотите проверить на что способен машинный переводчик? Зайдите на сайт компании ПроМТ. Перевод на английский: «Иванов вчера вернулся домой очень поздно» -- даст забавные результаты, если вам не лень поразвлекаться, изменяя порядок слов. Автор программы «Сократ» Владислав Рожков рассказывал мне, какие трудности возникают при совершенствовании программного кода для живого языка: «Хвост вытащишь, клюв увязнет и наоборот». Конечно, перевод между германскими языками (например английским и немецким) или славянскими будет ввиду родства грамматики лучше, чем между разнородными.

Жизнь заставляет ограничивать задачу перевода. Текст, подлежащий переводу на множество языков, пишут на так называемом Controlled Language (стандартном языке с ограниченным набором грамматических правил и типовым набором слов). Так поступает, например Xerox, при переводе инструкций на десятки языков. Иногда, читая инструкцию на телевизор или фотоаппарат, можно догадаться об этом.

Кроме того существуют интерактивные программы машинного перевода, когда пользователь «помогает» компьютеру за счет настройки исходных установок. Такой является, например, программа Протон-С. Кстати, по словам ее создателя, она очень полезна и для изучения английского языка.

С появлением Интернет и суперкомпьютеров стал популярен статистический подход для автоматического перевода текстов (Statistical Machine Translation). Один из вариантов софта на его основе предлагает профессор Kevin Knight из университета штата Южная Калифорния. Обычная программа транслирует слова и предложения с исходного языка на выходной по заданным правилам. При новом статистическом подходе суперкомпьютер сравнивает миллионы документов и их «ручных» переводов и на этой основе создает статистические -- приблизительные -- правила для массива текстов. Автор утверждает, что такой подход оказывается более продуктивным особенно при переводе технических или других специальных текстов. Уже продаются версии для перевода с английского на арабский и китайские языки.

Не дремлет и поисковик Google, который также использует для своих автоматических переводчиков этот подход. Сам бог велел: ведь вся Сеть под контролем. Пока там в списке языков для перевода текстов нет русского. Я еще не успел поиграть с Google -- проверить, как работает пара English-German. Расскажу об этом позже.

Тот, кто успешно решит задачу автоматического перевода, будет вполне достоин войти в историю. Точное, как говорят математики, решение этой задачи оказалось нелегким делом. Что даст приближенное, мы скоро узнаем.

09.2006