Зарегистрироваться
Восстановить пароль
FAQ по входу

Сравнение статистических и трансфертных СМП

Статья является частью работы: Реферат - Системы машинного перевода.
На данный момент трансфертный и статистический машинный перевод являются лидерами среди методов машинного перевода. Следуя за сотрудниками журнала Компьютер Пресс, Николем Прохоровым, Давидом Харатишвили, сравнивать оба метода на примере известных СМП. Данные за 2007 год взяты из их исследований. Для эксперимента использовали два английских текста.
первый — фрагмент из новости, посвященной судебному процессу;

Attorney’s Fees A clause for attorney’s fees is normally included in the note in the event the borrower defaults in repayment of the loan. This means that if the lender has to sue to collect on the note, the court will give the party which wins the lawsuit reasonable attorney’s fees.

второй — отрывок из официального разъяснения о правилах получения кредита.

If you are requesting a credit report because you have been denied services or credit within the last thirty days due to an unfavorable credit report, you are entitled to receive a copy of the report at no charge.
Promot и Google
Результат PROMT 8.0: точно передан смысл текста, все предложения имеют четкую структуру и легко читаются. Однако, было замечено несколько неудачных формулировок:
• «за судебные издержки»;
• «чтобы собраться на примечании».
Современная веб-версия PROMT, тоже неплохо справилась с задачей, если не считать странную фразу «адвокатские гонорары». Перевод Google (2007.12) содержит довольно много языковых конструкций, смысл которых совершенно непонятен:
• «положение на адвоката гонорар»;
• «суд даст стороной».
Ретроспектива
На примере проведенного эксперимента, интересно пронаблюдать развитие обеих СМП. Как ни странно, за 3 года PROMPT практически не изменился. Google значительно изменился в лучшую сторону. Последнее наводит на мысль, что потенциал трансфертных систем перевода рано или поздно будет исчерпан, в то время как качество перевода статистических систем перевода будет улучшаться со временем. Нельзя сказать, что это абсолютно верное заключение. Для строгих прогнозов нужно проводить ряд экспериментов, причем в течение длительного периода.
Обратный перевод
Проведем эксперимент с теми же самыми СМП, что и ранее. Будем проводить тестирование на текстах различной тематики:
• техника,
• финансы,
• юриспруденция.
Promot и Google
В данном случае, было бы интересно выполнить обратный перевод текстов. Каждой СМП дать перевести результат ее собственного перевода. В идеале мы должны получить исходный текст. В реальности, это совсем не так. Так как при переводе на русский язык были потери, то при таком двойном переводе потери будут более значительными. Важно отметить, что ситуация аналогично, если текст переводит человек, а не машина.
Promot и Google
Даже беглый просмотр результатов второй таблицы позволяет сказать, что Google лучше справился с этой задачей. Это во многом объясняется принципами его работы. Используемые английские фразы оказались просто наиболее вероятным переводом русского текста.
Текст созданный PROMPT достаточно далек от оригинала, и не вполне верен с точки зрения грамматики, но основной смысл отрывков был передан верно.
Если вспомнить модель Шеннона, то шум создаваемый трансфертными СМП, всего скорее является постоянным. Простыми словами, если много раз применять обратный перевод к одному и тому же отрывку, то качество отрывка каждый раз будет ухудшаться плавно. При этом так же плавно будет искажаться смысл текста.
модель Шеннона
Для статистических СМП искажения текста будут меньшими и с каждым обратным переводом они будут уменьшаться пока на фразы на русском и на английском не станут более вероятными с точки зрения системы, при этом смысл может значительно исказиться. Последнее наводит на мысль, что если статистическая система перевода будет обучена на очень большом количестве текстов, и будет выдавать перевод максимально близкий к переводу человека, то с помощью нее можно будет исправлять стилистические ошибки автора текста. Но до это пока очень далеко.
Promot и Google
После сравнения двух совсем разных типов СМП можно придти к следующим выводам.
1. Для практических задач удобнее использовать трансфертные системы. Они наиболее проработаны и переводы, созданные ими, потребуют меньшей правки.
2. Потенциал статистических систем значительно больше, и со временем они будут улучшаться, качество перевода зависит от времени обучения и размера базы.

Комментарии

Русский вариант:
Может, они и сделают какие-то замечания. Последние выборы в США тоже получили нарекания наблюдателей от ОБСЕ. Определенные нарушения всегда бывают, но грубых у нас нет
Google:
Maybe they will make some remarks. Recent elections in the United States also received complaints of observers from the OSCE. Certain violations are always, but we do not have gross
translate.ru
Perhaps they also will make any remarks. Last elections in the USA too have received censures of observers from OSCE. Certain infringements always happen, but rough at us aren't present
На самом деле, не плохо бы как-то заполучить еще одну статистическую СМП, результат которой бы сильно отличался от результата Google и далее сравнивать.
В этом разделе нет комментариев.