Яким бачиться найближче майбутнє машинного перекладу з точки зору науки?

  1. ПЕРЕКЛАД В ДВАДЦЯТЬ ПЕРШОМУ СТОЛІТТІ Цілком можливо, що перше десятиліття XXI століття виявиться...
  2. Мовна прозорість і зростання обсягів динамічного контенту
  3. Спільне використання даних і ресурсів
  4. Вплив автоматизації перекладу на перекладацьке співтовариство
  5. Дослідження і розробки, які змінюють систему понять
  6. співавтори

ПЕРЕКЛАД В ДВАДЦЯТЬ ПЕРШОМУ СТОЛІТТІ

Цілком можливо, що перше десятиліття XXI століття виявиться найпродуктивнішим для досліджень в області машинного перекладу з Цілком можливо, що перше десятиліття XXI століття виявиться найпродуктивнішим для досліджень в області машинного перекладу з

початку 50 - 60-х років минулого століття. З чуток, тільки в США дослідження в області автоматизованого перекладу було вкладено близько 20 мільйонів доларів (це більше 120 мільйонів в сьогоднішньому еквіваленті). У 1966 році уряд перестав фінансувати ці дослідження після сумнозвісного звіту Консультативного комітету з автоматизованої обробки природної мови (ALPAC) .

Наша галузь потребує об'єктивних, вільних від упереджень розробках. Сама по собі вона не в змозі фінансувати фундаментальні дослідження і широкі випробування, необхідні для вдосконалення існуючих систем і впровадження нових моделей. Хоча, по суті, від цього залежить, чи зможемо ми зробити прорив до нового покоління комерційних рішень, який зазвичай відбувається через роки після того, як винахідники звертаються до нових завдань після перших відкриттів.

Що стосується державного фінансування, існують постійно діючі програми фінансування статистичного МП під егідою Управління перспективних досліджень Міністерства оборони в США. Яскравим прикладом є також програма Seventh Framework Technology в Європі, найбільшим проектом якої є EuroMatrixPlus на основі відкритого вихідного коду. Безліч наукових досліджень в області МП також ведеться в університетах і дослідницьких інститутах Європи, Азії (зокрема, в Китаї та Індії) і Південної Африки. Крім того, найбільші IТ-корпорації, такі як IBM і Microsoft, продовжують фінансувати проекти в області обробки природної мови в цілому і технологій перекладу зокрема.

Дослідження і розробки поза університетами

У той же час багато орієнтовані на ринок дослідження відходять від форм, традиційних для навчальних закладів і великих IТ-лабораторій, в напрямку швидко реалізованих промислових інновацій. Про це свідчать і досвід гігантської роботи Google в області статистичного перекладу. Дешеві ресурси і доступ до безкоштовних інструментів призводять до появи постачальників послуг в області автоматизації перекладу (іноді виникають на базі науково-дослідних підрозділів), які ведуть дослідження і розробки для клієнтів, які шукають більш швидкі технологічні рішення для практичних перекладацьких завдань.

Moses (пакет інструментів з відкритим вихідним кодом для статистичного машинного перекладу), який зараз широко випробовується в галузі, є, мабуть, найбільш значним результатом таких узгоджених зусиль і символом впливу моделі визначаються даними процесів як в науковій, так і в діловому середовищі. Дійсно, список наукових публікацій тільки англійською мовою по статистичному МП і суміжних тем швидко збільшується. Ці публікації відображають нову хвилю спеціалізації і кооперації, а також одобряемое прагнення до обміну результатами.

Деякі дослідні програми концентруються на створенні в короткостроковій перспективі досвідчених моделей для некомерційних цілей в сфері військової розвідки (в США) або доступу громадян до інформації (в Європейському союзі). Незважаючи на те що результати діючих проектів в області статистичного МП майже напевно зведуться до того, щоб більш помітно поліпшити процеси МП, до сих пір немає чіткої моделі, яка визначала б ефективний і перевірений спосіб реалізації всіх цих переваг на ринку.

Одним з ключових напрямків в нових дослідженнях є спроба визначити, як знання синтаксису і семантики, закладені в машину, можуть збагатити і зміцнити мовні моделі, що лежать в основі методів, які визначаються даними. Ймовірно, багато дослідників повернуться до розгляду оптимальної архітектури семантичного анотування для підтримки процесів перекладу, заснованих на знаннях.

В цілому наявність такого безлічі центрів уваги з боку дослідників служить хорошим відображенням перспектив перекладацької галузі, незважаючи на неминучі тупики та помилкові надії. Чим більше людей будуть брати участь в побудові гіпотез, тестуванні і виборі вірного рішення шляхом оцінки альтернативних моделей для всіх аспектів перекладу, тим імовірніше буде витяг користі з найбільш життєздатного кінцевого продукту. У той же час фінансування досліджень обмежена. Тому необхідні практичні порівняльні випробування для створення конкурентного середовища, в якій результати досліджень в області МП оцінювалися б на стадії підготовки до випуску.

Щоб отримати уявлення про те, як самі дослідники бачать майбутнє автоматизованого перекладу, ми поцікавилися прогнозами на найближчі десять років від м ряду вчених. Ось п'ять областей, в яких ми можемо очікувати розвитку подій.

Мовна прозорість і зростання обсягів динамічного контенту

Одним з ключових змін в стратегічної ролі практичного перекладу стане поява мовної прозорості. Іншими словами, все лінгвістичне вміст буде за своєю природою готове до перекладу. Користувачі зможуть отримувати доступ до інформації на своїй рідній мові незалежно від її джерела, і будь-яка платформа доступу, будь то браузер або будь-яке інше додаток, буде включати автоматизований переклад за замовчуванням. Процес перекладу такого контенту буде відбуватися непомітно, як операція перемикання в інфраструктурі.

У свою чергу, це означає, що автоматичний переклад в значній мірі буде охоплювати процеси обміну контентом, такі як чати, передача динамічного контенту в мобільних мережах і потоки даних в соціальних мережах. Такі перекази практично безкоштовними і невисокої якості і, отже, будуть перебувати переважно поза сферою професійних перекладацьких послуг.

Тим часом матеріали з високими вимогами до якості перекладу (урядові матеріали, юридична документація, документація по продуктам, стратегічно важлива інформація, брендований контент), які вважаються переважаючими, будуть переводитися в цілому таким же чином, що і сьогодні, з використанням наступного поєднання: ручний переклад, машинний переклад з постредагуванні і технології пам'яті перекладу з розширеними можливостями (Advanced Leveraging).

Поява мовної прозорості текстового вмісту буде обумовлено не конкретними відкриттями в області мовних технологій, а досягненнями в розвитку інфраструктури, такими як висока пропускна здатність мереж, «хмарні» обчислювальні ресурси, спільне використання даних і інтелектуальний аналіз даних.

Спільне використання даних і ресурсів

Незважаючи на те що TAUS Data Association (TDA) та інші репозиторії, такі як MyMemory і Google Translate, акумулюють величезний обсяг паралельних мовних даних, в найближчому майбутньому потрібно буде вирішити ключове завдання: забезпечити доступними даними вчених і користувачів - тих, кому вони потрібні для поліпшення мовних моделей.

Ще однією кращою і новою сферою діяльності, ймовірно, стануть поки обійдені увагою двомовні записані матеріали (наприклад, записи синхронного і послідовного усного перекладу з нарад і конференцій), які допоможуть в розробці технологій перекладу усної мови в режимі реального часу. Тому в плани як академічних, так і виробничих дослідних груп входитиме створення інфраструктури, що полегшує збір цих матеріалів і надання доступу до них як до надійного дослідному і виробничому ресурсу.

Що стосується виробничих систем, буде можливо більш виборче використання інформаційних ресурсів. Користувачі зможуть знати точно, в яких ситуаціях для виконання того чи іншого завдання автоматизації перекладу потрібен дуже великий обсяг даних, а коли досить використовувати вибірковий набір даних. Іншими словами, технології будуть рухатися в напрямку застосування більш раціональних методів доступу до даних і їх використання.

Вплив автоматизації перекладу на перекладацьке співтовариство

Дослідники дотримуються спільної думки про те, що в майбутньому перекладачі будуть як і раніше грати центральну роль в створенні високоякісних перекладів. Вони також будуть вносити значний вклад у доробку і виправлення результатів МП в якості постредакторов, а також забезпечувати зворотний зв'язок, необхідну для оптимізації систем МП. Поступове накопичення відредагованих текстів дозволить створити значний масив даних для тренування систем МП.

Безсумнівно, з'явиться більше досліджень, метою яких буде пошук способів оптимізації таких симбіотичних відносин в рамках різних робочих процесів за допомогою поліпшених інструментів для постредакторов. Однак малоймовірно, що це буде мати якісь наслідки для галузі в цілому, крім поступового підвищення ефективності роботи. Ми вправі очікувати, що для збереження конкурентоспроможності прогресивні технічні перекладачі візьмуть на озброєння нові інструменти і технології, що з'являються в результаті досліджень.

Дослідження і розробки, які змінюють систему понять

Практика показує, що існує обмежене число дійсно серйозних проблем, які відокремлюють нас від повної автоматизації перекладу, і більшу кількість менш істотних проблем МП, які будуть вирішені протягом наступного десятиліття. Проблеми, які вимагають теоретичного прориву (тобто, за своєю природою не можна розв'язати штучним способом) пов'язані переважно з концептуальними питаннями комп'ютерної лінгвістики, ніж чим з технологічними і конструкторськими труднощами практичного рівня.

Розв'язні проблеми вже включені в плани досліджень і розробок. Одна з них - це оптимізація обробки мов зі складною морфологією або неіндоевропейскім порядком слів. Ці особливості зазвичай знижують продуктивність машинної обробки для деяких мовних пар. Така системна оптимізація майже напевно буде включати додавання анотацій до існуючих паралельним даними, що допоможе машині «вчитися» ефективніше.

Що стосується давньої фантазії про ідеальний штучному перекладача, загальноприйнята гіпотеза полягає в тому, що система, здатна систематично наслідувати перекладачеві-людині (або навіть перевершувати його), повинна буде звертатися до моделі зовнішнього світу (об'єктивним знанням) для виконання ключових критеріїв якості. Однак поки вважається неможливим запрограмувати машину таким чином, щоб вона розуміла семантичну складову тексту.

Безумовно, комп'ютер можна запрограмувати для використання знань про мову, статистичних шаблонів, лінгвістичних правил, лексичних даних або паралельних текстів. Але у комп'ютера немає доступу до бази знань, яка допомогла б йому прийняти правильне рішення про те, яке з можливих значень того чи іншого виразу буде прийнятним в даному контексті.

Хоча деякі вчені будуть продовжувати вивчати різні шляхи підвищення ступеня автоматизації перекладу, більшу частину зусиль в рамках нових досліджень в області МП планується направити на поліпшення практичних результатів автоматизації.

Грунтуючись на тому, що було названо «надмірної ефективністю даних», більшість вчених, що займаються проблемами МП, впевнені, що існує потреба в ще більш абстрактних мовних моделях, які дозволили б впоратися з колосальною складністю лінгвістичних об'єктів і їх залежністю від контексту, а так само використовувати отримані дані для вдосконалення процесу перекладу.

Іншими словами, перекладацькі дані, поступово накопичені протягом останніх тридцяти років, знайдуть застосування і допоможуть вченим запропонувати способи створення більш ефективних систем переказу. І це дуже дієвий приклад культури обміну знаннями.

співавтори

Висловлюємо глибоку вдячність наступним вченим за співпрацю під час написання цієї статті:

Крістіан Буато (Christian Boitet), Університет Жозефа Фур'є, Гренобль
Даніель Хардт (Daniel Hardt), Копенгагенська школа бізнесу і LanguageLens
Ентоні Хартлі (Anthony Hartley), Людський університет
Кевін Найт (Kevin Knight), Інститут інформатики і Університет Південної Кароліни
Алон Лейва (Alon Lavie), Університет Карнегі - Меллона і Safaba Translation Solutions
Жозеф Маріані (Joseph Mariani), Паризький університет
Андрій Попеску-Беліс (Andrei Popesco-Belis), Дослідницький інститут Idiap, Мартіньї (Швейцарія)
Марк Зелігман (Mark Seligman), Spoken Translation Inc.
Халіль Сімаан (Khalil Simaan), Амстердамський університет
Грегор Турмайр (Gregor Thurmair), Linguatec
Енді Вей (Andy Way), Дублінський університет і Applied Language Solutions

Переклад виконаний фахівцями компанії Логрус