Синтаксичний аналіз у системах автоматичного перекладу: концепції та алгоритми, Детальна інформація

Синтаксичний аналіз у системах автоматичного перекладу: концепції та алгоритми
Тип документу: Реферат
Сторінок: 7
Предмет: Комп`ютерні науки
Автор: фелікс
Розмір: 28.5
Скачувань: 1047
В СінП зберігаються такі неоднозначності:

Неоднозначність функціональних зв’язків – наявність зв’язків, що порушують синтаксичну структуру.

Неоднозначність результатів морфологічного аналізу словоформи – морфологічна омонімія. В цьому випадку використовується складний номер вузлу: перше число позначає порядковий номер вузла у фразі, інше – номер омоніма.

Неоднозначність поділу на вузли. Для представлення цієї неоднозначності використовується відношення несумісності.

Компонент СінАн системи ФРАП

Задача компонента СінАн

Задачею компонента СінАн є побудова для фрази СінП в термінах граматики членів речення. Для цього необхідно: 1) сформувати множину вузлів – членів речення; 2) виявити синтаксичну функцію кожного з цих вузлів.

задача. Про деякі слова фрази заздалегідь відомо, що вони не є членами речення. Для французької мови це: допоміжні слова – частини аналітичних форм часу, залогу, ступенів порівняння, заперечувальні частки, компоненти фразеологічних словосполучень, які не можна розкласти, артикль, сполучники, прийменники. Крім того, заздалегідь відомо, що членами речення є прості речення в складі складного. Таким чином перша задача розбивається на дві підзадачі: 1) елімінування із множини вузлів тіх слів фрази, які не є членами речення; 2) виділення простих речень в складному з формуванням штучних вузлів, що заміщають підрядні речення в головному.

задача. Передбачає побудову синтаксичної структури.

Компонент СінАн системи ФРАП організований у вигляді процесу, в якому ці дві задачі виконуються одночасово.

Організація компонента СінАн

Компонент СінАн організований у вигляді блоків, які предназначені для розв’язання двух вище зазначених задач. Перша задача виконується в процесі роботи перших двух блоків СінАн: блок аналізу іменникових вузлів і блок аналізу складних речень. Друга задача починає виконуватися одночасово з першою для відповідних типів вузлів. Крім того, розв’язанням цієї задачі повністю зайнятий третій блок – блок аналізу простих речень. СінП можна вважати повністю закінченим лише після перевірки його узгодженості з сементичним словником і уточнення тих частин синтаксичної структури, для яких необхідні відомості, що витікають з результатів СемАн. Останній, четвертий блок СінАн працює з вузлами, синтаксична функція яких вже встановлена.

Інструменти аналізу, що використовуються в компоненті СінАн

Вхідною для компоненти СінАн є послідовність вузлів з морфолого-синтаксичною інформацією, що отримана на попередніх етапах. В процесі СінАн для обробки цієї інформації використовуються такі інструменти аналізу: аналізатор, алгоритми, списки правил, позиційна таблиця.

В системі ФРАП аналізатор використовується тричі. З його допомогою на лінійно упорядкованій множині вузлів встановлюються всі можливі зв’язки залежності, що указані в аналізаторі.

Для аналізу в термінах членів речення повністю фільтрована організація СінАн неможлива, оскільки вхідна для СінАн множина вузлів (результат морфологічного аналізу) не є множиною членів речення. Потрібен процес формування вузлів структури членів речення. Таким чином, перші два блоки за необхідністю описані як процес, тобто алгоритмічно. Опис у вигляді алгоритму третього блоку заснований на гіпотезі про значимість порядку обробки вузлів для автоматичної побудови структури в термінах членів речення. Алгоритми працюють з вже сформованою аналізатором множиною всіх можливих гіпотез про зв’язки вузлів, тобто метод фільтрів застосовується, но процесом їх застосування керують спеціальні алгоритми. Повністю фільтровим СінАн стає тільки в процесі взаємодії СінП з СемП.

Списки правил містять правила дозволу омонімії для різних етапів аналізу, типи узгоджуваності, деякі фільтри.

Позиційна таблиця починає формуватися в другому блоці аналізу. В ній міститься інформація про порядок слідування головних вершин та про позиційну характеристику в простому реченні тих його вузлів, для яких СінАн ще не завершений. Вона використовується для визначення правильності набору головних вершин для фрази в кінці роботи другого блоку і в складній фразі для визначення порядку обробки простих речень в процесі роботи третього блоку. Позиційна характеристика вузлів використовується в четвертому блоці.

Блоки аналізу компонента СінАн

Блок аналізу іменникових вузлів

В цьому блоці розв’язуються 4 задачі: 1) встіновлюються функціональні зв’язки app(a,b), де а – прикладка b, та attr(a,b), де а – узгоджене означення b; 2) аналізуються деякі види твору; 3) структурно відновлюються елідіровані вершини іменникових груп; 4) елімінуються з представлення прийменники, артиклі і проаналізовані сурядні сполучники.

В першій частині блоку синтаксичний аналізатор встановлює зв’язки app та attr. Встановлюються також допоміжні зв’язки prep(a,b), де а – ім’я або інфінітив, b - прийменник та det(a,b), де а – артикль, b – ім’я.

В дугій частині блоку аналіза іменникових вузлів з представлення фрази елімінуються прийменники, артиклі та проаналізовані сурядні сполучники, які поміщаються в інформацію к пов’язаним до них повнозначним словам; відповідно елімінуються і допоміжні зв’язки.

Блок аналізу складних речень

Перед початком роботи цього блоку в представленні аналізатором встановлюється зв’язок dist та всі можливі функціональні зв’язки, крім вже встановлених в першому блоці та сурядних.

Блок аналізу складних речень складається з двох частин.

В першій частині обробляються вузли двух видів: 1) особові форми дієслова, предикати, предикативні формули, тобто вузли, які можуть виконувати функцію присудка; 2) підрядні сполучники. Виясняється, які з головних вершин є вершинами підрядних речень, а які - ні. Одночасно в СінП формуються штучні вузли, що символізують підрядні речення, та зв’язок ref, а також формується та частина позиційної таблиці, в якій перелічені головні вершини по порядку їх слідування у фразі і для кожної з них вказано, чи є вона, за відомостями, отриманими в цій частині блоку, вершиною незалежного або підрядного речення.

В другій частині перевіряється правильність складу головних вершин СінП за позиційною таблицею. Представлення, що є правильними, пропускаються в наступний блок аналізу. До них відносяться ті представлення, в яких є не більше однієї незалежної головної вершини, а всі інші – вершини підрядних речень. В цій частині блоку затримуються і підлягають аналізу ті представлення, в яких більше однієї незалежної вершини або є вершини з недозволеною омонімією. Для таких вершин алгоритм звертається до СінП і аналізує лівий контекст. В результаті аналізу контексту можливі такі дії: 1) розділення складного речення на прості при наявності відокремлювача; 2) встановлення сурядного зв’язку між головним реченням фрази і одним з незалежних простих речень при наявності сурядного сполучника; 3) видалення номеру незалежної вершини з позиційної таблиці, що рівнозначно визнанню цієї вершини присурядненою частиною присудка одного з попередніх речень; 4) дозвіл омонімії сполучника або головної вершини. Після виконання однієї з цих дій представлення знову перевіряється на правильність складу головних вершин.

Блок аналізу простих речень

В цьому блоці продовжується оброблення того набору зв’язків, який був встановлений аналізатором перед роботою попереднього блоку і уточнений цим останнім.

The online video editor trusted by teams to make professional video in minutes