Синтаксичний аналіз у системах автоматичного перекладу: концепції та алгоритми, Детальна інформація

Синтаксичний аналіз у системах автоматичного перекладу: концепції та алгоритми
Тип документу: Реферат
Сторінок: 7
Предмет: Комп`ютерні науки
Автор: фелікс
Розмір: 28.5
Скачувань: 1047
Порядкове (первое слово, шестая строка, ХХ век, 1953 год).

Кількісне (пять страниц, трем отделам, из ста восьми шагов, много способов, сколько текстов).

Агентивне (решено машиной, исполнение романса певицей, вычисляется алгоритмом, наше отставание, его полет).

Субстантивно-атрибутивне (отверствие диаметром 6мм, столб высотой 2 м, такого рода утверждение).

Партитивне (блок устройства, елемент множества).

Загальногенетивне (лист бумаги, пример алгоритма, понятие алгебры, преимущество метода).

Обставинне (находиться позади барьера, квадрат слева, цифра записана на ленте, подается для реализации, однако выяснилось).

Суб’єктно-копредикативне (он вернулся усталым, умер стариком).

Об’єктно-копредикативне (нашли его усталым).

Аппозитивне (угол ABC, часть Г).

Порівняльне (сильнее первого мотора, более низкий, чем стержень С2).

Елективне (каждый из разрядов, две из колонок, многие из иероглифов).

1-е призв’язочне (будет полным, этот четырехугольник есть квадрат, являющиеся достаточными).

2-е призв’язочне (бывают трех типов, могут быть следующего рода).

1-е допоміжне, або службове (более четкий, самые полные, не получил, видели бы).

2-е допоміжне (сорок три, сремиться к нулю, физика и математика).

3-е допоміжне, або відприйменникове (без двигателя, несмотря на отказ).

Обмежувальне (хотя бы один, только числа, лишь законченные работы).

Однорідне (операции и константы, целые или не целые числа, нумеруются, но не сдвигаются).

Квазіоднорідне (общая функциональная схема, обычного графического изображения).

Відсполучникове (как выход, как для решения).

Зіставлюване (чем дальше продвигаемся, тем яснее видим).

В процесі аналізу за допомогою певної послідовності операцій текст розбивається на певні частини, які ототожнюються з одиницями аналізу (в даній роботі це синтагми та інши змістовні сполучення); одиниці аналізу зібрані в особливому списку, де до них приписані вказівки, які необхідно виконати, щоб фіксувати (зображати) знайдені зв’язки (в даній роботі це вказівки про постановку нумерованих стрілок).

В тексті, що аналізується, розглядаються три типи відрізків: гіпотетична словоформа (вхідна) – послідовність літер між двума проміжками; знаки пунктуації також вважаються вхідними словоформами; гіпотетичний сегмент – послідовність словоформ між двума знаками пунктуації або сполучниками, перед якими немає коми; гіпотетична фраза – послідовність сегментів між двома крапками або іншими тотожніми знаками. В результаті роботи алгоритму ці гіпотетичні (вхідні) об’єкти перетворюються на кінцеві, або приведені: приведена словоформа, приведений сегмент, приведена фраза. Приведена словоформа – це загальна назва для всіх лексичних одиниць. Приведеними синтагмами називаються вирази з повною або частковою предикативністю, тобто прості речення, дієприслівникові і обособлювані означальні (зокрема прислівникові) звороти. Приведена фраза є аналогом самостійного речення – простого або складного, але не того, що є частиною іншого речення. Приведена фраза – це максимальний відрізок тексту, в межах якого враховуються синтаксичні зв’язки. Приклад:

.(1) Н(2)| .(3)И(4)| .(5)Голубков(6) исследовал(7) еще(8) двадцать(9) шесть(10) видов(11) ||| ,(12) так(13) как(14) его(15) первый(16) ||| и(17) второй(18) опыты(19) дали(20) результаты(21) ||| ,(22) представленные(23) на(24) рис(25)| .(26) 6(27) ||| |.

Тут 27 гіпотетичних словоформ (пронумеровані), 4 гіпотетичних сегмента (відокремлені |||), 4 гіпотетичних фрази (відокремлені |), 17 приведених словоформ (підкреслені), 3 приведених сегмента (1 – до так как, 2 – до представленные, 3 – до кінця), 1 приведена фраза (все речення).

Необхідні відомості про текстові об’єкти представляються у вигляді інформацій. Інформація - послідовність ознак (граф), що приймають певне значення.

Більшість ознак, що утворюють інформацію, є синтаксичними розрізнюваними ознаками словоформ та сегментів.

Увесь процес аналізу зводиться послідовно на декількох рівнях. Спочатку з окремо взятих гіпотетичних словоформ, точніше з інформацій до морф, на які ці словоформи розбиваються, виводиться інформація до словоформ, потім з інформацій до словоформ виводиться інформація до гіпотетичних сегментів; і нарешті, з інформацій до гіпотетичних сегментів виводиться синтаксична структура фрази. Одночасно гіпотетичні об’єкти перероблюються на приведені.

Відповідно, аналіз підрозділяється на формологічний (розбір окремих словоформ і отримання інформацій до них) та синтаксичний (все інше). Синтаксичний аналіз, в свою чергу, поділяється на внутрішньосегментний (розбір окремих гіпотетичних сегментів і отримання інформацій до них) та міжсегментний (розбір всієї фрази в цілому).

The online video editor trusted by teams to make professional video in minutes