Морфологічний аналіз, Детальна інформація

Морфологічний аналіз
Тип документу: Реферат
Сторінок: 5
Предмет: Мова, Лінгвістика
Автор:
Розмір: 17.5
Скачувань: 3773
Зміст

TOC \t "Заголовок 1;3;Заголовок 2;1;Заголовок 3;2" Зміст PAGEREF _Toc467899164 \h 2

Передумови створення морфологічних процесорів PAGEREF _Toc467899165 \h 3

Загальна форма морфологічного аналізу текстів PAGEREF _Toc467899166 \h 4

Деякі обмеження PAGEREF _Toc467899167 \h 4

Термінологія PAGEREF _Toc467899168 \h 4

Основні моменти PAGEREF _Toc467899169 \h 7

Загальний вигляд алгоритму морфологічного аналізу PAGEREF _Toc467899170 \h 10

Внутрішня будова алгоритму PAGEREF _Toc467899171 \h 10

Частина А – “Загальні правила” PAGEREF _Toc467899172 \h 10

Частина Б – “Список суфіксів” PAGEREF _Toc467899173 \h 12

Частина В – “Список інформацій до суфіксів” PAGEREF _Toc467899174 \h 13

Частина Г – “Нестандартний запис” PAGEREF _Toc467899175 \h 14

Частина Д – “Омонімія словоформ” PAGEREF _Toc467899176 \h 14

Висновки PAGEREF _Toc467899177 \h 15

Література PAGEREF _Toc467899178 \h 16

Передумови створення морфологічних процесорів

Припустимо, що весь процес аналізу під час автоматичного перекладу поділяється на два основних етапи: морфологічний аналіз та синтаксичний аналіз.

Під морфологічним аналізом розуміють повну обробку взятих окремо (без будь-якого зв’язку з контекстом) словоформ. В результаті такої обробки кожна словоформа замінюється так званою інформацією – ланцюжком символів, що визначають усі ті властивості даної словоформи, що необхідні для подальшого аналізу (і подальшого перекладу). Інформації до словоформ використовуються на другому етапі аналізу – під час синтаксичного аналізу, в результаті якого встановлюються зв`язки між усіма словоформами тексту та між частинами складних речень.

Морфологічний аналіз – основний інструмент морфологічних процесорів. Створення повнофункціонального морфологічного процесору неможливе без детального розуміння принципів морфологічного аналізу.

За роки існування автоматичного перекладу було створено алгоритми морфологічного аналізу для багатьох мов. Природно, що ці алгоритми мають багато спільного. Однак мають місце також і значні розбіжності, що зумовлені властивостями будови відповідних мов, а також різними підходами.

Виникає природне бажання узагальнити досвід, що накопичено в цій галузі. Зокрема, бажано відповісти на таке питання: чи не можна виділити в алгоритмах морфологічного аналізу стандартні частини, що повторюються в багатьох алгоритмах? Чи не можна на базі стандартних частин, що виділено, розробити для алгоритму морфологічного аналізу таку спільну форму, щоб вона підходила (без суттєвих змін) для багатьох мов? Чи не можна, зрештою, встановити зв`язок між властивостями конкретних мов та деталями алгоритмів морфологічного аналізу таким чином, щоб загальну форму алгоритму можна було пристосувати до якоїсь конкретної мови відповідно до правил, що вказано заздалегідь (ці правила можуть бути приблизно такими: “За певної властивості мови із загальної форми треба(не треба) взяти певний елемент і т. ін.”)?

Нижче робиться спроба дати позитивну відповідь на ці питання.

Загальна форма морфологічного аналізу текстів

Деякі обмеження

Загальна форма морфологічного аналізу, про яку іде мова, не є абсолютно загальною. Її “загальність” обмежено певним колом мов та певним типом алгоритмів.

Обмеження стосовно мов полягає в тому, що загальна форма морфологічного аналізу призначена лише для суфіксально-афіксальних мов (індоєвропейських, угро-фінських, тюркських і т. ін.). Виключаються мови з розвиненою внутрішньою флексією (семітські) та інфіксацією (на зразок низки індонезійських).

Окрім того, для мов, у яких словоформи взагалі не поділяються на морфеми (так звані “ізолюючі” – на зразок в`єтнамської), морфологічний аналіз повністю зводиться до пошуку в словнику, а решта операцій, що передбачені у загальній схемі алгоритму морфологічного аналізу, для “ізолюючих” мов не потрібні.

Обмеження стосовно типу алгоритмів полягає в тому, що загальна форма морфологічного аналізу охоплює лише такі алгоритми, в основі яких полягає розбиття словоформ на морфеми від початку до кінця (для мов з латинською та кириличною графікою – зліва направо). Можливий інший підхід, за якого розбиття словоформ починається з кінця. Найкращим розв`язком, очевидно, було б узагальнення та гнучке поєднання обох підходів.

Термінологія

The online video editor trusted by teams to make professional video in minutes