Морфологічний аналіз, Детальна інформація

Морфологічний аналіз
Тип документу: Реферат
Сторінок: 5
Предмет: Мова, Лінгвістика
Автор:
Розмір: 17.5
Скачувань: 3778
Перш ніж перейти до опису загальної схеми, зупинимося на деяких термінах, якими нам доведеться користуватися надалі.

Як вже говорилося, морфологічний аналіз – це обробка взятих окремо словоформ. Морфологічний аналіз полягає в такому: словоформа розбивається на морфеми (за умови, якщо таке розбиття можливе) шляхом пошуку морфем у спеціальних списках, де кожній морфемі відповідає певна інформація; потім із інформацій до морфем будується загальна інформація до словоформи.

В даному описі морфема не визначається: це об`єкт окремого дослідження. Морфеми подаються списком. В алгоритмі морфологічного аналізу, що описується, як морфеми взято практично ті самі елементи, що їх вважають морфемами в лінгвістиці. Однак слід мати на увазі основні відмінності двох типів:

Оскільки ми маємо справу з письмовим текстом, а більшість лінгвістичних праць – з усною мовою, то поділ на морфеми, що здійснюється для алгоритму морфологічного аналізу, інколи не співпадає з тим, що прийнятий в лінгвістиці.

Розбіжність між написанням та вимовою (та, зокрема, відсутність наголосу у письмовому тексті) відбивається також на зовнішньому (графічному чи звуковому) боці морфем. Морфеми, що відрізняються графічно, можуть мати однакове звучання: -ом (ор. відм. однини) та –ам (дав. відм. множини) в таких словоформах, як лаком – лакам або муром – мурам. З іншого боку, морфеми, що мають різне звучання, можуть співпадати графічно: -и (род. відм. однини) та –и (наз.-знах. відм. множини) в таких словоформах, як казки – казки.

Алгоритм працює лише з графічними формами морфем.

Оскільки в багатьох лінгвістичних працях під час поділу словоформ на морфеми не завжди послідовно розрізняють синхронічний та діахронічний аспекти, прийнятий поділ, що виправданий в низці відношень, може виявитися незручним з точки зору автоматичного аналізу та перекладу. В таких випадках доводиться відступати від прийнятого поділу. Наприклад, словоформа відношення зазвичай поділяється на від-нош-енн-я, а для алгоритму, що описується – на відношенн-я.

Ми не будемо спеціально викладати тут тих міркувань, за якими приймається певний поділ тієї чи іншої конкретної словоформи. Запропонований алгоритм морфологічного аналізу (у загальній формі) абсолютно не залежить від того, які конкретні елементи обрано як морфеми. Якщо прийняти інший поділ на морфеми, це змінить лише склад списків морфем, але не сам алгоритм. А тому тимчасово можна вважати, що, не уміючи точно визначати морфеми, ми обмежуємося їх емпіричним підбором (базуючись на інтуїції та вимогах перекладу) та подаємо їх простим перерахуванням.

Серед морфем розрізнятимемо основи та афікси.

Терміни “основа” та “афікс” вживаються тут не в своєму традиційному значенні. Прийняте у лінгвістиці розрізняння коренів, основ, кореневих основ і т. ін. для наших цілей є несуттєвим, і все це позначається спільним терміном “основа”. Визначення цього терміну ми не даємо; ми подаємо основи списком. Однак, можна вказати такі властивості основ:

Будь-яка словоформа містить принаймні одну основу (може бути й більше).

Основи складають переважну більшість морфем і є численними. У загальнолітературній мові кількість основ сягає сотень тисяч; у текстах із спеціальних галузей знання вона зменшується до кількох тисяч (або десятків тисяч).

Одна й та сама основа зустрічається в порівняно невеликій кількості різних словоформ – від однієї до кількох десятків.

Від основи до загальної інформації до словоформи надходять значення більшості ознак, що складають цю інформацію.

Морфеми, що не є основами, називаються афіксами (тобто не проводиться традиційної різниці між афіксами та флексіями). Афікси, що зустрічаються перед основами, називаються префіксами; афікси, що зустрічаються позаду основ, називаються суфіксами. Таким чином, суфіксами вважаються не тільки морфеми словотворення, але також і так звані “тематичні голосні”, “з`єднувальні звуки” (а точніше – “літери”), флексії і т.ін.

Властивості афіксів певним чином протилежні властивостям основ:

Афікси зустрічаються не у всіх словоформах.

Афікси завжди складають меншість морфем, їх загальна кількість невелика: від кількох десятків до кількох сотень (залежно від мови).

Один і той самий афікс зазвичай зустрічається в порівняно великій кількості різних словоформ – від кількох десятків до кількох тисяч і навіть десятків тисяч, але ніколи не менше, ніж у двох словоформах (основа може зустрічатися і в одній словоформі, співпадаючи з нею).

Від афікса до загальної інформації до словоформи надходять значення меншості ознак, що складають цю інформацію.

В даному описі афікси також подаються списком.

В процесі розробки алгоритмів, а саме – під час складання словника, зручно задавати лише афікси (оскільки у мовах, які ми розглядаємо, їх кількість відносно невелика) та, виходячи з прийнятого списку афіксів, виділяти основи (з поданих у тексті словоформ) за допомогою певних правил.

Частина словоформи, що залишається після відкидання будь-яких морфем від початку словоформи, називається залишком. Під час аналізу залишок весь час зменшується по мірі послідовного відтинання морфем – до повного зникнення, що означає кінець аналізу для даної словоформи. Наприклад, під час аналізу словоформи перекомпілювати після відтинання префікса пере- залишком буде –компілювати, після відтинання основи компіл- залишається –ювати, після відтинання суфікса –юва– залишок буде –ти, і зрештою, після відтинання суфікса –ти залишок зникає і аналіз закінчується.

Дві морфеми, що містять різну інформацію, можуть графічно співпадати (повністю або частково) одна з одною. Ми ж роздивимося лише такі випадки співпадання, коли принаймні одна з морфем повністю входить до складу іншої. Решта випадків співпадання не впливають на правильність морфологічного аналізу й тому нас не цікавлять.

Як приклад повної вкладеності одної морфеми в іншу можна навести суфікс –ами (ор. відм. мн.), що повністю вкладається в основу намист- слова намисто, що призводить до неправильного розкладу н-ами-ст-о

Особливо важливі два приватних випадки співпадання морфем.

а) Дві морфеми повністю співпадають. Такі морфеми називаються омонімічними.

б) Одна з морфем входить до складу іншої, і при цьому існує деяка одиниця, що починається з меншої морфеми, але дозволяє вкладення і більшої (тої, що включає) морфеми. Тоді ми кажемо, що ці морфеми спряжені одна з одною.

Вкладення одних морфем у інші, і, зокрема омонімія та спряженість морфем створюють певні труднощі морфологічного аналізу.

Основні моменти

The online video editor trusted by teams to make professional video in minutes