Передумови створення морфологічних процесорів, Детальна інформація

Передумови створення морфологічних процесорів

Тип документу: Реферат

Сторінок: 6

Предмет: Комп`ютерні науки

Автор: фелікс

Розмір: 18.9

Скачувань: 1008

1 2 3 4 5 6

б) пошук залишку в обраній таблиці (розділ ІІІ);

в) вибір потрібного суфікса з декількох омонімічних або спряжених – звісно, якщо знайдений суфікс має такі (розділ ІV);

г) перенесення інформації від суфікса, що знайдено, до інформації до словоформи (розділ V);

д) вибір подальших дій залежно від властивостей суфікса, що оброблено (розділ VI).

“Особлива” обробка вводиться заради вказаних вище (см. п.2) ускладнень, що притаманні “особливим” випадкам. Шляхом послідовних перевірок встановлюється, яке саме ускладнення має місце, і залежно від цього виконується одна з дій:

а) одну з декількох омонімічних (або спряжених) основ, що її вибрано невірно для даної словоформи, замінюють на іншу (розділ VII);

б) відтинається чергова основа складного слова (розділ VIII);

в) розбираються випадки вкладення суфіксів у наступну основу складного слова (розділ IX);

г) графічні чергування зводяться до прийнятої форми (розділ Х).

Частина Б – “Список суфіксів”

Частина Б являє собою список суфіксів, оформлений у вигляді однієї або кількох таблиць.

Вирішення питання про те, розміщувати суфікси в одній чи в кількох таблицях, залежить від властивостей певної мови. Точний характер цієї залежності поки що невідомий, а тому доводиться керуватися загальними приблизними міркуваннями:

Якщо загальна кількість суфіксів у даній мові невелика (наприклад, близько двох десятків в англійській мові), їх можна об’єднувати в одну таблицю. Якщо ж загальна кількість суфіксів у даній мові велика (більше ста п`ятдесяти в українській мові), то є сенс розташувати їх в окремих таблицях відповідно до частини мови; при цьому звертання до тієї або іншої таблиці визначається ознакою частини мови у основи.

В мовах можуть зустрітися такі омонімічні суфікси, що вибір потрібного суфікса зумовлюється лише його позицією відносно інших суфіксів у залишку.

Наприклад, вибір одного з декількох омонімічних суфіксів \x03B1 залежить від того, чи був даний суфікс першим у ланцюжку суфіксів, або йому передував один із суфіксів \x03B2, \x03B3, \x03B4, \x03B5, \x03B6 і т.д.

Щоб враховувати такі складні взаємозалежності суфіксів за можливістю стандартним способом, можна розподіляти подібні омонімічні суфікси по кільком таблицям таким чином, щоб у кожній таблиці було наведено лише один з омонімічних суфіксів. Окрім того, під час розподілу суфіксів по таблицях враховується їх взаємна сполучність. Нехай, наприклад, в наведеній вище ілюстрації суфікс \x03B1 має значення х, коли він починає залишок або коли йому передує суфікс \x03B5; омонімічний йому суфікс \x03B1 має значення у, коли він знаходиться після суфікса \x03B2, \x03B3 або \x03B4; нарешті, ще один омонімічний суфікс \x03B1 має значення z, коли йому передує суфікс \x03B6. Тоді суфікси \x03B1, \x03B2, \x03B3, \x03B4, \x03B5 та \x03B6 можна розташувати по таблицях таким чином:

у таблиці 1 – \x03B5;

у таблиці 2 – \x03B1, \x03B2, \x03B3, \x03B4 (у значенні х);

у таблиці 3 – \x03B6;

у таблиці 4 – \x03B1 (в значенні у);

у таблиці 5 – \x03B1 (в значенні z).

Послідовність пошуку залишків по таблицях така: таблиця 1 – таблиця 2 – таблиця 4 - таблиця 3 – таблиця 5. Те, в якій таблиці буде знайдено залишок, однозначно визначає значення суфікса (тобто, вибір потрібного з кількох омонімічних).

Такий підхід може бути зручним, наприклад, в алгоритмі морфологічного аналізу грузинської мови (для дієслівних закінчень).

Коли в частині Б суфікси розташовані в кількох таблицях, кожній таблиці дається номер тієї наступної таблиці, де потрібно шукати робочий залишок, якщо його не буде знайдено в поточній. Цей номер позначається через \x03C8 і використовується в розділі ІІІ частини А.

Частина В – “Список інформацій до суфіксів”

Частина В – це перелік основних інформацій до суфіксів, що зібрані до однієї таблиці.

Основна інформація до суфікса складається з низки інструкцій двох видів: 1) до яких рядків інформації до робочої словоформи надходять нові дані від суфікса, що знайдено; 2) які ці нові дані, тобто які нові значення повинні бути записані до вказаних рядків робочої інформації.

Частина Г – “Нестандартний запис”

Ця частина являє собою набір правил, що забезпечують розбір випадків, коли на результатах аналізу словоформи відбиваються індивідуальні особливості якихось морфем. Всі такі випадки об`єднуються (доки це можливо) у типові, і для кожного типового випадку в частині Г є окремий розділ. Таким чином, кількість розділів частини Г теоретично необмежена і залежить від кількості типових особливостей морфем у даній мові. Для російської мови, наприклад, частина Г має дванадцять розділів.

Кожний розділ – це невеличка інструкція, що складається з кількох операторів і вказує, що саме потрібно робити, щоб, будуючи загальну інформацію до словоформи, правильно врахувати індивідуальні особливості морфем, що її складають.

1 2 3 4 5 6

The online video editor trusted by teams to make professional video in minutes