Розмічування частин мови

Матеріал з Вікіпедії — вільної енциклопедії.
Версія від 16:57, 2 квітня 2019, створена Ахметзянов+МФ42 (обговорення | внесок) (Створена сторінка: У корпусній лінгвістиці, '''позначення частин мови''', також нази...)
(різн.) ← Попередня версія | Поточна версія (різн.) | Новіша версія → (різн.)
Перейти до навігації Перейти до пошуку

У корпусній лінгвістиці, позначення частин мови, також називається граматичним позначенням або розбір на частини мови, це процес позначення слова в тексті (корпусі) належним до певної [[Частини мови |частини мови]],[1]заснований як на його визначенні, так і на його контексті—тобто, на його зв'язку з суміжними і спорідненими словами у фразі, реченні, або абзаці. Спрощена форма корпусної лінгвістики зазвичай викладається дітям шкільного віку, у визначенні слів як іменник, дієслово, прикметник, прислівник, тощо.

Зумівши виконати визначення частин мови вручну, це почали робити в контексті обчислювальної лінгвістики, використовуючи алгоритми, які асоціюють дискретні терміни, а також приховані частини мови, відповідно до набору описових тегів. Алгоритми розбору на частини мови поділяються на дві відмінні групи: на основі правил і стохастики. розбірник Е. Брілла[en], один з перших і найбільш широко використовуваних англійських розбірників, використовує алгоритми на основі правил.

Принцип

Позначення частин мови складніше, ніж просто мати список слів і їх частин мови, тому що деякі слова можуть представляти більш ніж одну частину мови в різний час, і тому, що деякі частини мови складні або невисловлені. Це не рідкість - в [Природна мова|природних мовах]] (на відміну від багатьох штучних), великий відсоток форм слова неоднозначний. Наприклад, в англійській навіть слово "dogs" (укр. собаки), яке зазвичай вважається іменником у множині, може також бути дієсловом:

The sailor dogs the hatch.

Правильне граматичне позначення покаже, що "dogs" тут використовується як дієслово, а не як іменник множини. Граматичний контекст - один із способів це визначити; Семантичний аналіз також може бути використаний для висновку, що "sailor" (укр. матрос) і "hatch" (укр. люк) втягують "dogs" у 1) морський контекст 2) дії, що застосовуються до об'єкта "hatch" (в даному контексті "dogs" є мореплавальний термін, що означає "міцно закріплюються (водонепроникні двері)").

Школи зазвичай навчають, що існує 9 частин мови в англійській: noun, verb, article, adjective, preposition, pronoun, adverb, conjunction, та interjection. Однак, очевидно, є ще багато категорій і підкатегорій. Для іменників можна виділити множину, однину та присвійну форми. У багатьох мовах слова також позначені для їхніх "відмінків" (роль як предмет, об'єкт тощо), роду, і так далі; в той час як дієслова позначені для часів, видів, та інших речей. Лінгвісти розрізняють частини мови до різних точних ступенів, відображаючи обрану "систему помітки".

У позначенні частин мови за допомогою комп'ютера типово виділяють від 50 до 150 окремих частин мови для англійської мови. Наприклад, NN для загальних іменників однини, NNS для загальних іменників множини, NP для окремих власних іменників (див. en[BrownCorpus#Part-of-speechtagsused] які використовувалисьe у збірнику Brown Corpus). Праця над стохастичними методами розмітки Койне (DeRose 1990) використовувала більше 1000 частин мови, і виявила, що приблизно стільки ж слів було багатозначними, що й в англійській. Морфосинтактичний дескриптор у випадку морфологічно багатих мов зазвичай виражається з використанням дуже коротко] мнемоніки, наприклад, 'Ncmsan Частина мови = іменник, Тип = загальний, Рід = чоловічий, Число = однина, Відмінок = знахідний, Істотність = не живий.

Історія

The Brown Corpus

Дослідження з розбіру на частини мови були тісно пов'язані з корпусною лінгвістикою. Першим великим збірником англійської мови для комп'ютерного аналізу був Браун Корпус який був розробленний у Браунському університеті Генрі Кучером[en] та Нельсоном Францисом, в середині 1960-х. Вiн складається з близько 1 000 000 слів біжучого тексту англійської прози, виробленого з 500 зразків випадково вибраних публікацій. Кожен зразок становить 2000 або більше слів (закінчується на першому кінці речення після 2000 слів, так що збірник містить лише повні речення).

Протягом багатьох років Браун Корпус ретельно "розбирався" на частини мови. Перше наближення було зроблено за допомогою програми Гріна і Рубіна, яка складалася з величезного списку ручної роботи, на тему того, які категорії можуть взагалі відбуватися. Наприклад, артикль потім іменник може зустрічатися, але артикль дієслово (можливо) не може. Програма набула близько 70% коректності. Її результати неодноразово переглядалися і виправлялися вручну, а пізніше користувачі надсилали повідомлення про помилки, так що наприкінці 70-х років позначення частин мови було майже ідеальним (враховуючи деякі випадки, коли навіть люди не згодні).

Цей збірник був використаний для незліченних досліджень частотності слів і частини мови, і надихнув на розвиток подібних "позначень" на багатьох інших мовах. Статистичні дані, отримані в результаті аналізу, послужили основою для найбільш пізніх систем позначення частин мови, таких як CLAWS (linguistics) та VOLSUNGA. Однак до цього часу (2005 р.) він була замінений великими збірниками, такими як Британський Національний Збірник[en] зі 100 мільйонами слів.

Протягом деякого часу, позначення частин мови вважалося невід'ємною частиною обробки природної мови, тому що є певні випадки, коли правильну частину мови не можна вирішити без розуміння семантики або навіть прагматики контексту. Це надзвичайно дорого, особливо тому, що аналіз більш високих рівнів набагато складніший, коли для кожного слова необхідно враховувати декілька можливих частин мови.

Використання прихованих моделей Маркова

У середині 1980-х років дослідники в Європі почали використовувати прихована марковські моделі (ПММ) для розбіру на частини мови, під час роботи з розбору Ланкасткер-Осло-Берген збірника[Lancaster-Oslo-BergenCorpus] (ЛОБ) Британської Англійскої. ПММ включають підрахунок випадків (наприклад, на основі Brown Corpus) і складання таблиці ймовірностей певних послідовностей. Наприклад, коли ви бачите артикль, наприклад, "the", можливо, наступне слово - це іменник 40% часу, прикметник 40% і число 20%. Знаючи це, програма може вирішити, що "can" у випадку "the can" має набагато більше шансів бути іменником, ніж дієсловом або модальним. Один і той же метод, звичайно, може бути використаний для отримання користі від знань про наступні слова.

Більш просунуті ("вищі порядки") ПММ вивчають ймовірності не тільки пар, але трійок або навіть більших послідовностей. Так, наприклад, якщо ви тільки що бачили іменник, за яким слідує дієслово, наступний пункт може бути дуже ймовірно прийменником, артиклем або іменником, але набагато менш ймовірно іншим дієсловом.

Коли зустрічаються кілька неоднозначних слів, можливості множать. Проте легко перерахувати кожну комбінацію і присвоїти кожній з них відносну ймовірність, помноживши в свою чергу ймовірності кожного вибору. Потім вибирається комбінація з найвищою ймовірністю. Європейська група розробила CLAWS, програму позначення, яка зробила саме це, і досягла точності в діапазоні 93–95%.

Варто згадати, що Євген Чарняк[en] відмічає у "Статистичні методи аналізу природної мови" (1997),[2] що просто призначення найпоширенішого позначення кожному відомому слову і позначення "власної назви" для всіх невідомих буде наближати до 90% точності, оскільки багато слів є однозначними, і багато інших рідко представляють їх менш поширені частини мови.

CLAWS проклала шлях в позначенні частин мови на основі ПММ, але була досить дорогою, оскільки вона перерахувала всі можливості. Іноді доводилося вдаватися до методів резервного копіювання, коли було просто занадто багато варіантів (The Brown Corpus містить випадок з 17 неоднозначними словами в рядку, а є слова, такі як "still" (укр. досі), які можуть представляти до 7 різних частин мови (DeRose 1990, p. 82)).

ПММ лежать в основі функціонування стохастичних позначень і використовуються в різних алгоритмах, одним з найбільш широко використовуваних алгоритмів є алгоритм двонаправленого виводу.[3]

Методи динамічного програмування

У 1987, Стівен ДеРоуз[en][4] та Кен Чорч[en][5] незалежно розробили алгоритми динамічного програмування для вирішення однієї і тієї ж проблеми за значно менший час. Їх методи були аналогічні алгоритму Вітербі відомому деякий час в інших областях. DeRose використовував таблицю пар, тоді як Church використовував таблицю трійок і метод оцінки значень для трійок, які були рідкісними або неіснуючими в Brown Corpus (фактичне вимірювання потрійних ймовірностей вимагало б набагато більшого збірника). Обидва способи досягли точності понад 95%. 1990 р. Дисертація ДеРоуз у Браунському університеті включала аналіз специфічних типів помилок, ймовірностей та інших відповідних даних, і повторила його роботу для грецької мови, де він виявився таким же ефективним.

Ці висновки були несподівано руйнівними для області обробки природних мов. Точність повідомлень була вищою, ніж типова точність дуже складних алгоритмів, які інтегрували частину вибору мовлення з багатьма вищими рівнями лінгвістичного аналізу: синтаксис, морфологія, семантика тощо. Методи CLAWS, DeRose і Church помилялися у деяких з відомих випадків, коли потрібна семантика, але вони виявилися незначно рідкісними. Це переконало багатьох у цій галузі, що розбір на частини мови може бути корисно відокремлений від інших рівнів обробки; це, у свою чергу, спростило теорію і практику комп'ютерного мовного аналізу, а також заохотило дослідників до пошуку шляхів виділення інших частин. Моделі Маркова тепер є стандартним методом призначення частин мовлення.

Безконтрольні розмітники

Розглянуті методи передбачають роботу з вже існуючого збірника для вивчення ймовірностей тегів. Однак це також можливо завантажити[en] використовуючи "безконтрольне" позначення. Техника безконтрольного позначення використовує нерозобрані збірники для своїх тренувальних даних і виробляють набір позначань за індукцією. Тобто вони спостерігають за шаблоном у використанні слова і самі виводять категорії мови. Наприклад, статистика легко виявляє, що "the", "а" і "аn" з'являються в аналогічних контекстах, тоді як "eats" з'являється в дуже різних. З достатньою ітерацією з'являються класи подібності слів, які є надзвичайно подібними до тих, яких очікують люди-лінгвісти; і самі відмінності іноді пропонують цінні нові уявлення.

Ці дві категорії можуть бути додатково поділені на: основані на правилах, стохастичні та нейронні підходи.

Інші розмітники та методи

Деякі сучасні основні алгоритми для позначення частин мовлення включають Алгоритм Вітербі, розбірник Брілла[en], обмеження граматики[en], та алгоритм Баума-Уелча (також відомий як алгоритм прямого-зворотнього ходу). Розбірники, які використовують приховані Марковські моделі і неприховані Марковські моделі можуть бути реалізовані за допомогою алгоритму Вітербі. Оснований на правилах розбірник Brill незвичайний тим, що вивчає набір шаблонів правил, а потім застосовує ці моделі, а не оптимізує статистичну кількість. На відміну від розбірника Brill, де правила впорядковані послідовно, інструментарій для позначення частин мови та морфологічного розбіру RDRPOSTagger зберігає правила у вигляді пульсуючого[en] дерева.

Багато методів машинного навчання також були застосовані для вирішення проблеми позначення частин мови. Такі методи, як метод опорних векторів, {{Нп|Мультиномна логістична регресія|мультиномна логістична регресія|en|Multinomial logistic regression]], перцептрон, та метод k-найближчих сусідів були випробовані, і більшість може домогтися точності вище 95%.

Пряме порівняння декількох методів можете побачити(з посиланнями) на ACL Wiki.[6] Це порівняння використовує позначення Penn, встановлений на деяких даних Penn Treebank, тому результати безпосередньо порівнявальні.

Тим не менш, багато значних розбірників не включені (можливо, через трудомісткість, пов'язану з їх реконфігурацією для цього конкретного набору даних). Таким чином, не слід вважати, що результати, про які повідомляється, є найкращими, які можна досягти за допомогою даного підходу. Також не є найкращими поміж тих, що вже були досягнуті за допомогою даного підходу.

Найсучасніша розрока використовує метод регуляризації структури для позначання частин мови, досягаючи 97,36% на стандартному наборі тестів.[7]

Проблеми

Хоча існує загальна згода щодо основних категорій, ряд крайніх випадків ускладнює вирішення питання про єдиний "правильний" набір позначень, навіть у певній мові, наприклад, англійській. Наприклад, важко сказати, чи є "fire" (укр. вогонь) прикметником чи іменником

 the big green fire truck

Другий важливий зразок використання–згадування відмінності[en], як у наступному прикладі, де "blue" (укр. синій) міг бути замінений словом будь-якою частини мови (збірник позначень Brown Corpus додає суфікс "-NC" у таких випадках):

 the word "blue" has 4 letters.

Слова у мові, які відрізняються від тих, що у "головному" тексті, зазвичай позначаються як "іноземні", як правило, на додаток до позначення для ролі, яку іноземне слово фактично відтворює в контексті.

В англійській є також багато випадків, коли частини мови та "слова" не мають однозначної відровідності, наприклад:

 as far as
 David's
 gonna
 don't
 vice versa
 first-cut
 cannot
 pre- and post-secondary
 look (a word) up

В останньому прикладі, "look" і "up", можливо, функціонують як єдине вербальна одиниця, незважаючи на можливість виникнення між ними інших слів. Деякі набори позначень (наприклад, Penn) розбивають переносні слова, скорочення і присвійні на окремі позначення, таким чином уникаючи деяких, але далеко не усіх таких проблем.

Багато наборів позначень трактують слова "be", "have", та "do" як самостійні (як у Brown Corpus), тоді як деякі вважають їх усі просто дієсловами (наприклад, LOB Corpus та Penn {{Нп|Treebank|Treebank|en|Treebank])). Оскільки ці конкретні слова мають більше форм, ніж інші англійські дієслова, і зустрычаються в зовсім різних граматичних контекстах, трактування їх просто як "дієслова" означає, що розмітник буде мати набагато менше інформації. Наприклад, позначення, засноване на ПММ, буде поєднувати кілька рядків і стовпців, які в іншому випадку будуть не тільки окремими, але і зовсім іншими. Більш складний алгоритм може також враховувати конкретне слово в кожному випадку; але з різними позначеннями, сама ПММ часто може передбачити правильне найточніше позначення навіть для нових варіантів написання, і таким чином забезпечити кращу допомогу для подальшої обробки.

Найбільш популярний "набір позначень" для розбору на частини мови для американської англійської мови - ймовірно, набір позначень Penn, розроблений в проекті Penn Treebank. Це значною мірою схоже на попередні набори позначень Brown Corpus і LOB Corpus, хоча і набагато менше. У Європі набори позначень з Eagles Guidelines[en]) широко використовуються і включають версії для декількох мов.

Робота з розбору виконується різними мовами, а набір позначень залежить від самої мови. Позначення, як правило, розроблені таким чином, щоб включати явні морфологічні відмінності, хоча це призводить до таких невідповідностей, як позначення для займенників, але не іменників англійською мовою, і набагато більші відмінності між мовами. Набір позначень для мов з великим змістом, таких як Грецька та Латинь може бути дуже великим; віртуальний розбір слів у аглютинативні мовах таких як інуїтська може бути неможливим. З іншого боку, Петров [8] запропонував "універсальний" набір позначень, з 12 категоріями (наприклад, ніяких підтипів іменників, дієслів, пунктуації і т.д .; немає відмінності від "to" як інфінітивного маркера проти прийменника (навряд чи "універсального" збігу), тощо). Який набыр вибрати, чи дуже малий набір дуже широких міток, чи набагато більший набір більш точних, залежить від конкретної мети. Автоматичне тегування легше на менших наборах тегів.

Інша проблема полягає в тому, що деякі випадки фактично неоднозначні. Беатріс Санторіні[en] надає приклади у "Part-of-speech Tagging Guidelines for the Penn Treebank Project", (3rd rev, June 1990 [2]), включаючи наступний (p. 32) випадок в якому entertaining (укр. розважальний) може бути або прикметником, або дієсловом, і не існує синтаксичного способу вирішення:

 The Duchess was entertaining last night.

Дивіться також

Посилання

  1. Позначення частин мови. Sketch Engine. Лексичні обчислення. 27 березня 2018. Процитовано 6 квітня 2018.
  2. Євген Чарняк
  3. CLL позначальник частин
  4. DeRose, Steven J. 1988. "Неоднозначність граматичної категорії шляхом статистичної оптимізації." Computational Linguistics 14(1): 31–39. [1]
  5. Kenneth Ward Church (1988). Програма стохастичних частин і синтаксичний аналізатор для необмеженого тексту. ANLC '88: Матеріали другої конференції з прикладної обробки природної мови. Асоціація обчислювальної лінгвістики Stroudsburg, PA. doi:10.3115/974235.974260.
  6. Позначення частин мови (Витвір мистецтва)
  7. Xu Sun (2014). Структурна регуляризація для структурованого прогнозування (PDF). Системи обробки нейронної інформації (СОНІ). с. 2402—2410.
  8. Petrov, Slav; Das, Dipanjan; McDonald, Ryan (11 Apr 2011). Універсальний набір позначень частин мови. arXiv:1104.2086.
  • Charniak, Eugene. 1997. "Статистичні методи розпізнавання природних мов". AI Magazine 18(4):33–44.
  • Hans van Halteren, Jakub Zavrel, Walter Daelemans. 2001. Підвищення точності в NLP шляхом поєднання систем машинного навчання. Computational Linguistics. 27(2): 199–229. PDF
  • DeRose, Steven J. 1990. "Стохастичні методи розв'язування неоднозначності граматичних категорій на мовах, що відхиляються і відбиваються." Ph.D. Dissertation. Providence, RI: Brown University Department of Cognitive and Linguistic Sciences. Electronic Edition available at [3]
  • D.Q. Nguyen, D.Q. Nguyen, D.D. Pham and S.B. Pham (2016). "Надійний підхід до навчання, що базується на трансформації, використовуючи правила пульсації для часткового мовлення." AI Communications, vol. 29, no. 3, pages 409-422. [.pdf]

Зовніші посилання