Встановлення основ слів (стемінг)

Добавил:

Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Национальный университет Львовская политехника

Предмет:

[НЕСОРТИРОВАННОЕ]

Файл:

2011-kl-lab7.doc

Скачиваний:

Добавлен:

12.11.2019

Размер:

871.42 Кб

Скачать

☆

<<< < Предыдущая 1 23 / 83 4 5 6 7 8 > Следующая >>>

Встановлення основ слів (стемінг)

Для обробки мови часто буває необхідно опустити закінчення слів і працювати тільки з їх основами. Існують різні способи встановлення основи слова. Найпростіший спосіб, це відкидання будь-яких послідовностей, які нагадують суфікс.

>>> def stem(word):

... for suffix in ['ing', 'ly', 'ed', 'ious', 'ies', 'ive', 'es', 's', 'ment']:

... if word.endswith(suffix):

... return word[:-len(suffix)]

... return word

В попередній лабораторній роботі були розглянуті програми для здійснення стемінгу. Подібну програму можна розробити використовуючи регулярні вирази. Спочатку потрібно розробити вираз з диз’юнкцією де записати всі суфікси і використати круглі дужки для вказання області дії операції диз’юнкції.

>>> re.findall(r'^.*(ing|ly|ed|ious|ies|ive|es|s|ment)$', 'processing')

['ing']

Тут, re.findall() знаходить тільки суфікс, хоча регулярний вираз відповідає всьому слову. Це сталося тому, що круглі дужки задають не тільки область дії оператора диз’юнкції але і виконують функцію вибору підстрічки яку потрібно вилучити. Коли потрібно в регулярному виразі використовувати круглі дужки для вказання області дії оператор,а але не потрібно здійснювати вилучення в регулярний вираз потрібно додати ?: , так як у наступному прикладі.

>>> re.findall(r'^.*(?:ing|ly|ed|ious|ies|ive|es|s|ment)$', 'processing')

['processing']

Оскільки, потрібно поділити слово на основу і суфікс та показати ці частини, то доцільно їх виділити в регулярному виразі за допомогою круглих дужок:

>>> re.findall(r'^(.*)(ing|ly|ed|ious|ies|ive|es|s|ment)$', 'processing')

[('process', 'ing')]

Спробуємо аналогічно обробити інше слово, наприклад , processes:

>>> re.findall(r'^(.*)(ing|ly|ed|ious|ies|ive|es|s|ment)$', 'processes')

[('processe', 's')]

Регулярний вираз помилково знайшов суфікс -s замість суфікса -es . Оператор * в частині виразу «.*» приводить до поглинання максимальної кількості символів. Доцільно використати вираз *?, який дозволяє уникнути цього ефекту:

>>> re.findall(r'^(.*?)(ing|ly|ed|ious|ies|ive|es|s|ment)$', 'processes')

[('process', 'es')]

Даний регулярний вираз працює навіть зі словами з відсутнім суфіксом:

>>> re.findall(r'^(.*?)(ing|ly|ed|ious|ies|ive|es|s|ment)?$', 'language')

[('language', '')]

Звичайно цей підхід має ще багато інших проблем. Для їх виявлення розроблена функція для здійснення операції стемінгу. Використовуючи цю функцію можна опрацьовувати довільний текст:

>>> def stem(word):

... regexp = r'^(.*?)(ing|ly|ed|ious|ies|ive|es|s|ment)?$'

... stem, suffix = re.findall(regexp, word)[0]

... return stem

...

>>> raw = """DENNIS: Listen, strange women lying in ponds distributing swords

... is no basis for a system of government. Supreme executive power derives from

... a mandate from the masses, not from some farcical aquatic ceremony."""

>>> tokens = nltk.word_tokenize(raw)

>>> [stem(t) for t in tokens]

['DENNIS', ':', 'Listen', ',', 'strange', 'women', 'ly', 'in', 'pond',

'distribut', 'sword', 'i', 'no', 'basi', 'for', 'a', 'system', 'of', 'govern',

'.', 'Supreme', 'execut', 'power', 'deriv', 'from', 'a', 'mandate', 'from',

'the', 'mass', ',', 'not', 'from', 'some', 'farcical', 'aquatic', 'ceremony', '.']

Потрібно зазначити, що регулярний вираз видалив s не тільки зі слова ponds а також зі слів is та basis. Також утворені слова невластиві мові distribut та deriv, хоча ці основи прийнятні для певного застосування .

<<< < Предыдущая 1 23 / 83 4 5 6 7 8 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
12.11.2019821.76 Кб52011-kl-lab2.doc
#
12.11.2019691.71 Кб52011-kl-lab3.doc
#
12.11.20191.54 Mб72011-kl-lab4.doc
#
12.11.20191.21 Mб72011-kl-lab5.doc
#
12.11.20191.43 Mб92011-kl-lab6.doc
#
12.11.2019871.42 Кб92011-kl-lab7.doc
#
12.11.2019916.48 Кб82011-kl-lab8.doc
#
12.11.20191.65 Mб152011-kl-lab9.doc
#
12.02.20161.74 Mб3782014 Лекції ТСПП (0-8).pdf
#
12.02.20162.99 Mб892014 Лекції ТСПП (8-14).pdf
#
12.02.20164.79 Mб122014-15-Enactus-Team-Handbook.pdf