Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
KL-LAB6(9).doc
Скачиваний:
13
Добавлен:
12.02.2016
Размер:
822.78 Кб
Скачать

Міністерство освіти і науки україни

НАЦІОНАЛЬНИЙ УНІВЕРСИТЕТ “ЛЬВІВСЬКА ПОЛІТЕХНІКА”

іНСТИТУТ КОМП’ютерних НАУК та ІНФОРМАЦІЙНИХ ТЕХНОЛОГІЙ

Кафедра “Системи автоматизованого проектування ”

ВИВЧЕННЯ БІБЛІОТЕКИ ПРИКЛАДНИХ ПРОГРАМ NLTK, ДЛЯ ОПРАЦЮВАННЯ ТЕКСТІВ ПРИРОДНОЮ МОВОЮ.

ВИКОРИСТАННЯ РЕГУЛЯРНИХ ВИРАЗІВ ДЛЯ ОБРОБКИ ТЕКСТУ.

Методичні вказівки до лабораторної роботи № 6

з дисципліни “Комп’ютерна лінгвістика ”

для студентів спеціальності 7.030.505 “Прикладна лінгвістика ”

та магістрів за фахом 8.030.505 “Прикладна лінгвістика ”.

Затверджено

на засіданні кафедри

“Системи автоматизованого проектування ”

Протокол № 8 від 21.XI.2005 р.

на засіданні методичної ради ІКНІ

Протокол № 4-05/06 від 1.XII.2005 р.

ВАК № 1769 від 12.XII.2005 р.

Львів-2009

ВИВЧЕННЯ БІБЛІОТЕКИ ПРИКЛАДНИХ ПРОГРАМ NLTK, ДЛЯ ОПРАЦЮ­ВАННЯ ТЕКСТІВ ПРИРОДНОЮ МОВОЮ. ВИКОРИСТАННЯ РЕГУЛЯРНИХ ВИРАЗІВ ДЛЯ ОБРОБКИ ТЕКСТУ.Методичні вказівки до лабораторної роботи № 3 з дисципліни “Комп’ютерна лінгвістика ” для студентів спеціальності 7.030.505 “Прикладна лінгвістика” та магістрів за фахом 8.030.505 “Прикладна лінгвістика” для стаціонарної та заочної форм навчання/Укл. А.Б.Романюк. - Львів: Національний університет ”Львівська політехніка”, 2009. - 21с.

Укладачі: Романюк а. Б., канд. Техн. Наук, ст. Викладач

Відповідальний за випуск: Лобур М. В., доктор технічних наук, професор

Рецензенти: Каркульовський В. І., канд. техн. наук, доцент

Шуневич Б.І., канд. філол. наук, доцент.

МЕТА РОБОТА

  • Вивчення основ програмування на мові Python.

  • Використання регулярних виразів для обробки текстів.

КОРОТКІ ТЕОРЕТИЧНІ ВІДОМОСТІ

Виконанні цієї лабораторної роботи необхідно розпочати з:

 

>>> from __future__ import division

>>> import nltk, re, pprint

  1. Використання регулярних виразів для виявлення слів за заданими шаблонами.

Багато задач лінгвістичних досліджень передбачають встановлення відповідності заданому шаблону. Наприклад, можна знайти слова, які закінчуються на “ed” використовуючи метод endswith('ed'). Подібні методи перевірки слів перелічені в Таблиці Методичних вказівок до лабораторної роботи №2. Регулярні вирази є більш потужним і гнучким методом опису шаблонів символів, які необхідно виявити у послідовностях символів. Регулярний вираз (вислів)програмуванні) — церядокщо описує або збігається змножиноюрядків, відповідно до набору спеціальнихсинтаксичнихправил. Регулярні вислови використовуються в багатьохтекстових редакторахта допоміжних інструментах для пошуку та зміни тексту на основі заданих шаблонів.

Для роботи з регулярними виразами у Python потрібно імпортувати бібліотеку re скориставшись: import re. Корпус слів англійської мови Words Corpus буде використовуватися в якості лінгвістичних даних серед яких буде проводитися пошук. Попередня підготовка списку слів передбачає видалення власних імен.

 

>>> import re

>>> wordlist = [w for w in nltk.corpus.words.words('en') if w.islower()]

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]