- •Мета робота
- •Короткі теоретичні відомості
- •Використання регулярних виразів для виявлення слів за заданими шаблонами.
- •Використання основних метасимволів (операторів повтору).
- •Застосування регулярних виразів
- •Виявлення фрагментів слів
- •Обробка фрагментів слів
- •Встановлення основ слів (стемінг)
- •Пошук у токенізованому тексті
- •Використання регулярних виразів для токенізації тексту
- •Найпростіший токенізатор
- •Токенізатор на основі регулярних виразів в nltk
- •Проблеми токенізації тексту
- •Порядок виконання роботи
- •Інтернет посилання
- •Методичні вказівки
Пошук у токенізованому тексті
Спеціальний тип регулярних виразів може використовуватися для пошуку серед слів у тексті (текст – послідовність окремих слів). Наприклад, за допомогою виразу "<a> <man>" можна знайти всі випадки вживання a man в тексті. Кутові дужки використовуються для позначення меж і всі пробіли мід цими дужками ігноруються (індивідуальна особливість NLTK's findall() методу для тексту). В наступному прикладі включено <.*> #1 для виявлення всіх окремих слів, а круглі дужки дозволять вибрати ці слова окремо від словосполучень ( a monied man). Інший приклад дозволяє знайти всі словосполучення з трьох слів де останнє слово bro #2. Останній приклад це знаходження послідовностей з трьох і більше слів , які починаються з літери l #3.
|
Виконати самостійно. Для поглиблення розуміння особливостей роботи з регулярними виразами використайте функцію nltk.re_show(p, s), яка у стрічці s позначає всі частини, які відповідають шаблону p. Для дослідження регулярних виразів зручно використати програму nemo_app.py(C:\Python26\Lib\site-packages\nltk\app)
Побудова пошукових шаблонів для вивчення лінгвістичних явищ, які пов’язані зі словами не є складною. Чи можна будувати складніші шаблони на основі регулярних виразів? Наприклад, для знаходження в корпусі текстів слово зворотів таких, як x and other ys , які дозволяють дослідити гіперніми, можна розробити наступну програму
|
При достатніх об’ємах лінгвістичних даних дана програма дозволяє зібрати інформацію про таксономію об’єктів без додаткової ручної праці. Звичайно результати роботи програми містять і хибні результати, якими потрібно нехтувати. Наприклад, результат: demands and other factors вказує на те що demand це тип factor, але в цьому реченні йдеться про збільшення заробітної плати (wage demands).
Виконати самостійно. Використовуючи шаблон as x as y дослідити інформацію про об’єкти та їх властивості.