Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Базы данных и ЛИР1

.doc
Скачиваний:
30
Добавлен:
08.06.2015
Размер:
94.72 Кб
Скачать

Базы данных (БД) и лингвистические информационные ресурсы (ЛИР)

План:

  1. Общее понятие о БД

  2. СУБД, основные функции

  3. Лингвистические информационные ресурсы. Основные понятия. Виды ЛИР

Существует несколько определений понятия база данных

БД – это совокупность определенным образом упорядоченных сведений о некоторых объектах.

Объекты - это сведения, факты, события, процессы. Объект может быть материальным(студент, товар, машина) и нематериальным (событие - поход в цирк, процесс - перевод текста, факт - поступление в университет) . В жизни каждый объект обладает определенными свойствами или атрибутами (вес, скорость, цвет…), которым приписываются определенные значения: батон весит 400 гр., скорость машины 90 км./ч.

В БД атрибуты представляются элементами данных или просто данными, а их значения – значения данных.

Пример БД - Студент

Номер зачетной книжки

Ф.И.О. студента

Пол

Год рождения

Факультет

Группа

Стипендия

357411

Арбузов А.И.

м

1978

англ.

302

50000

358125

Белова Р.Г.

ж

1979

фр.

201

80000

Объектом является – студент. Он описывается атрибутами: № зач. книжки, ФИО,.. Эти атрибуты для каждого студента имеют определенное значение. В памяти ПК атрибутам № зачетной книжки, ФИО …соответствуют элементы данных или просто данные. Таким образом, данное – это некоторый показатель, который характеризует заданный объект и принимает для конкретного элемента объекта некоторое значение. Группа данных, которая образует одну строку называется записью. В рассмотренном примере запись состоит из 7 элементов.

Чтобы пользователь мог обратиться к записи, ее необходимо идентифицировать. Одно из данных выбирается в качестве идентификатора (первичного ключа). В качестве идентификатора выбирают данное, которое является уникальным для каждого объекта. Например в нашем случае № зачетной книжки. Если несколько записей имеют одно и тоже множество данных с однотипной информацией то говорят, что эти записи имеют один формат. Множество записей с одним форматом называют файлом. А множество файлов образуют базу данных. Допустим, что объект Студент будет описан не в 1 файле, а в 3 файлах.

Номер зачетной книжки

Ф.И.О. студента

Пол

Год рожд.

Факультет

Группа

Специальность

Стипендия

357411

Арбузов А.И.

м

1978

англ.

302

051

С1

358125

Белова Р.Г.

ж

1979

фр.

201

054

С2

Причем цифры специальностей и размеры стипендий можно также представить в виде следующих таблиц (файлов в компьютерной БД)

Специальность

Шифр

Название

051

английский и немецкий. языки.

052

французский и немецкий языки


Стипендия

Код

Размер

С01

50000

С02

80000


Эти три файла в совокупности и составляют БД – Студент

Основные функции БД

  1. Поиск информации в БД

  2. Модификация информации, находящейся в БД:

  • добавление;

  • удаление

  • редактирование

Системы управления базами данных (СУБД)

СУБД – совокупность программных средств, позволяющих осуществлять создание, ведение базы данных и в них информации.

Сейчас различают 2 основных типа СУБД: настольные и сервисные.

1. Настольные СУБД по степени сложности подразделяются:

а) СУБД для обработки небольших объемов информации пр. MS OUTLOOK

б) СУБД , ориентированные на пользователя, не умеющего программировать EXCEL, LOTUS

в) Сложные СУБД, ориентированные на разработку приложений пр. Fox Base, MS Access

2. Серверные СУБД используют архитектуру “Клиент-Сервер”, т.е. происходит централизованное хранение и обработка данных. Пр. Informix, MS SQL Server

Основные функции СУБД

  1. Обеспечить создание структуры БД. Чтобы эффективно хранить и обрабатывать информацию, необходимо определить: какая информация будет храниться, какие атрибуты, типы данных.

  2. Модификация информации, находящейся в БД:

  • добавление;

  • удаление

  • редактирование

  • Поиск информации

    Лингвистические информационные ресурсы (ЛИР)

    Лингвистические информационные ресурсы – одна из составляющих информационных ресурсов. Под информационным ресурсом понимают некоторый интеллектуальный ресурс, результат коллективного творчества

    К пассивным формам информационных ресурсов относят книги, журналы, газеты, словари, энциклопедии, патенты, базы и банки данных и т.п.

    Активные формы включают алгоритмы, модели, программы, базы знаний

    Лингвистические информационные ресурсы - это множество определенным образом организованных речевых и языковых данных, находящихся на машинных носителях информации и используемых в различных сферах практической деятельности (образовании, промышленности, экономике, культуре, искусстве, издательстве

    В самом общем виде ЛИР – это своеобразная лингвистические БД, которые можно обновлять и в которых можно искать ту или иную информацию. Лингвистические ресурсы необходимы как пользователям ПК, так и различным компьютерным системам, связанным с обработкой текста речи: реферирования, аннотирования и перевода текстов, автоматического анализа текста, синтеза речи и текста.

    Пассивные лингвистические информационные ресурсы включают

    1. письменный лексикон

    2. письменные текстовые массивы

    3. фонетические ресурсы

    1. Письменный лексикон представлен одноязычными и многоязычными лексиконами. В общем смысле словарь - это справочная книга, которая содержит слова (морфемы, словосочетания, идиомы и т.п.), расположенные в определен­ном порядке (различном в разных типах словарей). В нем может содержаться толкование значения описываемых единиц, а также различная информацию о них. Любой словарь может быть представлен в виде реляционной БД. Какие же типы словарей сейчас создаются и используются в компьютерной лингвистике?

    • Простейшей лингвистической базой данных может служить частотно-алфавитный словарь словоформ какого-либо текста

    • Более сложную организацию имеет база данных словоуказатель. В ней кроме абсолютной частоты употребления словоформы в тексте указываются номера страниц и строк на странице, где встретилась данная словоформа.

    • Еще более сложным типом словарей являются конкордансы. В них каждая словоформа текста характеризуется не только численными показателями (час­тотой, номером страницы, номером строки и т.д.), но и некоторым контекстом, в котором она употреблена. Как правило, этот контекст состоит из 3-х предло­жений: предложения, в котором встретилась словоформа, предложения, стоя­щего перед основным предложением, и предложения, стоящего после него

    • Энциклопедии - это словари, содержащие характеристики не слова как такового, а обозначенного им предмета, факта или явления. Существует достаточно большое число различных энциклопедий на машинных носителях информации. Наиболее известна среди них энциклопедия "Britannica". Она включает 82000 статей и 700 дополнительных материалов, опубликованных с 1768 года. Не менее известны французские энииклопеди "Tons les savoire du Monde", "Le monde sur CD-ROM", "Versailles" и др. t^^ русском языке изданы "Большая Энциклопедия Кирилла и Мефодия

    • Тезаурус - принципиально иной тип словарей. В нем в явном виде указаны семантические связи между определенной частью его лексических единиц. Как правило, такие словари строятся для текстов достаточно узкой проблемной об­ласти: вычислительной техники, музыки, кораблестроения, сельского хозяйства и т.д.

    • Терминологическим словарем (ТС) называется словарь, основной единицей которого является термин. Термин - это слово или подчинительное словосочетание, имеющее специальное значение, выражающее и формирующее профессиональное понятие и применяемое процессе познания и освоения научных и профессионально-технических объектов и отношений между ними.

  • Письменный текстовый массив или корпус текстов, где корпус текста - это совокупность текстов, являющаяся достаточной для обеспечения надежных научных выводов о неко­тором языке, диалекте или ином другом подмножестве языка

    Могут быть использованы:

    • В лексикографии и лексикологии (для составления различных словарей, определения значений многозначных слов, выявления ассоциативных связей слов в тексте, выделения терминов и терминологических словосочетаний и т.п.).

    • В грамматике (для определения частоты употребления грамматических морфем в текстах различного типа, выявления наиболее употребляемых типов словосочетаний и предложений, определения значений синонимичных морфологических единиц, частоты употребления классов слов и т.д.).

    • В лингвистике текста (для дифференциации типов текста, создания конкордансов, выявления связи между предложениями в абзацах и между абзацами «т.д.).

    • При автоматическом переводе текстов (для поиска контекстов слов, имеющих несколько переводных эквивалентов, поиска переводных эквивалентов терминологических и фразеологических словосочетаний в параллельных текстах и т.д.).

    • В учебных целях (для выбора цитат, отдельных фрагментов произведений, примеров, используемых в процессе создания учебников и учебных пособий в последние годы стали создаваться таггированные корпусы текстов (от англ, tag - 'индекс, помета'). Все слова такого корпуса получают некоторые буквенные или цифровые индексы, которые обозначают их грамматические, лексические, семантические или структурные признаки. Таких индексов может быть несколько.

  • Фонетические лингвистические ресурсы В настоящее время общепринято, что для создания машиночитаемых фонетических корпусов используется транскрипция на основе орфографического представления звуков речи с дополнительными знаками, передающими (при необходимости) просодические, паралингвистические и другие особенности произношения.

    Фонетические корпусы текстов широко используются для решения следующих задач:

    • сопоставительного изучения устной и письменной форм языка;

    • изучения грамматических и лексических особенностей устной речи;

    • исследования фонетических особенностей диалектов;

    • построения частотных списков фонем и их сочетаний;

    • изучения акустических свойств речевых единиц и их использования в психолингвистических и лингвистических экспериментах;

    • создания компьютерных систем, распознавания и синтеза устной речи.

    Пример: Германия – записи радиопередач, для транскрибирования отобрали 222 текста;

    США. Корпус устной речи - записи психоаналитических сеансов (225 записей)

    4