Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Информационные технологии.docx
Скачиваний:
27
Добавлен:
08.06.2015
Размер:
112.98 Кб
Скачать

1. Ввод новой записи

2.обновление существующих записей

3. удаление отдельных данных или записей

4. поиск инфы

Поиск инфы – операция извлечения из БД любой инфы.

СУБД (системы управления базами данных)

СУБД – это совокупность программных средств, позволяющих осуществлять ведение БД и поиск в них инфы. Различают два типа СУБД:

1. настольные: Microsoft Outlook, MS Excel, MS Access, Fox Base, Clipper

2. сетевые – используют архитектуру клиент-сервер. Информация централизованно хранится на сервере: MS SQL Server, Informix.

Основные функции СУБД:

1. обеспечить создание структуры БД, определить какая инфа будет хранится, какие атрибуты и типы данных.

2. модификация инфы (добавление, удаление)

3. поиск инфы

Лингвистические информационные ресурсы (ЛИР)

Пассивные формы информационных ресурсов: книги, журналы, газеты, словари, БД.

Активные: алгоритмы, программы, базы знаний.

ЛИР – определенным образом организованные речевые и языковые данные, находящиеся на машинных носителях и используемые в различных сферах практической деятельности.

В общем виде ЛИР – это своеобразная лингвистическая БД, которая может обновляться и в которой можно искать ту или иную инфу. ЛИР необходимы как пользователям ПК, так и самим компьютерным системам, связанным с обработкой текста и речи.

ЛИР включает:

1. Письменный лексикон

2. Письменные текстовые массивы

3. Фонетические лингвистические ресурсы

1. Письменный лексикон представлен одноязычными и многоязычными лексиконами (словарями). В многоязычных словарях дается перевод значения исходного языка на один или несколько иностранных языков.

В компьютерной лингвистике используются следующие типы одноязычных словарей:

- частотно-алфавитные словари словоформ какого-либо текста

- словари-словоуказатели, где указывается частота, номер страницы и строки, на которой встретилось слово

- конкордансы – в них каждая словоформа характеризуется численными показателями и некоторым контекстом. Контекст дается – три предложения слева и справа.

- словари-энциклопедии

Энциклопедия – это словарь, содержащий характеристики не слова, а обозначенного им предмета, факта или явления.

- словари-тезаурусы, где указываются семантические связи между определенной частью его лексических единиц. 1852 г.

- терминологические словари – основная единица-термин

Термин – это слово или словосочетание, имеющее специальное значение, выражающее и формирующее профессиональное понятие и применяемое в процессе познания и освоения научных и профессионально-технических объектов. Используются при переводе текстов с одного языка на другой, для создания учебников.

2. Письменные текстовые массивы (корпусы текстов) – совокупность текстов, являющаяся достаточной для обеспечения надежности научных выводов о некотором языке, подъязыке, диалекте. Суть сводится к тому, что достоверные данные о морфологической, фонетической, синтаксической и семантической структуре языка и речи могут быть получены из достаточно большого массива текстов.

Могут быть использованы:

- в лексикологии – для составления различных словарей, выделения терминов, определения значения многозначных слов

- в грамматике – для определения частоты употребления грамматических морфем, для выявления наиболее употребляемых типов словосочетаний и предложений

- в лингвистике – для дифференцирования типов текста, создания конкорданса при машинном переводе.

Сегодня стали создавать топированные корпусы текста. Слова такого корпуса получают буквенные и цифровые индексы, которые обозначают их грамматические, лексические, семантические, структурные признаки.

Создаются корпусы текстов на двух языках.

3. Фонетические лингвистические ресурсы – это корпусы устной речи. Главная трудность создания корпуса устной речи связана с необходимостью транскрибирования устной речи. Несмотря на трудности, в мире существуют достаточно много фонетических корпусов, которые широко используются для:

- сопоставления изучения устной и письменной формы языка

- для изучения грамматических и лексических особенностей устной речи

- для создания компьютерных систем, используемых с целью распознавания и синтеза устной речи

Возможности современного ПК

Сопоставление принципов характеристиками возможности компа значительно превосходят возможности человека:

1. чтение текста

- человек – 25 букв в сек

- сканер – 20 страниц в сек

2. вывод инфы

- человек – 8-25 звуков в сек

- принтер – 50 страниц в сек

3. быстродействие

- человек 20-30 операций в сек

- микропроцессор – 10-100 млрд в сек

Принципиальное различие – в ОЗУ ПК и мозгу человека.

Человек запоминает инфу на основе ассоциативного принципа, ПК – путем ее последовательно размещения в рядом расположенные свободные байты.

4. обработка инфы

Микропроцессор является тем устройством, которое в млрд раз превосходит мозг человека по скорости переработки инфы, однако по принципу работы значительно уступает мозгу человека. ПК имеет жесткий порядок работы, предполагающий только два возможных подхода «ДА» - 1 или «НЕТ» - 0. Мозг человека использует многозначную логику, обладает эвристическими способностями, интуицией.

Возможности современного компьютера

Известно, что ПК был изобретен как средство вычисления. Однако, постепенно к его возможностям добавлялись другие функции. Сегодня уже невозможно сходу перечислить все сферы применения ПК.

ПК – это средство решения тех задач, которые человек в состоянии поручить ему на данном уровне развития техники. ПК обрабатывает мультимедийную инфу (числа, текст, графика, звук, видео)