Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Раздел 2. Понятие инф. инф. процесса.docx
Скачиваний:
13
Добавлен:
09.02.2015
Размер:
49.68 Кб
Скачать

2.2.6. Поиск информации

Цель: поиск информации при ее сборе, во время хранения в базе данных и в Интернете.

Действия:

  1. При сборе информации

  2. При хранении информации

- файловая система: определение имени файла и место его нахождения (жесткий диск компьютера или информационной системы, оптический диск, флешка, внешний жесткий диск, другие внешние носители информации)

- реляционная база данных:

3. В Интернете: выбор провайдера, подключение к Интернету, выбор поисковой системы, определение ключевого слова или набора ключевых слов,

Для того чтобы воспользоваться хранящейся информацией, эту информацию нужно найти. Информация обычно хранится в компьютере, в информационной системе, которые территориально расположены в разных местах. Информация может передаваться на каком-то физическом носителе: в виде электрического сигнала по проводам, в виде электромагнитной волны, в виде оптического сигнала по оптоволоконному кабелю, в виде звукового сигнала, на бумажном носителе и т.д.

Поиск информации зависит от структуры хранения информации на физическом носителе.

Поиск информации с помощью файловой системы

В персональном компьютере используется файловая структура, состоящая из папок и файлов. В папке могут находиться несколько папок и несколько файлов. Количество их ограничивается объемом памяти физического носителя.

Файловая структура имеет иерархическую структуру, в виде дерева. Зная название папки и название файла можно найти нужный файл.

Поиск информации в реляционной базе данных[2]

Реляционная база данных представляет собой набор таблиц (сущностей). Таблицы состоят из столбцов и строк (кортежей). Внутри таблиц могут быть определены ограничения, между таблицами существуют отношения. При помощи языка запроса можно выполнять запросы, которые возвращают наборы данных, получаемых из одной или нескольких таблиц. В рамках одного запроса данные получаются из нескольких таблиц путем их соединения, чаще всего для соединения используются те же столбцы, которые определяют отношения между таблицами. Доступ к реляционным базам данных осуществляется через реляционные системы управления базами данных (РСУБД). Практически все системы баз данных, которые используются в настоящее время, являются реляционными.

Поиск информации с помощью Интернета

Когда хранящаяся информация находится территориально от пользователя на значительном расстоянии, для поиска и передачи информации используется глобальная сеть Интернет.

Глобальная сеть не имеет одного владельца и управляется организацией, созданной на общественных началах.

Каждый компьютер в сети Интернет имеет свой адрес, состоящим из 32-х разрядов и адресуется четырьмя отдельными друг от друга десятичными числами, разделенными точкам. Адрес компьютера выглядит следующим образом: 19.223.192.205. 205– адрес компьютера. 192 – адрес подсети. 19.223 – адрес сети. Такой адрес называется IP-адресом.

Для удобства пользователя существует в Интернете Доменная Служба Имен (DNS), которая позволяет каждый компьютер назвать по имени.

Доменный адрес www.microsoft.com означает, что www – имя компьютера в домене Microsoft.com, com домен коммерческой организации. Имена компьютеров в разных доменах могут повторяться.. Один компьютер в сети может иметь несколько DNS-имен.

Домены имеют несколько уровней. Домен первого уровня обычно определяет страну расположения сервера или вид организации (gov-правительственная организация).

При вводе доменного имени www.mrsu.ru , компьютер преобразует его в адрес. Для этого компьютер делает запрос DNS-серверу, в котором хранятся адреса серверов имен доменов первого уровня ru. Получив адрес сервера имени домена (ru), компьютер связывается с этим сервером и запрашивает у него адрес запрашиваемого сервера mrsu. От сервера msru получает имя www.

Пересылка в Интернет осуществляется пакетами, каждый пакет содержит адреса компьютеров получателя и отправителя, передаваемые данные и порядковый номер пакета в общем потоке данных. В компьютере-получателе из пакетов формируется файл, который бал заказан.

Но более эффективно для адресации использовать не просто доменный адрес, а унифицированный указатель ресурса – URL, который дополнительно к доменному адресу содержит указания на используемую технологию доступа к ресурсам и спецификацию ресурса внутри файловой структуры компьютера.

Например, в URL: http://engec.ru/user/lab/met.htm, где:

http – протокол передачи гипертекста, используемый для доступа. В подавляющем большинстве случаев используется именно этот протокол;

www.engec.ru – доменный адрес web-сервера СПбГИЭУ. Адреса большей части серверов начинаются с префикса www, указывающего на то, что www-сервер на данном компьютере запущен;

user/lab/met.htm – спецификация файла met.htm. Указывается путь к интересующему нас файлу в файловой системе компьютера и имя того файла.

Когда адрес компьютера, на котором находится файл, неизвестен и неизвестно название файла, то нужную информацию можно найти с помощью поисковой системы используя «ключевое слово».

Компоненты поисковой системы:

Spider (паук) – программа для скачивания НТМL текстов без графической части

Crawier – программа обработки найденных ссылок и направляет паука по этим ссылкам

Indexer – программа анализа найденного текста

Database – база данных всех найденных и обработанных текстов html страниц

Search engine result engine программа, которая решает какая страница соответствует введенному запросу, в каком порядке должны быть отсортированы html страницы

Web server- сервер, который взаимодействует с пользователем и поисковой системой.

Чтобы из всех htmlстраниц найти нужные данные и не просматривать все страницы, используется алгоритм поиска обратных индексов.

Поэтому для поиска с большим количеством данных разработали алгоритм поиска обратных индексов. Согласно этого алгоритма поисковая система превращает html страницу текстовый документ виде списка слов с номерами страниц, где они находятся.

Задача поисковой системы это поиск htmlстраниц в своей базе данных, их сортировка и выдача в порядке релевантности.

Под релевантностью понимают степень соответствия найденной информации по отношению к запросу в поисковой системе.