Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

КТ в НиП - КУРС ЛЕКЦИЙ

.pdf
Скачиваний:
81
Добавлен:
06.03.2016
Размер:
1.03 Mб
Скачать

«Толстые»

11

 

клиенты

 

 

 

 

Файл-сервер

Как видно из рисунка, основная обработка данных происходит на клиентных ЭВМ, то есть клиенты в отличие от терминалов должны обладать некоторыми ресурсами, поэтому их называют «толстыми» клиентами.

Распределѐнная архитектура лишена недостатков централизованной архитектуры, к тому же дорогие периферийные устройства (принтеры, RAIDмассивы) в такой архитектуре также могут использоваться совместно.

Основным недостатком распределѐнной архитектуры является то, что вся обработка данных сосредоточена внутри нескольких независимых пользовательских приложений.

П р и м е р

Одной из важных задач по обработке данных является поиск информации. Пусть необходимо найти 5 записей некоторой таблицы, содержащей миллион таких записей. Поскольку вся обработка данных сосредоточена на некоторой клиентной ЭВМ, то для поиска файл-сервер должен передать клиенту всю таблицу целиком. То есть резко возрастает нагрузка на сеть.

Если число пользователей не слишком велико и объѐм общих данных также невелик, то распределѐнная архитектура является наилучшим выбором.

Архитектура клиент-сервер

Вычислительная система, соответствующая архитектуре клиент-сервер состоит из трѐх компонентов:

сервера баз данных, управляющего хранением данных, доступом и защитой, резервным копированием, отслеживающего целостность данных в соответствии с бизнес-правилами и, самое главное, выполняющего запросы клиента;

клиента, предоставляющего интерфейс пользователя, проверяющего допустимость данных, посылающего запросы к серверу;

сети и коммуникационного оборудования.

Ядром архитектуры клиент-сервер является сервер баз данных. Поскольку многие задачи, связанные с обработкой данных возложены на сервер, то нагрузка на сеть –трафик – резко снижается по сравнению с распределѐнной архитектурой.

П р и м е р

Пусть необходимо найти 5 записей некоторой таблицы, содержащей миллион таких записей. Клиент посылает серверу запрос, в котором указано, какие данные должны быть найдены. Этот запрос обрабатывается сервером, сервер производит поиск и пересылает клиенту необходимые пять записей.

Другое преимущество архитектуры клиент-сервер перед распределѐнной состоит в том, что на сервере можно сосредоточить программы, обеспечивающие целостность данных, соответствие данных бизнес-правилам, что позволяет избежать

дублирования программного кода в различных приложениях, использующих общую

12

базу данных.

В случае архитектуры клиент-сервер сервер баз данных должен обладать высокой производительностью. В настоящее время все современные прикладные программы ориентированы на работу с такой архитектурой вычислительного процесса.

Многозвенная архитектура

В случае большого числа пользователей возникают проблемы своевременной и синхронной замены версий клиентских приложений на рабочих станциях. Такие проблемы решаются в рамках многозвенной архитектуры. Часть общих приложений переносится на специально выделенный сервер приложений. Тем самым понижаются требования к ресурсам рабочих станций, которые будут называться «тонкими» клиентами. Данный способ организации вычислительного процесса является разновидностью архитектуры клиент-сервер.

Использование многозвенной архитектуры может быть рекомендовано также в случае, если некоторая программа требует для своей работы много ресурсов, то может оказаться дешевле построить тонкую сеть с одним очень мощным сервером, чем использовать несколько мощных клиентных рабочих станций. Особенно это имеет значение, если данной программой пользуются не постоянно, а время от времени.

Разумное сочетание производительности сервера приложений и производительности рабочих станций позволят построить сеть, более дешѐвую при установке и эксплуатации.

ИНТЕГРАЦИЯ РЕСУРСОВ ИНТЕРНЕТ С РАСПРЕДЕЛЕННЫМИ БАЗАМИ ДАННЫХ

Этот этап характеризуется появлением новой технологии доступа к данным — интранет. Основное отличие этого подхода от технологии клиент-сервер состоит в том, что отпадает необходимость использования специализированного клиентского программного обеспечения. Для работы с удаленной базой данных используется стандартный браузер Интернета, например Microsoft Internet Explorer или Netscape Navigator, и для конечного пользователя процесс обращения к данным происходит аналогично скольжению по Всемирной Паутине. При этом встроенный в загружаемые пользователем HTML-страницы код, написанный обычно на языке Java, Java-script, Perl и других, отслеживает все действия пользователя и транслирует их в низкоуровневые SQL-запросы к базе данных, выполняя, таким образом, ту работу, которой в технологии клиент-сервер занимается клиентская программа. Удобство данного подхода привело к тому, что он стал использоваться не только для удаленного доступа к базам данных, но и для пользователей локальной сети предприятия. Простые задачи обработки данных, не связанные со

сложными алгоритмами, требующими согласованного изменения данных во многих взаимосвязанных объектах, достаточно просто и эффективно могут быть построены 13 по данной архитектуре. В этом случае для подключения нового пользователя к возможности использовать данную задачу не требуется установка дополнительного клиентского программного обеспечения. Однако алгоритмически сложные задачи рекомендуется реализовывать в архитектуре "клиент-сервер" с разработкой специального клиентского программного обеспечения.

Взаимодействие с базой данных в технологии интранет

У каждого из вышеперечисленных подходов к работе с данными есть свои достоинства и свои недостатки, которые и определяют область применения того или иного метода, и в настоящее время все подходы широко используются.

ОСНОВНЫЕ СВЕДЕНИЯ ПО INTERNET

Internet - это всемирная корпоративно управляемая совокупность компьютерных сетей, обменивающихся информацией (~40 тыс. сетей, более 50 млн. пользователей), и связанных телефонными, оптоволоконными и др. кабелями, а также радиоканалами, в том числе спутниковыми. Очень упрощенно структуру Internet можно представить следующей схемой:

ХК - хост-компьютер (сервер) - мощная ЭВМ, обеспечивающая выполнение запросов клиентов;

Р - роутер (маршрутизатор) – ЭВМ, управляющая адресацией информации; ПР - провайдер - сервисная фирма, обеспечивающая доступ в Internet (обычно

платный) и имеющая мощный компьютер или комплекс.

Работа в Internet может выполняться в нескольких режимах, поддерживаемых соответствующими протоколами обмена данных. Это следующие режимы:

1. Терминальный режим - программы клиентов выполняются на узловом

14

сервере сети. Протокол ТСР/IP.

2.Интерактивный (dial - upIP). SLIP/PPP.

3.Пакетный. Протокол UUPC.

Наиболее часто используется протокол TCP/IP, где TCP - обеспечивает передачу сообщений фрагментами, сборку и проверку переданного документа;

IP - обеспечивает доставку информации конкретному адресату, т.е. каждый ХК в сети имеет свой уникальный IP - адрес в виде цифровой последовательности -

ХХХ.ХХХ.ХХХ.ХХХ.

Пользователь сети (организация или частное лицо) в Internet идентифицируется именем пользователя и именем домена, разделенных знаком @.

ХХХХХХ.ХХХ@ХХХХХ.ХХХ

Internet предоставляет следующие возможности:

1.Поиск и просмотр информационных документов (WWW, Archi, Copher).

2.Доступ к БД (WAIS).

3.Связь и работу с другими ПК (Telnet).

4.Группы новостей, электронные бюллетени и т.д.

6.Электронная почта (Internet Mail).

7.Почтовые списки - средства рассылки информации п.4 по ЭП

8.Разговор текстом на экране в реальном времени (программа IRC - Internet Relay Chat).

9.Передача файлов, в том числе программных (система FTP).

В основном возможности Internet реализуются при наличии ОС: WS

95,98, WS - NT, UNIX, Linux, Solaris.

Большинство информационных ресурсов находятся на серверах узлов Internet, имеющих универсальные URL -адреса, которые в зависимости от системы размещения начинаются с записи: http:// - для Web - серверов, и ftp://, news:// для серверов FTP и групп новостей соответственно.

Наиболее эффективной службой для поиска информации в Internet является World Wide Web (всемирная паутина) или просто Web, использующая гипертекстовое представление информации (протокол HTTP).

Гипертекст - это представление документа в виде узлов и связей. Если в узлах помимо текста, таблиц, графики имеются аудио и видео файлы, то Web превращается в мультимедийную систему.

Указанная структура документа с помощью гиперссылок позволяет более эффективно выполнять поиск необходимой информации.

В Web используются понятия: Web - страница - отдельный файл;

Web - сайт - группа документов, объединенных по смыслу; HTML - язык разметки гипертекста;

VRML - язык моделирования трехмерной и подвижной информации; Web - броузер - программа поиска и просмотра HTML - документов и

других информационных ресурсов Jnternet. Наиболее распространены: MS Internet Explorer и Netscape Navigator.

Кроме указанного, следует назвать JAVA – объектноориентированный язык для создания распределенных прикладных Web-систем. Позволяет выполнять

программы непосредственно на ПК клиента, CGI-стандарт, позволяющий Web- 15 серверам запускать внешние прикладные программы.

ПОИСК НАУЧНО-ТЕХНИЧЕСКОЙ ИНФОРМАЦИИ В СЕТИ ИНТЕРНЕТ. ПОИСКОВЫЕ СИСТЕМЫ, ТЕМАТИЧЕСКИЕ РЕСУРСЫ

Одним из основных способов найти информацию в Internet являются поисковые машины или поисковые сервера, на которых расположено специальное программное обеспечение для осуществления поиска - поисковые инструменты.

Существуют различные поисковые инструменты. Все они располагаются на специально выделенных сетевых компьютерах с мощными каналами связи. Все они ежеминутно обслуживают огромное количество посетителей и требуют от своих владельцев значительных затрат на поддержку и обновление. Тем не менее, почти все они отвечают на запросы пользователей совершенно бескорыстно. Оплачивают эти услуги спонсоры и рекламодатели.

Автоматизированные методы поиска и извлечения информации в Web можно разделить на поисковые системы и службы.

В системах поиска для индексирования Web-документов применяются программы-роботы. Такие инструменты имеют пользовательский интерфейс для спецификации запросов и просмотра результатов. Их ядром является поисковая машина, отвечающая за обработку индекса и извлечение документов, релевантных запросу пользователя. Классификация поисковых систем основана на том, кто набирает базу данных, в которой производится поиск: люди или компьютеры.

Поисковые системы делятся на два вида:

поисковые системы первого рода (предметные, или тематические каталоги - subject catalog) - люди

поисковые системы второго рода (поисковые системы, или автоматические индексы, spiders, crawlers) - компьютеры.

Тематические каталоги (поисковые системы первого рода)

В каталог информация заносится по инициативе отдельных групп людей. Добавляемая страница должна быть жестко привязана к принятым в каталоге

критериям. Результатом является постоянно обновляющийся иерархический (древовидный) каталог, на верхнем уровне которого собраны самые общие категории, такие как «бизнес», «наука», «искусство» и т.п., а элементы самого нижнего уровня представляют собой ссылки на отдельные Web-страницы и сервера вместе с кратким описанием их содержимого.

Предметные каталоги предоставляют возможность автоматического поиска по ключевым словам. Только поиск происходит не в содержимом самих web-серверов, а в их кратких описаниях, хранящихся в каталоге (!!!).

Тематическими каталогами являются Yahoo, WWW Virtual Library, Galaxy и

др.

Автоматические индексы (поисковые системы второго рода)

Эти поисковые системы постоянно исследуют Internet с целью пополнения своих баз данных документов.

Программа, в которую загрузили несколько тысяч общеизвестных URLадресов, начинает автоматически скачивать из сети документы по этим URL,

причем из каждого нового документа она извлекает все содержащиеся в нем ссылки

16

и добавляет их в свою базу адресов.

Автоматический индекс состоит из трех частей: программы-робота, собираемой этим роботом базы данных

интерфейса для поиска в этой базе данных.

Автоматическими индексами являются поисковые системы AltaVista, Excite, Lycos, WebCrawler и др.

Поисковые службы рассылают запросы пользователя одновременно нескольким поисковым серверам и обращаются к некоторым другим источникам информации. Затем они объединяют полученные результаты и представляют их пользователю в виде HTML-страницы с активизируемыми URL-ссылками.

Поиск по запросам (ключевым словам) и по шаблонам Простейший и самый употребимый способ составления запроса -

перечисление через пробел нескольких ключевых слов: компьютерные технологии (поиск документов, содержащих оба или одно из слов компьютерные и технологии).

Список поисковых инструментов

AltaVista

http://altavista.digital.com

Excite

http://www.excite.com

InfoSeek

http://www.infoseek.com

Lycos

http://www.lycos.com

Yahoo

http://www.yahoo.com

WebCrawler

http://www.webcrawler.com

MetaCrawler

http://metacrawler.cs.washington.edu:8080

HotBot

http://www.hotbot.com

 

 

В среде Web для повышения эффективности поиска целесообразно, кроме броузеров, применять поисковые серверы и каталоги Web, использующие ключевые слова. Таких средств более 500.

СИСТЕМА MICROSOFT INTERNET EXPLORER

Для начала поиска информации в Internet можно использовать Internet Explorer из под WS. Окно этого броузера имеет стандартный для WS - приложений вид с меню и инструментальными панелями(ИП).

Перед началом работы необходимо ввести в строку "адрес URL" – адрес сервера или выбрать его из списка.

После завершения поиска в рабочей части экрана появляется начальная страница информации, где выделены цветом и подчеркнуты гиперсвязи, что можно использовать для быстрого знакомства с документом и поиска нужной информации. Для исключения повторов при просмотре цвет использованных связей меняется.

Поиск по нужному слову в длинных документах можно выполнить с помощью пункта Правка/Найти. Возвращение назад, прекращение поиска выполняется кнопками ИП. При поиске можно открыть несколько документов, которые будут храниться в КЭШ - памяти на винчестере. Их имена – внизу раскрывающегося окна. Сохранение необходимой информации выполняется отметкой необходимого фрагмента документа, копированием или записью с использованием пункта

Файл/сохранить как...

При сохранении нужно учитывать тип информации (текст, таблица, рисунок и 17 т.д., так как броузер помещает скопированные файлы в соответствующие приложения (текстовый редактор, электронные таблицы и т.п.). Для неинсталлированных приложений необходима установка дополнительных программ вьюверов - просмотрщиков.

ОСНОВЫ РАБОТЫ С СУБД ACCESS

Access - это система управления реляционной БД, позволяющая формировать данные и решать задачи управления ими. В плане обработки информации Access обладает значительно большими возможностями, чем ЭТ.

Работе с БД должно предшествовать определение количества, структуры и взаимосвязи таблиц, входящих в БД, состав каждой таблицы и документов, которые необходимо получить по информации БД.

Основные операции, выполняемые в Access следующие:

1.Вход в систему Access выполняется щелканием по его ПГ. Далее задается имя файла новой БД в диалоговом окне, вызываемом командой Файл/Создать...

После этого открывается диалоговое окно "База данных", которое является основным управляющим окном при работе в системе.

2.В Access создание таблиц может быть выполнено способом прямого конструирования и с помощью Мастера таблиц.

Построение с помощью Мастера таблиц выполняется:

- клавишей "Таблица" открывается окно "Создание таблиц" (СТ); - в окне СТ щелканием по кнопке Мастер открывается окно "Разработка

таблиц". Здесь в образцах таблиц выбирается нужная: Задачи, Заказчики и т.д.

В образцах полей выбираются необходимые, которые будут именами столбцов таблицы. Выбор заканчивается включением кнопки >>. В последующих диалоговых окнах Мастера таблиц можно задать имя таблицы и другие параметры. В результате выводится таблица с поименованными колонками и пустыми клетками, которые заполняются информацией, как в ЭТ.

3.В сформированной таблице или при ее заполнении возможны следующие корректировки:

- изменения в выделенных клетках выполняются поверх имеющихся данных; - информацию клеток или их групп можно вырезать, копировать, вставлять

соответствующими командами меню Правка или кнопка ИП; - перемещение выделенных фрагментов таблицы БМ; - вставка новой строки пункта Правка/Вставка строки.

Необходимо помнить, что внесение изменений в тип данных и форму таблицы возможны только в режиме конструирования, который включается из пункта Вид.

4.Создание форм. Запись БД в Access может быть представлена в виде формы, которая содержит названия колонок и данных одной записи.

Формы можно создавать отдельно или с их помощью просматривать и корректировать записи в уже созданных таблицах. Переключение в окно форм выполняется из ОБД кнопкой ―Форма‖ (Form).

5.Сортировка записей выполняется при открытой таблице, где выделяются колонки для сортировки. Команда на сортировку (по возрастанию или убыванию) 18 осуществляется кнопкой ИП через пункт Записи/Быстрая Сортировка.

6.СУБД Access предоставляет несколько способов поиска: простой, с применением фильтра, запросы.

Простой поиск может быть выполнен скроллингом, но удобнее использовать информацию в форме, где указывается поле поиска (ЩЛ), а далее пункт Правка/Найти или соответствующей ПГ в диалоговом окне указываются данные для поиска.

Фильтр - это поиск записей по заданным критериям. Выполняется из окна "Фильтр", открываемого пунктом Записи/Изменить фильтр. Нужные поля из описываемого бокса двойным ЩЛ помещаются в таблицу, вводятся критерии. Выполнение фильтрации осуществляется пунктом Записи/Применить фильтр.

Запрос - это обращение к БД для поиска или изменения информации, соответствующей нескольким заданным критериям. При этом имеется возможность сохранения формы запроса для его многократного использования.

Вход в режим выполняется из ОБД вкладкой Запрос/Создать, далее в окне ―Создание Запроса‖ используется кнопка Новый Запрос. Затем выбираются необходимые таблицы и в окне ―Запрос - выборка‖ формируется задание на выборку аналогично построению фильтра. Просмотр результатов - пункт Запрос/Запуск.

7.Отчет - представляет собой документ в виде сводки необходимой информации, выбранной из БД. В эту сводку могут быть включены не все, а некоторые из столбцов ранее изготовленной таблицы или запроса. Часто - итоговые данные.

Создание отчета начинается с включения вкладки Отчет/Создать в окне ОБД и перехода в окно ―Создание отчета‖. Далее выбираются из списка необходимые таблицы (запросы) и используются подходящие Мастера отчетов. Перемещения по диалоговым окнам Мастера позволяет выбрать необходимые поля для отчета, внешний вид и заголовок. По окончании формирования отчета, нажатием кнопки Готово, Access выводит внешний вид отчета для просмотра. После сохранения отчет может быть отпечатан пункт Файл/Печать.

СИСТЕМА ОПТИЧЕСКОГО РАСПОЗНАВАНИЯ FineReader (FR)

FR предназначена для автоматизации ввода в ПК типографских документов. Работает в среде Windows. Обеспечивает распознавание до 99,6%символов.

Технология оптического распознавания, или OCR (от англ. Optical Character Recognition), позволяет преобразовывать различные типы документов (например, бумажные документы, PDF-файлы или фотографии текстов, полученные при помощи цифровой камеры) в редактируемый вид с возможностью полнотекстового поиска. Это может быть книга, газета, журнал, факс - любой документ, который надо перенести в компьютер в электронном виде.

Допустим, вам необходимо оцифровать журнальную статью или договор. У вас два пути: либо несколько часов перепечатывать текст на компьютере и затем править ошибки, либо за несколько минут отсканировать его (или сфотографировать цифровой камерой) и обработать специальной программой для оптического

распознавания символов.

19

Принцип работы OCR-систем:

OCR-системы очень просты в своем использовании. Достаточно выполнить всего 3 действия:

Вы вставляете документ в сканер; Нажимаете кнопку "Сканировать и распознать";

И распознанный текст появляется в окне текстового редактора (например, MS

Word).

Если у вас под рукой нет сканера, то вам придет на помощь цифровой фотоаппарат или мобильный телефон с фотокамерой:

Вы фотографируете документ или часть документа; Подключаете фотоаппарат к компьютеру и нажимаете кнопку "Получить изображение и распознать";

И распознанный текст появляется в окне текстового редактора (например, MS

Word).

Программа ABBYY FineReader позволяет анализировать и распознавать документы.

1. Сначала ABBYY FineReader анализирует структуру документа. Программа делит страницы на элементы: блоки текста, таблицы, картинки и т.п. Строки разбиваются на слова, а слова – на отдельные буквы.

2. После этого программа сравнивает найденные символы с шаблонными изображениями букв и цифр. Программа выдвигает множество гипотез относительно каждого из символов. Основываясь на этих гипотезах, программа рассматривает различные варианты разделения строк на слова и слов на символы. Проанализировав гигантское число возможных гипотез, программа принимает окончательное решение и выдает пользователю распознанный текст. Кроме того, в программу ABBYY FineReader встроены словари для 36 языков. Это позволяет проводить дополнительный анализ на уровне слов. Словари обеспечивают еще более точный анализ и распознавание и облегчают дальнейшую проверку распознанного текста.

3. Преимущества использования ABBYY FineReader

Распознанные при помощи FineReader документы выглядит точно как оригинал. Программа позволяет вам экономить время и усилия при создании, обработке и повторном использовании документов.

Вы можете извлекать цитаты из книг и журналов и легко вставлять их в свои тексты, не перепечатывая каждое слово.

В связке с цифровым фотоаппаратом FineReader может использоваться для распознавания текстов на улице (например, плакатов, объявлений, расписаний).

Приложение можно использовать и для создания архивов PDF-документов с возможностью полнотекстового поиска.

4. Работа с FR

Главное окно системы FR включает управляющее меню, инструментальные панели и рабочее поле. Работа в FR выполняется в три этапа: сканирование, распознавание, редактирование.

Сканирование выполняется при физически и программно установленном

сканере. Для качественности распознавания перед началом работы в диалоговом окне установки сканера (пункт Scаn&Read) задаются необходимые параметры: тип 20 изображения, формат, ориентация, разрешение и яркость. Выполнение сканирования производится по команде: пункт Scаn&Read Сканирование. После завершения процесса в рабочем окне появляются окна:"Изображение", "Крупный план" и "Текст". Полученный файл для дальнейшей обработки необходимо сохранить в формате FRF (пункт Файл/Сохранить как...).

Распознавание, т.е. формирование системой истинного образа документа, включает настройку системы на документ, разбиение документа на блоки и распознавание блоков. Настройка заключается в задании параметров распознавания (язык текста, тип и расположение) в диалоговых окнах Сервис/Опции/Распознавание и Сервис/Опции/Страница. Разбиение документа на блоки (текстовые, табличные и т.д.), т.е. зоны, ограниченные рамками с соответствующей нумерацией выполняется автоматически или вручную командами пункта Редактор/Выделить блоки. Распознавание разделенного на блоки документа выполняется командой Scаn&Read/Распознавание. Во время распознавания обработанная часть выделяется цветом в окне "Изображение", а после окончания появляется окно "Текст" с содержанием документа.

Редактирование документа включает корректировку, орфографический контроль и сохранение текста. Корректировка выполняется для первичного уточнения текста командами пункта Редактор, т.е. средствами встроенного текстового редактора.

Проверка орфографии производится с помощью встроенной в FR системы Lingvo Corrector, которая позволяет находить ошибки и неуверенно распознанные слова, корректировать ненужные пробелы и т.п. Эта операция выполняется через пункт Сервис/Орфография.

Сохранение документа (пункт Файл/Сохранить как...) может быть выполнено: для текстовых блоков - в форматах ТХТ, RTF; для таблиц и форм - в форматах

CSV, DBF, XLS.

5. К дополнительным возможностям FR можно отнести: Обучение системы распознанию "плохих" текстов.

При хорошем полиграфическом качестве документа используется режим омнифонт (см. Сервис/Опции/Распознавание), в котором каждый символ автоматически сравнивается с имеющимся в базе данных образцами. При не качественности сканируемого документа используется распознавание с обучением (включается соответствующий флаг в окне "Сервис/Опции/Распознавание"). При этом пользователь, просматривая документ, выделяет плохо различимые символы и объявляет их названия системе, которая использует их при дальнейшей работе.

Режим пакетной обработки.

Используется при вводе больших объемов однотипных документов практически без участия пользователя. Реализуется со сканером, имеющим механизм автоподачи страниц. Включается кнопкой Scan&Read на ИП. Этот режим очень удобен для подготовки табличных файлов перед вводом их в БД.

Распознавание форм.

Обеспечивает ввод переменной информации с однотипных документов. Здесь блоки делятся на реперные (нераспознаваемые) и распознаваемые, затем формируется