Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

УП ВСС

.pdf
Скачиваний:
20
Добавлен:
11.06.2015
Размер:
5.76 Mб
Скачать

Перспективными задачами этой организации и, соответственно, перспективами WWW являются:

обеспечение универсального доступа каждого пользователя к технологиям и ресурсам WWW с учетом различий людей

вкультуре, образовании, способностях, материальных возможностях, а также с учетом их физических ограничений;

разработка программного обеспечения, позволяющего взаимодействовать с WWW на смысловом или семантическом уровне.

создание инфраструктуры (доверия), обеспечивающей необходимый уровень информационной защиты и приватности для решения правовых, экономических и социальных проблем информационного общества.

Одной из главных задач W3C является стандартизация web-технологий посредством разработки спецификаций в виде «Рекомендаций», описывающих основы технологии WWW.

Понятия гипертекст и гипертекстовая ссылка является

ключевыми в технологии WWW.

Термин гипертекст1 был введен американцем Тедом Нельсоном в 1965 году для описания документов, имеющих нелинейную структуру изложения содержимого текста, в противоположность линейной структуре традиционных источников информации (книг, фильмов и речи).

Одним из наиболее полных определений гипертекста является следующее. Гипертекст – технология нелинейного, ветвящегося и взаимосвязанного представления документа, позволяющая пользователю знакомиться с содержимым документа в последовательности, которую он сам выбирает.

Простейший пример идеи гипертекста, как технологии нелинейного представления текста документа, реализован на этой странице.

Говоря о гипертексте, автор вводит сноску, текст которой расположен в конце страницы. В данном случае содержание сноски, сделанной автором, дается определение понятия гипермедиа близкого по смыслу к понятию гипертекст.

Читатель, по замыслу автора, просматривая третий абзац и, увидев сноску, может перейти сразу к тексту сноски, не прочитывая весь текст на данной странице.

1 Позднее появился термин гипермедиа близкий по смыслу к гипертексту, но подчеркивающий наличие в гипертексте нетекстовых компонентов, таких как анимация, звук и видео.

111

Вэтом и заключается сущность нелинейного представления информации. В данном случае информация была бы представлена линейно, если бы текст сноски следовал за пятым абзацем предыдущей страницы.

Вполноценных гипертекстовых документах, а тем более Internet, информационные связи гораздо сложнее, поскольку WWW связывает информацию, содержащуюся не только в разных документах (файлах), а и в документах, находящихся на разных узлах вычислительной сети.

Гипертекстовая ссылка – активная часть гипертекстового документа, которая помимо смысловой нагрузки содержит путь (адрес) к другому документу или ресурсу доступного гиперпространства. При выборе гипертекстовой ссылки в электронном документе осуществляется переход по адресу гипертекстовой ссылки.

Гипертекстовые документы представляют собой текстовые документы в стандарте ASCII или Unicode, содержащие коман-

ды специального языка – HTML (HyperText Markup Language –

язык гипертекстовой разметки).

Команды HTML, которые называются тэгами, позволяют структурировать документ, выделяя в нем логически различающиеся части текста (заголовки разных уровней, абзацы, перечисления и т.д.). Специальные тэги используются для описания гипертекстовых ссылок.

Внедрение команд форматирования в текст позволяет клиентской программе для просмотра web-станиц – webбраузеру – наилучшим образом отображать данный гипертекстовый документ на экране каждого пользователя. Таким образом, гипертекстовый документ, созданный с использованием языка HTML, не содержит жесткого форматирования как, например, документы ряда офисных приложений.

На рис. 1.32 показан фрагмент гипертекстового документа в виде html-файла.

112

Рис. 1.32. Фрагмент html-файла

При загрузке этого документа из сети Internet программа просмотра web-страниц выполняет встроенные в данный текстовый файл команды языка HTML. При отображении html-файла на экране с помощью web-браузера теги не показываются.

Таким образом, команды языка HTML, внедренные в текстовый документ, определяют облик web-страницы.

Язык HTML позволяет также включать в документы иллюстративную графику, которая может быть отображена программами просмотра, основанными на использовании графического интерфейса пользователя.

Документ, на который указывает гипертекстовая ссылка, может находиться как на том же www-сервере, что и исходный документ, так и на любом другом узле в сети Internet.

Областью документа, используемой в качестве ссылки, может служить слово, группа слов, графическое изображение или даже заданный фрагмент изображения. Кроме этого, программы просмотра web-страниц позволяют работать с файлами мультимедиа, содержащими видео и звук, посредством использования программ поддержки мультимедиа, установленных на локальном компьютере.

113

Служба World Wide Web построена с использованием рас-

пространенной «клиент-серверной» архитектуры (рис. 1.33)

взаимодействия сетевого программного обеспечения [1].

 

Пользователь

 

 

Web-сервер

 

 

Web-браузер

Протокол HTTP

 

Web-cервер

 

 

(клиент)

 

 

 

 

 

 

 

 

Прикладные

Прикладные

Шлюз

html-файлы

html-формы

программы

программы

 

 

 

мультимедиа

сетевых служб

 

 

 

 

 

 

 

Звук

Видео

Аним.

WAIS SMTP TELNET

FTP

 

 

Программы-шлюзы

 

 

 

 

 

Прикладные

 

 

 

 

 

доступа к другим

 

 

 

 

 

программы

службам сети

 

 

 

 

 

 

 

 

 

 

 

 

 

 

WAIS SMTP

TELNET FTP др.

 

 

 

Рис. 1.33. Архитектура WWW

 

Как показано на рис. 1.33 взаимодействие между клиентской и серверной частями службы WWW осуществляется по прикладному протоколу HTTP.

Функции клиентской части службы реализуются webбраузером, который обеспечивает интерфейс пользователя, а также доступ практически ко всем информационным ресурсам

Internet.

Задачи серверной части службы решает сервер, функционирующий в соответствии с протоколом HTTP – web-сервер. Основная задача web-сервера заключается в обработке запросов пользователей, поступающих из сети на транспортный порт 80. В качестве транспортного протокола для передачи данных по сети служба WWW использует протокол TCP. Получив очередной запрос, web-сервер в зависимости от его содержания предоставляет пользователю доступ к базе данных документов

вформате html, html-формам, а также посредством универсального шлюза к различным прикладным программам и служ-

бам сети Internet.

База данных HTML-документов – это текстовые файлы

вформате HTML и связанные с ними графические, мультимедийные и другие ресурсы (например, Java-скрипты и др.).

114

Программы-шлюзы – это программы, обеспечивающие взаимодействие сервера с серверами других протоколов, на-

пример ftp, telnet и др.

Прикладные программы – это программы, принимающие данные от сервера и выполняющие с ними действия, определенные в запросе пользователя: получение текущей даты, доступ к локальным базам данных, вызов приложений и др.

После краткого обзора возможностей службы WWW и ее архитектуры, рассмотрим базовые технологические решения, положенные в ее основу, которые сделали эту службу наиболее универсальной, наиболее удобной для пользователя и, как следствие, наиболее популярной в современной сети Internet.

Вистории Internet Тима Бернерса-Ли не случайно считают «отцом» технологии WWW. Это обусловлено тем, что он не только высказал идею создания единого гипертекстового пространства для объединения множества информационных ресурсов вычислительной сети, но и непосредственно приступил к

еереализации.

Врезультате исследований, проводимых в рамках проекта «Гипертекст» в CERN, были предложены три из четырех наиболее важных элементов WWW:

1.HTML (HyperText Markup Language – язык гипертек-

стовой разметки).

2.URL (Uniform Resource Locator – универсальный спо-

соб адресации ресурсов).

3.HTTP (HyperText Transfer Protocol – протокол обмена гипертекстом).

Несколько позднее разработчики NCSA во главе с Марком Андреессеном разработали еще одну фундаментальную технологию, ставшую четвертым базовым элементом WWW.

4.CGI (Common Gateway Interface − универсальный ин-

терфейс шлюзов).

С точки зрения программиста html-документ представляет собой набор вложенных элементов, называемых контейнерами, в которых размещается: текст; графика; гипертекстовые ссылки; инструкции управления отображением.

Каждый контейнер начинается последовательностью:

<имя_элемента список_атрибутов>

изаканчиваетсяпоследовательностью (примерынарис. 1.32):

</имя_элемента>.

115

Первая последовательность называется тэгом начала элемента, а вторая – тэгом конца элемента1. Инструкции управления отображением также являются тэгами - тэгами начала2.

Каждый html-документ начинается со строки декларации версии HTML <!DOCTYPE>, которая обычно выглядит так:

<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 3.2

Final//RU">

Эта строка информирует браузер о версии языка HTML (в приводимом примере – версия 3.2).

После объявления версии и типа документа необходимо обозначить его начало и конец. Это делается с помощью тэгаконтейнера <HTML>. Необходимо запомнить, что любой htmlдокумент открывается тэгом <HTML> и им же закрывается.

Следующими обязательными контейнерами являются <HEAD> и <BODY>, которые описывают заголовок документа и тело документа, соответственно.

Обобщенная структура простейшего html-документа показана на рис. 1.34, из которого видно, что html-документ состоит из двух основных блоков – «Заголовка» и «Тела документа»3.

Заголовок содержит «техническую» информацию о документе, хотя, чаще всего, используется только для обозначения его названия.

Тело документа содержит отображаемую браузером информацию.

Декларация документа

<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 3.2 Final//RU">

<HTML>

<HEAD>

Заголовок Название документа и техническая информация,

например, информация для индексации поисковыми серверами

</HEAD>

1В описании тэга конца элемента обязательно присутствует символ «/».

2В процессе эволюции языка HTML для ряда элементов потребность в тэгах конца элемента утратилась, поэтому такие элементы превратились в элементы управления отображением.

3Одной из наиболее распространенных ошибок является размещение заголовка в теле документа или, наоборот, что совершенно недопустимо. Сначала необходимо закрыть заголовок </HEAD>, затем только открыть «Тело документа».

116

<BODY>

Тело документа Текст, графика, видео, анимация и др.

</BODY>

</HTML>

Рис. 1.34. Структура html-документа

Графические изображения встраиваются для отображения в браузере тэгом <IMG> в следующем формате:

<IMG SRC=адрес_графического файла ALIGN=атрибут_вырав-нивания BORDER=ширина_рамки HSPACE=горизонтальный_от-ступ VSPACE=вертикальный отступ>.

Гипертекстовые ссылки встраиваются в html-документ элементом <А>. Полная форма записи этого тэга имеет следующий вид:

<A HREF=адрес_ресурса TARGET=имя_окна> идентификатор ссылки </A>.

Вторым составным элементом технологии WWW является

URL (Uniform Resource Locator) универсальный способ адресации ресурсов1.

URL является подвидом более широкой спецификации, принятой в качестве стандарта Internet, и описанной в RFC 1630 (автор Тим Бернерс-Ли) – URI (Universal Resource Identifiers –

универсальный идентификатор ресурсов).

URI определяет способ записи (кодирования) адресов различных информационных ресурсов при обращении к ним из страниц WWW. Разработка URI была первоочередной задачей для разработчиков WWW, т.к. предполагалось объединение в единую информационную среду средств, использующих различные способы идентификации информационных ресурсов.

Место применения URI – гипертекстовые ссылки, которые записываются в тэге <A HREF=URI>. Встраиваемые графические объекты также адресуются по спецификации URI в соответствующем тэге.

В соответствии с RFC 1630 URL – это реализация схемы URI применительно к адресации сетевых ресурсов по прикладным протоколам, т.е. разновидность URI для WWW2.

1Далее будем использовать название – универсальный адрес.

2В RFC 1630 введено также понятие URN (Uniform Resource Name) – универсальная форма адресации по имени.

117

Универсальный адрес URL используется в гипертекстовых ссылках (тэг <A HREF=URI>) при внедрении графических объектов (тэг <IMG SRC=URI>) и обеспечивает доступ к распределенным ресурсам сети. Универсальность URL заключается в том, что, во-первых, URL можно использовать для адресации различных типов сетевых ресурсов, а не только гипертекстовых документов и, во-вторых, URL позволяет адресовать различные типы ресурсов не только в пределах одного узла сети, но и в пределах всей сети Internet. Без преувеличения можно сказать, что без URL вся мощь HTML оказывается бесполезной.

Универсальный адрес состоит из трех частей [3]:

1.Метод доступа к сетевому ресурсу, чаще всего обозначается именем прикладного протокола службы, которой принадлежит данный ресурс – method;

2.Сетевой адрес узла вычислительной сети, на котором хранится адресуемый ресурс (сетевым адресом может быть доменное имя или IP-адрес) – host.domain;

3.Полный путь к файлу на адресуемом узле вычислительной сети – path.

Сучетом этого полный формат универсального адреса URL имеет следующий вид:

method://host.domain[:port]/path/filename.

Параметр port – номер порта сервера число, которое необходимо указывать, если сервер, предоставляющий доступ к ресурсам, имеет отличающийся от стандартного номер порта. Если сервер обрабатывает запросы с использованием номеров портов «по умолчанию» (т.е. стандарт), то данный параметр URL можно опустить. Стандартными номерами портов являют-

ся: 21 – FTP; 23 – Telnet; 70 – Gopher; 80 – HTTP и др.

Благодаря такой спецификации и обеспечивается универсальность URL, позволяющая адресовать как гипертекстовые документы, так и другие ресурсы, например, E-mail, и др.

Всего в RFC 1630 рассмотрено 8 схем адресации ресурсов Internet. Рассмотрим наиболее распространенную схему.

Схема HTTP. Это основная схема для WWW, позволяющая адресовать гипертекстовые документы, т.е. html-файлы.

Это наиболее распространенный вид URL, применяемый в документах WWW. Вслед за методом схемы (http) следует путь, состоящий из доменного адреса машины и полного адреса htmlдокумента в файловой системе web-сервера.

118

http://

www.urgi.ru

/Ekfacultet/mirs/

zaniatie_1.html

метод

доменное имя

путь к файлу

имя файла

доступа

узла

на сервере

 

В качестве адреса машины допускается использовать и IP адреса, например:

http://

194.22.11.33

/Ekfacultet/mirs/

zaniatie_1.html

метод

IP-адрес

путь к файлу

имя файла

доступа

узла

на сервере

 

Следующим важным элементом технологии WWW является протокол передачи гипертекста – HTTP (HyperText Transfer Protocol).

HTTP – это прикладной протокол, обеспечивающий необходимую скорость передачи данных, требующуюся для распределенных информационных систем гипермедиа. HTTP используется в технологии WWW с 1990 года. Протокол HTTP основывается на парадигме запросов/ответов в рамках «клиентсерверной» архитектуры.

Процесс обмена данными по протоколу HTTP реализуется в четыре этапа. На первом этапе программа-клиент устанавливает TCP-соединение по стандартному порту HTTP (80) на сервере, далее клиент формирует и передает серверу запрос. Сервер передает клиенту ответ, после которого либо сервер, либо клиент закрываю соединение.

После установления соединения клиент передает серверу запрос в следующем формате:

Первая строка

Метод запроса

URL

Версия протокола

Вторая строка

Управляющая

информация заголовка

Третья строка

Данные, передаваемые серверу

Метод запроса – это HTTP-команда, определяющая цель запроса клиента. Для протокола HTTP определены три основных метода: GET, HEAD и POST. Определены и другие методы, но они не так широко поддерживаются серверами, как три перечисленных (при задании имен методов учитывается регистр, поэтому GET и get различаются).

Метод GET – это запрос информации, расположенной на сервере по указанному URL.

Метод HEAD аналогичен методу GET, за исключением того, что сервер не передает в ответ на запрос сам файл. Метод

119

HEAD запрашивает только информацию заголовка требуемого файла или ресурса.

Метод POST используется для передачи серверу данных в запросе клиента. Эти данные направляются в программу обработки данных, к которой сервер имеет доступ (например, в CGIсценарий). Метод может использоваться во многих приложениях. Например, метод POST используется для работы с базами данных.

Сервер в ответ на запрос клиента возвращает сообщение в следующем формате:

Первая строка

Версия протокола

Код состояния запроса

Вторая строка

Управляющая

информация заголовка

Третья строка

Данные, передаваемые клиенту

В первой строке (Код состояния запроса) ответа HTTPсервера содержится информация о том, был запрос клиента успешным или нет, а также данные о причинах завершения запроса (успех или отказ). Эта информация обозначается трехразрядным кодом ответа сервера и сопровождается описательным сообщением.

Последняя базовая составляющая технологии WWW –

спецификация CGI (Common Gateway Interface –

универсальный интерфейс шлюзов). CGI является стандар-

том, обеспечивающим интерфейс (взаимодействие) внешней прикладной программы с информационным сервером, функционирующим по протоколу HTTP.

Спецификация CGI описывает правила создания специальных CGI-скриптов. Особый вид CGI-скрипта – программашлюз, используемая для интерактивного обмена данными с другими распределенными ресурсами и приложениями.

Задачей программы-шлюза является непосредственное взаимодействие в качестве клиента с третьей (вызываемой) программой. Например, если пользователь обращается к ftpсерверу, то шлюз играет роль клиента ftp, который инициирует соединение с ftp-сервером, формирует запрос и, получив ответ, передает его web-серверу. Аналогично происходит взаимодействие с другими программами и сервисами.

4.5. Информационная служба E-mail

Электронная почта – одна из важнейших информационных служб современной сети Internet. Сущность электронной

120