Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Билеты Масевич.doc
Скачиваний:
0
Добавлен:
20.12.2018
Размер:
389.63 Кб
Скачать

50 Партнеров

Организация и управление прототипы и стандарты

Долговременное хранение цифровых документов

В чем проблема сохранности цифровых материалов? (из доклада Барбары Сирмен)

  • Электронные документы создаются с помощью специальных программных средств и предназначены для использования в определенной программно-аппаратной среде. Это весьма осложняет проблему их сохранности. Коммерческие фирмы разрабатывают новые программно-аппаратные средства, а средства предыдущего поколения перестают использоваться. Доступ к объектам, созданным с помощью средств прежних поколений, может быть утрачен, если не будут приняты соответствующие меры. Вопрос долгосрочной сохранности – это прежде всего разработка таких мер.

  • Сегодня практически каждое учреждение имеет свой сайт или электронный архив. Объемы информации, подлежащей хранению, постоянно растут. Чрезвычайно важна кооперация, так как проблема выходит за рамки возможностей одной организации.

Массивы электронных документов в национальных библиотеках

  • Проекты оцифровки, отдельные примеры:

  • Великобритания: 100000 книг свободных от копирайта будут в ближайшее время оцифрованы

  • В Нидерландах планируется оцифровка 8 млн страниц газет

  • Проект Gallica в национальной библиотеке Франции

  • В Чехии уже оцифровано несколько млн листов старопечатных книг и рукописей

Массивы электронных документов в национальных библиотеках

  • Документы созданные в электронной форме:

  • Электронные книги и журналы во многих странах уже охвачены законом об обязательном хранении. Их количество постоянно растет

  • Так например, электронный архив Королевской библиотеки Нидерландов содержит 9 млн статей из 2800 естественнонаучных и технических журналов, и охватывает продукцию всего лишь 8 издательств.

Массивы электронных документов в национальных библиотеках

  • Web материалы - результаты автоматизированного сбора материала (harvesting), примеры:

  • Королевская библиотека Дании за три месяца собрала 5,3 терабайта информации

  • Национальная библиотека Франции за 2004 год собрала 3 терабайта информации

  • Один терабайт по приблизительной оценке соответствует 13,5 млн страниц

Билет № 20 Третий период истории автоматизированных информационных систем

Третий период развития ИПС условно можно отнести на 1975 – 1995 гг.

Начало этого периода отмечено началом активной деятельности таких фигур как Билл Гэйтс и Пол Ален, которые занимаются лицензированием новых разработок в области технических и программных средств компьютера ALTAIR, создают собственную компанию, в этом же году они создают компанию Micro-Soft (дефис в названии позднее убран) (1975). Эд Робертс (Ed Roberts) придумывает термин «персональный компьютер» (1975) для рекламной компании компьютера ALTAIR.

С 1981 года операционная система PC-DOS 1.0 поставляется вместе с новым компьютером IBM PC. Вскоре после этого в том же году корпорация Microsoft выпускает MS-DOS и выдает лицензии на MS-DOS всем желающим.

В 1990 году выходит операционная оболочка WINDOWS 3.0.

По данным, приведенным компьютерным обществом (Computer Society), только за декаду с 1970 по 1980 этой организацией напечатано более 25,000 страниц научных публикаций по разным вопросам компьютерной техники: более 13,500 страниц для the «IEEE Transactions on Computers, более 4,100 страниц для «IEEE Transactions on Software Engineering, более 400 страниц для «IEEE Transactions on Pattern Analysis & Machine Intelligence», and более 8,000 страниц для «Computer». (публикация в Интернет)

Это время характеризуются усилением роста информационных сетей разного уровня. Возникают в большом количестве региональные (например, библиотечные сети Германии и Италии (1980-е), отраслевые (например, сети медицинских и сельскохозяйственных библиотек США) и функциональные сети (университетские сети в Великобритании (1987), Швеция (1980), Австрия (1980) и др.

В библиотеках (особенно национальных библиотеках развитых стран) в этот период уже существуют электронные каталоги на новые поступления, весьма активно осуществляется ретроспективная конверсия карточных каталогов, т.е. ввод содержащейся на карточках информации в электронные информационные системы. К концу рассматриваемого периода (кое-где чуть позднее) в большинстве национальных библиотек развитых стран карточные каталоги вышли из употребления.

В 1977 в целом завершены разработки ARPA, и начинает действовать система ARPANET, которая позднее перерастёт во всемирную сеть Интернет.

Развиваются мощные информационные системы доступные через системы теледоступа, напр. STN (1977).

1989 год – год изобретения языка HTML, протокола HTTP, разработки программ, известных под названием браузер (Tim Berners-Lee в CERN - Centre Européen de Recherche Nucléaire ‑, Женева). 13 ноября 1990 года выпущен первый html документ. В 1992 году начинают работать около 23 серверов World Wide Web, а уже в 1993 году WWW составляет 85% всего времени работы Интернет. Таким образом, если до этого изобретения компьютерная коммуникация была возможной только для специалистов, то теперь она стала возможной для пользователей.

В конце 89-х начале 90-х годов возникают массивы цифровых текстов – отсканированных материалов с последующим распознаванием и без распознания текстов, а также изначально созданных в цифровой форме. Возникает идея массовой оцифровки фондов крупных библиотек, инициируются соответствующие программы и учреждения. В 1995 году создаётся Федерация Цифровых Библиотек (DLF – Digital Library Federation)

В 1995 году в городе Дублине, Огайо, США разрабатывается так называемое «дублинское ядро», т.е. набор метаданных для описания Интернет ресурсов. Этот формат описания отличает компактность, в отличии от традиционного библиографического описания, которое бывает довольно развернутым.

В 1995 же году издаётся протокол Z39.50 (ему предшествовала разработка и публикация серии стандартов ISO (1987 – 1990 годы) по взаимодействию открытых систем, абстрактному синтаксису, общим системам кодирования, и, наконец, общему языку команд) этот протокол становится одним из основополагающих.

Это стандарт который позволяет разделение пользовательского интерфейса и базы данных. Пользователь имеет возможность работать с распределённой базой данных.

Через сайты многих крупных библиотек появился доступ сразу ко многим библиотекам. Возникли также распределенные каталоги.

В эти же годы разрабатывается система кодов UNICODE, позволяющая отображение всех систем письма.

После научных дискуссий и под влиянием внешних технологических факторов, массовое распространение получили системы, названные «бестезаурусными», или системами поиска по свободному тексту (free-text searching systems). Особенностью их является, с одной стороны, отказ от лексического контроля и тем самым отказ от учета парадигматики, а с другой – широкое использование контекста и синтагматических связей.

Внешние технологические факторы заключались в потребности информационной инфраструктуры в обработке большого числа машиночитаемых баз данных (на магнитных лентах). Как правило, эти базы данных (БД) содержали краткое библиографическое описание документов, включая текстовые поля – заглавие, аннотацию, реферат, представленные на естественном языке, и, напротив, не содержали поисковых образов документов с нормализованной лексикой. БД создавались, как правило, в одних местах – в специализированных организациях–генераторах баз данных, а использовались в других, так что процессы первичной семантической обработки документов и обработки запросов оказались разорванными. В этих условиях наиболее оптимальными показали себя вышеназванные системы. Были достигнуты неплохие результаты в области автоматического индексирования. Появились системы, где автоматическое индексирование осуществлялось уже в промышленном режиме (например, в ИПС "Скобки").

Другие направления исследований этого периода – это модели поиска (выбор критерия смыслового соответствия) и способы оценки систем. Несмотря на большое число исследований, посвященных вероятностно-статистическим моделям, на практике, в основном, стали использоваться ИПС с булевскими операторами. Преобладание булевских систем отчасти можно объяснить их простотой. “Прозрачность” булевского поиска совпала с развитием диалоговых средств поиска. Возможность получать промежуточные результаты поиска, возможность корректировать поисковое предписание по данным обратной связи для большинства пользователей оказались достаточными, чтобы удовлетвориться результатами поиска с помощью существующих систем.

Таким образом, к середине 70-х сформировался и на долгие годы стал преобладающим класс систем, получивших наибольшее распространение и работающих в режиме промышленной эксплуатации.

Этот класс систем отличают следующие особенности:

  • ИПЯ посткоординируемого типа на основе ключевых слов.

  • Логический критерий смыслового соответствия на основе булевой логики.

  • Специальные контекстные операторы для учета синтагматики.

  • Поиск по свободному тексту (как правило, представленному рефератами).

  • Диалоговый режим поиска.

  • Оценка эффективности поиска на полноту и точность.

  • Управление показателями поиска на основе данных обратной связи.

  • Широкое распространение систем поиска в режиме ИРИ.

Для данного этапа характерно превращение ИПС в “средство производства”: появляются мощные коммерческие информационные службы, осуществляющие генерацию машиночитаемых документальных баз данных и поиски по запросам. Программное обеспечение ИПС начинает распространяться в виде пакетов прикладных программ, сравнительно легко адаптируемых к условиям конкретных пользователей и организаций. Встает и решается вопрос об унификации языковых средств. Эта унификация выражается в создании единых форматов обмена документальными массивами (в СССР был созданы коммуникативные форматы ГКФ (1978-1979 гг.), затем МЕКОФ (1984-1985 гг.)). А в 1997 в России введен в употребление Российский национальный формат RUSMARC.

В попытках унификации языков запросов с целью создания единого командного языка.

Можно сказать, что, в конечном счете, такой язык был создан, но позже, и не как отдельный язык, а в составе поискового протокола Z39.50.