Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Билеты Масевич.doc
Скачиваний:
1
Добавлен:
20.12.2018
Размер:
293.89 Кб
Скачать

Терминология информатики

  1. Относительность терминологии

Lingua Tertii Imperii (Книга Виктора Клемперера LTI (Язык третьей империи))

Во время любой революции, политической или технологической, всегда появляется много явлений неизвестных ранее и не употреблявшихся в языке. (LTI, новояз.)

Термины «информация», «данные» и т.д.

Жаргон: «кликнуть», «скачать», «администрить» и т.д.

Для примера. Термины «документ» и «виртуальный».

2. Основные понятия информатики:

Общие понятия:

Информационно -поисковые система (ИПС)Упорядоченная совокупность данных (документов) и информационных технологий, предназначенных для хранения и поиска информации – текстов (документов) или данных (фактов).

Информационно-поисковыми системами являются любые определенным образом организованные хранилища информации.

Информационно-поисковые системы могут быть и неавтоматизированными. Главное – это целевая функция: хранение и поиск информации.Информационный продуктДокументированная информация, подготовленная в соответствии с потребностями пользователей и предназначенная или применяемая для удовлетворения потребностей пользователей (закон об обмене информацией ст.2 Федерального Закона от 4 июля 1996 г. "Об участии в международном обмене информацией")МетаданныеДанные о данныхЭлектронные информационные ресурсы Информационные ресурсы, которые поддерживаются в электронном формате и могут быть доступными через сетевые и другие электронные технологии.

Билет № 10

Технология цифровых библиотек (генерация данных, каталогизация, архивация, хранение цифрового материала, обеспечение доступа)

Третий период истории автоматизированных информационных систем

Третий период истории автоматизированных информационных систем

Третий период развития ИПС условно можно отнести на 1975 – 1995 гг.

Начало этого периода отмечено началом активной деятельности таких фигур как Билл Гэйтс и Пол Ален, которые занимаются лицензированием новых разработок в области технических и программных средств компьютера ALTAIR, создают собственную компанию, в этом же году они создают компанию Micro-Soft (дефис в названии позднее убран) (1975). Эд Робертс (Ed Roberts) придумывает термин «персональный компьютер» (1975) для рекламной компании компьютера ALTAIR.

С 1981 года операционная система PC-DOS 1.0 поставляется вместе с новым компьютером IBM PC. Вскоре после этого в том же году корпорация Microsoft выпускает MS-DOS и выдает лицензии на MS-DOS всем желающим.

В 1990 году выходит операционная оболочка WINDOWS 3.0.

По данным, приведенным компьютерным обществом (Computer Society), только за декаду с 1970 по 1980 этой организацией напечатано более 25,000 страниц научных публикаций по разным вопросам компьютерной техники: более 13,500 страниц для the «IEEE Transactions on Computers, более 4,100 страниц для «IEEE Transactions on Software Engineering, более 400 страниц для «IEEE Transactions on Pattern Analysis & Machine Intelligence», and более 8,000 страниц для «Computer». (публикация в Интернет)

Это время характеризуются усилением роста информационных сетей разного уровня. Возникают в большом количестве региональные (например, библиотечные сети Германии и Италии (1980-е), отраслевые (например, сети медицинских и сельскохозяйственных библиотек США) и функциональные сети (университетские сети в Великобритании (1987), Швеция (1980), Австрия (1980) и др.

В библиотеках (особенно национальных библиотеках развитых стран) в этот период уже существуют электронные каталоги на новые поступления, весьма активно осуществляется ретроспективная конверсия карточных каталогов, т.е. ввод содержащейся на карточках информации в электронные информационные системы. К концу рассматриваемого периода (кое-где чуть позднее) в большинстве национальных библиотек развитых стран карточные каталоги вышли из употребления.

В 1977 в целом завершены разработки ARPA, и начинает действовать система ARPANET, которая позднее перерастёт во всемирную сеть Интернет.

Развиваются мощные информационные системы доступные через системы теледоступа, напр. STN (1977).

1989 год – год изобретения языка HTML, протокола HTTP, разработки программ, известных под названием браузер (Tim Berners-Lee в CERN - Centre Européen de Recherche Nucléaire ‑, Женева). 13 ноября 1990 года выпущен первый html документ. В 1992 году начинают работать около 23 серверов World Wide Web, а уже в 1993 году WWW составляет 85% всего времени работы Интернет. Таким образом, если до этого изобретения компьютерная коммуникация была возможной только для специалистов, то теперь она стала возможной для пользователей.

В конце 89-х начале 90-х годов возникают массивы цифровых текстов – отсканированных материалов с последующим распознаванием и без распознания текстов, а также изначально созданных в цифровой форме. Возникает идея массовой оцифровки фондов крупных библиотек, инициируются соответствующие программы и учреждения. В 1995 году создаётся Федерация Цифровых Библиотек (DLF – Digital Library Federation)

В 1995 году в городе Дублине, Огайо, США разрабатывается так называемое «дублинское ядро», т.е. набор метаданных для описания Интернет ресурсов. Этот формат описания отличает компактность, в отличии от традиционного библиографического описания, которое бывает довольно развернутым.

В 1995 же году издаётся протокол Z39.50 (ему предшествовала разработка и публикация серии стандартов ISO (1987 – 1990 годы) по взаимодействию открытых систем, абстрактному синтаксису, общим системам кодирования, и, наконец, общему языку команд) этот протокол становится одним из основополагающих.

Это стандарт который позволяет разделение пользовательского интерфейса и базы данных. Пользователь имеет возможность работать с распределённой базой данных.

Через сайты многих крупных библиотек появился доступ сразу ко многим библиотекам. Возникли также распределенные каталоги.

В эти же годы разрабатывается система кодов UNICODE, позволяющая отображение всех систем письма.

После научных дискуссий и под влиянием внешних технологических факторов, массовое распространение получили системы, названные «бестезаурусными», или системами поиска по свободному тексту (free-text searching systems). Особенностью их является, с одной стороны, отказ от лексического контроля и тем самым отказ от учета парадигматики, а с другой – широкое использование контекста и синтагматических связей.

Внешние технологические факторы заключались в потребности информационной инфраструктуры в обработке большого числа машиночитаемых баз данных (на магнитных лентах). Как правило, эти базы данных (БД) содержали краткое библиографическое описание документов, включая текстовые поля – заглавие, аннотацию, реферат, представленные на естественном языке, и, напротив, не содержали поисковых образов документов с нормализованной лексикой. БД создавались, как правило, в одних местах – в специализированных организациях–генераторах баз данных, а использовались в других, так что процессы первичной семантической обработки документов и обработки запросов оказались разорванными. В этих условиях наиболее оптимальными показали себя вышеназванные системы. Были достигнуты неплохие результаты в области автоматического индексирования. Появились системы, где автоматическое индексирование осуществлялось уже в промышленном режиме (например, в ИПС "Скобки").

Другие направления исследований этого периода – это модели поиска (выбор критерия смыслового соответствия) и способы оценки систем. Несмотря на большое число исследований, посвященных вероятностно-статистическим моделям, на практике, в основном, стали использоваться ИПС с булевскими операторами. Преобладание булевских систем отчасти можно объяснить их простотой. “Прозрачность” булевского поиска совпала с развитием диалоговых средств поиска. Возможность получать промежуточные результаты поиска, возможность корректировать поисковое предписание по данным обратной связи для большинства пользователей оказались достаточными, чтобы удовлетвориться результатами поиска с помощью существующих систем.

Таким образом, к середине 70-х сформировался и на долгие годы стал преобладающим класс систем, получивших наибольшее распространение и работающих в режиме промышленной эксплуатации.

Этот класс систем отличают следующие особенности:

  • ИПЯ посткоординируемого типа на основе ключевых слов.

  • Логический критерий смыслового соответствия на основе булевой логики.

  • Специальные контекстные операторы для учета синтагматики.

  • Поиск по свободному тексту (как правило, представленному рефератами).

  • Диалоговый режим поиска.

  • Оценка эффективности поиска на полноту и точность.

  • Управление показателями поиска на основе данных обратной связи.

  • Широкое распространение систем поиска в режиме ИРИ.

Для данного этапа характерно превращение ИПС в “средство производства”: появляются мощные коммерческие информационные службы, осуществляющие генерацию машиночитаемых документальных баз данных и поиски по запросам. Программное обеспечение ИПС начинает распространяться в виде пакетов прикладных программ, сравнительно легко адаптируемых к условиям конкретных пользователей и организаций. Встает и решается вопрос об унификации языковых средств. Эта унификация выражается в создании единых форматов обмена документальными массивами (в СССР был созданы коммуникативные форматы ГКФ (1978-1979 гг.), затем МЕКОФ (1984-1985 гг.)). А в 1997 в России введен в употребление Российский национальный формат RUSMARC.

В попытках унификации языков запросов с целью создания единого командного языка.

Можно сказать, что, в конечном счете, такой язык был создан, но позже, и не как отдельный язык, а в составе поискового протокола Z39.50.

Билет № 11.

Наполнение электронной библиотеки

Четвёртый период истории автоматизированных информационных систем

Четвёртый период истории автоматизированных информационных систем

Вряд ли можно сказать, что в этот период появились какие-либо принципиально новые изобретения. Этот период, скорее можно назвать периодом активного совершенствования того, что было изобретено раньше. Так, постоянно совершенствуются элементы аппаратной части компьютера, увеличивая скорость его работы, оперативную и дисковую память, появляются новые периферийные устройства и внешние носители. Стандартные программные средства занимают весьма прочное место в мире, с периодичностью раз в два-три года появляются их новые версии (например, WINDOWS NT, Windows 98, 2000, 2003 и т.д.)

Продолжают развиваться сетевые технологии, прежде всего Интернет. По данным ЮНЕСКО в 2002 году в мире зарегистрировано 605 млн пользователей Интернет, т.е примерно каждый восьмой житель Земли – пользователь Интернет.

Широко распространяются новейшие методы электронной доставки документов.

Все больше возникает объединенных систем, каталогов библиотек.

Усиливается тенденция к кооперации в научных исследованиях, растет число научных объединений ‑ ассоциаций, консорциумов, центров, групп и т.д. в различных отраслях науки, появляются также и межотраслевые объединения. Этот процесс прямо связан с информационными технологиями.

Растёт количество специальных библиотечно-информационных объединений. Все больше возникает проектов – временных объединений ряда организаций.

Такие объединения решают, как правило, специальные задачи – задачи электронной доставки, совместимости данных, представления данных, создание общих информационных систем, разработки систем метаданных.

Массовый характер принимают работы по созданию цифровых документов, содержащих различные типы данных. Причем число проектов, занимающихся такой деятельностью, резко возрастает именно в 1995 году, а концу десятилетия удваивается.

Рост проектов по оцифровке фондов библиотек за 1990-1999 год,

данные IFLA

ГодКоличество проектов 1990319911199221993219945199519199618199724199834199943151

Билет № 13

Долговременное хранение электронных документов.

Информационная потребность, релевантность, пертинентность.

Информационная потребность, релевантность, пертинентность.

Информационная потребность

Информационная потребностьПредставление некоторой проблемы в сознании пользователя.

Запрос на поиск рождается из потребности людей в информации, нужной для решения каких-то задач (включая удовлетворение собственного любопытства).

Известно, что людям свойственно, правда, в разной степени, неумение, а может быть, неспособность сразу адекватно выражать свои подлинные информационные потребности.

Поэтому реальная система может обеспечить отыскание, в основном, лишь таких документов, которые отвечают на запрос в том виде, в каком он сформулирован в системе, а не на информационную потребность, существующую в сознании пользователя.РелевантностьСвойство смысловой близости между двумя и более текстами (в данном случае – между документом и информационным запросом) – релевантностью (от англ. relevant – соответствующий).ПертинентностьСоответствие полученных при поиске документов действительной информационной потребности пользователя