Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Эволюция баз данных

.pdf
Скачиваний:
120
Добавлен:
11.06.2015
Размер:
3.26 Mб
Скачать

англ.). Этот диск работал в режиме «только чтение» и мог хранить до 20 КБ информации. Через два года этот диск стал полноценным перезаписываемым носителем емкостью 256 КБ. Его особенностью стал новый унифицированный формат, согласно которому вся дискета делилась на фиксированные секторы (или кластеры) длиной 128 байт. К концу 1970-х гг. дискета становится двухсторонней и вмещает до 1,2 МБ.

Рис. 6. Первый и серийный накопители на магнитных дисках, называемые «дисководами» (фото из материалов энциклопедии Wikipedia и экспозиции Тамбовского высшего военного авиационного инженерного института)

Рис. 7. Пакеты дисков емкостью 29 и 200 МБ

Однако дискета такого размера считалась слишком большой для зарождающихся микрокомпьютеров. В качестве альтернативы в 1976 г. был предложен размер 5 ¼ дюйма. К 1978 г. новые диске-

11

ты стали двухсторонними и вмещали 360 КБ, а к 1984 г. достигли емкости 1,2 МБ.

Наряду с относительно большим размером восьми- и пятидюймовые дискеты обладали еще одним общим недостатком – они имели очень пластичный конверт, который легко заминался и ломался. В начале 1980-х гг. им на смену приходит «компактная дискета» – 3 ½ дюймовый гибкий диск заключенный в жесткий пластмассовый корпус (рис. 8). Эта дискета, емкость которой к 1989 г. стала 1,44 МБ, легко помещалась в карман и в течение десятилетия была основным носителем информации для целого поколения программистов.

Рис. 8. Восьми-, пяти- и трехдюймовая дискеты

Дальнейшая судьба магнитных дисков хорошо известна – это развитие накопителей большой емкости с несменным жестким диском (HDD, hard disk drive, англ.). В своем нынешнем виде HDD сформировались на рубеже 1970-80 гг. За прошедшие 20 лет их размер уменьшался, а надежность, емкость и скорость доступа к данным увеличивались. Название «винчестер» приклеилось к таким дискам еще в 1973 г., когда компания IBM выпустила очередной дисковод IBM 3340 для своих ЭВМ 370-й серии. Предполагалось, что этот дисковод будет работать одновременно с двумя пакетами дисков емкостью по 30 МБ каждый. Дисковод получил название Winchester по аналогии со знаменитой охотничьей винтовкой Winchester 30-30. Правда, цифры 30-30 относились не к винтовке, а к патрону: первая «тридцатка» обозначает калибр пули в

12

сотых долях дюйма (итого 7,62 мм), вторая – вес порохового заряда в гранах (всего 1,94 г). Однако в историю этот накопитель вошел отнюдь не из-за цифр «30-30», а благодаря революционной технологии, известной на Западе как Winchester technology. Ее суть состояла в том, что в корпусе съемного пакета дисков были впервые объединены пластины диска и считывающие головки. В западных странах название «винчестер» вышло из обихода еще в начале 1990-х гг., однако в русском языке и в ряде стран Восточной Европы оно по-прежнему активно используется.

Технология магнитных дисков продолжает развиваться. Однако существенной проблемой на пути к повышению плотности записи является так называемый суперпарамагнитный эффект. Этого эффекта можно избежать путем предварительного локального нагрева поверхности, куда записывается очередной бит информации. Для этой цели используется лазер, а такой способ записи получил на-

звание термомагнитного (HAMR, Heat-Assisted Magnetic Recording,

англ.). Предполагается, что накопитель стандартного размера с такой технологией позволит хранить до 300 ТБ информации.

1.5. Оптические диски

Следующим событием, совершившим очередную революцию в носителях данных, стало появление технологии оптической записи. Первый оптический диск был изобретен в 1958 г., а уже через 10 лет на него могли записать аналоговый видеосигнал. Современная история насчитывает четыре поколения оптических дисков. Первое поколение получило коммерческое распространение к середине 1980-х гг. в виде цифровых и аналоговых оптических дисков разных форматов. Наиболее популярным аналоговым носителем был лазерный диск диаметром 30 см, использовавшийся для записи видео. В качестве его цифрового собрата выступал представленный в 1985 г. 12-сантиметровый компакт-диск (CD, Compact Disk, англ.) емкостью 700 МБ.

Оптический диск сделан из поликарбоната – прочного материала с высокими оптическими качествами, покрытого с одной стороны тонкой алюминиевой пленкой. При записи лазерный луч выжигает на этой пленке микроскопические углубления – «питы» (pit – углубление, англ.), чередуемые с нетронутой поверхностью – «лендами» (land – площадка, англ.) (рис. 9).

13

При записи на оптические диски производится довольно сложное кодирование данных. Каждый байт записываемой информации с помощью специальной кодовой (подстановочной) таблицы преобразуется в 14-битное слово. Эти слова построены так, чтобы между двумя единицами всегда находились от двух до 10-ти нулей, например, байт 01101011 представляется словом 100010010000103. Такое преобразование называется модуляцией «8 к 14» (eight-to- fourteen modulation, англ.). Затем полученные слова кодируются «без возврата к нулю с инверсией» (код NRZI – non-return-zero- inverted, англ.). В этом коде переход сигнала с одного уровня на другой означает единицу, а сохранение сигнала на прежнем уровне

– ноль. Таким образом, длина пита или ленда – это количество нулей, а смена пита лендом и наоборот – единица.

Рис. 9. Поверхность компакт-диска под электронным микроскопом (фото с сайта Института физики полупроводников им. В.Е. Лашкарова Национальной академии наук Украины) и ее расшифровка (выполнена автором)

Второе поколение оптических дисков началось в 1995 г. с появ-

лением DVD (Digital Video Disk, англ.) емкостью 4,7 ГБ. Техноло-

гия DVD аналогична CD. Более высокая плотность записи была достигнута усовершенствованием структуры поверхности и оптических свойств материала, позволившим уменьшить длину волны лазера. Наряду с DVD на рынке присутствовали и другие форматы,

такие как MiniDisc, GD-ROM и др.

Третье поколение ассоциируется с популярной сегодня технологией Blu-Ray (от Blue Ray – синий луч, англ.), в основе которой лежит использование коротковолнового синего лазера. Обнародованный в 2001 г. формат Blu-Ray позволил записывать на диск стандартного 12-сантиметрового диаметра уже до 33 ГБ информа-

3 Не стоит искать закономерность в этом преобразовании.

14

ции. Долгое время за звание технологии третьего поколения боролись и другие форматы, например, HD DVD, однако Blu-Ray в итоге победил.

В качестве четвертого поколения сегодня рассматриваются несколько технологий – голографическая запись, многослойная запись и использование органических носителей информации.

Голографический диск (HVD, Holographic Versatile Disc, англ.)

содержит в себе достаточно «толстый», по сравнению с тонкой алюминиевой пленкой, полимерный слой. Его толщина позволяет записывать не двухмерный, а трехмерный образ данных. Запись и считывание осуществляются парой когерентных лазерных лучей, один из которых исполняет «опорную» функцию и не несет никакой информации, а второй проходит через модулирующие элементы слоя. Лучи падают на поверхность диска под некоторым углом и пересекаются на определенной глубине, в результате чего возникает третье измерение. В 2010 г. на стандартном 12-сантиметровом диске была достигнута емкость 500 ГБ. Предполагается, что голографические диски такого размера обладают потенциалом до 4 ТБ.

Другим направлением развития технологий CD и DVD стали многослойные оптические диски, в которых каждый слой выполнен не из алюминия, а из специального химического состава с флуоресцентным материалом (Digital Multilayer Disk, англ.) или из специ-

альной пленки (LS-R, Layer-Selection-Type Recordable Optical Disk,

англ.). Емкость этих дисков составляет до 100 ГБ, размещенных на 20-ти слоях, а потенциал этой технологии пока не обсуждается.

Третье направление – диск, покрытый светочувствительным белковым слоем (PCD, Protein-Coated Disc, англ.) – бактериородопсином. Эти белки были найдены в некоторых микробах. Они способны преобразовывать световую энергию в химическую, однако по прошествии нескольких часов возвращаются в исходное состояние. Модифицировав структуру ДНК микробов, удалось получить белок, удерживающий состояние в течение нескольких лет. Согласно предварительным оценкам, потенциальная емкость протеинового диска стандартного размера составляет 50 ТБ, однако о его коммерческом применении пока ничего не известно.

1.6. Полупроводниковые карты памяти

Использование полупроводников в качестве памяти в компьютерах началось давно. Однако такая память была довольно гро-

15

моздкой и энергозависимой. Сразу же после отключения электропитания она теряла накопленную информацию. Существовавшая в то время энергонезависимая полупроводниковая память была неперезаписываемой и «прошивалась» лишь однократно. В 1984 г. компания Toshiba представила новую разновидность памяти, основанную на транзисторах с плавающим затвором. Процесс стирания информации в транзисторе осуществляется подачей на очень короткое время высокого напряжения на плавающий затвор. Этот процесс ассоциировался с фотовспышкой, что отразилось в названии памяти – «флеш-память» (от англ. flash – вспышка).

Коммерческое производство флеш-памяти начато компанией Intel в 1988 г., однако в течение 1990-х гг. она оставалась достаточно дорогим удовольствием и проигрывала в конкурентной борьбе с другими носителями информации. Позднее, с ростом единичной емкости и массовости производства происходит существенное удешевление памяти при пересчете на один байт. В 2010 г. объем карточек производства компании Kingston достиг 256 ГБ.

Современный рынок флеш-карточек чрезвычайно широк. Они используются в качестве внутренней и внешней памяти практически для всех цифровых устройств – компьютеров, фото-, видео-, аудио-техники и пр. USB-карточки превратились в сувенирную продукцию и принимают самые замысловатые формы.

Конечно, данный обзор носителей информации не является исчерпывающим и охватывает лишь те технологии и устройства, которые в свое время сумели надолго завоевать рынок и получить широкое распространение. И наконец… Признаем, что уже через несколько лет сегодняшние слова о «суперсовременных технологиях», позволяющих довести емкость носителей до терабайтов, покажутся довольно наивными. Эволюция компьютерного «железа» постоянно ускоряется и все, что сегодня кажется почти фантастикой, очень скоро станет архаикой…

Контрольные вопросы

1.В каких устройствах использовались перфокарты?

2.Как устроена картотека с перфокартами, содержащими классификационные признаки?

3.Что удобнее: перфокарты или перфоленты?

4.Что общего между перфолентой и магнитной лентой?

16

5.Какие объемы данных помещались на магнитных лентах?

6.Как устроен магнитный барабан?

7.Что общего между магнитными барабаном и диском и аналогичными металлическими носителями для старинных шарманок?

8.Какие виды магнитных дисков существовали в разное время?

9.Как соотносятся параметры ружья и диска «винчестер»?

10.Правильно ли, что с помощью пита на оптическом диске кодируется единица, а с помощью ленда – ноль?

11.В чем отличие голографического и многослойного дисков от традиционного оптического?

12.Какой физический процесс положен в основу флеш-памяти?

13.Какие носители наиболее удобны для баз данных и почему?

14.Какие носители сегодня лидируют по соотношению «цена-ем- кость» и «емкость - физический размер»?

2.ЭВОЛЮЦИЯ МЕТОДОВ ОРГАНИЗАЦИИ ДАННЫХ

2.1.Файловая организация

Как можно проектировать процесс и алгоритмы обработки данных, не имея представления о количественных характеристиках этих самых данных! – продолжил Давиденко. – Так вот, спецификация в среднем имеет четыре записи. Есть сто, есть двести, но в среднем четыре детали или узла. Остальное – покупные изделия, которые в разузловании не участвуют. У вас лента содержит на восемьдесят процентов пустоту – метки файлов. Кроме того, стандартная

программа открытия файла всегда перематывает ленту на начало или конец.4

Вспомним, что основной целью создания первых ЭВМ были математические вычисления. Мало кто помышлял тогда, что компьютер (от to compute – считать, вычислять, англ.) когда-нибудь будет использоваться как записная книжка, чертежный кульман или музыкальный инструмент. Расчетные программы того времени хранили данные, подлежащие обработке, прямо в своем теле либо

4 Дан В. ИВЦ: Жаркое лето 81-го // www.litru.ru.

17

подгружали их с внешнего носителя, например, сплошным потоком с перфоленты. С развитием внешних носителей информации происходило постепенное отделение данных от программ и их выделение в самостоятельные файлы. Проблема состояла в отсутствии единых форматов и принципов организации файлов, что делало невозможным перенос данных с компьютера одного типа на другой.

Революционным событием в развитии способов хранения и структурирования информации в ЭВМ стало введение в 1964 г. файловой организации данных в системе IBM/360. Широкое распространение ЭВМ этой и последующей, 370-й серии (напомним, что в СССР эти машины была клонированы и растиражированы под аббревиатурой ЕС ЭВМ) надолго закрепили за этой файловой организацией ранг стандарта. Ситуация резко изменилась с появлением мини-ЭВМ PDP-11 (советский аналог – СМ ЭВМ), установившей «де факто» новый стандарт. В большинстве операционных систем (ОС) для новых ЭВМ файловая организация на физическом уровне была существенно упрощена и напоминала ту, которая используется во всех современных компьютерах. Рассмотрим основные идеи хранения и доступа к данным в файлах, не привязываясь к какой-то конкретной ОС.

Как и сегодня, основным назначением файлов было хранение данных и хранение программ («исполнимые» файлы). В целом,

файлы можно разделить на потокоориентированные и записеори-

ентированные [6]. В файлах первого типа информация хранится в виде списка, в котором разные элементы отделяются друг от друга каким-либо символом-разделителем, например, точкой с запятой.

В файлах второго типа информация делится на порции, называемые записями. Как правило, записи одного файла имеют единую внутреннюю организацию. Были определены записи двух типов:

фиксированной длины – все записи файла имеют одинаковую, заранее заданную длину;

переменной длины – записи файла имеют разную, но предсказуемую по определенным признакам и не превышающую некоторого максимального значения длину.

Наряду с этими двумя типами записей в ряде операционных систем допускалось использование записей неопределенной длины. Однако это понятие было скорее логическим, чем физическим.

Записи в файле помещались друг за другом. Каждая запись могла идентифицироваться по своему порядковому номеру в файле

18

либо по одному из полей, содержащему какой-либо уникальный идентификатор – ключ записи. Чтобы физически различать разные записи на магнитной ленте, между ними оставляли небольшой промежуток. Если на ленту помещалось большое количество коротких записей (каждая такая запись занимала участок ленты, сравнимый по длине с промежутком), то общая длина пустых участков в итоге могла оказаться больше, чем длина участков, заполненных данными. Да и процедура чтения-записи таких коротких порций информации занимала много времени. Для устранения этих недостатков были введены понятия логической и физической записи (или блока). Несколько логических записей объединялись в один блок, который рассматривался как одна физическая запись, т.е. как неделимый объект ввода-вывода. Выделение из блока нужной логической записи происходило на программном уровне – чаще на уровне операционной системы. Принцип блокирования записей применялся не только для магнитных лент, но и для дисков.

Позднее, с появлением ЭВМ серии PDP и их аналогов – СМ ЭВМ, от идеи блокирования отказались, вернее, был введен единый размер физического блока – 512 байт (в разных операционных системах и на разных носителях этот размер мог быть другим – от 128 до 512 байтов). Такой блок получил название «сектор», и теперь каждый носитель информации подлежал фрагментации на секторы. В зависимости от длины запись могла занимать только часть сектора или несколько смежных секторов.

Описывая работу с файлами, необходимо рассмотреть два важных фактора – внутреннюю организацию файла и различные методы доступа к записям файла.

Внутренняя организация файлов

По внутренней организации были известны следующие типы файлов (рис. 10).

1.Файл с последовательной организацией, в котором каждая следующая запись располагалась сразу же после предыдущей.

2.Файл с относительной организацией (был введен в операци-

онных системах для СМ ЭВМ, в частности, в ОС РВМ – операционной системе реального времени многофункциональной), использовавшийся для хранения записей переменной длины. Файл состоит из пронумерованных ячеек равной длины, которая соответствует максимальной длине записи. Ячейка может содержать одну запись

19

или быть пустой. В зависимости от фактической длины записи ячейка может быть заполнена частично или полностью.

3.Индексированные файлы или файлы с индексной организацией. Такие файлы наряду с областью данных содержат так называемую индексную область (или, просто, индекс) – список или таблицу, содержащую ссылки на записи или блоки файла. Индекс облегчал и существенно ускорял поиск нужной записи, особенно если записи файла имели переменную длину. В этом случае без индекса было трудно предсказать, где на диске находится нужная, например, 58-я запись.

4.Параллельно индексированным файлам развивались файлы с библиотечной организацией. Вместо индексной области в них создавался каталог, аналогичный оглавлению книги. Запись помимо данных содержала так называемый дескриптор, в котором хранилось имя этой записи и некоторые сведения о ней. Такая организация стала прообразом современных каталогов, реализующих, по сути, иерархическую библиотечную организацию.

Рис. 10. Сверху-вниз: последовательная, относительная, индексная и библиотечная организация файлов

20