База данных. Банк данных. База знаний. СУБД.
База данных
Под базой данных (БД) понимается специально организованная совокупность взаимосвязанных данных, отображающая состояние выделенной предметной области.
Базы данных Управления НС России по субъектам РФ должны содержать такие информационные компоненты:
информационно-справочную систему поиска юридических лиц, позволяющую по одному или нескольким реквизитам получить справочные данные о запрашиваемом юридическом лице;
адресную информационно-поисковую систему, позволяющую по адресу определить принадлежность адресата к территориальной налоговой инспекции;
информационно-справочную систему физических лиц, позволяющую установить налоговую инспекцию, где зарегистрирован налогоплательщик;
информационно-справочную юридическую систему, дающую возможность работать с законодательными актами, постановлениями, указами, распоряжениями и другими правительственными документами, ) распоряжениями МНС России, инструктивными и методическими материалами по вопросам налогообложения и деятельности налоговых органов;
систему обработки налоговой информации и формирования справок, отчетов и отчетности, аналитических записок и прочих документов;
систему управления кадрами;
систему бухгалтерского учета;
систему делопроизводства для регистрации входящей и исходящей документации и контроля за исполнением документов и поручений;
систему ведения архивных материалов.
Информационное моделирование предметной области.
Обычно потребителя информации интересует какой-либо конкретный вопрос, область знаний или какая-то определенная совокупность объектов. В соответствии с этим в области информационной деятельности введено понятие предметной области.
Предметной областью (ПО) называется определенная часть реального мира, представляющая интерес для конкретного исследования или планируемых действий и соответственно для использования и отображения в информационной системе (в банке данных или знаний).
При изучении ПО в соответствии с понятиями "информация" и "данные" рассматривается 2 аспекта:
инфологический;
датологический.
Инфологический аспект предусматривает рассмотрение вопросов смыслового содержания информации, независимо от способа формирования и организации данных в памяти ЭВМ.
При инфологическом моделировании основным составным элементом ПО является "сущность".
Сущностью называется некоторая принятая в конкретной постановке задачи абстракция реального объекта, процесса или явления, о котором необходимо хранить информацию в системе. В качестве синонима термина "сущность" используется также термин "информационный объект" (ниже для краткости будет использоваться также термин "объект").
Объекты в каждый момент времени характеризуются определенным состоянием, которое описывается набором свойств и отношений (или связей) с другими объектами.
Характеристика, описывающая какое-либо свойство сущности, которое можно сформулировать и записать, называется атрибутом.
Например: количество, цвет, цена, прибыль и т.п. Для задания атрибута необходимо:
присвоить атрибуту имя;
сформулировать смысловое описание атрибута;
задать множество допустимых значений атрибута;
указать роль атрибута, т.е. смысл его использования.
Атрибут, который однозначно определяет сущность, называется идентифицирующим атрибутом или первичным ключом. (Первичные ключи в сущностях обычно подчеркиваются).
Объект, свойства которого зависят от его отношений (или связей) с другими объектами, называется реляционным.
При моделировании объектов или сущностей для обозначения их типов и структур рассматриваются термины "поле", "запись", "файл", "БД":
Полем называется наименьшее поименованное (или элементарное) данное, к которому в БД можно непосредственно адресоваться и с помощью которого выполняется построение всех остальных структур данных. Для указания поля используется также и термин "атрибут".
В БД с позиций моделирования рассматривают:
тип поля (или тип данного);
экземпляр (или значение) поля, т.е. само данное.
Пример.
Тип поля: ФИО;
значение поля: Иванов.
Записью называется поименованная совокупность полей. Для записей, как и для поля, рассматривают тип записи и экземпляр записи.
Пример.
1)Тип записи: Служащий банка
с типами полей: ТабельныйНомер, ФИО, Образование, Должность, в которой первичным ключом является ТабельныйНомер, обычно записывается в виде:
Служащий банка(ТабельныйНомср. ФИО, Образование, Должность)
Экземпляр записи для служащего банка:
068, Котов В.В., Высшее, Инженер.
2)Тип записи; Отдел банка
с типами полей: НазваниеОтдела, Адрес.
в которой первичным клюнем является НазваниеОтдела, можно записать в виде:
Отдел банка(НазваниеОтдела. Адрес).
Экземпляр записи для отдела банка:
ВаяютныеОперации, Корпус2.
Примечание. Для многословных названий типов полей рекомендуется размещать слова без побелов, разделяя их начальными большими буквами.
Файлом называется поименованная совокупность взаимосвязанных записей одного типа, т.е. хранящихся вместе данных.
Базой данных (БД) называется поименованная совокупность экземпляров записей разного типа, содержащая связи между этими записями.
Простое хранение разнородных данных в компьютерах является тривиальной задачей. Главная проблема информационных систем - это хранение данных с обеспечением связей между данными, с помощью которых можно по запросам пользователей формировать требуемые совокупности данных. С этой целью необходима разработка БД предметных областей на основе моделей типа "сущность - связь".
Моделью типа "сущность - связь" называется модель, представляющая информационные объекты предметной области, называемые также сущностями, а вместе с тем и их взаимоотношения.
Для представления отношений между сущностями в ПО используются связи. Связи между сущностями специфицируются выражениями реляционного вида.
Датологический аспект охватывает вопросы представления данных в памяти информационной системы.
Определение смыслового содержания зарегистрированных данных называется семантической информацией (или семантикой). Она необходима для дальнейшего использования в производственных операциях.
Основное средство представления семантики данных - это естественный язык.
В общем случае работа с семантикой - это работа со знаниями.
Благодаря семантической информации машинные системы способны "понимать" задачу в формулировке пользователя, т.е. реализуются "интеллектуальные" возможности или способности ЭВМ. В результате общение с пользователем становится возможным на естественном языке. При этом в режиме диалога "человек - ЭВМ" возможно использование текстовой, графической, а также речевой форм представления информации и получения результатов ее обработки.
Учитывая постоянно нарастающие потоки информации в самых различных областях человеческой деятельности, возникает естественный вопрос, как и какими средствами можно представить в ЭВМ столь многообразную и многочисленную информацию и успешно ее использовать.
Наиболее совершенной и прогрессивной формой организации информации и знаний в ЭВМ являются банки данных и банки знаний.
Главная их задача - обеспечение пользователей требуемой информацией, т.е. ответы на информационные запросы пользователей к банку данных или банку знаний с целью получения искомой информации.
Банк данных (БнД) - это автоматизированная система, включающая базу данных (БД), лингвистические, программные, технические, организационно-методические средства, обеспечивающие централизованное накопление и коллективное многоцелевое использование информации в различных областях деятельности пользователей. В БнД содержатся совокупности фактов о качественных и количественных характеристиках конкретных объектов предметной области.
Банк знаний (БнЗ) - это автоматизированная система, содержащая различные виды знаний (например, концептуальные, понятийные знания) о предметной области. Эти знания обычно выражаются в терминах данной ПО. Хранящиеся в БнЗ знания используются для вывода новых знаний на основании специальных механизмов, имеющихся в БнЗ.
База данных (БД) - это объект управления в БнД.
БД описывает состояние объектов предметной области на определенный момент времени совокупностью предложений на некотором формализованном языке. При этом определяются значения всех факторов на данный момент в виде совокупности взаимосвязанных, хранящихся вместе данных.
Одним из основных свойств баз данных можно считать независимость данных от использующих их прикладных программ. Под независимостью данных подразумевается то, что изменения в данных не приводит к изменению программ. Разработка программ длительный, трудоемкий и дорогостоящий процесс, поэтому при возникновении потребности модифицировать структуру данных, необходимости сохранять уже созданные прикладные программы.
Для обеспечения действительной независимости данных (хотя полностью независимые данные бывают очень редко) предлагается создавать структуры двух видов: логические и физические. Логические структуры описывают, как данные представляются прикладному программисту или пользователю данных. Физические структуры определяют способ физической записи данных на внешней памяти. Логические структуры могут не совпадать с физическими. Программное обеспечение преобразует логические структуры в физические.
СУБД
Применение компьютеров для хранения и обработки бизнес информации началось в 50-х годах прошлого столетия. Их использование ограничивалось решением простейших задач, например, ведения бухгалтерии. Информация необходимая для обработки извлекалась из файлов, которые хранились на магнитных лентах.
Использование магнитных лент накладывало жесткое ограничение на способ доступа к информации из файла - только последовательное чтение. Т.е. необходимая запись в файле может быть прочитана только после того, как будут прочитаны все предыдущие. Данное обстоятельство существенно ограничивало возможности применения компьютерных систем для решения бизнес задач.
Появление жестких дисков (первый жесткий был разработан только в 1955 году в фирме IBM) позволило организовать хранение файлов с возможностью произвольного доступа, т.е. для обращения к определенной записи в файле больше не требовалось прочтения всех предыдущих записей. Это существенно облегчило работу с информацией.
Тем не менее, файлы с произвольным доступом обладали рядом принципиальных недостатков:
избыточностью - возможность хранения одной и той же информации в нескольких файлах, что приводит к проблемам согласования данных.
слабым контролем - означает возможность хранить одну и ту же информацию в разных файлах под разными именами (обозначениями), что может приводить к недоразумениям.
недостаточными возможности управления - требуемая информация может находиться в нескольких файлах, между которыми нет никаких связей, т.к. файловые системы не позволяют устанавливать и поддерживать связи между данными в разных файлах.
большими затратами труда программиста - обусловлены тем, что при необходимости извлечения информации из группы файлов практически каждый раз приходится писать специализированную программу.
Недостатки файловых систем и осознание того, что информация представляет собой ценный ресурс, привело к смене концепции обработки данных на концепцию обработки информации, что повлекло за собой появление в конце 60-х - начале 70-х годов информационно-управляющих систем, обеспечивающих информационную поддержку бизнеса.
Важнейшая задача компьютерных систем и в частности систем Налогбухучета - хранение и обработка данных, поэтому цель СУБД позволяют структурировать, систематизировать и организовать данные для их компьютерного хранения и обработки.
В этом контексте мы рассматриваем базу данных – как множество взаимосвязанных данных, которые могут обрабатываться одной или несколькими информационными системами.
Система управления базой данных (СУБД) - программное обеспечение, управляющее базой данных. Английский термин: database management system (DBMS).
Системы управления базами данных (СУБД) - это программные средства, предназначенные для ввода, наполнения, удаления, фильтрации и поиска данных.
Система управления базами данных (СУБД) представляет собой программный комплекс, предназначенный для выполнения операций по обработке данных с целью обеспечения пользователей информацией.
Система управления базой данных (СУБД) – это программная система, предназначенная для создания, ведения и совместного использования базы данных многими пользователями.
Конкретная СУБД базируется на модели данных, которая является фундаментом технологий баз данных.
Процесс разработки базы данных является моделированием реальности. Разработчик исследует предметную область, знакомится с ее основными понятиями, изучает участников, их роли и потребности, после чего строит модель реальности в виде схемы базы данных, которую затем воплощает на компьютере в конкретной СУБД.
Модель описывает набор понятий и признаков, которыми должна обладать конкретная СУБД и управляемые ими базы данных, если они основываются на этой модели. Наличие такой модели позволяет сравнивать конкретные реализации СУБД и оценивать их соответствие модели.
В настоящее время системы управления базами данных являются ядром информационных систем предприятия. Поддерживая целостную, централизованную структуру данных, они позволили избавиться от проблем избыточности и слабого контроля.
Основными функциями баз данных и СУБД являются:
1). Хранение больших объемов информации;
2). Внесение новых данных, изменение (модификация), удаление, сортировка и другие манипуляции с данными в БД;
3). Поиск данных по различным группам признаков ( формирование запросов и просмотр ответов по запросам);
4). Расширение и реорганизация данных в БД при изменениях предметной области;
5). Одновременное обслуживание большого числа пользователей;
6). Доступ к данным пользователей с соответствующими полномочиями;
7). Выдача информации пользователям в различной форме (формирование отчетов, т.е. представление данных в требуемых выходных формах и печать).
Основными компонентами СУБД являются:
– средства представления данных в БД;
– средства манипулирования данными;
– интерфейсы пользователей, администратора БД и коммуникаций.
Средства представления данных совместно с интерфейсами осуществляют организацию БД на разных уровнях.
Средства физического уровня учитывают характеристики конкретного внешнего запоминающего устройства, способ записи данных на физический носитель и т.п.
Средства концептуального уровня отображают данные физического уровня с определенной абстракцией.
Средства внешнего уровня преобразуют данные в форму, понятную пользователю и с которой он может работать через свои интерфейсы.
В зависимости от назначения СУБД и модели представления данных в БД пользователю могут быть предложены следующие интерфейсы: меню, командный, многооконный, графический и т.д. (стандартные языки запросов и манипулирования данными, генератор отчетов).
Администратору БД дополнительно предлагаются языки программирования высокого уровня, языки СУБД, генераторы интерфейсов пользователей.
Коммуникационные интерфейсы обеспечивают экспорт/импорт данных в другие прикладные системы и компьютерные сети.
Различают централизованные и распределенные базы данных.
Централизованная БД хранится в памяти одной вычислительной системы. Если такая система является компонентом вычислительной сети, то возможен распределенный доступ к этой БД, т.е. доступ к ней пользователей различных узлов сети. Подобный способ использования БД часто применяется в локальных вычислительных сетях.
Распределенная БД состоит из нескольких, возможно, пересекающихся или даже дублирующих друг друга частей, хранимых в различных ЭВМ локальной сети. Однако с помощью СУБД пользователь получает возможность работать с такой БД как с единым информационным массивом. Части распределенной БД, размещенные на отдельных ЭВМ сети, управляются собственными локальными СУБД и могут использоваться одновременно как самостоятельные локальные БД. Локальные СУБД не обязательно должны быть одинаковыми в разных узлах сети. Распределенные БД используются, в основном, в маркетинговой деятельности.
В зависимости от расположения СУБД различают локальные и распределённые СУБД. Все части локальной СУБД размещаются на компьютере пользователя базы данных. Если к одной локальной СУБД обращаются несколько пользователей одновременно, каждый пользовательский компьютер должен иметь свою копию локальной СУБД.
В отличие от этого, значительная часть программно-аппаратных средств распределённой СУБД централизована и находится на одном, достаточно мощном компьютере (сервере), в то время, как компьютеры пользователей несут относительно небольшую часть СУБД, которая называется клиентом.
Локальные СУБД могут работать в сети, но могут и не использовать её, в то время как распределённые СУБД обязательно работают в компьютерной сети.
Заметим, местонахождение баз данных никак не влияет на специфику СУБД: в локальных СУБД сама БД может располагаться как на компьютере пользователя, так и на удаленном сетевом компьютере. Безусловным достоинством клиент-серверных систем является возможность централизованного управления доступом к БД. В таких системах база данных в значительной мере защищена как от случайных, так и от намеренных искажений, в них проще реализовать целостность и непротиворечивость данных.