Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Лабораторная работа №5 Распознавание образов_ДЛ...doc
Скачиваний:
3
Добавлен:
19.11.2019
Размер:
279.04 Кб
Скачать

Методические указания к выполнению лабораторной работы “Распознавание образов” для студентов четвертого курса специальности ГИС по дисциплине “Моделирование в петрофизике”

Теоретические основы

Для решения задач классификации объектов по совокупности признаков создана обширная теория распознавания образов.

Образ – совокупность объектов определенного класса, характеризующаяся рядом общих признаков. Понятие образа предполагает наличие определенных взаимосвязей между структурой поля (геофизического, геохимического и др.) и конкретным геологическим объектом-образом. Выделение аномалии на фоне помех, в том числе выделение аномалии в поле лишь одного признака, можно рассматривать как задачу распознавания объектов двух классов, соответствующую задаче поисков месторождений. При разделении объектов по геофизическим полям на число классов, больше двух, решаются, как правило, задачи геокартирования и прогноза месторождений различных видов полезных ископаемых.

Задачи распознавания:

  1. Заданы образы, признаки, необходимо найти решающее правило.

  2. Заданы образы, решающее правило, необходимо найти систему признаков, которая обеспечивала бы разделение объектов с минимальными затратами.

  3. Заданы объекты, охарактеризованные m признаками, необходимо на основе каких либо правил делить их на классы.

Основная задача, решаемая методами распознавания образов – качественная комплексная интерпретация, т.е. определение природы геологических объектов по совокупности различных геофизических признаков. Эти признаки сравниваются с соответствующими признаками объектов известной природы, которые служат эталонами.

Выбор того или иного способа обработки данных зависит от наличия априорной информации об искомых объектах, от характера исходных признаков и их зависимостей между собой, от задачи.

Если в пределах площади выделяются участки с доказанной рудоносностью (нефте - газоносностью) и участки с доказанность её отсутствия, т.е. эталонные объекты, используют способы обработки при наличии эталонных объектов. В противном случае – способы классификации объектов на принципах самообучения.

Задача распознавания образов состоит в выборе решающих правил отнесение изучаемых объектов неизвестной природы к определённому образу, при этом полагают, что каждому реальному объекту можно поставить в соответствие его изображение в виде точек в N-мерном пространстве. Информация об объекте составляет изображение в виде вектора V=(V1, V2, ….,VN), координаты которого количественно характеризуют свойства образца.

Совокупность изображений относящихся к одному и тому же образцу, соответствует набор точек, рассеянных внутри некоторой области пространства. «Расстояние» между членами одного образа будет невелико, а сгустки их, представляющие изображение различных образов будут отдалены друг от друга. Для правильного отнесения объектов к одному из образов важно не количество избираемых признаков, а их характерность, взаимосвязь информативность. Теоретически каждый образ можно представить бесконечным числом объектов, и распознавать объекты неизвестной природы.

I. Обработка данных при наличии эталонных объектов

В настоящее время имеется большое число алгоритмов обработки комплекса признаков с предварительным обучением на эталонных объектах и оценкой их качества на контрольных объектах. В зависимости от применяемого математического аппарата алгоритмы распознавания можно разделить на три группы:

  • использующие средства математической логики с расчетом либо суммарной информативности признаков, либо с нахождением « обобщенного » расстояния;

  • основанные на методах регрессионного анализа;

  • базирующиеся на проверке статистических гипотез.

Логические алгоритмы.

Суть этих алгоритмов состоит в установлении меры сходства (меры аналогии) исследуемых объектов с эталонными по величине суммарной информативности. Одним из первых в разведочной геофизике был предложен (Ш.А.Губерман) алгоритм « Кора-3 », с помощью которого решается задача выделения нефтегазоносных пластов по комплексу промыслово-геофизических данных. Кодирование признаков чаще всего осуществляется в двоичной системе, и объект задается набором признаков x, где xlk=0, если k-й объект не обладает l-м признаком, и xlk=1, если k-й объект обладает l-м признаком. Все эталонные и исследуемые объекты характеризуются единым набором признаков и единым порядком их расположения. Этап обучения сводится к перебору всех возможных сочетаний признаков по три для каждого класса. Если появилось сочетание признаков, которое не менее p раз встречается среди эталонов первого класса и ни разу не встречается среди эталонов других классов, такое сочетание выделяется как сложный признак первого класса. Пороговое значение p задается эмпирически. Если один из двух сложных признаков характеризует большее число эталонных объектов, то он будет информативнее другого. На следующем этапе осуществляется распознавание исследуемых объектов. При этом проверяется, сколько сложных признаков первого класса встретилось в искомом объекте. Если сложных признаков первого класса больше, чем сложных признаков других классов, объект относится к первому классу. С увеличением мощности и памяти современных ЭВМ указанный алгоритм позволит осуществлять перебор сочетаний признаков по любому их числу и не ограничивается кодированием признака двумя состояниями.

Другим распространенным алгоритмом является алгоритм тупиковых тестов (А.Н. Дмитриев, Ю.И. Журавлев), основанный на поиске матрицы Т, содержащей описание объектов обучения ( объекты, как правило, кодируются в двоичной системе) специальных подмножеств - так называемых тупиковых тестов. Подмножество столбцов (i1, i2,...,il) матрицы Т называется тестом, если после удаления из Т всех столбцов получается матрица, все строки которой различны. Тест называется тупиковым, если после исключения любого столбца он перестает быть тестом.

Достаточно широкое применение получили алгоритмы распознавания, основанные на построении потенциальной функции, выражаемой через обобщенное расстояние для изучаемых признаков в L-мерном пространстве.

Детерминисткий алгоритм Н.Г. Естафьева устанавливает квазифункциональную зависимость между многомерным свойством признакового пространства (мерой сходства) и целевым свойством, т.е. числом классов. Алгоритм включает анализ качества признакового прстранства на эталонных объектах и отбраковку на этой основе не только отдельных объектов, но и целых классов. Материал обучения считается оптимальным при разбиении объектов на максимально возможное число классов, пересекаемость которых (по гистограммам признаков ) не превосходит допустимую величину εпор, и минимальной мощности признакового пространства. Сначала с учетом ограничения ε< εпор добиваются выполнения первого условия оптимальности – разбиения материалов обучения на максимальное число классов. Затем, сохраняя полученное разбиение на максимальное число классов и ограничение, добиваются выполнения второго условия оптимальности – минимальной мощности признакового пространства. В детерминистком алгоритме каждой точке признакового пространства, описывающего материал обучения, должен соответствовать один единственный класс, если это не так – происходит пересекаемость классов и ε не равно 0. Поэтому из совокупности классов, соответствующих одной и той же точке в пространстве L признаков, необходимо выбрать единственный класс, который считается « истинным », а остальные – « ложные ».