- •Лекция № 10
- •Единиц в системе гис
- •2. Предварительная обработка данных.
- •3. Методы классификации, основанные на описании классов ядрами.
- •4. Параметрические методы классификации, основанные на модели смеси распределений.
- •5. Иерархические методы классификации.
- •6. Методы районирования.
- •Контрольные вопросы
Лекция № 10
КЛАССИФИКАЦИИ ОПЕРАЦИОННО-ТЕРРИТОРИАЛЬНЫХ
Единиц в системе гис
План:
-
Краткая характеристика методов классификации.
-
Предварительная обработка данных.
-
Методы классификации, основанные на описании классов ядрами.
-
Параметрические методы классификации, основанные на модели смеси распределений.
-
Иерархические методы классификации.
-
Методы районирования.
1. Краткая характеристика методов классификации.
Ранее мы уже касались вопросов классификации. Учитывая их важность во всех науках о Земле, в том числе экологии и географии, в этом подразделе рассмотрим методы классификации более подробно.
Объектом классификации, как правило, являются ОТЕ - операционно-территориальные единицы [А. М. Трофимов и др., 1985. - С. 13]. В качестве ОТЕ могут выступать, например, административно-территориальные единицы, населенные пункты, ячейки регулярной или нерегулярной сетки, наложенной на исследуемую территорию, ячейки растра.
Все возможные типы методов классификации можно подразделить по различным основаниям на некоторые группы. Основаниями для систематизации методов классификаций в экологии и географии чаще всего являются цель классификации, определение класса, наличие обучающей выборки, использование географического пространства, наличие априорной информации о статистических свойствах классов, способ подачи ОТЕ на вход классификатора.
По цели чаще всего выделяют оценочные и типологические классификации. Оценочные классификации необходимы для анализа и сравнения ОТЕ в терминах хорошо-плохо и лучше-хуже, типологические - для выделения некоторых устойчивых типов ОТЕ.
2
По степени учета географического пространства методы классификации подразделяются на использующие и не использующие его в собственно математических процедурах.
По определению класса методы классификаций бывают обычные и нечеткие. Методы нечеткой классификации определяют вероятность принадлежности ОТЕ к каждому из классов, а не относят ОТЕ однозначно к одному из них.
По наличию обучающей выборки методы классификации подразделяются на методы контролируемой и неконтролируемой классификации, также называемые классификациями «с учителем» и «без учителя» (автоматические классификации).
По наличию априорной информации о статистических свойствах классов возможны параметрические и непараметрические методы классификации. Целью параметрических методов является отыскание неизвестных параметров известных функций распределения ОТЕ в пределах каждого класса и вероятностей появления этих классов. Непараметрические методы обычно разделяют на иерархические и неиерархические, а последние - на эвристические и оптимизационные. Иерархические методы формируют нужное количество классов путем последовательного объединения отдельных ОТЕ или разбиения единственного класса, содержащего все ОТЕ. Эвристические процедуры основаны на интуитивном представлении исследователя о конечной цели классификации. Оптимизационные алгоритмы производят разбиение таким образом, чтобы обратить в максимум выбранный функционал качества.
По способу подачи ОТЕ на вход анализа различают последовательные и параллельные методы классификации.
Последовательные методы просматривают по очереди все ОТЕ один раз, начиная с ох и заканчивая oN. Параллельные процедуры требуют подачи на вход классификатора сразу всех ОТЕ.
Оценочные и типологические классификации. Оценочные классификации используют для получения нескольких классов Si, ..., Sk, для которых можно
сказать, лучше или хуже представители одного класса представителей другого (а иногда и насколько лучше или хуже). Всегда считается, что классы ОТЕ, полученные в результате проведения оценочной классификации, упорядочены специальным образом, т.е.
Si <S2 <...<SK или S{ >S2 >...Sk
Под обозначением Si < Sj понимается, что любая ОТЕ /-го класса лучше ОТЕ у-го класса по комплексу показателей. Считается также, что в пределах каждого класса ОТЕ приблизительно одинаково хороши или одинаково плохи (в разрезе проблемы, описываемой показателями).
Обязательным этапом в оценочных классификациях является переход к единственному признаку. Результирующий показатель получают таким образом, чтобы классы ОТЕ с его минимальными значениями могли интерпретироваться как «плохие», а с максимальными как «хорошие», или наоборот. Например, пусть в качестве ОТЕ выступают земельные участки, а в качестве показателей - тип почв, удаленность от водных ресурсов, близость к транспортной сети и т.д. Тогда целевым признаком может быть степень целесообразности постройки жилого дома. В зависимости от значений целевого признака ОТЕ могут разбиваться на три класса: «непригодные для строительства», «приемлемые» и «наилучшие для строительства».
Целью типологических классификаций является получение устойчивых групп ОТЕ в М-мерном признаковом пространстве, т.е. возможных «типов» ОТЕ. В отличие от оценочных классификаций, показатели редко интерпретируются как «хорошие» или «плохие», а результирующие классы могут содержать ОТЕ с «хорошими» значениями по одному показателю и «плохими» по другому. Примером типологической классификации может служить выявление закономерности сочетания тяжелых металлов (свинца, меди, цинка, железа) в культурном лессовом слое городища средневекового Самарканда по четырем этапам VII—VIII, IX—X, XI —XIII и XX вв. н.э. [А. К. Евдокимова и др., 1988]. После проведения типологической классификации специалистами по теме ис-
4
следования всегда дается содержательная интерпретация каждому классу-типу, т.е. выделяются диапазоны изменения каждого показателя на ОТЕ этого класса.
Нечеткие классификации. Иногда ставится более широкая (по сравнению с уже описанной канонической) задача нечеткой (размытой) классификации. Этот тип классификации должен применяться, если границы классов имеют размытый, переходном характер. Например, в работе [А. М. Трофимов, Н. М. Солодухо, 1986] отмечено, что «... исходя из принципа комплексности взаимодействия в пространстве частей различной природы, в принципе мши считать, что размытость границы - это ее естественное состояние, тогда как границы ясной и четкой линейной или полосе выраженности представляют собой лишь частный случай проявления граничности геосистем».
Основное отличие нечеткой классификации от канонической состоит в получении не номеров классов для всех ОТЕ, а вероятностей принадлежности ОТЕ к каждому из классов. При необходимости однозначного отнесения ОТЕ к одному из классов (т.е. сведения результатов нечеткой классификации к каноническому случаю) находится тот класс, в котором появление ОТЕ наиболее вероятно.
Использование географического пространства при классификациях. Формирование классов при проведении многих классификаций происходит в общем случае на основе и географического, и атрибутивного признакового пространств. Однако, исходя из степени использования географического пространства, возможны следующие варианты (либо их комбинации, за исключением первого):
-
географическое пространство при классификации не используется;
-
географическое пространство используется перед проведением класси фикации при формировании признаков атрибутивного пространства (соответ ствующие примеры были приведены при обсуждении представления атрибу тивного пространства в виде таблицы ОТЕ-признак);
-
географическое пространство используется при визуализации хода и ре зультатов классификации (т.е. ход и результаты анализа картографирую гея);
5
• географическое пространство представлено матрицей близостей вила ОТЕ-ОТЕ, которая используется алгоритмом классификации вместе с матрицей, представляющей атрибутивное признаковое пространство.
Обозначим, как это было и ранее, матрицы ОТЕ-признак и ОТЕ-ОТЕ для атрибутивного признакового пространства символами X и А соответственно, матрицу ОТЕ-ОТЕ географического пространства - символом G.
Примером географических классификаций является группирование регионов (ОТЕ) по силе связей (наиболее часто - экономических). Целью такой классификации является получение групп, связи между ОТЕ которых максимальны. Географические расстояния здесь задаются отдельной таблицей и являются одним из видов связей, поскольку могут отражать, например, стоимость перемни товара из одной ОТЕ в другую.
Еще один вид классификации с использованием матриц сразу двух пространств (причем матрица вида ОТЕ-ОТЕ, представляющая географическое пространство, бинарная) - районирование. Под районированием понимается деление территории на множество непересекающихся целостных районов, представляющих собой компактные сгущения ОТЕ как в географическом, так и в признаковом пространствах [В. И. Блануца, 1993. - С. 3]. В классическом географическом понимании это разделение территории по принципу их различия, непохожести. Матрица расстояний G в данном классе методов представлена таблицей смежности. В терминах районирования синонимом класса с ограничением на его и пространственную нерасчлененность является понятие района.
В основе постановки задачи районирования лежит необходимость территориального управления ОТЕ. Ограничением районирования, помимо пространственной нерасчлененности классов, являются также целостность получаемых классов-районов, а возможно и учет прежней административно-территориальной сетки (например, экономических районов, федеральных округов).
Обучающая выборка. При проведении классификаций очень максимально использовать при анализе априорную информацию о классах, которые необ-
6
ходимо сформировать. Такой информацией в первую очередь является так называемая обучающая выборка, т.е. множество ОТЕ, для каждой из которых известна ее принадлежность одному из классов.
Обладание обучающей выборкой в большинстве случаев облегчает проведение классификаций и повышает их качество. Она может пользоваться для настройки математических моделей — выбора метрики d и показателя качества классификации Q, определение числа классов К, их ядер и т.д. Например, при проведении классификации стран мира по уровню социально-экономического развития, как это описано в работе [В. С. Тикунов, 1997], обучающая выборка состояла из нескольких наиболее типичных стран-представителей каждого класса, что позволило осмысленно с точки зрения географии сформировать классы.
Оценивание истинного количества классов. Очень часто при проведении и классификаций необходимо оценивать количество классов, которые необходимо сформировать. Для определения истинного количества классов Кист существует достаточно простой, но широко используемый подход. Этот подход основан на использовании значений функционала качества классификации Q(K), рассчитанного количества классов Kg [Kmiw..., Kmax]. Истинное значение Кист лежит сразу после последнего резкого скачка функционала качества Q(K). Это означает, что увеличение количества классов не дает затем существенного прироста в качестве классификации.
При решении конкретной задачи целесообразно задаваться минимально и максимально возможными количествами классов Kmin и Ктах (например, Kmin = 2 и К тех — 10). Чем больше диапазон, тем легче находить Кисг и тем больше вычислений придется произвести.