Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Otvety_RUR_pochti_gotovo_za_isklyucheniem_meloc...doc
Скачиваний:
8
Добавлен:
09.09.2019
Размер:
2.62 Mб
Скачать

16. Методологические подходы к анализу многомерной статистической информации

Объект. То, на что направлено управляющее воздействие, например, организация, бизнес, бизнес-структура, находящаяся под влиянием управляющего, менеджера, либо иного субъекта управляющего воздействия; активы, находящиеся в процессе управления.

Признак. Это характерный показатель, позволяющий определить явление и выделить, например, бизнес-процесс из совокупности иных процессов. Скажем, П. классификации, П. улучшения торговли, количественно выраженные П., отличительный П. и др.

Многомерное представление социально-экономической информации – это описание множества объектов совокупностью наборов значений признаков системы на каждом из объектов этого множества.

В зависимости от уровня и глубины исследования выбирают единицу изучаемой совокупности, а также признаки, значения которых достаточно адекватно в соответствии с целями и задачами исследования могут в своей целостной массе отражать изучаемую реальность. Уровень исследований индуцирует соответствующие этому уровню задачи. Так, например, изучая город Москву как субъект РФ, районы или округа города Москвы, можно анализировать демографическую ситуацию в них или их демографическое развитие. Социально-экономические процессы протекают во времени и на разных объектах могут иметь различные стадии развития, что приводит к «разнообразию» наборов значений признаков на объектах рассматриваемой совокупности. Тем не менее оказывается, что существуют классы похожих объектов. Многомерное представление данных и системный подход к анализу информации позволяет, применяя методы многомерного статистического анализа, выявить существующие на момент исследования типы объектов и на их основе обнаружить прежде скрытые закономерности социально-экономических процессов.

Матрица «объект-признак»

Для применения статистических методов анализа совокупность социально-экономических или демографических объектов представляют в виде упорядоченного набора данных с тремя параметрами:

  1. численность единиц совокупности (число объектов);

  2. число признаков, фиксируемых по каждому объекту;

  3. момент времени, в который измеряются значения признаков.

Если совокупность объектов изучается в определенный, фиксированный момент времени, то данные можно представить в виде матрицы размерности, в которой строки описывают объекты, а столбцы – признаки. Эта матрица называется «объект-признак».

Основные статистические методы анализа социально-экономической информации базируются именно на таком представлении исходных данных. Такая форма исходной информации обычно используется при формировании баз данных (с файловой структурой), что не исключает возможности выбора из основного массива (матрицы «объект-признак») подмассивов (подматриц типа «объект-признак») для решения конкретных статистических задач, соответствующих уровню исследования.

Матрица «объект-объект»

В классическом статитсическом анализе, как правило, в исследованиях используют признаки одной природы: количественные и качественные. В матричном подходе к анализу данных возможно проведение анализа при описании объектов признаками разной природы. Универсальным представлением информации в этом случае служит матрица связи в простейшем случае, когда несколько объектов описываются набором значений нескольких номинальных признаков.

Признак определен как номинальный, если его значения определены с точностью до равенства – неравенства. Примером номинального признака является признак «пол» или принадлежность объекта к профессионально-квалификационной группе. В этом случае значения признака кодируются любыми числами. Объекты, принадлежащие к одной группе, кодируются одним и тем же значением по этому признаку. Так, признак «пол» может быть закодирован двумя любыми различными числами.

Более сложным образом формируется матрица связи «объект-объект» для признаков, не являющихся номинальными. В этом случае большое значение имеет выбор типа шкалы признака, откуда следуют возможные его кодировки. Тип шкалы определяется множеством ее допустимых преобразований.

Задача группировки объектов

Представление исходной информации в виде матрицы «объект-признак» порождает 2 типа задач: выявление групп «похожих» объектов и выявление групп взаимосвязанных между собой признаков.

Задача группировки объектов – это задача типологизации и классификации.

В результате решения такой задачи происходит агрегирование исходной информации, которое может интерпретироваться как выявление прежде скрытых свойств и закономерностей социально-экономических процессов и явлений.

Задача группировки признаков

Представление исходной информации в виде матрицы «объект-признак» порождает 2 типа задач: выявление групп «похожих» объектов и выявление групп взаимосвязанных между собой признаков.

Задача группировки признаков – это «факторизация» системы признаков.

В результате решения такой задачи происходит агрегирование исходной информации, которое может интерпретироваться как выявление прежде скрытых свойств и закономерностей социально-экономических процессов и явлений.

Формирование группировки – это формирование качественного признака (или построение матрицы связи, ему соответствующей).

Шкалы: количественные и качественные

Геометрическая интерпретация задачи группировки объектов

Т.к. каждый объект представлен набором значений нескольких показателей, то этот набор можно рассматривать как вектор размерности. Тогда каждому объекту в линейном пространстве размерности можно сопоставить точку (вектор) с координатами.

Тогда задача группировки есть задача обнаружения «сгущении» объектов в указанном пространстве, которое называется признаковым пространством. С другой стороны, водят аналогичным образом и пространство объектов, в котором каждый признак представлен точкой с координатами, являющимися значениями рассматриваемого признака на упорядоченном множестве объектов.

Геометрическая интерпретация задачи группировки признаков

Поскольку количественные признаки определены с точностью до масштаба и начала отсчета, при многомерном автоматизированном анализе стараются привести их к соизмеримым, в определенном смысле единым масштабам и началам отсчета.

С позиций применения линейных методов анализа нормировать признаки удобней по евклидовой норме (т.е. делить каждую координату вектора на длину этого вектора), а не по среднеквадратичному отклонению, хотя часто используют и этот способ.

Вектор х будем называть центрированным, если сумма его компонент равна нулю. Среднее значение центрированного признака также равно нулю, поэтому его скалярный квадрат пропорционален дисперсии.

Некоторые подходы к анализу многомерных данных: матричный подход, поиск логических закономерностей

Многомерный статистический анализ – совокупность статистических методов анализа исходной многомерной информации, в которой каждый объект изучаемой совокупности представлен упорядоченным набором значений признаков (т.е. сведения об объектах формализованы в виде матрицы «объект-признак»).

Существует несколько основных подходов к анализу многомерных данных, результатом применения которых является агрегирование исходной информации («укрупнение, связанное с нахождением классов и/или факторов для рассматриваемой совокупности многомерных объектов и признаков).

Первый подход основан на особом матричном представлении исходных данных, второй – на поиске логических закономерностей, третий представляет собой многомерное шкалирование.

Первый подход основан на предположении, что все возникающие при агрегировании сходной социально-экономической информации задачи с целью выявления прежде скрытых закономерностей социально-экономических процессов так или иначе можно сформулировать как задачи нахождения некоторых группировок. Это могут быть группировки объектов (задачи выявления типов) или группировки признаков, взаимосвязанных на изучаемой совокупности объектов статистического анализа.

Здесь важную роль играет содержательная интерпретация полученных результатов. Поэтому решение задачи анализа данных предполагает не формальный подход к ее решению, а проникновение участников процесса решения в содержание изучаемой проблемы хотя бы на вербальном уровне. Идеальным решением для задач такого рода является постоянный творческий диалог специалиста по многомерному анализу и специалиста в изучаемой области, которые могут быть объединены и в одном лице. С другой стороны, решение подобных задач предполагает постоянный диалог «человек - персональный компьютер» в итеративном процессе. Так исследователь описывает задачу, выдвигает некоторые гипотезы содержательного характера. На этой основе ставится задача анализа данных, т.е. формализуются данные, цели исследования, предполагается определенный статистический аппарат для ее решения. Затем данные вводят в компьютер, осуществляют контроль и проводят их предварительный анализ (например, выбирают из всей системы признаков систему информативных признаков), затем в соответствии с выбранным статистическим аппаратом выполняют на компьютере расчеты. Полученные при расчетах результаты анализируются, проверяются содержательные гипотезы, уточняется постановка задачи, затем опять производятся расчеты и т.д. до получения решения, удовлетворяющего как формальным требованиям, соответствующим выбранному статистическому аппарату, так и «разумной» интерпретации (в смысле выбранной на основе содержательных соображений теоретической концепции). В этом диалоге «человек – персональный компьютер» главенствующая роль остается за исследователей, а к статистическому аппарату предъявляется ряд общих требований.

В матричном подходе к анализу данных возможно проведение анализа при описании объектов признаками разной природы. Универсальным представлением информации в этом случае служит матрица в связи «объект-объект».

Второй подход: не ставит своей целью использовать группировку для описания конкретной проблемы, а предполагает найти «сгущения» объектов в пространстве признаков, т.е. так называемую «естественную» группировку.

Принципы и алгоритмы автоматизации метода группировок

Понятие алгоритмических и вариационных методов классификации. Примеры

По способу построения группировок все методы классификации (как признаков, так и объектов) делятся на алгоритмически и вариационные методы.

Алгоритмический метод использует некоторые эвристические соображения исследователя, на основании которых и формируются классы. Основное требование в этом подходе к формируемым классам – их компактность. Под компактной группой к некотором пространстве понимают такое множество точек этого пространства, для которого средняя внутренняя связь больше, чем средняя вовне (или среднее внутреннее расстояние, наоборот, меньше, чем среднее расстояние вовне). Успешное применение этих алгоритмов предполагает наличие у исследователя некоторых априорных сведений о реально существующих группах изучаемой совокупности. Эвристические алгоритмы, как правило, линейны, т.е. число операций а них пропорционально числу классифицируемых объектов.

Примером эвристического алгоритма, применяемого при формировании классов объектов, служит известный алгоритм Мак Кина (или метод центров): 1) задаются несколько точек в пространстве признаков, которые объявляются центрами классов. 2) рассчитывается расстояние между объектом и центром класса. 3) пересчитываются центры классов. Алгоритм заканчивает работу, когда процесс стабилизируется.

(алгоритм этот в лекции последней вроде был)

Вариационный метод: предполагает наличие некоторого критерия качества группировки. Этот критерий, как правило, выводится формально из модели данных. Критерий или оценивает степень близости группировки к некоторой «идеальной» группировке, или минимизирует «погрешность» в аппроксимационных моделях данных. В первом случае учитывается не только требование компактности групп, но и представление об их количестве и их наполненности. Т.к. сама сконструированная группировка в силу эквивалентности качественного признака и разбиения (группировки) есть реализация некоторого латентного признака, порожденного свойством многомерности данных, то по сути критерий качества группировки отражает степень «аппроксимации» всех признаков в совокупности одним сконструированным качественным признаков.

Во втором случае критерий качества выводится из самой модели данных, в которой предполагается, что матрица связи «порождена» одним или несколькими качественными факторами. Это формализовано в модели тем, что матрицу связи «объект-объект» аппроксимируют линейной комбинацией матриц связи, вид каждой из который алгоритмически определяется свойствами качественного фактора, ей соответствующего. Достигается это тем, что при конструировании качественного фактора оценивается степень учета исходной информации, в том числе и доля разброса исходных данных, участвующих в получении решения.

Примером вариационного подхода может служить группировка признаков методом экстремальной группировки параметров, а также все алгоритмы и методы в матричном подходе к анализу данных.

Метод главных кластеров: идея метода, модель, интерпретация результатов

Метод порядковой классификации