Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Истомин А.В. Анализ_данных.doc
Скачиваний:
2
Добавлен:
08.12.2018
Размер:
307.71 Кб
Скачать
  1. Введение

Настоящий выпуск является вторым из серии выпусков, в которых излагается курс «Математическое моделирование геологических объектов», сопровождаемый учебно-методическими рекомендациями, контрольными вопросами и комментариями. В этом выпуске первоочередное внимание уделяется анализу данных как самостоятельной научной дисциплине и в его сопряжении с прикладной статистикой. Излагается, конечно, не «весь» анализ данных, а только отдельные его фрагменты, необходимые для понимания курса в целом. Приводятся минимально необходимые сведения о прикладной статистике.

Математическое моделирование геологических объектов тесно связано с анализом данных, как самостоятельной научной дисциплиной, и прикладной статистикой.

Каким образом анализ данных, математическое моделирование и прикладная статистика совместно используются при решении конкретных геологических задач и, в частности, при создании моделей геологических объектов? Обычно создание модели геологического объекта разбивается на ряд подзадач, образующих единую блок-схему с последовательным и параллельным движением обрабатываемой информации от исходных процедур к конечному результату – синтезу модели.

Решение каждой из таких подзадач сводится либо к построению и анализу некоторой частной модели, либо к поиску стохастической зависимости между некоторыми параметрами, либо к решению той или иной типовой задачи анализа данных и т.п. В последнем случае выбирается алгоритм, удовлетворяющий требованиям, предъявляемым исходной информацией. Требования эти могут иметь как чисто формальный характер (например, наличие в таблице разнотипных признаков делает невозможным применение некоторых алгоритмов), так и представлять собой «трудно» формализуемые представления о системе исследуемых объектов, которыми тоже не следует пренебрегать.

В настоящее время не существует универсального формально-математического способа для выбора подходящего алгоритма. Поэтому при выборе алгоритма наряду с проверкой его формально-математической пригодности рекомендуется ориентироваться и на его относительную простоту и содержательную интерпретируемость используемого математического аппарата в конкретной задаче, опыт применения алгоритма при решении аналогичных задач.

2. Типовые задачи анализа данных

Пусть заданы описания объектов Si признаками Xj, где i=1,…,m, j=1,…,n. Информация о значениях признаков Xj содержится в таблицах T, где на пересечении i-ой строки и j-го столбца стоит значение Xj(Si) признака Xj у объекта Si. Признаки Xj, принимающие значения на множествах D(Xj), замерены в любом из четырёх общераспространённых типов шкал – наименований, порядка, отношений, интервалов (см. Красавчиков, 2009).

Будем считать, что ранговые признаки (шкала порядка) принимают значения на конечных множествах, а количественные (шкалы отношений и интервалов) – на ограниченных.

Методами анализа данных решаются, в частности, следующие типовые задачи:

а) распознавание;

б) многомерное шкалирование (упорядочение);

в) кластер-анализ (группирование, таксономия);

г) заполнение пропусков;

д) МОЗ (машинное обнаружение закономерностей);

е) нахождение покрытий.

Следует подчеркнуть, что здесь речь идет именно о задачах анализа данных, а не о геологических или математических. В литературе описаны и другие типовые задачи, а также эти же задачи, но в несколько иных постановках. Однако, эти задачи в нижеприведённых версиях постановок являются наиболее распространёнными. Рассмотрим, в чем заключаются перечисленные задачи.

а) Распознавание. Из двух классов объектов К1 и К2 выбрано по m(1) и m(2) объектов соответственно. Эти объекты охарактеризованы одними и теми же признаками Х1,...,Хn. Информация представлена в двух таблицах Т1 и Т2 (в первой таблице m1 строк, n столбцов, во второй m2 строк, n столбцов). Таблица Т1 содержит описания объектов S1,…,Sm(1), таблица Т2 – описания объектов Sm(1)+1,…,Sm признаками Х1,...,Хn, где m=m(1)+m(2).

Требуется: проанализировав данные таблиц Т1 и Т2, найти решающее правило, позволяющее для любого объекта из К1 К2 по значениям характеристических признаков Х1,..., Хn, замеренным у этого объекта, указать, к какому из классов К1, К2 он относится.

Объекты, представленные в таблицах Т1, Т2, составляют материал обучения, а объекты с неизвестной принадлежностью к К1 или К2, для которых требуется установить эту принадлежность, называются пробами. Иногда для проверки системы распознавания в число проб включаются объекты с известной принадлежностью к классам. Такие объекты составляют материал экзамена.

Обычно, решающее правило может быть сформулировано как высказывание нижеследующего вида. Пусть у объекта S из К1К2 известны значения признаков Xj, j=1,…,n, равные X1(S),…,Xn(S) соответственно. Тогда

при F(X1(S),…,Xn(S))≥λ+ε объект S относится к К1;

при F(X1(S),…,Xn(S))≤λ-ε объект S относится к К2;

при λ-ε <F(X1(S),…,Xn(S))<λ+ε объект S не распознаётся.

Функция F(u1,…,un), определённая для любых uj из D(Xj), называется решающей функцией, величины λ и ε называются управляющими параметрами алгоритма, ε>0. Кроме них, могут быть и другие управляющие параметры, характеризующие функцию F.

Если удаётся найти решающее правило, достаточно хорошо классифицирующее материал обучения и экзамена, то оно применяется к распознаванию проб.

б) Упорядочение. Дана таблица обучения Т с m строками и n столбцами. Объекты S1, ..., Sm, описанные в таблице, принадлежат одному и тому же классу K и упорядочены по убыванию значений количественного или рангового целевого признака Хn+1, не входящего в исходный список Х1,…,Хn:

Xn+1(S1)>Xn+1(S2) >…>Xn+1(Sm) (1)

Требуется, проанализировав данные таблицы T, найти решающую функцию, позволяющую для любого объекта S из K указать его место в последовательности S1,…,Sm, т. е. установить, что Xn+1(S) > Xn+1(S1) или же Xn+1(Sm) > Xn+1(S), либо указать, для какого j Xn+1(Sj)>Xn+1(S)>Xn+1(Sj+1) или Xn+1(Sj)=Xn+1(S).

Для этого обычно осуществляется отыскание решающей функции вида F(u1,…,un), значения которой определяют место пробы в исходной последовательности. В «идеализированной» ситуации эта функция должна удовлетворять условиям

F(X1(Si),…,Xn(Si))>F(X1(Si+1),…,Xn(Si+1)), i=1,…,m-1, (2)

т.е. правильно упорядочивать материал обучения.

Следует отметить также, что иногда используется более общая постановка задачи упорядочения, когда допустимо не только отношение “>”, но и отношения “=” и “”. Кроме того, вместо отношения порядка “>” может выступать отношение частичного порядка (например, при анализе предпочтений).

в) Кластер-анализ. Задана таблица обучения T, составленная из описаний объектов S1, ...,Sm признаками Х1, ..., Хn. Требуется, исходя из сравнения описаний объектов, разбить их на однородные (относительно заданной меры сходства между объектами) группы.

В действительности, слово «разбиение» не вполне точно отражает суть требуемого решения, поскольку в результате применения процедур кластер-анализа могут быть получены не только разбиения, но и древовидные иерархии объектов (Методы анализа данных…, 1985, Мандель, 1988).

г) Заполнение пропусков. Исследования в этом направлении ведутся как в рамках классической статистики (Литтл, Рубин, 1990), так и в анализе данных в широком смысле (Загоруйко, Ёлкина, Тимеркаев, 1976; Методы анализа данных…, 1985 и др.). Задача состоит в следующем. В таблице T значения некоторых признаков у некоторых объектов не указаны. Требуется, проанализировав заполненную часть таблицы, указать недостающие значения признаков.

д) МОЗ. Решению этой задачи, как и заполнению пропусков, посвящено целое направление в анализе данных (Машинные методы обнаружения закономерностей, 1976 и др.). В самой упрощённой постановке рассматривается ситуация, когда задана таблица T и некоторый тип зависимостей между характеристиками объектов (например, зависимости типа Xj ≈ aХi + b, т. е. линейные зависимости между признаками). Требуется перечислить все зависимости заданного типа между признаками X1,…,Xn на множестве объектов, представленных таблицей T. Понятно, что речь идет, как правило, о приближенном соответствии типу зависимостей. Если тип зависимостей не указан, то возникает проблема поиска закономерностей в самом широком смысле.

Указанные постановки (с незначительными вариациями в формулировках) широко освещены в литературе и используются при решении прикладных задач. Их выделение, видимо, обобщает опыт решения конкретных прикладных проблем, а не является результатом тщательно обоснованной классификации. Так, например, задачи (ав) можно трактовать как частные случаи задачи заполнения пропусков; возможны и иные варианты сведения одних проблем к другим. Кроме того, следует ясно представлять себе, что в пунктах (а д) изложены не постановки или формулировки задач, а только описания типов этих задач, поскольку вышеописанные формулировки весьма неоднозначны. Так, в задаче группирования следует дополнительно уточнить, что понимается под однородностью группы объектов, какова мера сходства между объектами. Кроме того, необходимо указать критерий качества разбиения (т.е. функционал качества), чтобы различные варианты объединения объектов в группы можно было сравнивать между собой. Различные уточнения приводят к различным конкретным алгоритмам, при этом каждый такой алгоритм явным или неявным образом основывается на некоторой модели анализируемой ситуации. Что же касается типовых задач (а, б, г), то здесь наиболее существенные уточнения связаны с обоснованием правомерности предположения о том, что «хорошая» работа алгоритма на материале обучения и экзамена приведет к не менее «хорошей» работе для проб. В статистической теории распознавания (см., например, (Фукугава, 1979)) при определенных условиях этот факт может быть строго доказан. Однако на практике эти условия, как правило, не выполняются, либо проверка их крайне затруднительна. В этом случае для задач типа (а, б, г) обоснование применимости того или иного алгоритма при решении конкретной прикладной задачи должно (в идеале), по-видимому, включать в себя проверку двух нижеследующих условий:

1) решающее правило, в принципе, допускает содержательную интерпретацию в сфере возникновения задачи;

2) соответствующий решающему правилу содержательный критерий может быть обоснован в рамках сферы возникновения задачи.

Стоит заметить, что на практике и эти критерии далеко не всегда выполняются.

е) Нахождение покрытий. В отличие от предыдущих, это – задача в строгом математическом смысле. Задача о покрытии формулируется следующим образом (Сапоженко, Асратян, Кузюрин, 1977). Заданы два множества объектов произвольной природы V и Е. Множество V называется покрываемым, Е покрывающим. Задано также произвольное отношение I между элементами этих множеств. Если v – элемент V, е– элемент Е и при этом v и е находятся в отношении I, то это обозначается vIе. Отношение I принято называть отношением инцидентности, и в случае, когда vIе, говорят, что v и е инцидентны. Подмножество С множества Е называется покрытием, если для любого элемента множества V найдется элемент е подмножества С такой, что vIе. Под задачей о покрытии понимается задача о нахождении по заданным V, Е и отношению I минимального по числу элементов покрытия С множества V.

Важнейшим вопросом при использовании методов анализа данных является оценка достоверности результатов, их верификация, поскольку здесь велика опасность субъективной трактовки, выдачи желаемого за действительное (кроме задачи (е). На наш взгляд, наиболее перспективным является путь применения рангового (непараметрического) подхода прикладной статистики.