Библиографический список.

1. Руденко О.Г., Бодянский Е.В. Искусственные нейронные сети – Харьков, 2005.

2. Котов А., Красильников Н. Кластеризация данных. 2006.

3. Jain A.K., Murty M.N., Flynn P.J. Data Clustering: A Review "(http://www/csee/umbc/edu/nicolas/clustering/p264-jain.pdf)

4. Kogan J., Nicholas C., Teboulle M. Clustering Large and High Dimensional Data (http://www/csee/umbc/edu/nicolas/clustering/tutorial.pdf)

5. Медведев В.С., Потемкин В.Г. Нейронные сети. MATLAB 6 – М.: ДИАЛОГ-МИФИ, 2002.

6. Круглов В. В., Борисов В. В. Искусственные нейронные сети. Теория и практика – М.: Горячая линия - Телеком, 2001.

7. Каллан Р. Основные концепции нейронных сетей – «Вильямс», 2001.

8. Воронцов К.В. Алгоритмы кластеризации и многомерного шкалирования. Курс лекций. МГУ, 2007.

9. Чубукова И.А. Курс лекций «Data Mining», Интернет-университет информационных технологий —www.intuit.ru/department/database/datamining

10. Прикладная статистика: классификация и снижение размерности. / С.А. Айвазян, В.М. Бухштабер, И.С. Енюков, Л.Д. Мешалкин — М.: Финансы и статистика, 2006.

Приложение 1

Предположим, что транзакции хранятся в таблице базы данных. Лучшее решение ищется в течение последовательного итеративного перебора записей базы данных. Поскольку критерий оптимизации имеет глобальный характер, основанный только на расчете H и W, производительность и скорость алгоритма будет значительно выше, чем при попарном сравнении транзакций.

Реализация алгоритма требует первого прохода по таблице транзакций для построения начального разбиения, определяемого функцией Profit(C,r). После этого требуется незначительное (1-3) количество дополнительных сканирований таблицы для повышения качества кластеризации и оптимизации функции стоимости. Если в текущем проходе по таблице изменений не произошло, то алгоритм прекращает свою работу. Псевдокод алгоритма имеет следующий вид.

// Фаза 1 – инициализация
Пока не конец
прочитать из таблицы следующую транзакцию [t, -];
положить t в существующий либо в новый кластер C_i, который дает максимум Profit(C,r);
записать [t,i] в таблицу (номер кластера);
// Фаза 2 – Итерация
Повторять
перейти в начало таблицы;
moved := false;
пока не конец таблицы
читать [t,i];
положить t в существующий либо в новый кластер C_j, который максимизирует Profit(C,r);
если C_i<>C_j тогда
записать [t,i];
moved := true;
пока (not moved).
удалить все пустые кластеры;

Как видно, алгоритм CLOPE является масштабируемым, поскольку способен работать в ограниченном объеме оперативной памяти компьютера. Во время работы в RAM хранится только текущая транзакция и небольшое количество информации по каждому кластеру, которая состоит из: количества транзакций N, числа уникальных объектов (или ширины кластера) W, простой хэш-таблицы для расчета Occ(i,C) и значения S площади кластера. Они называются кластерными характеристиками (CF – cluster features). Для простоты обозначим их как свойства кластера C, например, C.Occ[i] означает число вхождений объекта i в кластер C и т.д. Можно посчитать, что для хранения частоты вхождений 10 тыс. объектов в 1 тыс. кластерах необходимо около 40 Мб оперативной памяти.

Для завершения реализации алгоритма нам нужны еще две функции, рассчитывающие прирост Profit(C,r) при добавлении и удалении транзакции из кластера. Это легко сделать, зная величины S,W и N каждого кластера:

function DeltaAdd(C,t,r): double;
begin
S_new := C.S + t.ItemCount;
W_new := C.W;
for i:=0 to t.ItemCount–1 do
if (C.Occ[t.items[i]]=0) then W_new := W_new + 1;
result := S_new*(C.N+1)/(W_new)^r–C.S*C.N/(C.W)^r
end;

<<< < Предыдущая 1 2 3 4 5 6 78 / 88

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
17.11.2018256.51 Кб3Контрольная 1-ого курса предзачетная ноябрь.doc
#
25.11.2019107.52 Кб0Контрольная работа по калькулированию.doc
#
06.09.2019256.51 Кб3контрольная фитт.doc
#
21.08.20191.81 Mб3КОНТРОЛЬНАЯ_ТИПИС_ИС.doc
#
18.08.2019192.51 Кб2Криминол. Рефераты темы.doc
#
24.04.2019958.46 Кб13Крутько.doc
#
01.12.2018177.15 Кб3кр№2 II к 123 вар.doc
#
19.12.2018112.13 Кб4Культура Греции 6,7 Рима 3,4.doc
#
07.07.2019674.82 Кб2Курсовая исправленная.doc
#
14.08.2019434.18 Кб6курсовая_по_ЭОП_1_02.doc
#
16.08.2019526.37 Кб6Курсовик.rtf