logo search
ММНИ учеб

Кластерный анализ

КЛАСТЕР (англ. Cluster (группа)) в прикладной статистике – группа объектов такая, что средний квадрат внутригруппового расстояния в какой-либо метрике до центра группы меньше среднего квадрата расстояния до общего центра в исходной совокупности.

КЛАСТЕРНЫЙ АНАЛИЗ (англ. Cluster analysis) – реализация математических методов, предназначенных для формирования относительно «отдаленных» друг от друга групп «близких» между собой объектов во введенных мерах близости между ними. По смыслу аналогичен терминам: автоматическая классификация, таксономия, распознавание об­разов без учителя. Используется для анализа структуры совокупностей социально-экон. по­казателей по заданной матрице коэффициен­тов корреляции между ними, социально-экон. объектов (предприятий, регионов, социологи­ческих анкет), описанных многими априорно равноправными признаками, и т. п.

Алгоритмические процедуры К. а. обычно включают параметры, задаваемые исследовате­лем (число классов, порог значимости и т. п.), что позволяет получать несколько решений, из к-рых исследователь выбирает наилучшее с точки зрения интерпретации в терминах теоре­тических представлений о конкретном изучае­мом явлении.

В современной статистике для построения многомерных группировок обычно используют один из подходов: факторный анализ или кластер-анализ. Как известно, факторный анализ состоит в переходе к малому числу латентных (скрытых) переменных — факторов и проведении классификации объектов по этим факторам. Это один из самых распространенных методов анализа многомерной информации. Так, в региональных социально-экономических и демографических исследованиях городов и населенных пунктов обычно использованы методы факторного анализа.

Что касается кластер-анализа, то он позволяет анализировать одновременно много признаков, но обычные методы и программы кластер-анализа имеют ряд недостатков:

- много априорных параметров (число классов, порог существенности связей и т.д.);

- непосредственным результатом кластер-анализа является состав классов (групп), а все характеристики этих классов, необходимые для интерпретации, носят внешний характер по отношению к рассматриваемой модели.

Таким образом, и эти наиболее часто используемые модели анализа данных не лишены недостатков, которые можно считать уже традиционными — это недостаточное соответствие между математической формализацией (моделью) и той реальностью, которую эта модель призвана отражать. Можно выделить причины этого несоответствия:

1) зачастую используются методы, разработанные для нужд других наук, в то время как методы, весьма полезные в социально-экономических исследованиях, остаются неизвестными исследователям;

2) при использовании математико-статистических методов часто не учитывается, что каждый математический метод имеет свою область эффективности и предполагает определенную модель явления, которая, как правило, отражает лишь какую-то сторону реальности.

В исследованиях социально-экономического развития регионов предлагается использовать две модели, которые в какой-то степени преодолевают указанные недостатки.

Первая модель — метод главных кластеров основана на линейной модели агрегирования данных и в качестве решения содержит, кроме состава классов, ряд параметров самой модели.

Рассмотрим идею этого метода, алгоритмическую реализацию его, а также возможности предлагаемой модели для статистического анализа полученных в результате работы алгоритма группировок многомерных объектов и их содержательной интерпретации.

Исходная информация в методе главных кластеров предполагается заданной в виде матрицы "объект-признак" и порождается суммами "вкладов" отдельных кластеров. Модель является линейной, и соотношения модели аналогичны соотношениям модели главных компонент. Полученные в результате работы алгоритма группировки описываются параметрами, заложенными в самой модели: оценивается вклад каждого кластера в дисперсию исходных данных и на этой основе оценивается сравнительная значимость кластеров, указываются эталонные значения признаков для каждого кластера, а также веса признаков в каждом кластере.

Применяемый метод позволяет не фиксировать число кластеров заранее, а определить в процессе решения на основе анализа соответствующей доли дисперсии до исчерпания всех объектов множества.

Итак, модель имеет следующий вид. Пусть Y = - матрица данных "объект-признак",

где - номер объекта ( );

- номер признака ( );

- значение -го признака на ­ -м объекте ( ; ).

Обозначим через искомые кластеры (группы), численности которых равны соответственно. Количество самих кластеров, а также число объектов в каждой из групп заранее не определены. Каждому кластеру сопоставим два нижеследующих вектора:

-мерный вектор

, где

и -мерный вектор ,

где - "эталонное" значение признака для объектов кластера ( ; ).

В этих терминах модель имеет следующий вид:

,

где - "невязки" соотношений модели агрегирования, ( ; ).

Заметим, что матрица Y может быть стандартизована (хотя это и не обязательно).

Необходимо найти векторы ft, at ( ) исходя из требования минимизации суммарной квадратичной невязки

.

При реализации этого метода используется принцип последовательного исчерпания данных, аналогичный тому, который используется в методе главных компонент. Метод главных кластеров основан на той же модели агрегирования, что и метод главных компонент, но принимает "нуль-единичные" значения, а не произвольные, как в методе главных компонент. Согласно указанному принципу, кластеры и связанные с ним векторы ft, at отыскиваются последовательно на основе остаточных матриц связи. Полученное решение удовлетворяет следующему соотношению:

, (3)

где - суммарная дисперсия исходных данных;

- характеристика вклада -го кластера в разброс данных, и имеет место равенство:

.

Из (3) и (4) видно, что суммарная дисперсия исходных данных оказывается равной сумме вкладов кластеров в разброс данных и суммарной квадратичной невязки, а вклад каждого  -го кластера пропорционален мощности этого кластера (числу объектов, принадлежащих этому кластеру) и средней внутренней связи между объектами в этом кластере.

Все сказанное позволяет оценить весомость отдельного  -го кластера величиной и отдельного признака для каждого кластера величиной , что используется при интерпретации решения задачи группировки. Процедура решения задачи формирования класса для каждой из остаточных матриц связи реализуется как процесс последовательного присоединения к кластеру объектов по критерию максимальной средней связи в кластере , что оказывается равносильно минимизации суммарной квадратичной невязки.

Таким образом, метод главных кластеров обладает следующими особенностями:

- главные кластеры формируются с помощью типичного кластерного алгоритма последовательного присоединения объектов по максимуму средней связи (с автоматическим выбором остальных параметров) и являются "сильными" кластерами, то есть средняя внутренняя связь между наблюдениями в кластере более чем в два раза превышает среднюю его связь с любым внешним наблюдением;

- модель главных кластеров рассматривает исходную информацию, заданную в виде матрицы "объект-признак", как порожденную кластерами с определенными весами.

Рассмотрим некоторую модификацию метода главных кластеров.

Итак, метод главных кластеров формирует "сильные кластеры, то есть средняя связь любого внешнего по отношению к рассматриваемому кластеру объекта с самим кластером составляет не больше чем половину от средней связи между объектами внутри данного кластера. Назовем показатель ( =1/2 в случае "сильных" кластеров) степенью контрастности группировки (или разбиения). В целях управления процессом классификации совершим эвристический шаг по изменению величины контрастности и введем в модель параметр  , который будет являться поправочным коэффициентом при сравнении для каждого рассматриваемого объекта соответствующей разбиению "внутренней" и "внешней" связи.

Так, при уменьшении "контрастности" получается большее число классов в группировке, но с достаточно малой мощностью каждого класса. В противном случае могут образоваться "рыхлые", менее однородные классы. Таким образом, величину контрастности можно понимать как соотношение между внутренними и внешними связями группировки. Другую модификацию метода главных кластеров можно получить в виде модели, в которую введено "извне" отсеивание так называемых "запрещенных" значений признаков.