Кластерный анализ
КЛАСТЕР (англ. Cluster (группа)) в прикладной статистике – группа объектов такая, что средний квадрат внутригруппового расстояния в какой-либо метрике до центра группы меньше среднего квадрата расстояния до общего центра в исходной совокупности.
КЛАСТЕРНЫЙ АНАЛИЗ (англ. Cluster analysis) – реализация математических методов, предназначенных для формирования относительно «отдаленных» друг от друга групп «близких» между собой объектов во введенных мерах близости между ними. По смыслу аналогичен терминам: автоматическая классификация, таксономия, распознавание образов без учителя. Используется для анализа структуры совокупностей социально-экон. показателей по заданной матрице коэффициентов корреляции между ними, социально-экон. объектов (предприятий, регионов, социологических анкет), описанных многими априорно равноправными признаками, и т. п.
Алгоритмические процедуры К. а. обычно включают параметры, задаваемые исследователем (число классов, порог значимости и т. п.), что позволяет получать несколько решений, из к-рых исследователь выбирает наилучшее с точки зрения интерпретации в терминах теоретических представлений о конкретном изучаемом явлении.
В современной статистике для построения многомерных группировок обычно используют один из подходов: факторный анализ или кластер-анализ. Как известно, факторный анализ состоит в переходе к малому числу латентных (скрытых) переменных — факторов и проведении классификации объектов по этим факторам. Это один из самых распространенных методов анализа многомерной информации. Так, в региональных социально-экономических и демографических исследованиях городов и населенных пунктов обычно использованы методы факторного анализа.
Что касается кластер-анализа, то он позволяет анализировать одновременно много признаков, но обычные методы и программы кластер-анализа имеют ряд недостатков:
- много априорных параметров (число классов, порог существенности связей и т.д.);
- непосредственным результатом кластер-анализа является состав классов (групп), а все характеристики этих классов, необходимые для интерпретации, носят внешний характер по отношению к рассматриваемой модели.
Таким образом, и эти наиболее часто используемые модели анализа данных не лишены недостатков, которые можно считать уже традиционными — это недостаточное соответствие между математической формализацией (моделью) и той реальностью, которую эта модель призвана отражать. Можно выделить причины этого несоответствия:
1) зачастую используются методы, разработанные для нужд других наук, в то время как методы, весьма полезные в социально-экономических исследованиях, остаются неизвестными исследователям;
2) при использовании математико-статистических методов часто не учитывается, что каждый математический метод имеет свою область эффективности и предполагает определенную модель явления, которая, как правило, отражает лишь какую-то сторону реальности.
В исследованиях социально-экономического развития регионов предлагается использовать две модели, которые в какой-то степени преодолевают указанные недостатки.
Первая модель — метод главных кластеров основана на линейной модели агрегирования данных и в качестве решения содержит, кроме состава классов, ряд параметров самой модели.
Рассмотрим идею этого метода, алгоритмическую реализацию его, а также возможности предлагаемой модели для статистического анализа полученных в результате работы алгоритма группировок многомерных объектов и их содержательной интерпретации.
Исходная информация в методе главных кластеров предполагается заданной в виде матрицы "объект-признак" и порождается суммами "вкладов" отдельных кластеров. Модель является линейной, и соотношения модели аналогичны соотношениям модели главных компонент. Полученные в результате работы алгоритма группировки описываются параметрами, заложенными в самой модели: оценивается вклад каждого кластера в дисперсию исходных данных и на этой основе оценивается сравнительная значимость кластеров, указываются эталонные значения признаков для каждого кластера, а также веса признаков в каждом кластере.
Применяемый метод позволяет не фиксировать число кластеров заранее, а определить в процессе решения на основе анализа соответствующей доли дисперсии до исчерпания всех объектов множества.
Итак, модель имеет следующий вид. Пусть Y = - матрица данных "объект-признак",
где - номер объекта ( );
- номер признака ( );
- значение -го признака на -м объекте ( ; ).
Обозначим через искомые кластеры (группы), численности которых равны соответственно. Количество самих кластеров, а также число объектов в каждой из групп заранее не определены. Каждому кластеру сопоставим два нижеследующих вектора:
-мерный вектор
, где
и -мерный вектор ,
где - "эталонное" значение признака для объектов кластера ( ; ).
В этих терминах модель имеет следующий вид:
,
где - "невязки" соотношений модели агрегирования, ( ; ).
Заметим, что матрица Y может быть стандартизована (хотя это и не обязательно).
Необходимо найти векторы ft, at ( ) исходя из требования минимизации суммарной квадратичной невязки
.
При реализации этого метода используется принцип последовательного исчерпания данных, аналогичный тому, который используется в методе главных компонент. Метод главных кластеров основан на той же модели агрегирования, что и метод главных компонент, но принимает "нуль-единичные" значения, а не произвольные, как в методе главных компонент. Согласно указанному принципу, кластеры и связанные с ним векторы ft, at отыскиваются последовательно на основе остаточных матриц связи. Полученное решение удовлетворяет следующему соотношению:
, (3)
где - суммарная дисперсия исходных данных;
- характеристика вклада -го кластера в разброс данных, и имеет место равенство:
.
Из (3) и (4) видно, что суммарная дисперсия исходных данных оказывается равной сумме вкладов кластеров в разброс данных и суммарной квадратичной невязки, а вклад каждого -го кластера пропорционален мощности этого кластера (числу объектов, принадлежащих этому кластеру) и средней внутренней связи между объектами в этом кластере.
Все сказанное позволяет оценить весомость отдельного -го кластера величиной и отдельного признака для каждого кластера величиной , что используется при интерпретации решения задачи группировки. Процедура решения задачи формирования класса для каждой из остаточных матриц связи реализуется как процесс последовательного присоединения к кластеру объектов по критерию максимальной средней связи в кластере , что оказывается равносильно минимизации суммарной квадратичной невязки.
Таким образом, метод главных кластеров обладает следующими особенностями:
каждый кластер характеризуется не только своим составом, но и вектором "эталонных" значений признаков в кластере, а также характеристиками значимости самого кластера (D-вес кластера), отдельных признаков (вес признака в классе), что важно с точки зрения интерпретации;
- главные кластеры формируются с помощью типичного кластерного алгоритма последовательного присоединения объектов по максимуму средней связи (с автоматическим выбором остальных параметров) и являются "сильными" кластерами, то есть средняя внутренняя связь между наблюдениями в кластере более чем в два раза превышает среднюю его связь с любым внешним наблюдением;
- модель главных кластеров рассматривает исходную информацию, заданную в виде матрицы "объект-признак", как порожденную кластерами с определенными весами.
Рассмотрим некоторую модификацию метода главных кластеров.
Итак, метод главных кластеров формирует "сильные кластеры, то есть средняя связь любого внешнего по отношению к рассматриваемому кластеру объекта с самим кластером составляет не больше чем половину от средней связи между объектами внутри данного кластера. Назовем показатель ( =1/2 в случае "сильных" кластеров) степенью контрастности группировки (или разбиения). В целях управления процессом классификации совершим эвристический шаг по изменению величины контрастности и введем в модель параметр , который будет являться поправочным коэффициентом при сравнении для каждого рассматриваемого объекта соответствующей разбиению "внутренней" и "внешней" связи.
Так, при уменьшении "контрастности" получается большее число классов в группировке, но с достаточно малой мощностью каждого класса. В противном случае могут образоваться "рыхлые", менее однородные классы. Таким образом, величину контрастности можно понимать как соотношение между внутренними и внешними связями группировки. Другую модификацию метода главных кластеров можно получить в виде модели, в которую введено "извне" отсеивание так называемых "запрещенных" значений признаков.
- Isbn © л л. Высоцкий, а. В. Новокрещенов, 2009
- Введение
- Отличительные особенности научной работы
- 1.1. Специфика научной деятельности
- 1.2. Цель, виды, уровни и эффективность научной работы Цель научной работы
- Виды научной работы
- Классификации уровней и методов научного поиска
- 1.3. Научное изучение и предвидение Признаки научности исследования
- Научное предвидение
- 1.4. Планирование и самоорганизация в науке
- 1.5. Этика научной работы
- Список основной литературы
- Список дополнительной литературы
- Методология научного исследования
- 2.1. Методология науки как система
- 2.2. Основные методологические принципы познания
- Принцип комплексности познания
- Системное познание
- Принцип детерминизма
- Историко-логический принцип познания
- 2.3. Логические основы исследований
- Логика дедуктивных и индуктивных выводов
- Правила аргументации
- 2.4. Согласование задания на исследовательскую работу
- Формулировка темы исследования
- Выбор объекта исследования
- Согласование предмета исследования
- Согласование главной цели работы
- Задачи исследования
- Выбор инструментария исследования
- Примерный перечень предполагаемых результатов
- Структура работы
- Перечень предполагаемых иллюстраций к докладу работы
- Список основной литературы
- Список дополнительной литературы
- Общенаучные методы научного исследования
- 3.1. Обобщенные методы эмпирического познания Научное наблюдение и описание
- Эксперимент
- Индикаторы и шкалирование
- Типы шкал и правила их построения
- Номинальная шкала
- Ранговая (порядковая) шкала
- Интервальная шкала
- Измерение и сравнение
- 3.2. Общенаучные методы теоретического познания Восхождение от абстрактного к конкретному
- Идеализация и мысленный эксперимент
- Формализация
- Аксиоматический метод
- Метод гипотезы
- 3.3. Общенаучные методы всех уровней познания Применение анализа и синтеза в научных исследованиях
- Применение индукции и дедукции в научных исследованиях
- Возможности аналогий и моделирования в научных исследованиях
- Системный подход
- Особенности системных решений проблем разного профиля
- Системный анализ
- 3.4. Общие методы анализа информации
- Контент-анализ
- Методы группировок и классификаций Методы группировок
- Кластерный анализ
- Факторный анализ
- Методы экстраполяции
- 3.5. Методическое исследование
- 3.6. Комплексное исследование
- Список основной литературы
- Список дополнительной литературы
- Специальные методы исследований проблем государственного и муниципального управления
- 4.1. Методы экономических исследований
- Факторы исследования экономических явлений
- Экономические концепции и теории
- Принципы рационализации экономических решений
- Современные проблемы Российской экономики
- 4.2. Методы социологических исследований
- Социальное обследование методом "фокус-групп"
- От социальных обследований к научным исследованиям
- Эмпирические методы социального исследования
- Гипотезы и теории в социальном исследовании
- Социологические концепции, доктрины и парадигмы
- 4.3. Методы исследований социально-экономического поведения Основные проблемы социально-экономического поведения в современной России
- Проблемы совершенствования технологии мотивирования социально-экономического поведения
- 4.4. Методы исторических исследований
- 4.5. Методы гуманитарных исследований
- Список основной литературы
- Список дополнительной литературы
- 5. Представление результатов научной работы
- 5.1. Общие принципы работы с текстом
- Представление табличного материала
- Оформление иллюстративного материала
- 5.2. Введение и Общая характеристика работы
- Актуальность исследования
- Апробация
- Практическая значимость
- Публикации
- Автор защищает
- Структура и объем работы
- 5.3. Основная часть описания научного исследования
- Глава 1. Критический анализ состояния проблемы.
- Глава 2. Предлагаемые способы решения проблемы.
- Глава 3. Проверка и подтверждение результатов исследования.
- 5.4. Заключение и приложения Заключение (основные выводы)
- Приложения
- 5.5. Литературное представление научных результатов
- 5.6. Устные организационные формы научного общения
- 5.7. Общение с оппонентами и процедура защиты Рекомендации к реагированию на замечания оппонентов
- Процедура защиты
- Список основной литературы
- Список дополнительной литературы
- Понятийный аппарат исследовательской работы (курсовой, дипломной, заказной, диссертационной)
- Заключение
- Библиографические списки Список основной литературы
- Список дополнительной литературы
- Приложение 1. Пример задания на дипломную работу
- Исходные данные для выполнения работы:
- Приложение 2. Пример отзыва научного руководителя
- Приложение 3. Пример рецензии на дипломную работу
- Приложение 4. Пример аннотации аттестационной работы
- Глава 2 (название главы) раскрывает современное состояние региональной статистики, отражает проблемы, мешающие полному удовлетворению в экономической информации.
- Приложение 5. Метод "фокус-групп"
- Навыки и приемы, необходимые модератору
- Учебное пособие
- 630102, Новосибирск, Сибирская академия государственной службы,