Методы группировок и классификаций Методы группировок
Любая задача многомерного анализа так или иначе сводится к нахождению группировки (группируются или объекты, или признаки).
Формализация задачи (то есть ее математическая постановка) в большой степени зависит от того, в каком виде представлена исходная статистическая информация. Как правило, исходная информация для социально-экономического исследования задается или матрицей типа "объект-признак", или матрицей связи "объект-объект", причем при переходе от матрицы "объект-признак" к матрице "объект-объект" возникает вопрос о выборе меры близости объектов. При нахождении группировок в одних случаях имеются некоторые априорные сведения о существовании групп (классов) объектов или признаков, которые требуется найти в результате анализа данных, в других случаях ничего не известно ни о количестве классов, ни об их составе.
Задачи многомерного анализа, или задачи группировки объектов, усложнены часто тем, что у исследователя нет четкого представления, какие признаки следует брать в качестве классифицирующих. В связи с этим на первом этапе анализа возникает вопрос или о выборе информативной системы признаков, или о нахождении факторных конструкций в системе признаков. Выбор системы информативных признаков осуществляется в режиме диалога "человек-ЭВМ" чаще всего на основе анализа корреляционной матрицы или с использованием методов факторного анализа (метода главных компонент) и для решения этой проблемы существует целый ряд методов. К ним наряду с методом главных компонент и факторным анализом следует также отнести канонический анализ, метод корреляционных плеяд, метод экстремальной группировки параметров, методы таксономии и другие. Эти методы можно разделить на две группы. Методы первой группы характеризуются уменьшением размерности признакового пространства за счет замены набора исходных признаков некоторыми их комбинациями. При использовании методов первой группы в многомерном анализе социально-экономической информации значительную сложность для исследователя представляет интерпретация формально полученных "искусственных" признаков в построенном признаковом пространстве. Методы второй группы позволяют выделить связанные группы признаков на основе их взаимосвязи. При этом в качестве представителей групп выбирают сами признаки, с помощью которых и интерпретируют полученные результаты группировки. В качестве примеров первого и второго типа приведем некоторые известные методы.
Метод главных компонент является представителем первой группы методов.
Пусть - число объектов, - число признаков, тогда нормированное значение -ro признака, полученное из исходной информации типа "объект-признак", необходимо представить в виде
где - -я главная компонента;
- вес -й компоненты в -й переменной (факторная нагрузка -гo фактора).
Начальными данными метода является корреляционная или ковариационная матрица, которую строят по исходной информации. Известно, что полная дисперсия -го признака
где - доля полной дисперсии -ro признака, относящаяся к -й главной компоненте ( ).
Тогда
,
где - номер признака ( );
- номер главной компоненты ( ),
есть полный вклад -й главной компоненты в дисперсию всех признаков и та доля общей дисперсии, которую рассматриваемая главная компонента объясняет. Хотя число подученных главных компонент равно числу исходных признаков, только небольшое число главных компонент имеет существенные вклады в объясняемую дисперсию. Главные компоненты, имеющие достаточно малые вклады, исключают из рассмотрения. Число наиболее весомых компонент составляет обычно не больше чем четвертую часть от числа рассматриваемых признаков. Тогда объясняемая дисперсия
,
где - число "весомых" главных компонент ( ).
Факторные нагрузки есть коэффициенты корреляции между фактором и исходным признаком .
Для применения методов факторного анализа к качественным данным, измеренным на ранговых и номинальных шкалах, разработан аппарат качественного факторного анализа, который основан на идее аппроксимации матрицы связи линейной комбинацией матриц определенной блочной структуры, каждая из которых интерпретируется как некоторый качественный фактор.
В статистических исследованиях "проверенным" методом агрегирования исходных признаков является алгоритм экстремальной группировки параметров. По этому алгоритму формировалось, например, признаковое пространство для построения типологии демографических статусов поселений. В основу алгоритма экстремальной группировки параметров для группировки этих признаков и выделения факторов положен подход, связанный с экстремизацией некоторого функционала, зависящего как от способа группировки, так и от выбора факторов. Разбиение, экстремирующее этот функционал, и представляет экстремальную группировку признаков. В качестве примера рассмотрим один из алгоритмов экстремальной группировки параметров.
Пусть коэффициент корреляции (или ковариации) двух случайных величин Х и Y есть X,Y . Дисперсия случайной величины Х X,X X2.
Пусть множество параметров (признаков) разбито на непересекающиеся группы и заданы случайные величины , такие, что
,
которые называются факторами.
Рассматривается функционал
.
Алгоритм экстремальной группировки параметров решает задачу максимизации этого функционала как по разбиению параметров на множества , так и по выбору случайных величин .
Максимизация соответствует требованию такого разбиения параметров, когда в одну группу попадают наиболее "близкие" между собой параметры. Действительно, при максимизации функционала для каждого фиксированного набора случайных величин в -ю группу будут попадать такие параметры, которые наиболее "близки" к ; в то же время среди всех возможных наборов случайных величин будет отбираться такой набор, то каждая из величин в среднем наиболее "близка" ко всем параметрам из своей группы.
Если группы параметров заданы, то оптимальный набор факторов можно найти в результате независимой максимизации каждого слагаемого функционала :
При фиксированном множестве параметров фактор , удовлетворяющий записанному выше условию, находится по формуле
, (1)
где - компоненты собственного вектора матрицы Rl = {( )}, , соответствующего ее наибольшему собственному числу. С другой стороны, если величины заданы, то разбиение параметров на группы , обеспечивающее максимум , должно удовлетворять условию:
для каждого
,
так как в противном случае можно было бы увеличить, перебросив параметр из группы в ту группу , для которой это соотношение неверно.
Следующий итерационный алгоритм54, определяет одновременно группы и факторы . Идея его заключается в следующем.
Пусть на -м шаге итерации построено разбиение . Для каждой группы параметров строят факторы по формуле (1) и новое, -е разбиение по правилу:
относится к группе , если
. (2)
В том случае, когда существуют два или более факторов и такой параметр , что для этих факторов и этого параметра в формуле (2) имеет место равенство, параметр относится к одной из соответствующих групп произвольно. Для найденных тем или иным способом факторов их содержательная интерпретация осуществляется с помощью одномерных группировок совокупности всех изучаемых объектов по каждому из имеющихся факторов. Формирование группировок проводится в диалоге человека с ЭВМ и контролируется исследователем. При этом полезно строить гистограммы значений объектов по выбранному фактору, а затем уже проводить группировку тем или иным методом с учетом интерпретируемости полученных результатов.
К первой группе методов, заменяющих набор рассматриваемых признаков некоторыми их комбинациями, можно отнести и канонический анализ.
Каноническая корреляция - это корреляция между линейными функциями двух множеств случайных величин, которая характеризуется максимально возможными значениями коэффициентов корреляции. В теории канонической корреляции случайные величины X1, X2, ..., Xs и Xs+1, Xs+2, …, Xs+t линейно преобразуются в так называемые канонические случайные величины Y1, Y2, ..., Ys и Ys+1, Ys+2, …, Ys+t, такие, что:
1) все величины Y имеют нулевое математическое ожидание и единичную дисперсию;
2) внутри каждого из двух множеств величины Y некоррелированы;
3) любая величина Y из первого множества коррелирована лишь с одной величиной из второго множества;
4) ненулевые коэффициенты корреляции между величинами Y из разных множеств имеют максимальное значение. В многомерном статистическом анализе с помощью метода канонической корреляции осуществляется переход к новой системе координат, в которой корреляция между X1, X2, ..., Xs и Xs+1, Xs+2, …, Xs+t проявляется наиболее отчетливо. В результате анализа канонической корреляции может оказаться, что взаимосвязь между двумя множествами полностью описывается корреляцией между несколькими каноническими случайными величинами.
Каноническую корреляцию целесообразно использовать при комплексном анализе социально-экономических блоков в исследовании развития региона.
Примером методов второй группы может быть метод корреляционных плеяд. Плеяда - группа признаков, в которой корреляционная связь (внутриплеядная связь) достаточно велика, а связь между признаками из разных групп (межплеядная связь) мала. Мера корреляционной связи может быть выбрана по-разному. Например, как сумма модулей коэффициентов корреляции между признаками одной группы. По корреляционной матрице строят граф, который разрыванием "малых" связей преобразуют в несколько подграфов. В каждом подграфе выбирают признаки (один или несколько), с помощью которых описывают полученные плеяды признаков.
Ввиду простоты этот метод часто применяют на ранних стадиях анализа.
Анализ и группировку исходных признаков как количественных, так и качественных можно также осуществить, применив метод главных кластеров к транспонированной исходной матрице "объект-признак".
Выявляя группы признаков и выбирая "представителей" этих групп, решают задачу нахождения системы информативных признаков для дальнейшего исследования изучаемого явления или процесса.
После выбора информативной системы признаков следующей задачей в процессе анализа социально-экономической информации является задача группировки объектов. В большинстве случаев - это задача типологизации или классификации объектов изучаемой совокупности.
По способу построения группировок все методы классификации (как признаков, так и объектов) делятся на алгоритмические и вариационные. Алгоритмический метод использует некоторые эвристические соображения исследователя, на основании которых и формируются классы. Основное требование в этом подходе к формируемым классам - их компактность. Под компактной группой в некотором пространстве понимают такое множество точек этого пространства, для которого средняя внутренняя связь больше, чем средняя связь вовне (или среднее внутреннее расстояние, наоборот, меньше, чем среднее расстояние вовне). Успешное применение этих алгоритмов предполагает наличие у исследователя некоторых априорных сведений о реально существующих группах изучаемой совокупности. Эвристические алгоритмы, как правило, линейны, то есть, число операций в них пропорционально числу классифицируемых объектов.
Примером эвристического алгоритма, применяемого при формировании классов объектов, служит известный алгоритм Мак Кина (или метод центров). Рассмотрим этот алгоритм.
Исходной информацией служит матрица "объект-признак" или матрица связи "объект-объект".
Рассмотрим случай, когда исходной является таблица "объект-признак", в которой на ( )-м месте записано значение -го признака, соответствующее -му объекту, - . Объект изучаемой совокупности представляется в таблице в виде строки значений признаков на этом объекте или в виде точки в -мерном признаковом пространстве.
Первый шаг алгоритма - выбор в пространстве признаков точек (объектов), число которых равно числу требуемых классов. Эти объекты задаются из содержательных или из формальных соображений. Они также могут быть выбраны случайным образом.
Блок "Класс" распределяет объекты - по классам так, чтобы расстояние от объекта до соответствующего ему центра было минимальным. Для количественных признаков может быть выбрано евклидово расстояние в .
Блок "Центр" работает после блока "Класс". Этот блок пересчитывает центры классов. Для каждого класса новые координаты его центра в пространстве признаков получаются как координаты центра тяжести каждого класса. Теперь дадим формальное описание алгоритма:
1°. Задаются точек в пространстве признаков, которые объявляются центрами классов.
2°. Объект относится к -му классу, , если при достигает минимума - расстояние между объектом и центром -го класса на -й итерации.
3°. Пересчитываются центры классов.
,
где - вектор значений признаков на -м объекте;
- мощность (число объектов) класса .
Пункты 2° и 3° выполняются для всех . Если массив объектов исчерпан, а последовательность центров не стабилизировалась, то описанный процесс повторяется с самого начала, причем в качестве исходных центров выбираются центры, подучившиеся на последней итерации.
Метод Мак Кина с исходной матрицей "объект-объект" заключается в следующем. Центры выбираются по исходной матрице связи "объект-объект" следующим образом. Выбирается максимальный по модулю отрицательный элемент . Объекты с номерами и объявляются центрами - это самые "далекие" в смысле меры связи объекты. Затем выбирается элемент , такой, что | | максимальна, причем .
После шагов будем иметь центров . В качестве центра берется объект с таким номером , что отрицательны, а | | максимальна по всем таким .
Процесс построения центров заканчивается, если исчерпаны все объекты с указанным свойством.
Блок "Класс" в этой схеме работает следующим образом. Для каждого объекта производится сравнение по величине связей с каждым из центров . Объект относится к классу , если
,
то есть объект относится к самому "близкому" в смысле меры связи центру.
Блок "центр" в качестве нового центра -го класса выбирает объект этого класса, такой, что
.
Алгоритм заканчивает работу, когда процесс стабилизируется.
Для безмашинного («ручного») счета может быть использован метод вроцлавской таксономии, который был впервые применен при классификации воеводств Польши по демографическим данным. Этот метод по своей идее похож на метод корреляционных плеяд: строят граф (дерево максимальной длины), а затем его разрезают по ребрам с минимальными связями. Имеется множество алгоритмов, например, "Краб" в, в которых "разрезание" по ребрам осуществляется по критерию, представленному некоторой функцией многих переменных, сконструированной из эвристических соображений. Алгоритмы, основанные на дереве максимальной длины, применяют на стадии предварительного анализа.
Вариационный подход к решению задачи конструирования группировки обычно предполагает наличие некоторого критерия качества группировки. Этот критерий, как правило, выводится формально из модели данных. Он или оценивает степень близости группировки к некоторой "идеальной", или минимизирует "погрешность" в аппроксимационных моделях данных. В первом случае учитывается не только требование компактности групп, но и представление об их количестве и их наполненности. Так как сама сконструированная группировка в этом случае в силу эквивалентности качественного признака и разбиения (группировки) есть реализация некоторого латентного признака, порожденного свойством многомерности данных, то по сути критерий качества группировки отражает степень "аппроксимации" всех признаков в совокупности одним сконструированным качественным признаком.
Во втором случае критерий качества выводится из самой модели данных, в которой предполагается, что матрица связи "порождена" одним или несколькими качественными факторами. Это может быть формализовано в модели тем, что матрицу связи "объект-объект" аппроксимируют линейной комбинацией матриц связи, вид каждой из которых алгоритмически определяется свойствами качественного фактора, ей соответствующего. Достигается это тем, что при конструировании качественного фактора оценивается степень учета исходной информации, в том числе и доля разброса исходных данных, участвующих в получении решения.
Примером вариационного подхода может служить группировка признаков методом экстремальной группировки параметров, а также все алгоритмы и методы в матричном подходе к анализу данных.
Наиболее хорошо зарекомендовавшим себя подходом в решении задач многомерной группировки является вариационный, исходной информацией для которого служит матрица связи "объект-объект", а сама группировка осуществляется в терминах связей между объектами.
В качестве примера формализованной в рамках этого подхода задачи нахождения группировки может быть приведена следующая постановка задачи.
Пусть а = - матрица связей между объектами. Найти разбиение множества элементов на заранее не заданное число непересекающихся классов . которое максимизирует величину вида
суммы внутренних связей в за вычетом определенного порогового значения .
При этом считают, что диагональные элементы . Оказывается, что если оптимально в смысле критерия , то:
а) сумма внутренних связей
в каждом классе неотрицательна;
б) суммарная связь
между любыми двумя классами и неположительна.
Схема алгоритмов локальной оптимизации включает в себя три части и начинается с тривиального разбиения множества объектов на одноэлементных классов. Алгоритм "Объединение" на каждом шаге объединяет такие классы и , связи между которыми максимальны до тех пор, пока все величины не станут отрицательными. Дальнейшие объединения не нужны, так как они уменьшают значение критерия.
Полученное разбиение улучшается с помощью алгоритма "Перемещение", после чего проводится проверка: удовлетворяет ли полученное разбиение необходимым условиям оптимальности а) и б).
После проверки те классы, которые не удовлетворяют условию а), рассыпаются на одноэлементные подклассы, после чего опять применяется объединение с последующим перемещением - и так до тех пор, пока условия а) и б) не окажутся выполненными.
Количество классов разбиения определяется только величиной порога, который часто из содержательных педставлений о конкретной задаче легче задать интуитивно, чем более формальную величину числа классов. В связи с работой в итеративном режиме "человек-ЭВМ" при построении классификации появились и сформулированы требования к методам, с помощью которых они осуществляются: универсальность, интерпретируемость результатов, адаптируемость.
- Isbn © л л. Высоцкий, а. В. Новокрещенов, 2009
- Введение
- Отличительные особенности научной работы
- 1.1. Специфика научной деятельности
- 1.2. Цель, виды, уровни и эффективность научной работы Цель научной работы
- Виды научной работы
- Классификации уровней и методов научного поиска
- 1.3. Научное изучение и предвидение Признаки научности исследования
- Научное предвидение
- 1.4. Планирование и самоорганизация в науке
- 1.5. Этика научной работы
- Список основной литературы
- Список дополнительной литературы
- Методология научного исследования
- 2.1. Методология науки как система
- 2.2. Основные методологические принципы познания
- Принцип комплексности познания
- Системное познание
- Принцип детерминизма
- Историко-логический принцип познания
- 2.3. Логические основы исследований
- Логика дедуктивных и индуктивных выводов
- Правила аргументации
- 2.4. Согласование задания на исследовательскую работу
- Формулировка темы исследования
- Выбор объекта исследования
- Согласование предмета исследования
- Согласование главной цели работы
- Задачи исследования
- Выбор инструментария исследования
- Примерный перечень предполагаемых результатов
- Структура работы
- Перечень предполагаемых иллюстраций к докладу работы
- Список основной литературы
- Список дополнительной литературы
- Общенаучные методы научного исследования
- 3.1. Обобщенные методы эмпирического познания Научное наблюдение и описание
- Эксперимент
- Индикаторы и шкалирование
- Типы шкал и правила их построения
- Номинальная шкала
- Ранговая (порядковая) шкала
- Интервальная шкала
- Измерение и сравнение
- 3.2. Общенаучные методы теоретического познания Восхождение от абстрактного к конкретному
- Идеализация и мысленный эксперимент
- Формализация
- Аксиоматический метод
- Метод гипотезы
- 3.3. Общенаучные методы всех уровней познания Применение анализа и синтеза в научных исследованиях
- Применение индукции и дедукции в научных исследованиях
- Возможности аналогий и моделирования в научных исследованиях
- Системный подход
- Особенности системных решений проблем разного профиля
- Системный анализ
- 3.4. Общие методы анализа информации
- Контент-анализ
- Методы группировок и классификаций Методы группировок
- Кластерный анализ
- Факторный анализ
- Методы экстраполяции
- 3.5. Методическое исследование
- 3.6. Комплексное исследование
- Список основной литературы
- Список дополнительной литературы
- Специальные методы исследований проблем государственного и муниципального управления
- 4.1. Методы экономических исследований
- Факторы исследования экономических явлений
- Экономические концепции и теории
- Принципы рационализации экономических решений
- Современные проблемы Российской экономики
- 4.2. Методы социологических исследований
- Социальное обследование методом "фокус-групп"
- От социальных обследований к научным исследованиям
- Эмпирические методы социального исследования
- Гипотезы и теории в социальном исследовании
- Социологические концепции, доктрины и парадигмы
- 4.3. Методы исследований социально-экономического поведения Основные проблемы социально-экономического поведения в современной России
- Проблемы совершенствования технологии мотивирования социально-экономического поведения
- 4.4. Методы исторических исследований
- 4.5. Методы гуманитарных исследований
- Список основной литературы
- Список дополнительной литературы
- 5. Представление результатов научной работы
- 5.1. Общие принципы работы с текстом
- Представление табличного материала
- Оформление иллюстративного материала
- 5.2. Введение и Общая характеристика работы
- Актуальность исследования
- Апробация
- Практическая значимость
- Публикации
- Автор защищает
- Структура и объем работы
- 5.3. Основная часть описания научного исследования
- Глава 1. Критический анализ состояния проблемы.
- Глава 2. Предлагаемые способы решения проблемы.
- Глава 3. Проверка и подтверждение результатов исследования.
- 5.4. Заключение и приложения Заключение (основные выводы)
- Приложения
- 5.5. Литературное представление научных результатов
- 5.6. Устные организационные формы научного общения
- 5.7. Общение с оппонентами и процедура защиты Рекомендации к реагированию на замечания оппонентов
- Процедура защиты
- Список основной литературы
- Список дополнительной литературы
- Понятийный аппарат исследовательской работы (курсовой, дипломной, заказной, диссертационной)
- Заключение
- Библиографические списки Список основной литературы
- Список дополнительной литературы
- Приложение 1. Пример задания на дипломную работу
- Исходные данные для выполнения работы:
- Приложение 2. Пример отзыва научного руководителя
- Приложение 3. Пример рецензии на дипломную работу
- Приложение 4. Пример аннотации аттестационной работы
- Глава 2 (название главы) раскрывает современное состояние региональной статистики, отражает проблемы, мешающие полному удовлетворению в экономической информации.
- Приложение 5. Метод "фокус-групп"
- Навыки и приемы, необходимые модератору
- Учебное пособие
- 630102, Новосибирск, Сибирская академия государственной службы,