Описание предприятия пример

В STATISTICA реализованы классические способы кластерного анализа, включая способы k-средних, иерархической кластеризации и двухвходового объединения.

Данные смогут поступать как в исходном виде, так и в виде матрицы расстояний между объектами.

Наблюдения и переменные возможно кластеризовать, применяя разные меры расстояния (евклидово, квадрат евклидова, манхэттеновское, Чебышева и др.) и разные правила объединения кластеров (одиночная, полная связь, невзвешенное и взвешенное попарное среднее по группам и др.).

Постановка задачи

Исходный файл данных содержит следующую данные об машинах и их обладателях:

марка автомобиля первая переменная;

цена автомобиля вторая переменная;

Описание предприятия пример

возраст водителя третья переменная;

стаж водителя четвертая переменная;

Описание предприятия пример

возраст автомобиля пятая переменная;

Целью данного анализа есть разбиение машин и их обладателей на классы, любой из которых соответствует определенной рисковой группе. Наблюдения, попавшие в одну группу, характеризуются однообразной возможностью наступления страхового случая, которая потом оценивается страховщиком.

Применение кластер-анализа для решения данной задачи наиболее действенно. В общем случае кластер-анализ рекомендован для объединения некоторых объектов в классы (кластеры) так, дабы в один класс попадали максимально схожие, а объекты разных классов максимально отличались друг от друга. Количественный показатель сходства рассчитывается заданным методом на основании данных, характеризующих объекты.

Масштаб измерений

Все кластерные алгоритмы нуждаются в оценках расстояний между кластерами либо объектами, и ясно, что при вычислении расстояния нужно задать масштаб измерений.

Описание предприятия пример

Потому, что разные измерения применяют полностью разные типы шкал, данные нужно стандартизовать (в меню Данные выберете пункт Стандартизовать ), так что любая переменная будет иметь среднее 0 и стандартное отклонение 1.

Таблица со стандартизованными переменными приведена ниже.

Описание предприятия пример

Ход 1. Иерархическая классификация

На начальной стадии узнаем, формируют ли машины естественные кластеры, каковые смогут быть осмыслены.

Выберем Кластерный анализ в меню АнализМногомерный разведочный анализ для отображения стартовой панели модуля Кластерный анализ. В этом диалоге выберем Иерархическая классификация и надавим OK.

Надавим кнопку Переменные. выберем Все. в поле Объекты выберем Наблюдения (строки ). В качестве правила объединения отметим Способ полной связи. в качестве меры близости Евклидово расстояние. Надавим ОК.

Способ полной связи определяет расстояние между кластерами как громаднейшее расстояние между любыми двумя объектами в разных кластерах (т.е. наиболее удаленными соседями).

Мера близости, определяемая евклидовым расстоянием, есть геометрическим расстоянием в n- мерном пространстве и вычисляется следующим образом:

Наиболее серьёзным результатом, получаемым в следствии древовидной кластеризации, есть иерархическое дерево. Надавим на кнопку Вертикальная дендрограмма.

Сначала древовидные диаграммы смогут показаться мало запутанными, но по окончании некоторого изучения они становятся более понятными. Диаграмма начинается сверху (для вертикальной дендрограммы) с каждого автомобиля в своем кластере.

Когда вы начнете двигаться вниз, машины, каковые теснее соприкасаются между собой объединяются и формируют кластеры. Любой узел диаграммы, вышеприведенной, воображает объединение двух либо более кластеров, положение узлов на вертикальной оси определяет расстояние, на котором были объединены соответствующие кластеры.

Ход 2. Кластеризация способом К средних

Исходя из визуального представления результатов, возможно сделать предположение, что машины образуют четыре естественных кластера. Удостоверимся в надежности данное предположение, разбив данные способом К средних на 4 кластера, и удостоверимся в надежности значимость различия между взятыми группами.

В Стартовой панели модуля Кластерный анализ выберем Кластеризация способом К средних.

Надавим кнопку Переменные и выберем Все. в поле Объекты выберем Наблюдения (строки ), зададим 4 кластера разбиения.

Способ направляться-средних содержится в следующем: вычисления начинаются с k случайно выбранных наблюдений (в нашем случае k=4), каковые становятся центрами групп, по окончании чего объектный состав кластеров изменяется с целью минимизации изменчивости в кластеров и максимизации изменчивости между кластерами.

Каждое следующее наблюдение (K+1) относится к той группе, мера сходства с центром тяжести которого минимальна.

По окончании трансформации состава кластера вычисляется новый центр тяжести, значительно чаще как вектор средних по каждому параметру. Алгоритм длится , пока состав кластеров не прекратит изменяться.

В то время, когда результаты классификации взяты, возможно вычислить среднее значение показателей по каждому кластеру, дабы оценить, как они различаются между собой.

В окне Результаты способа К средних выберем Дисперсионный анализ для определения значимости различия между взятыми кластерами.

Итак, значение р0.05, что говорит о значимом различии.

Надавим кнопку Элементы кластеров и расстояния для просмотра наблюдений, входящих в любой из кластеров. Опция кроме этого разрешает отобразить евклидовы расстояния объектов от центров (средних значений) соответствующих им кластеров.

Итак, в каждом из четырех кластеров находятся объекты со схожим влиянием на процесс убытков.

Ход 3. Описательные статистики

Знание описательных статистик в каждой группе, непременно, есть ответственным для любого исследователя.

Отображение статистик для каждого кластера из диалога Результаты способа К средних в этом случае не воображает интереса, т.к. данные были стандартизованы.

Надавим кнопку Сохранить классификацию и расстояния.

Таблица стандартизованных данных дополнилась информацией о кластере, к у которого в собствености наблюдение, евклидовом расстоянии и номере наблюдения.

Скопируем переменную КЛАСТЕР в исходную таблицу данных.

Сейчас для каждого кластера возможно вычислить основные описательные статистики.

В меню Анализ Основные статистики и таблицы выберем опцию Группировка и Однофакторный ДА.

Ниже приведены таблицы описательных статистик для каждого из показателей:

Знание основных описательных статистик в каждом кластере возможно использовано специалистом для оценки убытков страховой компании.

Выстроим график средних и конфиденциальных промежутков для переменных в каждом кластере.

Итак, для каждого кластера специалистом возможно выяснена возможность наступления страхового случая.