Метод кластерного анализа
Термин кластерный анализ (впервые ввел Tryon, 1939) в действительности включает в себя набор различных алгоритмов классификации.
Общий вопрос,
задаваемый исследователями во многих областях, состоит в том, как организовать
наблюдаемые данные в наглядные структуры, т.е. развернуть таксономии. Например,
биологи ставят цель разбить животных на различные виды, чтобы содержательно
описать различия между ними. В соответствии с современной системой, принятой в
биологии, человек принадлежит к приматам, млекопитающим, амниотам, позвоночным и
животным. Заметьте, что в этой классификации, чем выше уровень агрегации, тем
меньше сходства между членами в соответствующем классе. Человек имеет больше
сходства с другими приматами (т.е. с обезьянами), чем с "отдаленными" членами
семейства млекопитающих (например, собаками) и т.д..
Фактически, кластерный анализ является не столько обычным статистическим
методом, сколько "набором" различных алгоритмов "распределения объектов по
кластерам".
Существует точка зрения, что в отличие от многих других
статистических процедур, методы кластерного анализа используются в большинстве
случаев тогда, когда вы не имеете каких-либо априорных гипотез относительно
классов, но все еще находитесь в описательной стадии исследования. Следует
понимать, что кластерный анализ определяет "наиболее возможно значимое решение".
В области медицины кластеризация заболеваний, лечения заболеваний или симптомов
заболеваний приводит к широко используемым таксономиям. В области психиатрии
правильная диагностика кластеров симптомов, таких как паранойя, шизофрения и
т.д., является решающей для успешной терапии. В археологии с помощью кластерного
анализа исследователи пытаются установить таксономии каменных орудий, похоронных
объектов и т.д. Известны широкие применения кластерного анализа в маркетинговых
исследованиях. В общем, всякий раз, когда необходимо классифицировать "горы"
информации к пригодным для дальнейшей обработки группам, кластерный анализ
оказывается весьма полезным и эффективным.
Назначение этого алгоритма состоит в объединении объектов (например, животных) в
достаточно большие кластеры, используя некоторую меру сходства или расстояние
между объектами. Типичным результатом такой кластеризации является иерархическое
дерево.
Рассмотрим горизонтальную древовидную диаграмму. Диаграмма начинается с каждого
объекта в классе (в левой части диаграммы). Теперь представим себе, что
постепенно (очень малыми шагами) вы "ослабляете" ваш критерий о том, какие
объекты являются уникальными, а какие нет. Другими словами, вы понижаете порог,
относящийся к решению об объединении двух или более объектов в один кластер.
В результате, вы связываете вместе всё большее и большее число объектов и агрегируете (объединяете) все больше и больше кластеров, состоящих из все сильнее различающихся элементов. Окончательно, на последнем шаге все объекты объединяются вместе.
На этих диаграммах горизонтальные оси представляют расстояние объединения (в вертикальных древовидных диаграммах вертикальные оси представляют расстояние объединения). Так, для каждого узла в графе (там, где формируется новый кластер) вы можете видеть величину расстояния, для которого соответствующие элементы связываются в новый единственный кластер. Когда данные имеют ясную "структуру" в терминах кластеров объектов, сходных между собой, тогда эта структура, скорее всего, должна быть отражена в иерархическом дереве различными ветвями. В результате успешного анализа методом объединения появляется возможность обнаружить кластеры (ветви) и интерпретировать их.
Объединение или метод древовидной кластеризации используется при формировании кластеров несходства или расстояния между объектами. Эти расстояния могут определяться в одномерном или многомерном пространстве. Например, если вы должны кластеризовать типы еды в кафе, то можете принять во внимание количество содержащихся в ней калорий, цену, субъективную оценку вкуса и т.д.
Наиболее прямой путь вычисления расстояний между объектами в многомерном
пространстве состоит в вычислении евклидовых расстояний. Если вы имеете двух-
или трёхмерное пространство, то эта мера является реальным геометрическим
расстоянием между объектами в пространстве (как будто расстояния между объектами
измерены рулеткой). Однако алгоритм объединения не "заботится" о том, являются
ли "предоставленные" для этого расстояния настоящими или некоторыми другими
производными мерами расстояния, что более значимо для исследователя; и задачей
исследователей является подобрать правильный метод для специфических применений.