Міністерство освіти та науки Російської Федерації. Книга: «Кластерний аналіз Список використаної літератури

Надіслати свою гарну роботу до бази знань просто. Використовуйте форму нижче

Студенти, аспіранти, молоді вчені, які використовують базу знань у своєму навчанні та роботі, будуть вам дуже вдячні.

Розміщено на http://www.allbest.ru/

Вступ

1. Визначення та завдання кластерного аналізу

2. Методи кластерного аналізу

3. Дендограми

Висновок

Список літератури

Вступ

Кластерний аналіз- це сукупність методів, що дозволяють класифікувати багатовимірні спостереження. Термін кластерний аналіз, вперше введений Тріоном (Tryon) в 1939 році, включає більше 100 різних алгоритмів.

На відміну від класифікаційних завдань, кластерний аналіз не вимагає апріорних припущень про набір даних, не накладає обмеження на подання досліджуваних об'єктів, дозволяє аналізувати показники різних типів даних (інтервальних даних, частот, бінарних даних). При цьому необхідно пам'ятати, що змінні повинні вимірюватись у порівнянних шкалах.

Кластерний аналіз дозволяє скорочувати розмірність даних, робити її наочною.

Кластерний аналіз служить виявлення даних груп точок, виразно відмінних друг від друга. Важливість вирішення цього завдання пов'язана з тим, що застосування стандартних засобів аналізу даних (в т.ч. стандартних економетричних процедур) за наявності кластерів даних приведе до зміщення як точкових оцінок (коефіцієнтів регресії), так і стандартних помилок, а значить, і до невірним статистичним висновкам. Крім того, структура даних та схожість спостережень можуть становити і самостійний інтерес.

Кластерний аналіз призначений для розбиття сукупності об'єктів на однорідні групи (кластери чи класи). Насправді це завдання багатовимірної класифікації даних.

1. Визначення та завдання кластерного аналізу

При аналізі та прогнозуванні соціально-економічних явищ дослідник часто стикається з багатовимірністю їх описи. Це відбувається при вирішенні завдання сегментування ринку, побудові типології країн за досить великою кількістю показників, прогнозування кон'юнктури ринку окремих товарів, вивчення та прогнозування економічної депресії та багатьох інших проблем.

Методи багатовимірного аналізу - найдієвіший кількісний інструмент дослідження соціально-економічних процесів, що описуються великою кількістю характеристик. До них відносяться кластерний аналіз, таксономія, розпізнавання образів, факторний аналіз.

Кластерний аналіз найяскравіше відбиває риси багатовимірного аналізу у класифікації, факторний аналіз - у дослідженні зв'язку.

Іноді підхід кластерного аналізу називають у літературі чисельною таксономією, чисельною класифікацією, розпізнаванням із самонавчанням тощо.

Перше застосування кластерного аналізу знайшов у соціології. Назва кластерного аналізу походить від англійського слова cluster - гроно, скупчення. Вперше у 1939 р. було визначено предмет кластерного аналізу та зроблено його опис дослідником Тріоном. Головне призначення кластерного аналізу - розбиття безлічі досліджуваних об'єктів та ознак на однорідні у відповідному розумінні групи чи кластери. Це означає, що вирішується завдання класифікації даних та виявлення відповідної структури у ній. Методи кластерного аналізу можна застосовувати у найрізноманітніших випадках, навіть у випадках, коли йдеться про просте угрупованні, у якому все зводиться до утворення груп за кількісною подібністю.

p align="justify"> Велика перевага кластерного аналізу в тому, що він дозволяє проводити розбиття об'єктів не за одним параметром, а за цілим набором ознак. Крім того, кластерний аналіз на відміну від більшості математико-статистичних методів не накладає жодних обмежень на вигляд об'єктів, що розглядаються, і дозволяє розглядати безліч вихідних даних практично довільної природи. Це має велике значення, наприклад, для прогнозування кон'юнктури, коли показники мають різноманітний вигляд, що ускладнює застосування традиційних економетричних підходів.

Кластерний аналіз дозволяє розглядати досить великий обсяг інформації та різко скорочувати, стискати великі масиви соціально-економічної інформації, робити їх компактними та наочними.

Важливе значення кластерний аналіз має стосовно сукупності часових рядів, що характеризують економічний розвиток (наприклад, загальногосподарської та товарної кон'юнктури). Тут можна виділяти періоди, коли значення відповідних показників були досить близькими, а також визначати групи часових рядів, динаміка яких схожа.

Кластерний аналіз можна використовувати циклічно. У цьому випадку дослідження проводиться доти, доки не будуть досягнуті необхідні результати. При цьому кожен цикл тут може давати інформацію, яка здатна сильно змінити спрямованість та підходи подальшого застосування кластерного аналізу. Цей процес можна уявити системою із зворотним зв'язком.

У завданнях соціально-економічного прогнозування досить перспективне поєднання кластерного аналізу з іншими кількісними методами(Наприклад, з регресійним аналізом).

Як і будь-який інший метод, кластерний аналіз має певні недоліки та обмеження: Зокрема, склад та кількість кластерів залежить від обраних критеріїв розбиття. При зведенні вихідного масиву даних до компактнішому виду можуть виникати певні спотворення, а також можуть губитися індивідуальні риси окремих об'єктів за рахунок заміни їх характеристиками узагальнених значень параметрів кластера. При проведенні класифікації об'єктів ігнорується часто-густо можливість відсутності в аналізованої сукупності будь-яких значень кластерів.

У кластерному аналізі вважається, що:

а) обрані характеристики допускають у принципі бажане розбиття на кластери;

б) одиниці виміру (масштаб) обрані правильно.

Вибір масштабу відіграє велику роль. Як правило, дані нормалізують відніманням середнього та розподілом на стандартне відхилення, так що дисперсія виявляється рівною одиниці.

Завдання кластерного аналізу полягає в тому, щоб на підставі даних, що містяться в множині Х, розбити безліч об'єктів G на m (m - ціле) кластерів (підмножин) Q1, Q2, …, Qm, так, щоб кожен об'єкт Gj належав одному і тільки одному підмножині розбиття і щоб об'єкти, що належать одному й тому кластеру, були подібними, в той час, як об'єкти, що належать різним кластерам були різнорідними.

Наприклад, нехай G включає n країн, кожна з яких характеризується ВНП душу населення (F1), числом М автомашин на тисячу чоловік (F2), душовим споживанням електроенергії (F3), душовим споживанням сталі (F4) тощо. Тоді Х1 (вектор вимірювань) є набір зазначених характеристик для першої країни, Х2 - для другої, Х3 для третьої, і т.д. Завдання полягає в тому, щоб розбити країни за рівнем розвитку.

Розв'язанням задачі кластерного аналізу є розбиття, що задовольняють певний критерій оптимальності. Цей критерій може бути деяким функціоналом, що виражає рівні бажаності різних розбивок і угруповань, який називають цільовою функцією. Наприклад, як цільова функція може бути взята внутрішньогрупова сума квадратів відхилення:

де xj - Вимірювання j-го об'єкта.

Для вирішення завдання кластерного аналізу необхідно визначити поняття подібності та різнорідності.

Зрозуміло те, що об'єкти i-ий і j-ий потрапляли в один кластер, коли відстань (віддаленість) між точками Хi і Хj було досить маленьким і потрапляли в різні кластери, коли ця відстань було досить великим. Таким чином, попадання в один або різні кластери об'єктів визначається поняттям відстані між Хi і Хj з Ер, де Ер - р-мірний евклідовий простір. Невід'ємна функція d(Хi, Хj) називається функцією відстані (метрикою), якщо:

а) d(Хi, Хj) і 0, для всіх Хi та Хj з Ер

б) d(Хi, Хj) = 0, тоді і лише тоді, коли Хi = Хj

в) d(Хі, Хj) = d(Хj, Хі)

г) d(Хi, Хj) і d(Хi, Хk) + d(Хk, Хj), де Хj; Хi та Хk - будь-які три вектори з Ер.

Значення d(Хi, Хj) для Хi і Хj називається відстанню між Хi і Хj і еквівалентно відстані між Gi і Gj відповідно до обраних характеристик (F1, F2, F3, ..., Fр).

Найчастіше використовуються такі функції відстаней:

1. Євклідова відстань

2. l1 – норма

4. Сюпремум – норма

dҐ (Хi , Хj) = sup

k = 1, 2, ..., р

5. lp – норма

dр(Хi, Хj) =

Євклідова метрика є найпопулярнішою. Метрика l1 найлегша для обчислень. Сюпремум-норма легко вважається і включає процедуру впорядкування, а lp - норма охоплює функції відстаней 1, 2, 3,.

Нехай n вимірів Х1, Х2,..., Хn представлені у вигляді матриці даних розміром p n:

Тоді відстань між парами векторів d(Хi, Хj) можуть бути представлені у вигляді симетричної матриці відстаней:

Поняттям, протилежним відстані, є поняття схожості між об'єктами Gi. та Gj. Невід'ємна речова функція S(Хi ; Хj) = Sij називається мірою подібності, якщо:

1) 0Ј S(Хi, Хj)<1 для Хi № Хj

2) S(Хі, Хі) = 1

3) S(Хi, Хj) = S(Хj, Хi)

Пари значень мір подібності можна поєднати в матрицю подібності:

Величину Sij називають коефіцієнтом подібності.

2. Методи кластерного аналізу

Методи кластерного аналізу можна поділити на дві групи:

* ієрархічні;

* Неієрархічні.

Кожна з груп включає безліч підходів та алгоритмів.

Використовуючи різні методи кластерного аналізу, аналітик може отримати різні рішення для тих самих даних. Це вважається нормальним явищем. Розглянемо ієрархічні та неієрархічні методи докладно.

Суть ієрархічної кластеризації полягає у послідовному об'єднанні менших кластерів у великі або поділі великих кластерів на менші.

Ієрархічні агломеративні методи (Agglomerative Nesting, AGNES) Ця група методів характеризується послідовним поєднанням вихідних елементів та відповідним зменшенням числа кластерів.

На початку роботи алгоритму усі об'єкти є окремими кластерами. На першому етапі найбільш схожі об'єкти об'єднуються в кластер. На наступних кроках об'єднання триває доти, доки всі об'єкти не будуть складати один кластер. Ієрархічні дивізимні (розподілені) методи (DIvisive ANAlysis, DIANA) Ці методи є логічною протилежністю агломеративним методам. На початку роботи алгоритму всі об'єкти належать одному кластеру, який на наступних кроках ділиться на менші кластери, у результаті утворюється послідовність груп, що розщеплюють.

Неієрархічні методи виявляють більш високу стійкість по відношенню до шумів і викидів, некоректного вибору метрики, включення незначних змінних на набір, що бере участь у кластеризації. Ціною, яку доводиться платити за ці переваги методу, є слово "апріорі". Аналітик повинен заздалегідь визначити кількість кластерів, кількість ітерацій чи правило зупинки, і навіть деякі інші параметри кластеризації. Це особливо складно спеціалістам-початківцям.

Якщо припущень щодо кількості кластерів, рекомендують використовувати ієрархічні алгоритми. Однак якщо обсяг вибірки не дозволяє це зробити, можливий шлях - проведення низки експериментів з різною кількістю кластерів, наприклад, почати розбиття сукупності даних з двох груп і поступово збільшуючи їх кількість, порівнювати результати. За рахунок такого "варіювання" результатів досягається досить велика гнучкість кластеризації.

Ієрархічні методи, на відміну неієрархічних, відмовляються від визначення числа кластерів, а будують повне дерево вкладених кластерів.

Складність ієрархічних методів кластеризації: обмеження обсягу набору даних; вибір міри близькості; негнучкість отриманих класифікацій.

Перевага цієї групи методів у порівнянні з неієрархічними методами – їх наочність та можливість отримати детальне уявлення про структуру даних.

При використанні ієрархічних методів існує можливість легко ідентифікувати викиди в наборі даних і, в результаті, підвищити якість даних. Ця процедура лежить в основі двокрокового алгоритму кластеризації. Такий набір даних може бути використаний для проведення неієрархічної кластеризації.

Існує ще один аспект, про який вже згадувалося у цій лекції. Це питання кластеризації всієї сукупності даних або її вибірки. Названий аспект суттєвий для обох аналізованих груп методів, проте він є більш критичним для ієрархічних методів. Ієрархічні методи що неспроможні працювати з великими наборами даних, а використання певної вибірки, тобто. частини даних могло б дозволити застосовувати ці методи.

Результати кластеризації можуть мати достатнього статистичного обгрунтування. З іншого боку, під час вирішення завдань кластеризації допустима нестатистична інтерпретація отриманих результатів, і навіть досить велика різноманітність варіантів поняття кластера. Така нестатистична інтерпретація дає можливість аналітику отримати результати кластеризації, що задовольняють його, що при використанні інших методів часто буває скрутним.

1) Метод повних зв'язків.

Суть даного методу в тому, що два об'єкти, що належать одній і тій же групі (кластеру), мають коефіцієнт подібності, який менший за деяке порогове значення S. У термінах евклідова відстані d це означає, що відстань між двома точками (об'єктами) кластера не повинна перевищувати деяке порогове значення h. Таким чином, h визначає максимально допустимий діаметр підмножини, що утворює кластер.

2) Метод максимальної локальної відстані.

Кожен об'єкт розглядається як однокрапковий кластер. Об'єкти групуються за таким правилом: два кластери об'єднуються, якщо максимальна відстань між точками одного кластера і точками іншого мінімально. Процедура складається з n - 1 кроків і результатом є розбиття, які збігаються з різними розбиттями у попередньому методі для будь-яких порогових значень.

3) Метод Ворд.

У цьому методі як цільову функцію застосовують внутрішньогрупову суму квадратів відхилень, яка є ні що інше, як сума квадратів відстаней між кожною точкою (об'єктом) і середньою за кластером, що містить цей об'єкт. На кожному кроці поєднуються такі два кластери, які призводять до мінімального збільшення цільової функції, тобто. внутрішньогрупової суми квадратів. Цей метод спрямовано об'єднання близько розташованих кластерів.

4) Центроїдний метод.

Відстань між двома кластерами визначається як евклідова відстань між центрами (середніми) цих кластерів:

d2 ij = (`X -`Y)Т(`X -`Y) Кластеризація йде поетапно на кожному з n-1 кроків об'єднують два кластери G і p, що мають мінімальне значення d2ij Якщо n1 набагато більше n2, то центри об'єднання двох кластерів близькі один до одного та характеристики другого кластера при об'єднанні кластерів практично ігноруються. Іноді цей метод іноді називають ще методом завислих груп.

3. Дендограми

Найбільш відомий метод представлення матриці відстаней або подібності ґрунтується на ідеї дендограми або діаграми дерева. Дендограму можна визначити як графічне зображення результатів процесу послідовної кластеризації, що здійснюється у термінах матриці відстаней. За допомогою дендограм можна графічно або геометрично зобразити процедуру кластеризації за умови, що ця процедура оперує тільки з елементами матриці відстаней або подібності.

Існує багато способів побудови дендограм. У дендограмі об'єкти розташовуються вертикально зліва, результати кластеризації – праворуч. Значення відстаней або подібності, що відповідають будові нових кластерів, зображуються горизонтальною прямою поверх дендограм.

На малюнку 1 показаний один із прикладів дендограми. Рис 1 відповідає випадку шести об'єктів (n=6) і k характеристик (ознак). Об'єкти А і С найбільш близькі і тому поєднуються в один кластер на рівні близькості, що дорівнює 0,9. Об'єкти D та Е об'єднуються при рівні 0,8. Тепер маємо 4 кластери:

Вид дендограми залежить від вибору міри подібності чи відстані між об'єктом та кластером та методом кластеризації. Найбільш важливим моментом є вибір міри подібності або відстань між об'єктом і кластером.

Число алгоритмів кластерного аналізу занадто велике. Усі їх можна поділити на ієрархічні та неієрархічні.

Ієрархічні алгоритми пов'язані з побудовою дендограм і поділяються на:

а) агломеративні, що характеризуються послідовним поєднанням вихідних елементів та відповідним зменшенням числа кластерів;

б) дивізимні (подільні), у яких число кластерів зростає, починаючи з одного, внаслідок чого утворюється послідовність груп, що розщеплюють.

Алгоритми кластерного аналізу мають сьогодні хорошу програмну реалізацію, що дозволяє вирішити завдання найбільшої розмірності.

Висновок

Кластерний аналіз є дуже зручним засобом виділення сегментів ринку. Особливо в наш час високих технологій, коли на допомогу людині приходять машини, і такий трудомісткий процес стає буквально секундною справою.

Освіта сегментів залежить від наявних даних, а чи не визначається заздалегідь.

Змінні, які є основою кластеризації, слід вибирати, виходячи з досвіду попередніх досліджень, теоретичних передумов, що перевіряються гіпотез, а також на розсуд дослідника. Крім того, слід вибрати відповідний захід відстані (подібності). Особливість ієрархічної кластеризації - розробка ієрархічної чи деревоподібної структури. Ієрархічні методи кластеризації можуть бути агломеративними чи дивізивними. Агломеративні методи включають метод одиночного зв'язку, метод повного зв'язку і метод середнього зв'язку. Широко поширеним дисперсійним методом є метод Барда. Неієрархічні методи кластеризації часто називають методами k-середніх. Ці методи включають послідовний граничний метод, паралельний граничний метод і оптимізуючий розподіл. Ієрархічні та неієрархічні методи можна застосовувати спільно. Вибір методу кластеризації та вибір заходу відстані взаємопов'язані.

Рішення про кількість кластерів приймають з теоретичних та практичних міркувань. В ієрархічній кластеризації важливим критерієм прийняття рішення про кількість кластерів є відстані, за яких відбувається об'єднання кластерів. Відносні розміри кластерів повинні бути такими, щоб було сенс зберегти цей кластер, а не поєднати його з іншими. Кластери інтерпретують з погляду кластерних центроїдів. Часто інтерпретувати кластери допомагає їхнє профільування через змінні, які не лежали в основі кластеризації. Надійність та достовірність рішень кластеризації оцінюють у різний спосіб.

кластер ієрархічний агломеративний дендограма

Список літератури

1. Васильєв В.І. та ін. Статистичний аналіз об'єктів довільної природи. Введення в статистику якості. - М.: ІКАР, 2004.

2. Економіко-статистичний аналіз / За ред. Іллєнкова С.Д. -М: ЮНТІТ, 2002.

3. Парсаданов Г.А. Прогнозування та планування соціально-економічної системи країни. - М.: ЮНІТІ, 2001

Розміщено на Allbest.ru

Подібні документи

Лінійне програмування. Геометрична інтерпретація та графічний метод вирішення ЗЛП. Симплексний метод розв'язання ЗЛП. Метод штучного базису. Алгоритм методу мінімального елемента. Алгоритм методу потенціалів. Метод Гоморі. Алгоритм методу Фогеля.

реферат, доданий 03.02.2009

Графічний метод розв'язання задачі оптимізації виробничих процесів. Застосування симплекс-алгоритму на вирішення економічної оптимізованої завдання управління виробництвом. Метод динамічного програмування для вибору оптимального профілю шляху.

контрольна робота , доданий 15.10.2010

Аналітичні та чисельні методи безумовної оптимізації. Метод виключення та метод множників Лагранжа (ММЛ). Метод Ейлера – класичний метод розв'язання задач безумовної оптимізації. Класичне завдання умовної оптимізації. Про практичне значення ММЛ.

реферат, доданий 17.11.2010

Основні методи розв'язання задач лінійного програмування. Графічний метод, симплекс-метод. Подвійне завдання, метод потенціалів. Моделювання та особливості вирішення транспортного завдання методом потенціалів з використанням можливостей Microsoft Excel.

контрольна робота , доданий 14.03.2014

Види вияву кількісних зв'язків між ознаками. Визначення функціонального та кореляційного зв'язку. Практичне значення встановлення, напрям та сила кореляційного зв'язку. Метод квадратів (метод Пірсона); ранговий метод (метод Спірмена).

презентація , доданий 19.04.2015

Геометричний спосіб вирішення стандартних завдань лінійного програмування із двома змінними. Універсальний метод розв'язання канонічного завдання. Основна ідея симплекс-методу, реалізація з прикладу. Таблична реалізація простого симплекс-методу.

реферат, доданий 15.06.2010

Очевидне початкове опорне рішення. Симплексний метод із природним базисом. Графічний метод розв'язання задач лінійного програмування. Подвійне завдання, його оптимальне рішення. Матриця коефіцієнтів витрат. Повна схема міжгалузевого балансу.

контрольна робота , доданий 30.04.2009

Цілі сегментації ринку в маркетинговій діяльності. Сутність кластерного аналізу, основні етапи виконання. Вибір способу вимірювання відстані або подібності. Ієрархічні, неієрархічні методи кластеризації. Оцінка надійності та достовірності.

доповідь, додано 02.11.2009

Цель кластерного аналізу: поняття, алгоритм, завдання. Головні особливості процедури Мак-Кіна. Графік середніх значень за трьома кластерами. Метод К-методів, переваги та недоліки використання. Поняття про сіткові алгоритми кластеризації (grid-based).

реферат, доданий 27.05.2013

Математична теорія раціонального прийняття рішень. Табличний симплекс-метод. Складання та розв'язання двоїстої задачі лінійного програмування. Математична модель транспортного завдання. Аналіз доцільності виробництва на підприємстві.

Надіслати свою гарну роботу до бази знань просто. Використовуйте форму нижче

Вступ

1. Історія «кластерного аналізу»

2.Термінологія

2.1 Об'єкт та ознака

2.2 Відстань між об'єктами (метрика)

2.3Щільність та локальність кластерів

2.4 Відстань між кластерами

3. Методи угруповання

3.1 Особливості ієрархічних агломеративних методів

3.2 Особливості ітераційних методів кластеризації

4. Кластеризація ознак

5. Стійкість та якість кластеризації

Список використаної літератури

ВСТУП

"Кластерний аналіз - сукупність математичних методів, призначених для формування відносно "віддалених" один від одного груп "близьких" між собою об'єктів за інформацією про відстані або зв'язки (заходи близькості) між ними. За змістом аналогічний термінам: автоматична класифікація, таксономія, розпізнавання образів без вчителя." Таке визначення кластерного аналізу дано в останньому виданні "Статистичного словника". Фактично "кластерний аналіз" - це узагальнена назва досить великого набору алгоритмів, що використовуються при створенні класифікації. видань використовуються і такі синоніми кластерного аналізу, як класифікація та розбиття.Кластерний аналіз широко використовується в науці як засіб типологічного аналізу.У будь-якій науковій діяльності класифікація є однією з фундаментальних складових, без якої неможливі побудова та перевірка наукових гіпотез та теорій. своїй роботі своєю основною метою я вважаю за необхідне розглянути питання кластерного аналізу (основи кластерного аналізу), а також розглянути його термінологію та навести деякі приклади використання даного методу з обробкою даних.

1. ІСТОРІЯ «КЛАСТЕРНОГО АНАЛІЗУ»

Аналіз вітчизняних та зарубіжних публікацій показує, що кластерний аналіз знаходить застосування у найрізноманітніших наукових напрямках: хімія, біологія, медицина, археологія, історія, географія, економіка, філологія тощо. У книзі В.В.Налімова "Вірогідна модель мови" описано застосування кластерного аналізу при дослідженні 70 аналітичних проб. Більшість літератури з кластерного аналізу з'явилася протягом останніх трьох десятиліть, хоча перші роботи, в яких згадувалися кластерні методи, з'явилися досить давно. Польський антрополог К.Чекановський висунув ідею "структурної класифікації", яка містила основну ідею кластерного аналізу - виділення компактних груп об'єктів.

У 1925 р. радянський гідробіолог П.В. Терентьєв розробив так званий "метод кореляційних плеяд", призначений для угруповання корелюючих ознак. Цей метод дав поштовх розвитку методів угруповання за допомогою графів. Термін "кластерний аналіз" вперше було запропоновано Тріоном. Слово "cluster" перекладається з англійської як "гроно, кисть, пучок, група". Тому початковий час цей вид аналізу називали "грозовим аналізом". На початку 50-х років з'явилися публікації Р.Люїса, Е.Фікса та Дж. Ходжеса з ієрархічних алгоритмів кластерного аналізу. Помітний поштовх розвиток робіт з кластерного аналізу дали роботи Р. Розенблатта з розпізнавального пристрою (персептрон), що започаткували розвиток теорії "розпізнавання образів без вчителя".

Поштовхом до розробки методів кластеризації стала книга " Принципи чисельної таксономії " , опублікована 1963г. двома біологами - Робертом Сокелом та Пітером Снітом. Автори цієї книги виходили з того, що для створення ефективних біологічних класифікацій процедура кластеризації повинна забезпечувати використання всіляких показників, що характеризують досліджувані організми, проводити оцінку ступеня подібності між цими організмами і забезпечувати розміщення схожих організмів в одну й ту саму групу. У цьому сформовані групи би мало бути досить " локальні " , тобто. подібність об'єктів (організмів) усередині груп має перевищувати подібність груп між собою. Подальший аналіз виділених угруповань, на думку авторів, може з'ясувати, чи відповідають ці групи різним біологічним видам. Так, Сокел і Сніт припускали, що виявлення структури розподілу об'єктів у групи допомагає встановити процес утворення цих структур. А відмінність і подібність організмів різних кластерів (груп) можуть бути базою для осмислення еволюційного процесу, що відбувався, і з'ясування його механізму.

У ці роки було запропоновано безліч алгоритмів таких авторів, як Дж. Мак-Кін, Р. Болл і Д. Холл за методами k-средних; Г. Ланса та У. Вільямса, Н. Джардайна та ін - за ієрархічними методами. Помітний внесок у розвиток методів кластерного аналізу зробили і вітчизняні вчені - Е.М.Браверман, А.А.Дорофеюк, І.Б.Мучник, Л.А,Растригін, Ю.І.Журавльов, І.І.Єлісєєва та ін. Зокрема, у 60-70 роках. велику популярність користувалися численні алгоритми розроблені новосибірськими математиками Н.Г.Загоруйко, В.Н.Елкіної і Г.С.Лбовым. Це такі широко відомі алгоритми, як FOREL, BIGFOR, KRAB, NTTP, DRET, TRF та ін. На основі цих пакетів було створено спеціалізований пакет програм ОТЕКС. Не менш цікаві програмні продукти ППСА та Клас-Майстер були створені московськими математиками С.А.Айвазяном, І.С.Єнюковим та Б.Г.Міркіним.

У тому чи іншому обсязі методи кластерного аналізу є у більшості найвідоміших вітчизняних та зарубіжних статистичних пакетах: SIGAMD, DataScope, STADIA, СОМІ, ПНП-БІМ, СОРРА-2, СІТО, SAS, SPSS, STATISTICA, BMDP, STATGRAPHICS, GEN -PLUS і т.д. Звичайно, через 10 років після виходу цього огляду змінилося досить багато, з'явилися нові версії багатьох статистичних програм, з'явилися і абсолютно нові програми, що використовують як нові алгоритми, так і потужності обчислювальної техніки, що сильно зросли. Проте більшість статистичних пакетів використовують запропоновані та розроблені в 60-70 рр. алгоритми.

За приблизними оцінками фахівців кількість публікацій з кластерного аналізу та його додатків у різних галузях знання подвоюється кожні три роки. Які ж причини такого бурхливого інтересу до цього виду аналізу? Об'єктивно є три основні причини цього явища. Ця поява потужної обчислювальної техніки, без якої кластерний аналіз реальних даних практично не реалізований. Друга причина полягає в тому, що сучасна наука все сильніше спирається у своїх побудовах класифікацію. Причому цей процес дедалі більше поглиблюється, оскільки паралельно цьому йде дедалі більша спеціалізація знання, яка неможлива без об'єктивної класифікації.

Третя причина - поглиблення спеціальних знань неминуче призводить до збільшення кількості змінних, що враховуються під час аналізу тих чи інших об'єктів та явищ. Внаслідок цього суб'єктивна класифікація, яка раніше спиралася на досить малу кількість ознак, що враховуються, часто виявляється вже ненадійною. А об'єктивна класифікація, з дедалі зростаючим набором показників об'єкта, вимагає використання складних алгоритмів кластеризації, які можна реалізувати лише з урахуванням сучасних комп'ютерів. Саме це і породили " кластерний бум " . Проте, серед медиків і біологів кластерний аналіз ще став досить популярним і звичайним шляхом дослідження.

2 ТЕРМІНОЛОГІЯ

2. 1 ОБ'ЄКТ І ОЗНАК

Введемо спочатку такі поняття, як об'єкт та ознака. Об'єкт - від латинського об'єкта - предмет. Стосовно хімії та біології під об'єктами ми маємо на увазі конкретні предмети дослідження, які вивчаються за допомогою фізичних, хімічних та інших методик. Такими об'єктами може бути, наприклад, проби, рослини, тварини тощо. Деяку сукупність об'єктів, доступну досліднику вивчення, називають вибіркою, чи вибірковою сукупністю. Кількість об'єктів у такій сукупності прийнято називати обсягом вибірки. Зазвичай обсяг вибірки позначають латинською літерою "n" або "N".

Ознака (синоніми – властивість, змінна, характеристика; англ. – variable – змінна.) – являє собою конкретну властивість об'єкта. Ці властивості можуть виражатися як числовими, і не числовими значеннями. Наприклад, артеріальний тиск (систолічний або діастолічний) вимірюють у міліметрах ртутного стовпа, вага – у кілограмах, зростання у сантиметрах тощо. Такі ознаки є кількісними. На відміну від цих безперервних числових характеристик (шкал) ряд ознак може мати дискретні, переривчасті значення. У свою чергу, такі дискретні ознаки прийнято ділити на дві групи.

1) Перша група – рангові, або як їх ще називають порядкові змінні (шкали). Таким ознакам властива властивість упорядкованості цих значень. До них можна віднести стадії того чи іншого захворювання, вікові групи, бальні оцінки знань учнів, 12-бальну шкалу магнітуд землетрусів Ріхтером і т.д.

2) Друга ж група дискретних ознак не має такої впорядкованості та носить назву номінальних (від слова "номінал" - зразок) або класифікаційних ознак. Прикладом таких ознак може бути стан пацієнта - "здоровий" або "хворий", стать пацієнта, період спостереження - "до лікування" і "після лікування" і т.д. У цих випадках прийнято говорити, що такі ознаки належать до шкали найменувань.

Поняття об'єкта та ознаки прийнято називати матрицею "Об'єкт-властивість" або "Об'єкт-ознака". Матрицею буде прямокутна таблиця, що складається зі значень ознак, що описують властивості досліджуваної вибірки спостережень. У даному контексті одне спостереження буде записуватися у вигляді окремого рядка, що складається зі значень використовуваних ознак. Окрема ознака в такій матриці даних буде представлений стовпцем, що складається зі значень цієї ознаки по всіх об'єктах вибірки.

2. 2 ВІДСТАНЬ МІЖ ОБ'ЄКТАМИ (МЕТРИКА)

Введемо поняття "відстань між об'єктами". Це поняття є інтегральним заходом подібності об'єктів між собою. Відстанню між об'єктами у просторі ознак називається така величина d ij , яка задовольняє наступним аксіомам:

1. d ij > 0 (невід'ємність відстані)

2. d ij = d ji (симетрія)

3. d ij + d jk > d ik (нерівність трикутника)

4. Якщо d ij не дорівнює 0, то i не дорівнює j (розрізність нетотожних об'єктів)

5. Якщо d ij = 0, то i = j (нерозрізненість тотожних об'єктів)

Міру близькості (подібності) об'єктів зручно уявити як обернену величину від відстані між об'єктами. У численних виданнях, присвячених кластерному аналізу, описано понад 50 різних способів обчислення відстані між об'єктами. Крім терміна "відстань" у літературі часто зустрічається й інший термін – "метрика", який має на увазі метод обчислення тієї чи іншої конкретної відстані. Найбільш доступно для сприйняття та розуміння у разі кількісних ознак є так звана "евклідова відстань" або "евклідова метрика". Формула для обчислення такої відстані:

У цій формулі використані такі позначення:

· d ij - відстань між i-тим і j-им об'єктами;

· x ik - чисельне значення k-тої змінної для i-того об'єкта;

· x jk - чисельне значення k-тої змінної для j-того об'єкта;

· v - кількість змінних, якими описуються об'єкти.

Таким чином, для випадку v=2, коли ми маємо всього дві кількісні ознаки, відстань d ij дорівнює довжині гіпотенузи прямокутного трикутника, яка з'єднує собою дві точки в прямокутній системі координат. Ці дві точки відповідатимуть i-тому та j-тому спостереженням вибірки. Нерідко замість звичайної евклідової відстані використовують його квадрат d 2 ij. Крім того, у ряді випадків використовується "зважена" евклідова відстань, при обчисленні якої для окремих доданків використовуються вагові коефіцієнти. Для ілюстрації поняття евклідової метрики використовуємо простий навчальний приклад. Матриця даних, наведена нижче в таблиці, складається з 5 спостережень та двох змінних.

Таблиця 1

Матриця даних з п'яти проб і двох змінних.

Використовуючи евклідову метрику, обчислимо матрицю міжоб'єктних відстаней, що складається з величин d ij - відстань між i-тим і j-тим об'єктами. У нашому випадку i та j – номер об'єкта, спостереження. Оскільки обсяг вибірки дорівнює 5, то відповідно i і j можуть набувати значення від 1 до 5. Очевидно також, що кількість всіх можливих по парних відстаней буде дорівнює 5 * 5 = 25. Справді, першого об'єкта це будуть такі відстані: 1-1; 1-2; 1-3; 1-4; 1-5. Для об'єкта 2 також буде 5 можливих відстаней: 2-1; 2-2; 2-3; 2-4; 2-5 і т.д. Однак кількість різних відстаней буде меншою за 25, оскільки необхідно врахувати властивість нерозрізненості тотожних об'єктів - d ij = 0 при i = j. Це означає, що відстань між об'єктом №1 і тим самим об'єктом №1 дорівнюватиме нулю. Такі ж нульові відстані будуть і для решти випадків i = j. Крім того, із властивості симетрії випливає, що d ij = d ji для будь-яких i та j. Тобто. відстань між об'єктами №1 та №2 дорівнює відстані між об'єктами №2 та №1.

Дуже нагадує вираз для евклідової відстані так звану узагальнену статечну відстань Мінковського, в якій у ступенях замість двійки використовується інша величина. У випадку ця величина позначається символом " р " .

При р = 2 ми отримуємо звичайну Евклідову відстані. Так вираз для узагальненої метрики Мінковського має вигляд:

Вибір конкретного значення статечного показника "р" проводиться самим дослідником.

Приватним випадком відстані Мінковського є так звана манхеттенська відстань, або "відстань міських кварталів" (city-block), що відповідає р=1:

Таким чином, Манхеттенська відстань є сумою модулів різниць відповідних ознак об'єктів. Спрямувавши p до нескінченності, ми отримуємо метрику "домінування", або Sup-метрику:

яку можна уявити також як d ij = max| x ik - x jk |

Метрика Мінковського фактично є великою родиною метрик, що включає і найбільш популярні метрики. Однак існують і методи обчислення відстані між об'єктами, які принципово відрізняються від метрик Мінковського. Найбільш важлива з них так звана відстань Махаланобіса, яка має досить специфічні властивості. Вираз для цієї метрики:

Тут через X iі X jпозначені вектор-стовпці значень змінних для i-того та j-того об'єктів. Символ Т у виразі (X i - X j ) Т означає так звану операцію транспонування вектора. Символом S позначено загальну внутрішньогрупову дисперсійно-коваріаційну матрицю. А символ -1 над S означає, що необхідно звернути матрицю S . На відміну від метрики Мінковського та евклідової метрики, відстань Махаланобіса через матрицю дисперсій-коваріацій S пов'язане з кореляціями змінних. Коли кореляції між змінними дорівнюють нулю, відстань Махаланобіса еквівалентна квадрату евклідової відстані.

У разі використання дихотомічних (мають лише два значення) якісних ознак широко використовується відстань Хеммінгу

рівне числу розбіжностей значень відповідних ознак для аналізованих i-того та j-того об'єктів.

2. 3 ЩІЛЬНІСТЬ І ЛОКАЛЬНІСТЬ КЛАСТЕРІВ

Головною метою кластерного аналізу є перебування у вибірці груп об'єктів схожих між собою. Припустимо, що з можливих методів ми отримали такі групи - кластери. Слід зазначити важливі властивості кластерів. Однією з таких властивостей є щільність розподілу точок, спостережень усередині кластера. Це властивість дає можливість визначити кластер як накопичення точок у багатовимірному просторі, відносно щільне проти іншими областями цього простору, які або взагалі містять точок, або містять малу кількість спостережень. Іншими словами, наскільки даний кластер є компактним, або навпаки - досить розрідженим. Незважаючи на достатню очевидність цієї властивості, однозначного способу обчислення такого показника (щільності) немає. Найбільш вдалим показником, що характеризує компактність, щільність "упаковки" багатовимірних спостережень у даному кластері є дисперсія відстані від центру кластера до окремих точок кластера. Чим менша дисперсія цієї відстані, тим ближче до центру кластера знаходяться спостереження, тим більша щільність кластера. І навпаки, чим більше дисперсія відстані, тим більше розріджений даний кластер, і, отже, є точки, що знаходяться як поблизу центру кластера, так і досить віддалені від центру кластера.

Наступна властивість кластерів – його розміри. Основним показником розміру кластера є його "радіус". Ця властивість найбільш повно відображає фактичний розмір кластера, якщо кластер має круглу форму і є гіперсферою в багатовимірному просторі. Однак якщо кластери мають подовжені форми, то поняття радіуса чи діаметра вже не відображає справжнього розміру кластера.

Інша важлива властивість кластера - їхня локальність, відокремлення. Воно характеризує ступінь перекриття та взаємної віддаленості кластерів один від одного у багатовимірному просторі. Наприклад, розглянемо розподіл трьох кластерів у просторі нових, інтегрованих ознак на наведеному нижче малюнку. Осі 1 і 2 були отримані спеціальним методом з 12 ознак властивостей, що відображають різних форм еритроцитів, що вивчалися за допомогою електронної мікроскопії.

Малюнок 1

Ми бачимо, що мінімальний розмір має кластер 1, а кластери 2 та 3 мають приблизно рівні розміри. У той же час, можна говорити про те, що мінімальна щільність, а отже, і максимальна дисперсія відстані, характерна для кластера 3. Крім того, кластер 1 відокремлюється досить великими ділянками порожнього простору як кластера 2, так і від кластера 3. Тоді як кластери 2 та 3 частково перекриваються один з одним. Цікавий і той факт, що кластер 1 має набагато більшу відмінність від 2-го і 3-го кластерів по осі 1, ніж по осі 2. Навпаки, кластери 2 і 3 приблизно однаково різняться між собою як по осі 1, так і по Осі 2. Очевидно, що для такого візуального аналізу необхідно мати всі спостереження вибірки проектувати на спеціальні осі, в яких проекції елементів кластерів буде видно як окремі скупчення.

2. 4 ВІДСТАНЬ МІЖ КЛАСТЕРАМИ

У ширшому сенсі під об'єктами можна розуміти не тільки вихідні предмети дослідження, представлені в матриці "об'єкт-властивість" у вигляді окремого рядка, або окремими точками в багатовимірному ознаковому просторі, а й окремі групи таких точок, об'єднані тим чи іншим алгоритмом кластера. В цьому випадку виникає питання про те, яким чином розуміти відстань між такими скупченнями точок (кластерами) і як його обчислювати. У цьому випадку різноманітних можливостей ще більше, ніж у разі обчислення відстані між двома спостереженнями у багатовимірному просторі. Ця процедура ускладнюється тим, що, на відміну від точок, кластери займають певний обсяг багатовимірного простору і складаються з багатьох точок. У кластерному аналізі широко використовуються міжкластерні відстані, які обчислюються за принципом найближчого сусіда (nearest neighbour), центру тяжіння, далекого сусіда (furthest neighbour), медіан. Найбільш широко використовуються чотири методи: одиночний зв'язок, повний зв'язок, середній зв'язок і метод Варда. У методі одиночного зв'язку об'єкт буде приєднаний до вже існуючого кластера, якщо хоча б один з елементів кластера має той же рівень подібності, що і об'єкт, що приєднується. Для методу повних зв'язків приєднання об'єкта до кластера проводиться лише в тому випадку, коли подібність між кандидатом на включення та будь-яким із елементів кластера не менша за деякий поріг. Для методу середнього зв'язку є кілька модифікацій, які є деяким компромісом між одиночним та повним зв'язком. Вони обчислюється середнє значення подібності кандидата включення з усіма об'єктами існуючого кластера. Приєднання здійснюється у тому випадку, коли знайдене середнє значення подібності досягає або перевищує певний поріг. Найбільш часто використовують середню арифметичну подібність між об'єктами кластера та кандидата на включення до кластера.

Багато методів кластеризації відрізняються між собою тим, що їх алгоритми на кожному кроці обчислюють різноманітні функціонали якості розбиття. Популярний метод Варда побудований таким чином, щоб оптимізувати мінімальну дисперсію внутрішньокластерних відстаней. На першому кроці кожен кластер складається з одного об'єкта, через що внутрішньокластерна дисперсія відстаней дорівнює 0. Об'єднуються за цим методом ті об'єкти, які дають мінімальне збільшення дисперсії, внаслідок чого даний метод має тенденцію до породження гіперсферичних кластерів.

Багаторазові спроби класифікації методів кластерного аналізу призводять до десятків, або навіть сотням різноманітних класів. Така різноманітність породжується великою кількістю можливих способів обчислення відстані між окремими спостереженнями, не меншою кількістю методів обчислення відстані між окремими кластерами в процесі кластеризації та різноманітними оцінками оптимальності кінцевої кластерної структури.

Найбільшого поширення в популярних статистичних пакетах набули дві групи алгоритмів кластерного аналізу: ієрархічні агломеративні методи та ітеративні методи угруповання.

3. МЕТОДИ ГРУПУВАННЯ

3. 1 ОСОБЛИВОСТІ ІЄРАРХІЧНИХ АГЛОМЕРАТИВНИХ МЕТОДІВ

В агломеративно-ієрархічних методах (aglomerative hierarhical algorithms), які найчастіше використовуються в реальних біомедичних дослідженнях, спочатку всі об'єкти (спостереження) розглядаються як окремі, самостійні кластери, що складаються лише з одного елемента. Без використання потужної обчислювальної техніки реалізація кластерного аналізу даних дуже проблематична.

Вибір метрики проводиться самим дослідником. Після обчислення матриці відстаней починається процес агломерації (від латинського agglomero - приєдную, накопичую), що проходить послідовно крок за кроком. На першому кроці цього процесу два вихідні спостереження (монокластери), між якими мінімальна відстань, об'єднуються в один кластер, що складається вже з двох об'єктів (спостережень). Таким чином, замість колишніх N монокластерів (кластерів, що складаються з одного об'єкта) після першого кроку залишиться N-1 кластерів, з яких один кластер буде містити два об'єкти (спостереження), а N-2 кластерів будуть як і раніше складатися лише з одного об'єкт. На другому кроці можливі різні методи поєднання між собою N-2 кластерів. Це викликано тим, що один із цих кластерів вже містить два об'єкти. З цієї причини виникає два основні питання:

· Як обчислювати координати такого кластера з двох (а далі і більше двох) об'єктів;

· як обчислювати відстань до таких "поліоб'єктних" кластерів від "монокластерів" та між "поліоб'єктними" кластерами.

Ці питання, зрештою, і визначають остаточну структуру підсумкових кластерів (під структурою кластерів мається на увазі склад окремих кластерів та його взаємне розташування у багатовимірному просторі). Різноманітні комбінації метрик і методів обчислення координат і взаємних відстаней кластерів і породжують різноманіття методів кластерного аналізу. На другому кроці в залежності від обраних методів обчислення координат кластера, що складається з декількох об'єктів і способу обчислення міжкластерних відстаней, можливо або повторне об'єднання двох окремих спостережень у новий кластер, або приєднання одного нового спостереження до кластера, що складається з двох об'єктів. Для зручності більшість програм агломеративно-ієрархічних методів після закінчення роботи можуть надати для перегляду два основні графіки. Перший графік називається дендрограма (від грецького dendron - дерево), що відображає процес агломерації, злиття окремих спостережень в єдиний остаточний кластер. Наведемо приклад дендрограми з 5 спостережень за двома змінними.

Графік1

Вертикальна вісь такого графіка є вісь міжкластерної відстані, а по горизонтальній осі зазначені номери об'єктів - випадків (cases) використаних в аналізі. З цієї дендрограми видно, що спочатку об'єднуються в один кластер об'єкти №1 і №2, оскільки відстань між ними мінімальна і дорівнює 1. Це злиття відображається на графіці горизонтальною лінією, що з'єднує вертикальні відрізки, що виходять з точок позначених як С_1 і С_2. Звернімо увагу на те, що сама горизонтальна лінія проходить точно на рівні міжкластерної відстані рівної 1. Далі на другому кроці до цього кластера, що включає вже два об'єкти, приєднується об'єкт №3, позначений як С_3. На наступному кроці відбувається об'єднання об'єктів №4 та №5, відстань між якими дорівнює 1,41. І на останньому кроці відбувається об'єднання кластера з об'єктів 1, 2 і 3 з кластером з об'єктів 4 і 5. На графіку видно, що відстань між цими двома передостанніми кластерами (останній кластер включає всі 5 об'єктів) більше 5, але менше 6, оскільки верхня горизонтальна лінія що з'єднує два передостанні кластери проходить на рівні приблизно рівному 7, а рівень з'єднання об'єктів 4 і 5 дорівнює 1,41.

Наведена нижче дендрограма отримана при аналізі реального масиву даних, що складається з 70 оброблюваних хімічних проб, кожен з яких характеризувався 12 ознаками.

Графік 2

З графіка видно, що на останньому кроці, коли відбулося злиття двох останніх кластерів, відстань між ними близько 200 одиниць. Видно, що перший кластер включає набагато менше об'єктів, ніж другий кластер. Нижче наведено збільшений ділянку дендрограми на якому досить чітко видно номери спостережень, що позначаються як С_65, С_58 і т.д. (зліва направо): 65, 58, 59, 64, 63, 57, 60, 62, 56, 44, 94 і т.д.

Графік 3 Збільшена ділянка наведеного вище графіка №2

Видно, що об'єкт 44 являє собою монокластер, що об'єднується на передостанньому кроці з правим кластером і потім вже на останньому кроці всі спостереження об'єднуються в один кластер.

Інший графік, який будується у таких процедурах – це графік зміни міжкластерних відстаней на кожному кроці об'єднання. Нижче наведено подібний графік для наведеної вище дендрограми.

Графік 4

У ряді програм є можливість вивести в табличному вигляді результати об'єднання об'єктів на кожному етапі кластеризації. У більшості таких таблиць, щоб уникнути плутанини, використовується різна термінологія для позначення вихідних спостережень - монокластерів, і власне кластерів, що складаються з двох і більше спостережень. В англомовних статистичних пакетах вихідні спостереження (рядки матриці даних) позначаються як "випадок" – case. Для того щоб продемонструвати залежність кластерної структури від вибору метрики та вибору алгоритму об'єднання кластерів, наведемо нижче дендрограму, що відповідає алгоритму повного зв'язку. І тут ми бачимо, що об'єкт №44 об'єднується з рештою вибірки на останньому кроці.

Графік 5

А тепер порівняємо її з іншою діаграмою, отриманою при використанні методу одиночного зв'язку до тих самих даних. На відміну від методу повного зв'язку, видно, що цей метод породжує довгі ланцюжки об'єктів, що послідовно приєднуються один до одного. Однак у всіх трьох випадках можна говорити про те, що виділяється два основні угруповання.

Графік 6

Звернемо також увагу на те, що у всіх трьох випадках об'єкт №44 приєднується як монокластер, хоч і на різних кроках процесу кластеризації. Виділення таких монокластер є непоганим засобом виявлення аномальних спостережень, званих викидами. Видалимо цей "підозрілий" об'єкт №44 і знову проведемо кластеризацію. Отримаємо наступну дендрограму:

Графік 7

Видно, що "ланцюжковий" ефект зберігся, як збереглося і розбиття на дві локальні групи спостережень.

3. 2 ОСОБЛИВОСТІ ІТЕРАЦІЙНИХ МЕТОДІВ КЛАСТЕРИЗАЦІЇ

Серед ітераційних методів найбільш популярним є метод k-середніх Мак-Кіна. На відміну від ієрархічних методів у більшості реалізацій цього методу сам користувач повинен задати кількість кінцевих кластерів, яке зазвичай позначається як "k". Як і в ієрархічних методах кластеризації, користувач може вибрати той чи інший тип метрики. Різні алгоритми методу k-середніх відрізняються і способом вибору початкових центрів кластерів, що задаються. У деяких варіантах методу сам користувач може (або повинен) задати такі початкові точки, або вибравши їх із реальних спостережень, або задавши координати цих точок по кожній із змінних. В інших реалізаціях цього методу вибір заданого числа k початкових точок проводиться випадковим чином, причому ці початкові точки (зерна кластерів) можуть у подальшому уточнюватися в кілька етапів. Можна виділити 4 основні етапи таких методів:

· Вибираються або призначаються до спостережень, які будуть первинними центрами кластерів;

· За необхідності формуються проміжні кластери приписуванням кожного спостереження до найближчих заданих кластерних центрів;

· Після призначення всіх спостережень окремим кластерам проводиться заміна первинних кластерних центрів на кластерні середні;

· Попередня ітерація повторюється доти, поки зміни координат кластерних центрів не стануть мінімальними.

У деяких варіантах цього методу користувач може задати числове значення критерію, який трактується як мінімальна відстань для відбору нових центрів кластерів. Спостереження не розглядатиметься як претендент на новий центр кластера, якщо його відстань до центру кластера, що замінюється, перевищує задане число. Такий параметр у ряді програм називається "радіусом". Крім цього параметра можливе завдання і максимальної кількості ітерацій чи досягнення певного, зазвичай досить малого, числа, з яким порівнюється зміна відстані всім кластерних центрів. Цей параметр називається " конвергенцією " , т.к. відбиває збіжність ітераційного процесу кластеризації. Нижче ми наведемо частину результатів, які отримані під час використання методу k-середніх Мак-Кіна до попередніх даних. Число кластерів, що шукалися спочатку спочатку рівним 3, а потім - 2. Перша їх частина містить результати однофакторного дисперсійного аналізу, в якому як групуючий фактор виступає номер кластера. У першому стовпці – список 12 змінних, далі йдуть суми квадратів (SS) та ступеня свободи (df), потім F-критерій Фішера та в останньому стовпці – досягнутий рівень значущості “р”.

Таблиця 2 Дані отримані методом k-середніх Мак-Кіна, які застосовуються до 70 досліджуваних проб.

Змінні

Як очевидно з цієї таблиці, нульова гіпотеза про рівність середніх значень у трьох групах відкидається. Нижче наведено графік середніх значень всіх змінних за окремими кластерами. Ці ж кластерні середні змінні наведені далі у вигляді таблиці.

Таблиця 3. Детальний розгляд даних з прикладу трьох кластерів.

Змінна	Кластер №1	Кластер №2	Кластер №3

Графік 8

Аналіз середніх значень змінних для кожного кластера дозволяє зробити висновок про те, що за ознакою Х1 кластери 1 і 3 мають близькі значення, тоді як кластер 2 має середнє значення набагато менше, ніж у двох кластерах. Навпаки, за ознакою Х2 перший кластер має мінімальне значення, тоді як 2-й і 3-й кластери мають вищі і близькі між собою середні значення. Для ознак Х3-Х12 середні значення в кластері 1 значно вищі, ніж у кластерах 2 і 3. Наступна таблиця дисперсійного аналізу результатів кластеризації на два кластери також показує необхідність відхилення нульової гіпотези про рівність групових середніх майже за всіма 12 ознаками, за винятком змінної Х4, для якої досягнутий рівень значущості виявився понад 5%.

Таблиця 4. Таблиця дисперсійного аналізу результатів кластеризації на два кластери.

Змінні

Нижче наведено графік та таблицю групових середніх для випадку кластеризації на два кластери.

Таблиця 5. Таблиця для випадку кластеризації на два кластери.

Змінні	Кластер №1	Кластер №2

Графік 9.

У тому випадку, коли дослідник не має можливості заздалегідь визначитися з найбільш ймовірним числом кластерів, він змушений повторити розрахунки, задаючи їх різне число, подібно до того, як це було зроблено вище. А потім, порівнюючи отримані результати між собою, зупинитися на одному з найбільш прийнятних варіантів кластеризації.

4 . КЛАСТЕРИЗАЦІЯ ПРИЗНАКІВ

Крім кластеризації окремих спостережень, існують і алгоритми кластеризації ознак. Одним із перших таких методів є метод кореляційних плеяд Терентьєва П.В. Примітивні зображення подібних плеяд нерідко можна зустріти в біомедичних публікаціях у вигляді кола поцяткованого стрілками, що з'єднують ознаки для яких автори виявили кореляційну залежність. У ряді програм кластеризації об'єктів і ознак є окремі процедури. Наприклад, пакет SAS для кластеризації ознак використовується процедура VARCLUS (від VARiable - змінна і CLUSter - кластер), тоді як кластерний аналіз спостережень виконується іншими процедурами - FASTCLUS і CLUSTER. Побудова дендрограми у тому й іншому випадку здійснюється за допомогою процедури TREE (дерево).

У інших статистичних пакетах вибір елементів для кластеризації - об'єктів чи ознак, виробляється у тому самому модулі. Як метрика при кластеризації ознак часто використовують вирази, що включають значення тих чи інших коефіцієнтів відбивають силу зв'язку для пари ознак. У цьому випадку дуже зручно для ознак, що мають силу зв'язку, рівну одиниці (функціональна залежність) приймати відстань між ознаками. рівним нулю. Дійсно, при функціональному зв'язку за значенням однієї ознаки можна точно визначити значення іншої ознаки. У разі зменшення сили зв'язку між ознаками відстань відповідно збільшується. Нижче наведено графік, що показує дендрограму об'єднання 12 ознак, які були використані при кластеризації 70 аналітичних проб.

Графік 10. Дендрограмакластеризації 12 ознак.

Як видно з цієї дендрограми, ми маємо справу з двома локальними угрупованнями ознак: Х1-Х10 і Х11-Х12. Для групи ознак Х1-Х10 характерна досить мала величина міжкластерних відстаней, що не перевищує приблизно 100 одиниць. Тут ми бачимо і деякі внутрішні парні підгрупи: Х1 і Х2, Х3 і Х4, Х6 і Х7. Дуже близька до нуля відстань між ознаками цих пар говорить про їхній сильний парний взаємозв'язок. Тоді як для пари Х11 і Х12 величина міжкластерної відстані набагато більша і становить близько 300 одиниць. Нарешті дуже велика відстань між лівим (Х1-Х10) і правим (Х11-Х12) кластерами, що дорівнює приблизно 1150 одиницям, говорить про те, що взаємозв'язок між цими двома угрупованнями ознак є достатнім мінімальним.

5. СТІЙКІСТЬ І ЯКІСТЬ КЛАСТЕРИЗАЦІЇ

Очевидно, що було б абсурдно ставити питання про те, наскільки абсолютна та чи інша класифікація отримана за допомогою методів кластерного аналізу. При зміні методу кластеризації стійкість проявляється в тому, що на дендрограмах досить чітко проглядаються два кластери.

Як один з можливих способів перевірки стійкості результатів кластерного аналізу може бути використаний метод порівняння результатів отриманих для різних алгоритмів кластеризації. Інші шляхи, це так званий бутстреп-метод запропонований Б. Ефроном в 1977 р., методи "складного ножа" та "ковзного контролю". Найбільш простий засіб перевірки стійкості кластерного рішення може полягати в тому, щоб вихідну вибірку випадковим чином розділити на приблизно дві рівні частини, провести кластеризацію обох частин і потім порівняти отримані результати. Найбільш трудомісткий шлях передбачає послідовне виключення спочатку першого об'єкта і кластеризацію об'єктів, що залишилися (N - 1). Далі послідовно проводячи цю процедуру за винятком другого, третього тощо. об'єктів аналізується структура всіх отриманих N кластерів. Інший алгоритм перевірки стійкості передбачає багаторазове розмноження, дублювання вихідної вибірки N об'єктів, потім об'єднання всіх дубльованих вибірок в одну велику вибірку (псевдогенеральну сукупність) і випадкове вилучення з неї нової вибірки N об'єктів. Після цього проводиться кластеризація цієї вибірки, далі отримується нова випадкова вибірка і знову проводиться кластеризація і т.д. Це також досить трудомісткий шлях.

Не менше проблем і в оцінці якості кластеризації. Відомо досить багато алгоритмів оптимізації кластерних рішень. Перші роботи, які містили формулювання критерію мінімізації внутрішньокластерної дисперсії та алгоритм (типу k-середніх) пошуку оптимального рішення, з'явилися в 50-х роках. У 1963р. у статті Дж. Уорда також викладався такий оптимізаційний ієрархічний алгоритм. Універсального критерію оптимізації кластерного рішення немає. Усе це ускладнює вибір дослідником оптимального рішення. В такій ситуації найкращим способомутвердитися у цьому, що знайдене кластерне рішення є цьому етапі дослідження оптимальним, є лише узгодженість цього рішення з висновками, отриманими з допомогою інших методів багатовимірної статистики.

На користь висновку про оптимальність кластеризації є також і позитивні результати перевірки передбачуваних моментів отриманого рішення вже на інших об'єктах дослідження. При використанні ієрархічних методів кластерного аналізу можна рекомендувати порівняння кількох графіків покрокової зміни міжкластерної відстані. При цьому перевагу слід віддати тому варіанту, для якого спостерігається плоска лінія такого збільшення від першого кроку до декількох передостанніх кроків з різким підйомом цього графіка на останніх 1-2 кроках кластеризації.

ВИСНОВКИ

У своїй роботі я постаралася показати, не тільки складність цього виду аналізу, а й оптимальні можливості обробки даних, адже найчастіше для точності результатів доводиться використовувати від десятків до сотень проб. Даний вид аналізу допомагає класифікувати та опрацювати результати. Так само я вважаю не маловажним, прийнятність у даному аналізі комп'ютерних технологій, що дозволяє зробити менш трудомістким процес обробки результатів і цим дозволяє приділити більшу увагу правильності відбору проб для аналізу.

У використанні кластерного аналізу є такі тонкощі і деталі, які проявляються в окремих випадках і видно не відразу. Наприклад, роль масштабу ознак може бути мінімальною, а може бути домінуючою в ряді випадків. У разі необхідно використовувати перетворення змінних. Особливо результативно це під час використання методів, які виробляють нелінійні перетворення ознак, що підвищують загалом загальний рівень кореляцій між ознаками.

Ще більша специфіка у використанні кластерного аналізу стосовно об'єктів, які описуються лише якісними ознаками. У цьому випадку досить успішними є методи попереднього оцифрування якісних ознак та проведення кластерного аналізу з новими ознаками. У своїй роботі я показала, що кластерний аналіз дає багато нової та оригінальної інформації як у разі його застосування у досить вивчених системах, так і при дослідженні систем із невідомою структурою.

Також слід зазначити, що кластерний аналіз став незамінним в еволюційних дослідженнях, дозволяючи будувати філогенетичні дерева, що показують еволюційні шляхи. Широко застосовуються ці методи й у програмах наукових досліджень з фізичної та аналітичної хімії.

СПИСОК ВИКОРИСТАНОЇ ЛІТЕРАТУРИ

1) Айвазян С. А., Єнюков І. С, Мешалкін Л. Д. Про структуру та зміст пакету програм з прикладного статистичного аналізу// Алгоритмічне та програмне забезпеченняприкладного статистичного аналізу.--М., 1980.

2) Айвазян З. А., Бежаева 3. І., Староверов Про. У. Класифікація багатовимірних спостережень.--М.: Статистика, 1974.

3) Беккер В. А., Лукацька М. Л. Про аналіз структури матриці коефіцієнтів зв'язку// Питання економіко-статистичного моделювання та прогнозування в промисловості.-- Новосибірськ, 1970.

4) Браверман Е. М., Мучник І. Б. Структурні методи обробки даних. - М.: Наука, 1983.

5) Воронін Ю. А. Теорія класифікування та її застосування. - Новосибірськ: Наука, 1987.

6) Гуд І. Дж. Ботріологія ботріології//Класифікація та кластер.--М.: Світ,1980.

7) Дубровський С. А. Прикладний багатовимірний статистичний аналіз. - М.: Фінанси та статистика, 1982.

8) Дюран Н., Оделл П. Кластерний аналіз. - М.: Статистика, 1977.

9) Єлісєєва І. І., Рукавишніков В. С. Угруповання, кореляція, розпізнавання образів.--М.: Статистика, 1977.

10) Загоруйко Н. Г. Методи розпізнавання та їх застосування. - М.: Радянське радіо, 1972.

11) Заде Л. А. Розмиті множини та їх застосування в розпізнаванні образів та кластер-аналізі// Класифікація та кластер.--М.: Світ, 1980.

12) Кільдішев Г. С, Аболенцев Ю. І. Багатомірні угруповання. - М.: Статистика, 1978.

13) Райська І. І., Гостилін Н. І., Френкель А. А. Про один спосіб перевірки обґрунтованості розбиття в кластерному аналізі. / / Застосування багатовимірного статистичного аналізу в економіці та оцінці якості продукції. П.Тарту, 1977.

14) Шуригін А. М. Розподіл міжточкових відстаней та різниць// Програмно-алгоритмічне забезпечення прикладного багатовимірного статистичного аналізу.--М., 1983.

15) Ееремаа Р. Загальна теорія конструювання кластер-систем та алгоритми для знаходження їх чисельних уявлень: Праці ВЦ ТГУ. - Тарту, 1978.

16) Ястремський Б. З. Вибрані труды.--М.: Статистика, 1964.

Подібні документи

доповідь, додано 02.11.2009

Основні показники фінансового станупідприємства. Криза на підприємстві, його причини, види та наслідки. Сучасні методита інструментальні засоби кластерного аналізу, особливості їх використання для фінансово-економічної оцінки підприємства

дипломна робота , доданий 09.10.2013

Виконує кластерний аналіз підприємств за допомогою програми Statgraphics Plus. Побудова лінійного рівняння регресії. Розрахунок коефіцієнтів еластичності за регресійними моделями. Оцінка статистичної значущості рівняння та коефіцієнта детермінації.

завдання, доданий 16.03.2014

Побудова типологічних регресій щодо окремих груп спостережень. Просторові дані та тимчасова інформація. Сфери застосування кластерного аналізу. Поняття однорідності об'єктів, властивості матриці відстаней. Проведення типологічної регресії.

презентація , доданий 26.10.2013

Створення комбінованих моделей та методів як сучасний спосіб прогнозування. Модель на основі ARIMA для опису стаціонарних та нестаціонарних часових рядів при вирішенні задач кластеризації. Моделі авторегресії AR та застосування корелограм.

презентація , додано 01.05.2015

Характеристика різних видівметрик. Метод найближчих сусідів та його узагальнення. Алгоритм найближчого сусіда. Метод парзенівського вікна. Узагальнений метричний класифікатор. Проблема вибору метрики. Манхеттенська та евклідова відстань. Косинусна міра.

курсова робота , доданий 08.03.2015

Характеристика будівельної галузіКраснодарського краю. Прогноз розвитку житлового будівництва. Сучасні методи та інструментальні засоби кластерного аналізу. Багатовимірні статистичні методи діагностики економічного стану підприємства.

дипломна робота , доданий 20.07.2015

Характеристика іпотечного кредитування з прикладу Брянської області. Огляд математичних методів прийняття рішень: експертних оцінок, послідовних та парних порівнянь, аналізу ієрархій. Розробка програми пошуку оптимального іпотечного кредиту.

курсова робота , доданий 29.11.2012

Області застосування системного аналізу, його місце, роль, цілі та функції у сучасній науці. Поняття та зміст методик системного аналізу, його неформальні методи. Особливості евристичних та експертних методівдослідження та особливості їх застосування.

курсова робота , доданий 20.05.2013

Розробка та дослідження економетричних методів з урахуванням специфіки економічних даних та відповідно до потреб економічної науки та практики. Застосування економетричних методів та моделей для статистичного аналізу економічних даних.

Ця книга присвячена саме одному з найбільш обіцяних у зазначеному сенсі підходів до аналізу багатовимірних процесів і явищ - кластер-аналізу.

Кластер-аналіз - це спосіб угруповання багатовимірних об'єктів, заснований на поданні результатів окремих спостережень точками відповідного геометричного простору з подальшим виділенням груп як "гзгустків" цих точок. Власне, «кластер» (cluster) у англійській мовіі означає «потік», «гроно (винограду)», «скупчення (зірок)» і т. п. Цей термін надзвичайно вдало вписався в наукову термінологію, оскільки його перший склад відповідає традиційному терміну «клас», а другий як би вказує на його штучне походження. Ми не сумніваємося в тому, що термінологія кластерного аналізу замінить всі конструкції, що використовувалися для цієї мети (розпізнавання образів без вчителя, стратифікація, таксономія, автоматична класифікація тощо). Очевидними є потенційні можливості кластерного аналізу для вирішення, скажімо, проблем виділення груп підприємств, що діють у подібних умовах або зі схожими результатами, однорідних груп населення за різними аспектами життєдіяльності або способу життя в цілому тощо.

Як науковий напрямок кластер-аналіз заявив про себе в середині 60-х років і з тих пір бурхливо розвивається, будучи однією з гілок найбільш інтенсивного зростання статистичної науки. Досить сказати, що тільки число монографій з кластерного аналізу, виданих на цей час у різних країнах, вимірюється сотнями (тоді як, скажімо, за таким «заслуженим» методом багатовимірного статистичного аналізу, як факторний аналіз, навряд чи вдасться нарахувати кілька десятків книг). І це цілком зрозуміло. Адже йдеться фактично про моделювання операції групування, однієї з найважливіших не лише у статистиці, а й взагалі – і у пізнанні, і у прийнятті рішень.

У нашій країні опубліковано низку монографій, присвячених дослідженню конкретних соціально-економічних проблем з використанням кластер-аналізу (1), методології використання кластер-аналізу в соціально-економічних дослідженнях (2), методології кластер-аналізу як такого (3) (Основи статистичного аналізу )

Пропонована книга І. Д. Манделя хіба що перпендикулярна даної класифікації: її зміст пов'язані з кожним із зазначених трьох напрямів.

Мета книги - підсумувати сучасний станкластерного аналізу, проаналізувати можливості його використання та завдання подальшого розвитку. Цей задум сам по собі не може не викликати поваги: неупереджені аналіз та узагальнення вимагають великої праці, ерудиції, сміливості, а оцінюються науковою громадськістю значно нижчою, ніж висування та розробка власних конструкцій. (Втім, книга містить і оригінальні розробки автора, пов'язані з «інтенсіональним» аналізом та двоїстістю класифікацій.)

З реалізацією зазначеної мети пов'язані і переваги книги, її недоліки. До переваг слід віднести:

· методологічне опрацювання понять однорідності, угруповання та класифікації з урахуванням багатовимірності явищ та процесів;

· систематизований огляд підходів та методів кластер-аналізу (що включає до 150 конкретних алгоритмів);

· викладення технології та результатів експериментального порівняння процедур кластер-аналізу; Ця книга присвячена саме одному з найбільш обіцяних у зазначеному сенсі підходів до аналізу багатовимірних процесів і явищ - кластер-аналізу.

Кластер-аналіз - це спосіб угруповання багатовимірних об'єктів, заснований на поданні результатів окремих спостережень точками відповідного геометричного простору з подальшим виділенням груп як "гзгустків" цих точок. Власне, "кластер" (cluster) в англійській мові і означає "згусток", "гроно (винограда)", "скупчення (зірок)" і т. п. Цей термін надзвичайно вдало вписався в наукову термінологію, оскільки його перший склад відповідає традиційному терміну «клас», а другий хіба що свідчить про його штучне походження. Ми не сумніваємося в тому, що термінологія кластерного аналізу замінить всі конструкції, що використовувалися для цієї мети (розпізнавання образів без вчителя, стратифікація, таксономія, автоматична класифікація тощо). Очевидними є потенційні можливості кластерного аналізу для вирішення, скажімо, проблем виділення груп підприємств, що діють у подібних умовах або зі схожими результатами, однорідних груп населення за різними аспектами життєдіяльності або способу життя в цілому тощо.

Як науковий напрямок кластер-аналіз заявив про себе в середині 60-х років і з тих пір бурхливо розвивається, будучи однією з гілок найбільш інтенсивного зростання статистичної науки. Досить сказати, що кількість монографій по кластерному аналізу, розробку загальних схем використання методів кластер-аналізу, реалізованих у досить наочних таблицях; рекомендаційний характер викладу.

Ці переваги визначають самостійне місце книги І. Д. Манделя серед інших видань.

Недоліки книги – неоднозначність деяких рекомендацій та відсутність систематичного аналізу питань використання методів кластер-аналізу у предметних соціально-економічних додатках. Щоправда, останнє обумовлюється недостатнім застосуванням кластер-аналізу у цій галузі.

Книга дає плацдарм, використання якого полегшує просування в найважчому питанні будь-якої теорії - практичному використанні інструментарію, що нею.

Б. Г. Міркін

1 . Адріанов А.Ю., Лінцен Л., Кластери як інструмент розвитку некомерційних організацій// www.dis.ru.

2. Алімбаєв А.А., Притворова Т.П., Таубаєв А.А. Формування та розвитку кластерів за умов індустріально-інноваційного розвитку Республіки Казахстан // www.liter.kz

3. Аналітична записка за липень-серпень 2006 року Територіального органу Федеральної служби державної статистикипо Астраханській області

4. Блудова С.М. Регіональні кластери як засіб управління зовнішньоекономічним комплексом регіону // www.ncstu.ru

5. Бородатов А.В., Кожевнікова В.Д. Ініціатива щодо створення севастопольського туристично-рекреаційного кластера // Бізнес-партнер. – 2004. – №10. - с. 33-37.

6. Буряк А.П., Воропов А.Г. Кластерний аналіз - основа управління конкурентоспроможністю на макрорівні // Маркетинг. – 2003. – №1. - с. 34-40.

7. Давидов А.Р., Лялькіна Г.Б. Нові форми організації інноваційного процесу Міжнародний досвід // www.dis.ru

8. Дранєв Я.М. Кластерний підхід до економічного розвитку територій. - М: Видавничий дім "Сканрус", 2003. - 195 с.

9. Засімова Л.С. Темпи зростання виробництва харчової промисловості Астраханської області // www.volgainform.ru

10. Капустін О.М. Турінвестиції: якість проти кількості // www. astrakhan.net

11. Кутьїн В.М. Територіальна економічна кластеризація (класифікація) регіонів Росії: соціально-географічний аспект// Безпека Євразії. – 2003. – №1. - с. 21-28.

12. Лі С. Кластери – нові форми організації інноваційного процесу // www.naukakaz.kz.

13. Лозінський С., Святкових А. Конкурентоспроможність та галузеві кластери: новий порядок денний для російського бізнесу та влади // Світ будіндустрії. – 2003. – №2. - с. 32-41.

14. Мартинов Л.М. Темпи зростання виробництва харчової промисловості Астраханської області // www.caspy.net

15. Мельникова С.В. Основа процвітання астраханського туризму - особлива екологічна політика // Туризм у Росії. – 2006. – №8. - с. 31-35.

16. Мігранян А.А. Теоретичні аспекти формування конкурентоспроможних кластерів // www.dis.ru.

17. Міхєєв Ю.В., Хасаєв Г.Р. Кластери через партнерство до майбутнього// www.ptpu.ru.

18. Ніколаєв М.В. Кластерна концентрація ефективної інтеграції регіонів у глобальну економіку // www.subcontract.ru

19. Перкіна М.В. Готельний бізнесбере зірки з неба// Астраханські відомості. – 2006. – №19. - с. 3.

20. Портер М.Е. Конкуренція: Пров. з англ.: Уч. сел. – М.: Видавничий дім Вільямс, 2000. – 495 с.

21. Портер М. Міжнародна конкуренція. - М: Міжнар. відносини, 1993. - 869 с.

22. Постанова Уряду Астраханської області від 2510.2006 №368-П про галузеву цільову програму "Розвиток туризму в Астраханській області на 2007 рік".

23. Програма соціально- економічного розвиткуАстраханській області з урахуванням подвоєння валового регіонального продукту на 2005-2007 роки.

24. Свірідов А.П. Астраханську область може врятувати екологічний туризм // www.volga-astrakhan.ru

25. Сімачов Ю.В. Кластеризація як спосіб забезпечення конкурентоспроможності регіону // www.clusters-net.ru

26. Соколенко С.І. Від кластерних досліджень до розвитку мережевих комерційно-виробничих структур// Російський економічний журнал. – 2004. – №6. - с. 10-15.

27. Соколенко С.І. Розвиток туристично-рекреаційних кластерів: регіональна ініціатива України//Регіон. – 2004. – №2. - с. 19-22.

28. Спанкулова Л.С. Проблеми розвитку кластерної економіки в промисловості на регіональному рівні // АльПари. – 2004. – №2. - с. 16-

29. Статистичний щорічник соціально-економічного розвитку Астраханської області 2004, 2005 / Територіальний орган Федеральної служби державної статистики з Астраханської області

30. Стеблякова Л.П. Проблеми створення та розвитку кластерів економіки: досвід розвинених країн // Праці Карагандинського університету бізнесу, управління та права. – 2005. – №2. - с. 22-29.

31. Стеблякова Л.П., Вєчкінзова Є.А. Формування кластерів конкурентоспроможності у центральному Казахстані // www.liter.kz

32. Стратегічний планрозвитку муніципальної освіти"Місто Астрахань" на 2005 - 2010 рр.

33. Стратегія розвитку туризму в Астраханській області на середньо- та довгострокову перспективи 2005 р.

34. Філіппов П. Кластери конкурентоспроможності // Експерт. – 2003.- №43. - с. 10-15.

35. Ціхан Т.В. Кластерна теорія економічного розвитку// Теорія та практика управління. – 2003. – №5. - с. 22-25.

36 . Панчоха А.А. Механізми підвищення конкурентоспроможності економіки регіонів // www.subcontract.ru

37. Шеховцова Л.С. Кластер як сучасний інструмент підвищення конкурентоспроможності у регіоні // www.clusters-net.ru

38. www.astrahanpages.com

39. www.astrasocial.ru

40. www. astrgorod.ru

41. www. astrobl.ru

42. www. asttour.ru

43. www.economy.astrobl.ru

КЛАСТЕРНИЙ АНАЛІЗ У ЗАВДАННЯХ СОЦІАЛЬНО-ЕКОНОМІЧНОГО ПРОГНОЗУВАННЯ

Введення у кластерний аналіз.

Методи багатовимірного аналізу - найдієвіший кількісний інструмент дослідження соціально-економічних процесів, що описуються великою кількістю характеристик. До них належать кластерний аналіз, таксономія, розпізнавання образів, факторний аналіз.

Кластерний аналіз найяскравіше відбиває риси багатовимірного аналізу у класифікації, факторний аналіз – у дослідженні зв'язку.

Перше застосування кластерного аналізу знайшов у соціології. Назва кластерний аналіз походить від англійського слова cluster – гроно, скупчення. Вперше у 1939 р. було визначено предмет кластерного аналізу та зроблено його опис дослідником Тріоном. Головне призначення кластерного аналізу – розбиття безлічі досліджуваних об'єктів та ознак на однорідні у відповідному розумінні групи чи кластери. Це означає, що вирішується завдання класифікації даних та виявлення відповідної структури у ній. Методи кластерного аналізу можна застосовувати у найрізноманітніших випадках, навіть у випадках, коли йдеться про просте угрупованні, у якому все зводиться до утворення груп за кількісною подібністю.

У завданнях соціально-економічного прогнозування дуже перспективне поєднання кластерного аналізу коїться з іншими кількісними методами (наприклад, з регресійним аналізом).

У кластерному аналізі вважається, що:

а) обрані характеристики допускають у принципі бажане розбиття на кластери;

б) одиниці виміру (масштаб) обрані правильно.

Завдання кластерного аналізу.

Завдання кластерного аналізу полягає в тому, щоб на підставі даних, що містяться в множині Х, розбити безліч об'єктів G на m (m – ціле) кластерів (підмножин) Q1, Q2, …, Qm, так, щоб кожен об'єкт Gj належав одному і тільки одному підмножині розбиття і щоб об'єкти, що належать одному й тому кластеру, були подібними, в той час, як об'єкти, що належать різним кластерам були різнорідними.

де xj - Вимірювання j-го об'єкта.

Для вирішення завдання кластерного аналізу необхідно визначити поняття подібності та різнорідності.

а) d(Хi , Хj) ³ 0, для всіх Хi та Хj з Ер

б) d(Хi, Хj) = 0, тоді і лише тоді, коли Хi = Хj

в) d(Хі, Хj) = d(Хj, Хі)

г) d(Хi, Хj) d(Хi, Хk) + d(Хk, Хj), де Хj; Хi та Хk - будь-які три вектори з Ер.

Найчастіше використовуються такі функції відстаней:

1. Евклідова відстань d2(Хi, Хj) =

2. l1 - норма d1(Хi, Хj) =

3. Сюпремум - норма d (Хi, Хj) = sup

k = 1, 2, ..., р

4. lp - норма dр(Хi, Хj) =

Нехай n вимірів Х1, Х2,..., Хn представлені у вигляді матриці даних розміром p n:

Тоді відстань між парами векторів d(Хi, Хj) можуть бути представлені у вигляді симетричної матриці відстаней:

1) 0£ S(Хi, Хj)<1 для Хi¹ Хj

2) S(Хі, Хі) = 1

3) S(Хi, Хj) = S(Хj, Хi)

Пари значень мір подібності можна поєднати в матрицю подібності:

Величину Sij називають коефіцієнтом подібності.

1.3. Методи кластерного аналізу.

Сьогодні є досить багато методів кластерного аналізу. Зупинимося на деяких з них (наведені нижче методи прийнято називати методами мінімальної дисперсії).

Нехай Х - матриця спостережень: Х = (Х1, Х2, ..., Хu) та квадрат евклідова відстані між Хi та Хj визначається за формулою:

1) Метод повних зв'язків.

2) Метод максимальної локальної відстані.

3) Метод Ворд.

4) Центроїдний метод.

Відстань між двома кластерами визначається як евклідова відстань між центрами (середніми) цих кластерів:

d2 ij = (`X –`Y)Т(`X –`Y) Кластеризація йде поетапно на кожному з n–1 кроків об'єднують два кластери G і p, що мають мінімальне значення d2ij Якщо n1 набагато більше n2, то центри об'єднання двох кластерів близькі один до одного та характеристики другого кластера при об'єднанні кластерів практично ігноруються. Іноді цей метод іноді називають ще методом завислих груп.

1.4 Алгоритм послідовної кластеризації.

Розглянемо Ι = (Ι1, Ι2, … Ιn) як безліч кластерів (Ι1), (Ι2),…(Ιn). Виберемо два з них, наприклад, Ι i та Ι j, які в деякому сенсі ближчі один до одного і об'єднаємо їх в один кластер. Нова множина кластерів, що складається вже з n-1 кластерів, буде:

(Ι1), (Ι2)…, (Ι i , Ι j), …, (Ιn).

Повторюючи процес, отримаємо послідовні множини кластерів, що складаються з (n-2), (n-3), (n-4) і т.д. кластерів. Наприкінці процедури можна отримати кластер, що складається з n об'єктів і збігається з початковою множиною Ι = (Ι1, Ι2, Ιn).

Як відстань візьмемо квадрат евклідової метрики di j2. і обчислимо матрицю D = (di j2), де di j2 - квадрат відстані між

Ι1	Ι2	Ι3	….	Ιn
Ι1	0	d122	d132	….	d1n2
Ι2	0	d232	….	d2n2
Ι3	0	….	d3n2
….	….	….
Ιn	0

Нехай відстань між Ι i та Ι j буде мінімальною:

di j2 = min (di j2, i ¹ j). Утворимо за допомогою Ι i та Ι j новий кластер

(Ι i, Ι j). Побудуємо нову ((n-1), (n-1)) матрицю відстані

(Ι i , Ι j)	Ι1	Ι2	Ι3	….	Ιn
(Ι i ; Ι j)	0	di j21	di j22	di j23	….	di j2n
Ι1	0	d122	d13	….	d12n
Ι2	0	di j21	….	d2n
Ι3	0	….	d3n
Ιn	0

(n-2) рядки для останньої матриці взяті з попереднього, а перший рядок обчислено заново. Обчислення може бути зведено до мінімуму, якщо вдасться виразити di j2k,k = 1, 2,…, n; (k ¹ i ¹ j) через елементи початкової матриці.

Вихідно визначено відстань лише між одноелементними кластерами, але треба визначати відстані між кластерами, що містять більш ніж один елемент. Це можна зробити різними способами, і в залежності від обраного способу ми одержують алгоритми кластеру аналізу з різними властивостями. Можна, наприклад, покласти відстань між кластером i + j і деяким іншим кластером k, що дорівнює середньому арифметичному з відстаней між кластерами i і k і кластерами j і k:

di + j, k = ½ (di k + dj k).

Але можна також визначити di+j,k як мінімальну з цих двох відстаней:

di + j, k = min (di k + dj k).

Отже, описано перший крок роботи агломеративного ієрархічного алгоритму. Наступні кроки аналогічні.

Досить широкий клас алгоритмів можна отримати, якщо для перерахунку відстаней використовувати таку загальну формулу:

di+j,k = A(w) min(dik djk) + B(w) max(dik djk), де

A(w) = , якщо dik £ djk

A(w) = , якщо dik > djk

B(w) =, якщо dik £ djk

B(w) = , якщо dik > djk

де ni та nj - число елементів у кластерах i та j, а w – вільний параметр, вибір якого визначає конкретний алгоритм. Наприклад, при w = 1 ми отримуємо, так званий, алгоритм «середнього зв'язку», для якого формула перерахунку відстаней набуває вигляду:

di+j,k =

У даному випадкувідстань між двома кластерами на кожному кроці роботи алгоритму виявляється рівною середньому арифметичному з відстаней між усіма такими парами елементів, що один елемент пари належить до одного кластера, інший - до іншого.

Наочний сенс параметра w стає зрозумілим, якщо покласти w®. Формула перерахунку відстаней набуває вигляду:

di + j, k = min (di, k djk)

Це буде так званий алгоритм «найближчого сусіда», що дозволяє виділяти кластери як завгодно складної форми за умови, що різні частини таких кластерів з'єднані ланцюжками близьких один до одного елементів. У даному випадку відстань між двома кластерами на кожному кроці роботи алгоритму виявляється рівною відстані між двома найближчими елементами, що належать до цих двох кластерів.

Досить часто припускають, що початкові відстані (відмінності) між елементами, що групуються, задані. У деяких завданнях це справді так. Однак, задаються лише об'єкти та їх характеристики та матрицю відстаней будують виходячи з цих даних. Залежно від того, чи обчислюються відстані між об'єктами чи між характеристиками об'єктів, використовуються різні способи.

У разі кластеру аналізу об'єктів найчастіше мірою відмінності служить або квадрат евклідова відстані

(де xih, xjh - значення h-го ознаки для i-го та j-го об'єктів, а m - число характеристик), або сама евклідова відстань. Якщо ознакам приписується різна вага, ці ваги можна врахувати при обчисленні відстані

Іноді як міру відмінності використовується відстань, яка обчислюється за формулою:

які називають: "хеммінговим", "манхеттенським" або "сіті-блок" відстанню.

Природною мірою подібності характеристик об'єктів у багатьох завданнях є коефіцієнт кореляції між ними

де mi, mj, di, dj - відповідно середні та середньоквадратичні відхилення для характеристик i і j. Мірою відмінності між характеристиками може бути величина 1 - r. У деяких завданнях знак коефіцієнта кореляції несуттєвий залежить лише від вибору одиниці виміру. В цьому випадку як міра відмінності між характеристиками використовується ô1 - ri j ô

1.5 Число кластерів.

Дуже важливим питаннямє проблема вибору необхідної кількості кластерів. Іноді можна m число кластерів вибирати апріорно. Однак у загальному випадку це число визначається в процесі розбиття множини на кластери.

Проводилися дослідження Фортьєром і Соломоном, і було встановлено, що число кластерів має бути прийняте для досягнення ймовірності того, що знайдено найкраще розбиття. Таким чином, оптимальне число розбиття є функцією заданої частки b найкращих або в деякому сенсі допустимих розбиття в багатьох можливих. Загальне розсіювання буде тим більше, що вища частка b допустимих розбиття. Форт'єр та Соломон розробили таблицю, за якою можна знайти кількість необхідних розбиття. S(a,b) залежно від a і b (де a - ймовірність того, що знайдено найкраще розбиття, b - частка найкращих розбиття в загальній кількості розбиття) та Харманом. Таблиця значень S(a,b) наводиться нижче.

Таблиця значень S(a,b)

b\a	0.20	0.10	0.05	0.01	0.001	0.0001
0.20	8	11	14	21	31	42
0.10	16	22	29	44	66	88
0.05	32	45	59	90	135	180
0.01	161	230	299	459	689	918
0.001	1626	2326	3026	4652	6977	9303
0.0001	17475	25000	32526	55000	75000	100000

Досить часто критерієм об'єднання (числа кластерів) стає зміна відповідної функції. Наприклад, суми квадратів відхилень:

Процесу угруповання має відповідати тут послідовне мінімальне зростання значення критерію E. Наявність різкого стрибка у значенні E можна інтерпретувати як характеристику числа кластерів, які об'єктивно існують у досліджуваній сукупності.

Отже, другий спосіб визначення найкращого числакластерів зводиться до виявлення стрибків, що визначаються фазовим переходом від сильно пов'язаного до слабозв'язаного стану об'єктів.

1.6 дендограми.

Число алгоритмів кластерного аналізу занадто велике. Усі їх можна поділити на ієрархічні та неієрархічні.

Ієрархічні алгоритми пов'язані з побудовою дендограм і поділяються на:

1.7 Дані

Кластерний аналіз можна застосовувати до інтервальних даних, частот, бінарних даних. Важливо, щоб змінні змінювалися у порівняних шкалах.

Неоднорідність одиниць виміру і звідси неможливість обгрунтованого вираження значень різних показників в одному масштабі призводить до того, що величина відстаней між точками, що відображають положення об'єктів у просторі їх властивостей, виявляється залежною від довільно обирається масштабу. Щоб усунути неоднорідність виміру вихідних даних, їх значення попередньо нормуються, тобто. виражаються через відношення цих значень до деякої величини, що відбиває певні властивості цього показника. Нормування вихідних даних для кластерного аналізу іноді проводиться за допомогою розподілу вихідних величин на середньоквадратичне відхилення відповідних показників. Інший спосіб зводитись до обчислення, так званого, стандартизованого внеску. Його ще називають Z-вкладом.

Z-вклад показує, скільки стандартних відхилень відокремлює це спостереження від середнього значення:

Де xi – значення цього спостереження, – середнє, S – стандартне відхилення.

Середнє для Z-вкладів є нульовим та стандартне відхилення дорівнює 1.

Стандартизація дозволяє порівнювати спостереження із різних розподілів. Якщо розподіл змінної є нормальним (або близьким до нормального), і середня та дисперсія відомі або оцінюються за більшими виборними, то Z-вклад для спостереження забезпечує більш специфічну інформацію про його розташування.

Зауважимо, що методи нормування означають визнання всіх ознак рівноцінними з погляду з'ясування подібності аналізованих об'єктів. Вже зазначалося, що стосовно економіки визнання рівноцінності різних показників видається виправданим не завжди. Було б, бажаним поряд із нормуванням надати кожному з показників вагу, що відображає його значущість у ході встановлення подібностей та відмінностей об'єктів.

У цій ситуації доводиться вдаватися до способу визначення ваги окремих показників – опитування експертів. Наприклад, під час вирішення завдання класифікації країн за рівнем економічного розвитку використовувалися результати опитування 40 провідних московських фахівців із проблем розвинених країн за десятибальною шкалою:

узагальнені показники соціально-економічного розвитку – 9 балів;

показники галузевого розподілу зайнятого населення – 7 балів;

показники поширеності найманої праці – 6 балів;

показники, що характеризують людський елемент продуктивних сил – 6 балів;

показники розвитку матеріальних продуктивних сил – 8 балів;

показник державних витрат – 4 бали;

«воєнно-економічні» показники – 3 бали;

соціально-демографічні показники – 4 бали.

Оцінки експертів вирізнялися порівняно високою стійкістю.

Експертні оцінки дають відому підставу визначення важливості індикаторів, які входять у ту чи іншу групу показників. Збільшення нормованих значень показників на коефіцієнт, що відповідає середньому балу оцінки, дозволяє розраховувати відстані між точками, що відображають становище країн у багатовимірному просторі, з урахуванням неоднакової ваги їх ознак.

Досить часто при вирішенні подібних завдань використовують не один, а два розрахунки: перший, у якому всі ознаки вважаються рівнозначними, другий, де їм надаються різні ваги відповідно до середніх значень експертних оцінок.

1.8. Застосування кластерного аналізу.

Розглянемо деякі програми кластерного аналізу.

Розподіл країн на групи за рівнем розвитку.

Вивчалися 65 країн за 31 показником (національний дохід на душу населення, частка населення зайнятого в промисловості у %, накопичення на душу населення, частка населення, зайнятого в сільському господарстві у %, середня тривалість життя, кількість автомашин на 1 тис. жителів, чисельність озброєних сил на 1 млн. жителів, частка ВВП промисловості у %, частка ВВП сільського господарствау %, і т.д.)

Кожна з країн виступає у цьому розгляді як об'єкт, що характеризується певними значеннями 31 показника. Відповідно вони можуть бути представлені як крапки в 31-мірному просторі. Такий простір зазвичай називається простором властивостей об'єктів, що вивчаються. Порівняння відстані між цими точками відбиватиме ступінь близькості країн, їх подібність друг з одним. Соціально-економічний зміст подібного розуміння подібності означає, що країни вважаються тим більше схожими, чим менше різницю між однойменними показниками, за допомогою яких вони описуються.

Перший крок подібного аналізу полягає у виявленні пари народних господарств, Враховані в матриці подібності, відстань між якими є найменшою. Це, очевидно, будуть подібні, схожі економіки. У подальшому розгляді обидві країни вважаються єдиною групою, єдиним кластером. Відповідно вихідна матриця перетворюється так, що її елементами стають відстані між усіма можливими парами вже не 65, а 64 об'єктами – 63 економіки та знову перетвореного кластера – умовного об'єднання двох найбільш схожих країн. З вихідної матриці подібності викидаються рядки і стовпці, що відповідають відстаням від пари країн, що увійшли в смак, до всіх інших, зате додаються рядок і стовпець, що містять відстань між кластером, отриманим при об'єднанні та іншими країнами.

Відстань між знову отриманим кластером і країнами належить рівною середньому з відстаней між останніми та двома країнами, які становлять новий кластер. Іншими словами, об'єднана група країн розглядається як ціле з характеристиками, приблизно рівними середнім з характеристик країн, що входять до нього.

Другий крок аналізу полягає у розгляді перетвореної таким шляхом матриці з 64 рядками та стовпцями. Знову виявляється пара економік, відстань між якими має найменше значення, і вони, як і першому випадку, зводяться воєдино. При цьому найменша відстань може виявитися як між парою країн, так і між якоюсь країною та об'єднанням країн, отриманим на попередньому етапі.

Подальші процедури аналогічні описаним вище: на кожному етапі матриця перетворюється так, що з неї виключаються два стовпці та два рядки, що містять відстань до об'єктів (пар країн чи об'єднань – кластерів), зведених воєдино на попередній стадії; виключені рядки та стовпці замінюються стовпцем та рядком, що містять відстані від нових об'єднань до інших об'єктів; далі в зміненій матриці виявляється пара найближчих об'єктів. Аналіз триває до вичерпання матриці (т. е. до того часу, поки всі країни виявляться зведеними одне ціле). Узагальнені результати аналізу матриці можна представити у вигляді дерева подібності (дендограми), подібного до описаного вище, з тією лише різницею, що дерево подібності, що відображає відносну близькість всіх 65 країн, що розглядаються нами, набагато складніше схеми, в якій фігурує тільки п'ять народних господарств. Це дерево відповідно до числа об'єктів, що зіставляються, включає 65 рівнів. Перший (нижній) рівень містить точки, що відповідають кожній країні окремо. Поєднання цих двох точок на другому рівні показує пару країн, найбільш близьких за загальним типом народних господарств. На третьому рівні відзначається наступне за подібністю парне співвідношення країн (як згадувалося, у такому співвідношенні може бути або нова пара країн, або нова країна і вже виявлена пара подібних країн). І так далі до останнього рівня, на якому всі країни, що вивчаються, виступають як єдина сукупність.

В результаті застосування кластерного аналізу було отримано наступні п'ять груп країн:

афро-азіатська група;

латино-азіатська група;

латино-середньоземноморська група;

група розвинених капіталістичних країн (без США)

Введення нових індикаторів понад 31 показник, що використовується тут, або заміна їх іншими, природно, призводять до зміни результатів класифікації країн.

2. Розподіл країн за критерієм близькості культури.

Як відомо маркетинг повинен враховувати культуру країн (звичаї, традиції тощо).

За допомогою кластеризації було отримано такі групи країн:

арабські;

близькосхідні;

скандинавські;

германомовні;

англомовні;

романські європейські;

латиноамериканські;

далекосхідні.

3. Розробка прогнозу кон'юнктури ринку цинку.

Кластерний аналіз відіграє важливу роль на етапі редукції економіко-математичної моделі товарної кон'юнктури, сприяючи полегшенню та спрощенню обчислювальних процедур, забезпеченню більшої компактності результатів при одночасному збереженні необхідної точності. Застосування кластерного аналізу дає можливість розбити всю вихідну сукупність показників кон'юнктури на групи (кластери) за відповідними критеріями, полегшуючи цим вибір найбільш репрезентативних показників.

Кластерний аналіз широко використовується для моделювання ринкової кон'юнктури. Практично основна більшість завдань прогнозування спирається використання кластерного аналізу.

Наприклад, завдання розробки прогнозу кон'юнктури ринку цинку.

Спочатку було відібрано 30 основних показників світового ринку цинку:

Х1 – час

Показники виробництва:

Х2 – у світі

Х4 – Європі

Х5 - Канаді

Х6 - Японії

Х7 - Австралії

Показники споживання:

Х8 – у світі

Х10 – Європі

Х11 - Канаді

Х12 - Японії

Х13 - Австралії

Запаси цинку у виробників:

Х14 - у світі

Х16 – Європі

Х17 - інших країнах

Запаси цинку у споживачів:

Х18 - у США

Х19 – в Англії

Х10 – у Японії

Імпорт цинкових руд та концентратів (тис. тонн)

Х21 - у США

Х22 - у Японії

Х23 – у ФРН

Експорт цинкових руд та концентратів (тис. тонн)

Х24 – з Канади

Х25 - з Австралії

Імпорт цинку (тис. Тонн)

Х26 - у США

Х27 – до Англії

Х28 – у ФРН

Експорт цинку (тис. тон)

Х29 – з Канади

Х30 – з Австралії

Для визначення конкретних залежностей використали апарат кореляційно-регресійного аналізу. Аналіз зв'язків проводився з урахуванням матриці парних коефіцієнтів кореляції. Тут приймалася гіпотеза про нормальний розподіл аналізованих показників кон'юнктури. Зрозуміло, що rij є не єдиним можливим показником зв'язку використовуваних показників. Необхідність використання кластерного аналізу пов'язана в цьому завданні з тим, що кількість показників, що впливають на ціну цинку, дуже велика. Виникає необхідність їх скоротити з цілого ряду таких причин:

а) відсутність повних статистичних даних щодо всіх змінних;

б) різке ускладнення обчислювальних процедур під час введення у модель великої кількості змінних;

в) оптимальне використання методів регресійного аналізу вимагає перевищення числа значень, що спостерігаються, над числом змінних не менше, ніж у 6-8 разів;

г) прагнення до використання в моделі статистично незалежних змінних та ін.

Проводити такий аналіз безпосередньо на порівняно громіздкій матриці коефіцієнтів кореляції дуже важко. За допомогою кластерного аналізу всю сукупність кон'юнктурних змінних можна розбити на групи таким чином, щоб елементи кожного кластера сильно корелювали між собою, а представники різних групхарактеризувались слабкою корелюваністю.

Для вирішення цього завдання було застосовано один з агломеративних ієрархічних алгоритмів кластерного аналізу. На кожному кроці число кластерів зменшується однією за рахунок оптимального, у певному сенсі, об'єднання двох груп. Критерієм об'єднання є зміна відповідної функції. В якості функції такої були використані значення сум квадратів відхилень, що обчислюються за такими формулами:

(j = 1, 2, …, m),

де j – номер кластера, n – число елементів у кластері.

rij – коефіцієнт парної кореляції.

Таким чином, процесу угруповання повинне відповідати послідовне мінімальне зростання значення критерію E.

На першому етапі початковий масив даних представляється у вигляді множини, що складається з кластерів, що включають по одному елементу. p align="justify"> Процес угруповання починається з об'єднання такої пари кластерів, яке призводить до мінімального зростання суми квадратів відхилень. Це вимагає оцінки значень суми квадратів відхилень кожного з можливих об'єднань кластерів. На наступному етапі розглядаються значення сум квадратів відхилень для кластерів і т.д. Цей процес буде зупинено на певному кроці. Для цього слід стежити за величиною суми квадратів відхилень. Розглядаючи послідовність зростаючих величин, можна вловити стрибок (один чи кілька) у її динаміці, який можна інтерпретувати як характеристику числа груп «об'єктивно» існуючих у досліджуваній сукупності. У наведеному прикладі стрибки мали місце за числі кластерів рівному 7 і 5. Далі знижувати число груп годі було, т.к. це призводить до зниження якості моделі. Після отримання кластерів відбувається вибір змінних найважливіших в економічному сенсіі найбільш тісно пов'язаних з обраним критерієм кон'юнктури - у разі з котируваннями Лондонської біржі металів на цинк. Цей підхід дозволяє зберегти значну частину інформації, що міститься у початковому наборі вихідних показників кон'юнктури.