Звучник Стефани Јан СС 2007 година - ppt видео на Интернет преземање

Говорник: Стефани Јан СС 2007 Анализа на кластери Говорник: Стефани Јан СС 2007 година

звучник

1. Анализа на проблем на хетерогена група предмети Цел: Идентификувајте хомогени подмножества на објекти од целиот сет на предмети.Анализата на кластери има различни методи за формирање групи

Прелиминарни размислувања Бројот на предметите мора да биде репрезентативен во случајни примероци Исклучи/елиминирај ги надворешните страни земи ги предвид само релевантните карактеристики Еднакво пондерирање на карактеристиките -> исклучи корелации поради ризик од нарушување Нема постојани карактеристики во излезната матрица -> ризик од нарушување Споредливост преку стандардизација на променливи со различни Ниво на скала на излезните податоци

Вредности што недостасуваат Множеството податоци треба да се исчисти од исчезнатите вредности Исклучување на: - Променливи со голем број на вредности што недостасуваат - Случаи со вредности што недостасуваат за променливи -> Проблем: Намалување на бројот на случаи, заменете ги вредностите што недостасуваат со просечни вредности -> Проблем: Изобличување на настанот ако се премногу чести појави

2. Постапка 2.1. Одредување на сличност 2.1.1. Бинарна променлива структура 2.1.2. Метричка променлива структура 2.1.3. Мешана скалирана променлива структура 2.2. Избор на алгоритам за спојување 2.2.1. Методи на поделба 2.2.2. Хиерархиски постапки 2.3. Одредување на бројот на кластери

2.1. Одредување на сличност Појдовна точка: матрица на необработени податоци со K објекти што се опишани со J променливи Матрицата содржи мерки на близина (= мерки на сличност и различност)

2.1.1. Споредба на парови на бинарна променлива структура: вредностите на имотот се споредуваат едни со други за 2 објекти

Коефициенти на Танимото, RR и M

Употреба: ако непостоење на карактеристика е релевантно (на пр. За пол: 1 = машко, 0 = женско), тогаш употребата на пр. М-коефициент ако непостоењето на карактеристика не е релевантно, тогаш постои тенденција кон Танимото или cакард коефициент.

Употреба на коефициентите на сличност за повеќе нивоа променливи:

2.1.2. Метрична променлива структура Методи на Минковски или L стандарди што широко се користат мери на далечина Разлика помеѓу својствата на паровите на предметите поделена со вредностите на апсолутната разлика

r = 1 - метрички градски блок: = I1-2I + I2-3I + I1-3I = 1 + 1 + 2 = 4 со нормата L1, сите вредности на разлики се вклучени во пресметката со еднаква тежина = најголема сличност; = најголема различност

r = 2 - евклидово растојание: = I1-2I2 + I2-3I2 + I1-3I2 = 12 + 12 + 22 = 6 поголемо разгледување на вредностите на големата разлика со квадрат

Резултат: Изборот на мерка на далечина влијае на редоследот на сличност на предметите што треба да се испитаат. Важно: мора да се користат споредливи мерни единици -> инаку стандардизација!

Коефициент на Q-корелација ја пресметува сличноста помеѓу 2 објекти земајќи ги предвид сите променливи на објектот = најголема сличност; = најголема различност

Зошто Рама и Божиќниот путер се најразлични според метричката Минковски, но најслични според коефициентот на корелација Q? Употреба на мерки за растојание ако апсолутното растојание помеѓу предметите е од интерес и различноста се зголемува со зголемувањето на растојанието -> на пр. Слична големина/ниво на продажба со текот на времето Употреба на мерки за сличност кога станува збор за аспект на сличност при синхронизација на два профила, без оглед на нивото -> на пр. сличен развој на продажбите со текот на времето

2.1.3. Мешана скалирана променлива структура А) За метричките и неметарските варијабли, коефициентите на сличност или растојанијата се пресметуваат одделно.

на пр.: Рама и Флора: Растојание со коефициент М = 1-0,7 = 0,3 за метар. Карактеристики на квадрат Евклидово растојание = 4 => немеризирана аритметка. Средна вредност: 2,15 => пондерирање според метар. и неметар. растојание

Б) Трансформација од повисоко кон пониско ниво Дихотомизација: Цена до 1,59 € = 0, од ​​1,60 € = 1 = голема загуба на информации, произволна. Дефиниција на интерфејсот? Интервали на форма или: цена поголема од 1,40 €? да = 1, не = 0 Цена повеќе од 1,70 €? да = 1, не = 0… колку е помал опсегот на класи, толку е помало губење на информации, ризик од нарушување поради неправилно пондерирање

2.2. Избор на алгоритам за соединување Комбинација во групи засновани врз вредностите на сличност (агломеративната) анализа на кластери ги сумира случаите што се разгледуваат сè додека конечно не се содржат сите случаи во групата можна диференцијација на хиерархиски методи на поделба

2.2.1. Методи на поделба, предефинирано групирање се базира на дадена група на објекти, преуредување со помош на алгоритам за размена помеѓу групите до оптимално

Завршете го групирањето кога сите објекти се прекинати со групирање кога сите објекти се прекинати. нивното преместување беше испитано и не може да се постигне подобрување во критериумот на варијанса -> прекинување треба да се случи, инаку премногу опции -> постигнати локални оптими наместо глобални проблеми со одлуката за оптима 2 со "промена на почетната партиција": 1. Одреди во колку групи се наоѓаат предметите треба да се дистрибуираат 2. Одреди го режимот според кој предметите треба да бидат дистрибуирани до почетните групи (користејќи табела со случајни броеви, според редоследот на нивното нумерирање, ...)

методите на поделба се карактеризираат со поголема варијабилност во споредба со агломеративните хиерархиски методи. методите на поделба се поретки во практичните апликации

2. 2. 2. Хиерархиски постапки 2. 2. 2. 1 2.2.2. Хиерархиски постапки 2.2.2.1. Агломеративен процес агломеративен процес - најдобрата партиција е почетна точка -> групирање заедно

Разлики меѓу агл. Разлики помеѓу агл. Постапките произлегуваат само од тоа како се одредуваат растојанијата Растојание помеѓу предметите P + Q до која било група R: D (R, P + Q) = A * D (R, P) + B * D (R, Q) + E * D (P, Q) + G * ID (R; P) -D (R, Q) I со: D (R, P): растојание помеѓу групите R и PD (R, Q): растојание помеѓу групите R и QD (P, Q): Растојание помеѓу групите P и Q

ги обединува објектите кои имаат најмало растојание 2.2.2.2. Постапка за постапките „Едноврска“, „Комплетна врска“ и „Ворд“ Постапката за единечна врска комбинира предмети што имаат најмало растојание. Постапка за најблизок сосед SLV секогаш црта најмала вредност како ново растојание помеѓу две групи Пристап на индивидуални растојанија -> затоа е погоден за препознавање на „артикели“, има тенденција да формира многу мали и не многу големи групи -> тенденција за формирање ланци

Комплетен метод на поврзување се користат најголемите растојанија како растојанија = метод на најоддалечен сосед Растојанието сега одговара на најголемото индивидуално растојание

а има тенденција да формира мали групи кои не се соодветни за откривање на „артикери“ поради употребата на најголемите растојанија на индивидуалните вредности

Метод на Вард Цел: да се обединат оние предмети што го зголемуваат расејувањето на групата што е можно помалку -> со што се создаваат што е можно хомогени гроздови како мерка за хетерогеност, се користи критериум за варијанса = збир на грешки на квадратите (FQS) за пресметка на квадрот. Евклид. Растојание помеѓу сите објекти FQS во првиот чекор = 0, бидејќи секој објект има своја група -> сè уште не е расфрлан

4 * 0,5 = 2 (= FQS) 6,667 * 0,5 = 3,333 3,333 + 2 = 5,333 11 * 0,5 = 5,5 5,5 + 5,333 = 10,833

Вард методот користи мерка на растојание променливите мора да бидат метрички без асортиман неврзани варијабли важно очекување на групи со еднаква големина издолжени групи или групи со мал број елементи што не се препознаваат. Препорака: - SLV најпрво да открие необични страни - „Елиминирање“ на крајните делови - Преиспитајте го намалениот број на предмети со друг агломеративен метод - Методот мора да биде избран во однос на позадината на соодветната ситуација на апликација

2.3. Одредување на бројот на кластери Одлука за тоа кој број на кластери е „најдоброто“ решение и треба да се користи Решавање на конфликтот на целите помеѓу управливоста и условот за хомогеност е збир на грешки на квадрати во методот на Вард) графичкото појаснување е обезбедено од дендрограмот

Развојот на хетерогеноста е нацртан против поврзаниот број гроздови во координатниот систем -> 4-кластерско решение