Дрва на одлука и регресија
Дрва на одлука и регресија Ансамбли на случајни шуми

Податоци и модел Принципот е заеднички Класификација Регресија Формално: имаме податоци за обука во форма на вектори X i со ознаки Y i. Етикетите се: Категории (дискретни) за класификација Продолжете со регресија
Индукциски принцип на индукција: Извлекуваме правила од примери Претпоставуваме дека правилата важат дури и кога имаме многу податоци Парадигма на индукција и дедукција: Во индуктивниот чекор ги формираме правилата Во дедуктивниот чекор, ги користиме правилата за да предвидиме етикети за нови податоци
Дрвја за класификација и регресија Дрвото е предвидлив модел кој: Конструира врз основа на збир на бинарни одлуки Пресметува излезна вредност Разликата помеѓу регресијата и класификацијата (во конструкција) е дадена со објективната функција
Користете индуктивен пристап Користете посебни податоци за да изградите многу поопшти правила Предвидлив модел заснован на серија Булови тестови Редоследот на тестовите е посилен од многу сложени класификатори Како изгледа дрвото на одлука Како изгледа дрвото на одлука?
Ова животно е. Тежина на мачка или куче> 6 килограми Да Не отчукувања во минута> 150 спиење> 15 часа Кучињата се помасивни, но има дебели мачки и има чивава Одлични кучиња спијат многу Да Мачка Не Куче Да Не Тежина> 35 кг Dogивотно куче = (тежина, ритмови) во минута, додека спиеш, индекс на убавина) индекс на убавина не е корисен Да Не Кое животно е опишано од (45,80, 10 9) Но, куче за мачки (8,180,18,7)
Индуктивно учење Во ова дрво на одлуки, донесовме низа бинарни одлуки и изградивме гранка animalивотно: какво гадење има? Колку долго спие? Колкав е ритамот на срцето? Одговарајќи на овие прашања со ДА или НЕ, разликуваме кучиња и мачки
Податоци во табела Сет за обука Пример Атрибути Етикета Тежина Срцева фрекфенција Заспана убавица Шепа 5 100 8 5 Куче - Лабрадор Издувам 3,5 180 16 9 Мачка - Европска Макс 65 45 13 7 Пастир куче Рекс 6 130 16 8 Кучешка кутија Динго 00 15 7 Cat - слабаног Brutus 1.5 140 7 1 Dog - Pekingese Asci 15 160 19 8 Cat - утре Кун Грас Мутзи 1 130 0 Мачка - дебел Карамел 5 10 16 9 Мачка - Бурмански Блек 4 0 16 10 Мачка - Норвешки Ниж 0 80 18 10 Куче - Хаски Гарфилд 8 180 19 4 Мачка - црвенокоса Тото 30 85 1 6 Куче - корцитура
Избор на атрибути Претходната табела покажува 4 атрибути: тежина, отчукувања на срцето, времетраење на спиењето и убавина Но, одлуката е донесена врз основа на само три Убавината не е релевантна Зошто? Добро е?
Како да креирате дрво на одлука Податоците се опишани со список на атрибути. Атрибутите можат да бидат дискретни или континуирани. Разгледајте го секој атрибут за возврат и за тековниот момент изберете го оној што ќе ја произведе најдобрата поделба. Поставете праг и добијте два подпроблеми се решава рекурзивно слично
Градење дрво Обука Кои променливи се користат во тековната споредба и каде? Кога ќе застанеме? Продолжуваме? Терминалниот јазол добива етикета.
Алгоритам за дрво на одлука Основната идеја е: Изберете го најдобриот атрибут за споредба и поделете ги примерите според донесената одлука, врз основа на тој атрибут Повторете го процесот, рекурзивно, за секое поддрво Застануваме кога: Сите судови оставени во подпроблем ја имаат истата ознака Нема повеќе атрибути што треба да се испробаат Нема повеќе податоци
Класификација Мерка што треба да се оптимизира: GINI индекс (индекс на нечистотија) GINI (X) 1 N p i i1 P i релативна фреквенција на класа i во X (под) множеството податоци на соодветниот сплит Пониските вредности на GINI се подобри. Iniини == 0 чиста класа Првично се мери социјалната нерамнотежа
Дрво за класификација (Одлука) Податоци за обука Obj x 1 xy X 1 0,14 1,6 3 X 3,7 1,4 1 X 3,4 0,6 XN 0,15 0,87 3 x 0 4 СПЛИТ (алчен): MinGINI = RealMAX За секоја димензија d = x 1 x За val = мин (d 1 d N-1): максимум (d 1 d N-1 Сплит помеѓу val d_i и val d_i + 1 Вредност на подмножеството = мнозинство вредности во подгрупата Пресметај GINI. Ако е помала од MinGINI, складирај крај Крај Користете го димензија и вентил што водат до MinGINI x 1
Дрво за класификација (одлука) Податоци за обука Obj x 1 x y X 1 0,14 1,3 3 X 3,7 1,4 3 X 3 1,7 0,7 X 4 0,5 1,6 3 x 1 0 4 x 1 X 5 1,5. X 6 0,7 0,3 1 X 7,4 1,8 1 X 8,7 0,87 1
Податоци за обука Obj x 1 x y X 1 0.14 1.3 3 X 3.7 1.4 3 X 3 1.7 0.7 X 4 0.5 1.6 3 X 5 1.5. X 6 0,7 0,3 1 X 7,4 1,8 1 X 8,7 0,87 1 Дрво за класификација (одлука) x 1 0 Сплит x 1