Кристијан Буркхарт

3 август 2018 година

Статистичките методи се таму за да најдат одговори на прашања. Дали лекот Х е подобар од лекот Y? Или, дали диетата П е подобра од диетата С? Секој знае такви прашања, тие често се среќаваат во секојдневните разговори и сè уште не се движат во области каде лаиците за статистика претпочитаат да ја напуштат просторијата штом говорникот фрли поими како што се статистички параметри, дистрибуција на примероци или стандардно отстапување.

За да се одговори на прашањата за ваква разлика (дали X е подобар од Y), сепак, потребни се статистички методи. Овие постапки не мора да бидат комплицирани воопшто. Замислете дека сакате да знаете дали диетата 1, диетата 2 или диетата 3 е подобра за слабеење. Поделувате 60 лица во по 3 групи (по 20 лица по група). Група 1 мора да помине низ диета 1, група 2 мора да помине низ диета 2 и група 3 да помине низ диета 3. Секоја група точно 6 недели. Пред да започне експериментот, секој повторно се мери. На крајот од експериментот, секој мора повторно да биде на вагата. Сега која диета е најдобра? Наједноставен одговор би била групата која изгубила најмногу тежина. Ајде да го провериме.

R, R-Studio и Tidyverse

Веднаш ќе ги истрчам сите анализи со Р. R е програмски јазик кој е напишан за статистички проценки. Доколку сакате да учествувате, потребни ви се Р и Р-Студио. Ние ја земаме групата податоци за овој пример од оваа веб-страница (преземете ја датотеката CSV на тема диета). Ако сè уште не сте го сториле тоа, прво инсталирајте ги средените пакети и пакетот gghighlight:

Потоа можеме да ги вчитаме пакетите и да прочитаме во записот за податоци:

Ако не сте нови во R, проверете дали сте го одредиле правилниот работен директориум пред да ги прочитате податоците. Најлесен начин е да ја внесете следнава команда во конзолата и да ја изберете папката во која се наоѓа датотеката stcp-Rdataset-Diet.csv.

Податоците сега треба да се вчитаат и можете да ги прегледувате податоците со поглед:

Сега сме загрижени само за две од овие променливи: тежина6недели и диета. Диетата не е ништо повеќе од променлива што ги содржи броевите 1, 2 и 3. 1 се залага за диета 1 и така натаму. weight6weeks ја означува тежината на луѓето по 6 недели.

Сепак, ние сме заинтересирани за разликата во тежината по 6 недели. За да го направите ова, создаваме нова променлива:

mutate е функција што можеме да ја искористиме за да создадеме нови променливи.

Сега сме подготвени да откриеме дали диетите сега имаат различни успеси.

Дали диетата прави разлика? Едноставен начин да одговорите на прашањето

Кој би бил најлесниот начин да се провери дали групите се различни? Ние ги споредуваме средните вредности.

Или едноставно кажано, ги собираме сите вредности и ја делиме оваа сума со бројот на вредности. Прво, да ја најдеме средината на трите групи.

Ммммм, добро Група 3 се чини изгуби најмногу тежина. Значи, дали диетата 3 е најдобра? Или, да кажам поинаку, од каква разлика е една диета подобра од друга? Или, не може ли едноставно дека разликите се предмет на случајни флуктуации? Размислете сами. Сега, ако просекот на диета 3 беше -4, дали би рекле дека диетата е подобра од другата? Што ако средната вредност беше -3,5? Забележувате дека одлуката е малку произволна. Обично ни треба изречена вредност за да утврдиме дали диетата прави разлика. Ние ја одредуваме оваа крајна вредност користејќи други методи.

Друг метод за утврдување на разликите помеѓу групите

Наместо да ја земеме средната вредност за да откриеме дали групите се разликуваат, би можеле да прашаме дали овие разлики се предмет на случајни статистички флуктуации или дали е навистина малку веројатно дека 3 групи се толку различни едни од други. Да разберам што сакам да кажам со тоа, мал пример.

Пример за коцка

Да речеме дека имате 6-страно умирање. Сакате да знаете дали овие коцки навистина го покажуваат секој број со иста веројатност. Ова значи дека секој број треба да се појави со (1/6 * 100) процент, т.е. 16,67% веројатност. Меѓутоа, ако ги свртиме коцките 6 пати, многу е малку веројатно дека секој број ќе се појави точно еднаш. Појавата на броевите е предмет на одредени статистички флуктуации. Меѓутоа, ако фрлиме 10.000 пати, можеме да претпоставиме дека секој број се јавува околу 16,67%.

Не манипулирана коцка

Прво навиваме не-манипулирана ролна 10000 пати:

Со set.seet (100) ги добивате истите резултати како мене. ВИСТИНСКО значи дека имаме шанса да вртиме броеви од 1 до 6 секој пат.

Колку често треба да се појавува секој број? Точно 1667 пати приближно. Бидејќи секој број има еднакви шанси да се појави, ние го делиме 10000 со 6 и добиваме 1667 (заокружено). Ние добиваме слични вредности од R:

Гледаме дека не секој број се стркала точно 1667 пати, но овие статистички флуктуации се очекувани. Ако го спроведевме овој експеримент милион пати отколку 10 000, ќе добиевме скоро иста веројатност за секоја коцка. Вистинските коцки, пак, не се совршени. Дури и скршен раб може да значи дека некои броеви се со поголема веројатност да се тркалаат.

Измислена коцка

Што се случува сега ако е изманипулирана коцката? Како можеме да утврдиме дали разликите во појавата на броевите не подлежат на случајни статистички флуктуации (како во не-манипулирани фрлања), но се систематски? За да одговориме на ова прашање, го повторуваме експериментот 1000 пати. 1000 пати Ајде да ги превртиме коцките 100 пати и да видиме колку често бројот 4 се појавува во него. Статистички, треба да претпоставиме дека бројот четири се појавува околу 1667 пати најмногу.

Оваа функција е посложена. Малку по малку:

1: 1000: Создаваме вектор со броевите од 1 до 1000
map_dbl: За секој од овие броеви од 1 до 1000 извршуваме функција над неа
примерок (1: 6, 1000, ВИСТИНСКО): Ние ги тркаламе коцките 100 пати
табела (.): Можеме да ги прикажеме фреквенциите на броевите во овие 100 фрлања
.[имиња (.) == 4]: Ние сметаме колку често се појавува бројот 4 во овие фреквенции
табела: Од 1000 експерименти, сметаме колку често се случувале 4-те во секој од експериментите.

Сега можеме да ја визуелизираме оваа дистрибуција:

Добро, очигледно со 100 фрлања е многу веројатно да се добие бројот 4 16 или 17 пати. Да се добие бројот 4 27 па дури и 6 пати е крајно малку веројатно ако претпоставиме дека коцката не е изманипулирана.

Она што го гледате тука е дистрибуција на веројатност. Од дистрибуцијата можеме да утврдиме колку е веројатно некој настан (појава на бројот 4 од 100 фрлања) да се случи. Врз основа на графиката што ја симулиравме, можеме да кажеме дека коцка веројатно е изманипулирана ако 4-от се случи 27 пати.

Дистрибуција на биноми

Можеме да ја искористиме дистрибуцијата на веројатноста која е штотуку креирана за да утврдиме дали е изманипулирана коцката. На пример, ако го добиевме бројот 4 само 6 пати од 100 фрлања, ќе биде многу малку веројатно дека коцките се измешани. И токму така обично тестираме научни прашања. Не се прашуваме дали нашето научно прашање е точно, туку повеќе дали нашиот настан (разлики во губење на тежината помеѓу диетите) е неверојатен ако не прифатиме разлики.

Не мора да ги симулираме овие дистрибуции на веројатност секој пат. Тие веќе се пресметани. За примерот со коцка, има смисла да се користи дистрибуција на бином. Нашата дистрибуција на веројатност не е ништо друго во принцип. Со биномна дистрибуција ја тестираме веројатноста за n настани со одредена веројатност. На пример: Колку е веројатно со 5 фрлања да го свртиме бројот 4 3 пати?

Сега можеме да ја претставиме нашата дистрибуција на веројатност како биномна дистрибуција:

Па, кога почнуваме да веруваме дека коцката веројатно не е нормална коцка (но е изманипулирана)? Претходно, произволно утврдивме прекин. Научниците прават многу слична работа.

Ако веројатноста за настан е помала од 5% врз основа на распределбата на веројатноста, настанот е малку веројатен.

Во нашата дистрибуција, ова се следниве настани:

Значи, ако го свртиме бројот 4 22 пати или повеќе, треба да претпоставиме дека не станува збор за нормални коцки, туку дека коцките веројатно биле изманипулирани. Тогаш зборуваме за значаен настан.

Распределбата F

Со дистрибуцијата на бином, тестираме дали одреден број настани се веројатно или веројатно нема да се појават. Со дистрибуцијата F тестираме дали разликите помеѓу две варијанти се предмет на статистички флуктуации или дали се систематски. За да го разбереме ова, прво треба да разбереме што се подразбира под варијанса.

Варијанса

Варијансата е статистичка мерка што можеме да ја искористиме за да покажеме колку варијабла варира. На пример, луѓето се разликуваат по тежина. Некои луѓе се тешки, други се лесни. Ајде да ја пресметаме формулата како што следува:

Со други зборови, ги додаваме квадратните отстапувања на индивидуалните вредности на тежината со средната вредност на примерокот и ја делиме оваа сума со n - 1. Секогаш е многу практично да се визуелизираат и такви математички идеи графички.

Хоризонталната линија претставува просек на нашиот променлив примерок.Секоја точка е тежината на секое лице по 6 недели.

Во овој пример, варијансата не е ништо повеќе од просечната површина на овие квадрати поделена со бројот на квадрати - 1. Досега, го оставивме отворен, поради што овие квадрати едноставно не ги делиме по бројот на квадрати, туку според бројот на квадрати минус 1 Ова е затоа што имаме тенденција да ја потценуваме варијансата на популацијата кога ќе извлечеме само неколку луѓе од примерок (тука бројот на луѓе кои учествуваат во нашиот експеримент). Оваа корекција е исто така наречена корекција на Бесел.

Варијанса за нашата променлива тежина6недели изгледа графички како што следува:

Повторно само треба да го поделиме збирот на плоштината на овие квадрати со бројот на квадратите минус 1 и да ја добиеме варијансата.

Колку е помала површината на овие квадрати, толку е помала варијансата на променливата. Со други зборови, колку помалку индивидуалните вредности отстапуваат од средната вредност на променливата, толку е помала варијансата.

Во R можеме да ја пресметаме оваа варијанса како што следува:

Двете команди произведуваат варијанса од 79.64677.

Количник на варијанса

Ние можеме да ги споредиме варијансите едни со други со формирање количник од две варијанти. На пример, можеме да ја споредиме варијансата на првата диетална група со варијансата на втората диетална група.

Ако вредноста е поголема од 1, варијансата на првата група ќе биде поголема од варијансата на втората група. Ако вредноста е помала од 1, варијансата на првата група е помала од варијансата на втората група.

Ф-вредноста произлегува од таков количник. Но, наместо произволно да споредуваме варијанти со количник, ние обично споредуваме систематска наспроти несистематска варијанса. Систематската варијанса обично произлегува од манипулации што ние самите ги носиме. На пример, на 60-те луѓе им доделивме 3 диети. Оваа задача беше систематска. Несистематска варијанса е варијансата дадена од податоците. На пример, варијансата на сите податоци околу просекот на променливата.

F вредност

F-вредноста е количник на варијанса помеѓу нашите 3 диетални групи (SSB) и несистематска варијанса во нашите податоци (SSW).

Збир на квадрати помеѓу (SSB)

Ние ја пресметуваме варијансата помеѓу групите со одземање на просекот на групите од вкупната средина на променливото намалување на тежината, квадрирање и пресметување повеќекратно од бројот на случаи.

Плоштадите е тешко да се видат бидејќи скалирањето е толку различно. Линијата во средината ја означува средната вредност на променливата, точките се средните вредности на одделните групи. Има точки колку што има луѓе во секоја група. Ако ги повлечеме квадратите, изгледа вака:

Мораме повторно да ги додадеме овие квадрати.

Збир на квадрати во рамките (ССВ)

Интра-групната варијанса не е ништо повеќе од збир на интра-групната варијанса.

F вредност

Досега само ги додадовме квадратите, но сè уште немаме пресметано никаква варијанса. За да го направите ова, мора да ги поделиме SSB и SSW со именител:

Средни квадрати помеѓу (MSB): SSB/(k - 1). К се бројот на групи, тука 2.
Средни квадрати во рамките (MSW): SSW/(n - k). N е бројот на луѓе во сите групи, тука 78

F-вредноста сега се формира од количникот помеѓу MSB и MSW.

Ако мислите дека би се вклопила добро, би можела да работам за вас или да ме сакате во вашиот тим, дајте ми порака. Јас напредувам во средина што се грижи за учењето на студентите и сака да испорача добро дизајнирани искуства за учење преку Интернет или визуелизација на податоци.

За мене

Јас сум дизајнер на инструкции со звучно познавање во развој на веб, учење преку Интернет и визуелизација на податоци.

Контакт

Не срамете се да ме контактирате. Со нетрпение очекувам да се слушнеме од тебе.