Населението на синооки Марсовци се намалува

Да претпоставиме дека сакаме да ја тестираме хипотезата дека процентот на синооки марсовци се намалил во текот на 20 век. За жал, населението на Марс варира многу, така што постои голема разлика во вкупното население секоја деценија [Ажурирање: Размислете за населението на Марс како постојана на една милијарда Марсовци. Следните податоци се случајни примероци за секоја година. Множеството податоци (што е составено при пишување) може да изгледа нешто како ова:

Анализата на годините во кои населението на Марс е старо под 100 години, очигледно не е статистички значајно како за население над 10 000, бидејќи во вториот случај имаме поголем сет на податоци. Сепак, би сакале да ги искористиме сите достапни податоци за да ја тестираме нашата хипотеза со конвенционално ниво на значење од 95%.

Како да продолжиме понатаму? Дозволете ни да ја измериме важноста на секоја година според големината на примерокот во тоа време?

Други измени за решавање на загриженоста: Ова е за тоа како ние соодветно ја вашиме секоја база на податоци, земајќи предвид дека тие се толку различни по големина. Нема промена на примерокот бидејќи податоците се избираат по случаен избор.

0 'role = "презентација"> 0 1' улога = "презентација"> 1

n 'role = "презентација"> n p' улога = "презентација"> p k 'улога = "презентација"> k

Знаеме секоја деценија и овие ги даваат податоците - но знаеме. Можеме да го процениме со претпоставка дека логаритамските коефициенти што одговараат варираат линеарно од година во година (барем до добро приближување). Ова значи дека претпоставуваме дека има броеви и такви што n 'role = "презентација"> nk' улога = "презентација"> kp 'улога = "презентација"> pp' улога = "презентација"> p β 0 'role = "презентација"> β 0 β 1' улога = "презентација"> β 1

Ако го вклучите ова во (1), имате опција да гледате од одредена година како k 'role = "презентација"> k n' улога = "презентација"> n t 'улога = "презентација"> t

Под претпоставка дека примероците се добиваат независно во годините, итн. И соодветните и од синооки субјекти како и, веројатноста на податоците е производ на веројатноста на индивидуалните резултати. Овој производ е (по дефиниција) веројатност за. Овие параметри можеме да ги процениме како вредности што ја зголемуваат веројатноста; Соодветно на тоа, тие ја зголемуваат веројатноста за најавување t 1, t 2, 'role = "презентација"> t 1, t 2, ni' улога = "презентација"> niki 'улога = "презентација"> ki (β 0, β 1) 'улога = "презентација"> (β 0, β 1) (β ^ 0, β ^ 1)' улога = "презентација"> (β ^ 0, β ^ 1)

добиени од. (2) 'улога = "презентација"> (2)

(Ова е многу поедноставено кога се користат правилата за логаритам. Ова е причина да се изрази врската со временскиот однос во однос на коефициентот на најавување. Ако сите пропорции се приближно помеѓу и, постои мала квалитативна разлика помеѓу употребата на веројатностите или коефициенти на вашиот дневник: Прилагодената крива е линеарна или скоро линеарна.) 0.2 'role = "презентација"> 0,2 0,8' улога = "презентација"> 0,8 p 'улога = "презентација"> p

(3) 'role = "презентација"> (3) е бином генерализиран линеарен модел. Треба да се прилагоди со нумеричко минимизирање. Постапката во (прикажано на крајот од овој пост) го дава решението Λ 'улога = "презентација"> Λ glm R

Податоците на оваа слика се цртаат со парчиња чии области се пропорционални на големината на примерокот. GLM одговара е кривилинеарно. За споредба, редот што ќе го добиеме ако сакаме да ги изнесеме податоците прикажани во прашањето до вообичаениот решавач за најмали квадрати е прикажан во сива боја за споредба. И покрај малата големина на примерокот во тоа време, и на двете соодветности влијаат поголемите пропорции во претходните години. Сепак, вклопувањето во GLM може подобро да ги приближи пропорциите во најголемите примероци добиени во 1970 и 1980 година. Подолу е опишана сината линија со точки. (Година, Пропорција) 'улога = "презентација"> (Година, Пропорција)

Со додавање на квадратен поим, можеме да ја тестираме добрината на соодветноста. Тоа во голема мера го подобрува вклопувањето во GLM (иако визуелната разлика не е голема) и дава докази дека овој модел не ја опишува варијацијата на резултатите добро. Погледот на графиконот покажува дека резултатот во 1990 година бил многу помал од предвидениот модел.

Алтернативен, но споредлив пристап е да се процени секоја година поединечно, веројатно како (иако други проценки се можни). Линеарна регресија на логаритамските коефициенти на овие проценки во однос на годината, пондерирана со големината на примерокот или регресијата на пондерираните најмалку квадрати, дава p 'role = "презентација"> pti' улога = "презентација"> tiki/ni 'улога = "презентација" > ki/nini 'role = "презентација"> ни

Стандардните грешки на овие проценки се, соодветно, што укажува на тоа дека проценките на WLS не се материјално различни од биномот GLM. (Сепак, стандардните грешки на GLM се значително помали: „знае“ дека овие големини на примерокот се прилично големи, додека линеарната регресија „не знае“ ништо за големината на примерокот: има само една низа од десет одделни набудувања.) Забележете дека Алтернатива не може да биде достапна ако или се користи друг проценувач на веројатност (што нема вредности на или). 15.55 'role = "презентација"> 15,55 0,00787' улога = "презентација"> 0,00787 ki = ni 'role = "презентација"> ki = niki = 0' role = "презентација"> ki = 0 0 'улога = "презентација" > 0 1 'улога = "презентација"> 1

Конечно, можеме само да направиме регресија на пондерираните најмалку квадрати на проценките на суровата веројатност наспроти годината, што е обратно пондерирано со проценка на варијансата на примерокот. Варијансата на дистрибуцијата на бином е променлива, повторно изразена како однос. Ова може да се процени од примерок како k/n 'role = "презентација"> k/n (n, p)' улога = "презентација"> (n, p) X 'улога = "презентација"> XX/n' улога = "презентација"> X/np (1 - p)/n 'улога = "презентација"> p (1 - p)/n

Резултатот се појавува на сликата како точкаста сина линија. Во овој случај, се чини дека постои размена помеѓу прилагодувањата на GLM и OLS.

Следниот R-код ги изврши анализите и ја генерираше сликата.