DrDoogie Skrevet 26. september 2003 Del Skrevet 26. september 2003 Har da noe data av formen "Måling-Hyppighet", med gjennomsnitt sånn hjalla utregnet med: * Målinger = Kolonne A * Hyppighet = Kolonne B SUMPRODUCT(A1:A239;B1:B239)/SUM(B1:B239) = 21.49 Her er da standard variasjon 70.12, og et 95% konfidensintervall gir meg 8.89. Da ligger den relative hyppigheten av målingene innen området 12.1 og 29.9, sant? Dataene er forresten lengde på TrackTitle fra freedb, hvis det er interessant. Lenke til kommentar
DrDoogie Skrevet 26. september 2003 Forfatter Del Skrevet 26. september 2003 *bump* Lenge siden jeg har regnet med statistikk nå, så jeg skulle gjerne hatt en liten bekreftelse da... Lenke til kommentar
tasle Skrevet 28. september 2003 Del Skrevet 28. september 2003 Jeg er usikker på hva du mener. Hvis du kan vise det med et par-tre linjer fra den modellen din (regneark?), hadde det vært greitt. Det er ikke noe statistisk begrep som heter standard variasjon. Varians er ett begrep, standard avvik er et annet. Standard avvik er rota av variansen. For å få et konfidensintervall på ca. 95 % må du multiplisere standardavviket med 2. Da ligger ca. 95 % av alle målingene innenfor rammen av én middelverdi +/- (2 standardavvik). Eksempel: Hvis middelverdien er 20 og ett standardavvik er 2, så ligger 95 % av verdiene mellom 16 og 24. Men som sagt, hva du mener med "målinger" og "hyppighet" vet jeg ikke siden jeg er ikke har sett et bitte-lite utdrag av tabellen, og gjerne litt mer konsis forklaring. Lenke til kommentar
DrDoogie Skrevet 28. september 2003 Forfatter Del Skrevet 28. september 2003 Okay. Mente 'standard avvik', leste 'standard deviation' og tok en rask oversettelse. Jeg har da hentet dataene slik: #! /usr/bin/env perl open inputfile, @ARGV[0] or die "can't open file: $!"; open outfile, ">@ARGV[1]" or die "can't open file: $!"; my ($track_length, $track_count); my $track_hash = {}; while (<inputfile>) { # read in new line chomp; # count each line as a new albumentry ++$linecount; # get all the tab-separated data entries in the current line $_ =~ m/(.*)n/ && do { $track_title = $1; }; $track_length = length $track_title; $track_hash->{$track_length} += 1; $track_hash->{$track_length}n"; } ::print_out(); close inputfile; close outfile; sub print_out { # Print out all information print "Total lines: $linecountn"; while(($key, $value) = each %$track_hash) { print outfile "$keyt$valuen"; } }; Dette er da dataene, hvor første kolonne er lengden på tracktitle (eksempelvis sporet/låta'Thriller' fra Michael Jackson sitt album av samme navn er 8 bokstaver langt), og andre kolonne er hyppighet av tracks med lengden i første Vi ser da at i freedb er det 20424 tracks med lengden 0. 0 20424 1 28061 2 34657 3 57745 4 172118 5 243926 6 287495 7 377232 8 435880 9 489887 10 528525 11 517682 12 559363 13 568811 14 567916 15 545937 16 530250 17 503758 18 480865 19 448698 20 411599 21 389970 22 374237 23 360881 24 340752 25 326460 26 307248 27 300063 28 280460 29 261902 30 254411 31 238546 32 220606 33 203318 34 189542 35 172210 36 159707 37 148829 38 136995 39 129755 40 116173 41 110534 42 98469 43 90327 44 82263 45 77342 46 72349 47 66472 48 59883 49 55032 50 50264 51 45630 52 40971 53 38845 54 34751 55 32417 56 28248 57 26652 58 24107 59 22382 60 20564 61 18128 62 16001 63 13538 64 11810 65 10725 66 9484 67 9725 68 8145 69 6874 70 6104 71 3686 72 2329 73 2044 74 1940 75 1730 76 1607 77 1526 78 1352 79 1197 80 1352 81 1107 82 1035 83 901 84 779 85 760 86 711 87 733 88 666 89 607 90 538 91 498 92 488 93 607 94 364 95 359 96 319 97 340 98 285 99 253 100 256 101 265 102 254 103 229 104 238 105 191 106 161 107 142 108 133 109 133 110 151 111 132 112 106 113 103 114 94 115 119 116 84 117 75 118 86 119 73 120 79 121 69 122 53 123 64 124 57 125 43 126 55 127 63 128 36 129 43 130 31 131 40 132 39 133 44 134 41 135 30 136 26 137 28 138 31 139 17 140 21 141 25 142 16 143 16 144 17 145 15 146 16 147 11 148 18 149 12 150 10 151 13 152 16 153 3 154 15 155 21 156 16 157 5 158 11 159 19 160 16 161 9 162 10 163 16 164 11 165 8 166 10 167 11 168 8 169 10 170 7 171 5 172 10 173 5 174 3 175 8 176 2 177 4 178 5 179 5 180 2 181 4 182 7 183 13 184 5 185 6 186 7 187 3 189 3 190 1 192 2 193 2 194 3 195 2 196 2 197 4 198 3 199 3 200 1 201 2 202 3 203 3 204 3 205 1 206 2 207 1 208 1 209 2 210 1 211 2 212 1 213 1 214 3 215 2 216 1 217 3 218 2 219 2 221 5 222 1 223 1 224 2 225 1 226 1 227 3 228 1 229 4 230 1 231 1 234 2 235 1 236 2 237 1 238 2 239 1 240 1 245 1 246 2 251 1 Men det egentlige problemet mitt er hvilken statistisk model jeg skal velge, etter som dette er venstre-forskjøvet data, til forskjell fra normal-fordelt (Bell-curve) data. Er ikke så flink på statistikk, så hvis du kunne forklart for meg a) hvilken model som er best B) hvordan jeg best representerer konfidens-intervallet, dvs. hvordan ignorerer jeg svært avvikende data for å få et smallest mulig _pålitelig_ konfidens-intervall Lenke til kommentar
tasle Skrevet 29. september 2003 Del Skrevet 29. september 2003 a) Dette er en gammafordeling. Den kjennetegnes med to parametre a og b, som beskriver skjevheten i fordelingen. For en gammafordeling gjelder at middelverdien m= a*b og variansen v= a*b^2. Fordelinga som sådan er litt vanskelig å ha med å gjøre sett fra et matematisk perspektiv siden den omfatter bruk av gammafunksjonen. Derfor tilnærmer man ofte en slik fordelig til å være en trekantfordeling som er mye lettere å jobbe med siden fordelingskurven kan vises lettere som en trekant med en betafordelings egenskaper. B) I ditt tilfelle trenger du antallet A som funksjon av tracklengde L, dvs. A = f (L). Hvis du skal ha sannsynligheter blir A først regnet om fra absolutte størrelser til relative størrelser, siden en sannsynlighet p <= 1. For trekantfordelingen gjelder at E (L) = 1/6 * (a + 4*m + B) (forventnigsverdi) og variansen V (L) = 1/36 * (b - a)^2 s = sqrt (V) Dette siste kan en lett vise når en vet at +/- 3 standardavvik (= 6 standardavvik) dekker hele konfidensintervallet (egentlig 99%). 1s er da 1/6 av konfidensintervallet (b-a) og V = s^2 = (1/6 * (b- a))^2 = 1/36*(b-a)^2 (QED). b er øvre grense og a er nedre grense (høyeste og laveste verdi). 3s blir derfor hele konfidensintervallet, 2s utgjør 95%, mens 1s utgjør 66 %. Lenke til kommentar
DrDoogie Skrevet 29. september 2003 Forfatter Del Skrevet 29. september 2003 Ja, se det. Takker for tips. Har forresten tilgang til Mathematica. Når det gjelder a og b, setter jeg dem bare til 0 og 1 (respektivt), for å finne standard gamma fordeling? Noen linker: http://www.itl.nist.gov/div898/handbook/ed...on3/eda366b.htm http://astronomy.swin.edu.au/~pbourke/anal.../distributions/ http://mathworld.wolfram.com/GammaDistribution.html Lenke til kommentar
tasle Skrevet 29. september 2003 Del Skrevet 29. september 2003 a ligger nok i størrelsesområdet 2, på bakgrunn av tallene dine. Jeg har ikke regnet på det, men det ser slik ut. Et sted mellom 1,3 og 3, men omkring 2. Da kan du lett regne ut b fra ligninga m= a*b. At a er omkring 2 ser du også av den første linken du har oppgitt, forsåvidt. Lenke til kommentar
DrDoogie Skrevet 29. september 2003 Forfatter Del Skrevet 29. september 2003 Hm. Finslig. Så 'a', det er noe man velger sånn på gef?hlen det da? Eller er det en formel for å tilpasse variabelen til datasettet? Anyway, med m=21.5 (som utregnet i første post), a=2, og 2s=2.92 (for 95% konfidensintervall), får jeg med "trekantstilnærming"'en resultatet: 21.5±2.92 til forskjell fra utregningen for normalfordelings-modelen (første post): 21.5±8.89 Kan dette stemme? Lenke til kommentar
tasle Skrevet 29. september 2003 Del Skrevet 29. september 2003 Nå har jeg ikke regnet på tallene dine, men 21,5 ser riktig ut. 2 standardavvik burde vært høyere siden det skal omfatte 95 % av verdiene. Når jeg regner b (beta) basert på din middelverdi får jeg b = 11 (ca.) og videre V= a*b^2 = 2*11^2 = 242 og derav s= sqrt (242) = 16. Det gir 2s = 32. Så da burde det bli i størrelsesområdet 21,5 ± 32 for et 95 % konfidensnivå. Det første spørsmålet: a (alfa) i en slik distribusjon tar man vanligvis på gefühlen når man har sett noen hundre slike kurver. Lenke til kommentar
DrDoogie Skrevet 29. september 2003 Forfatter Del Skrevet 29. september 2003 ... Når jeg regner b (beta) basert på din middelverdi får jeg b = 11 (ca.) og videre V= a*b^2 = 2*11^2 = 242 og derav s= sqrt (242) = 16. Det gir 2s = 32. Så da burde det bli i størrelsesområdet 21,5 ± 32 for et 95 % konfidensnivå. ... Dette får jeg ikke til å stemme. Se på tallene dine litt. 21,5 i middelverdi/gj.snitt, og du skal ha det til at konfidensintervallet er innen: -10.5 < x < 53.4 ? Dette ser jo ikke helt godt ut - ta videre i betrakting at konfidensintervallet regnet ut fra normalfordelings-model jo burde gi _videre_ intervall - hele poenget med en gamma-fordeling er vel å lettere ignorere svært avvikende verdier og derav innsnevre intervallet rundt selve "bølgetoppen"? Og formelen din for V er jo først: V = 1/36 * (b - a)^2 og så blir den til: V = a^b^2 Huh? Lenke til kommentar
tasle Skrevet 29. september 2003 Del Skrevet 29. september 2003 For å ta det siste først: Når du bruker en trekantfordeling er variansen gitt av V = 1/36 * (b - a)^2. Når du bruker gammafordelingens varians blir den gitt av V = a*b^2 I det første er b øvre grense, a er nedre grense. For en gammafordeling er a alfa, og b er beta i fordelingens parametre. Skjønner ? Begge er kontimuerlige fordelinger og skjeve. På samme måte som man i en annengradsligning i visse sammenhenger må forkaste en negativ verdi fordi den ikke kan eksistere, må også en negativ verdi for spredningen i denne sammenheng forkastes. Det vil si, ikke forkastes, men settes til 0 siden den underskrider 0. Poenget her er at 6s dekker hele spredingen din fra 0 til 251. Da har du i grunnen også gitt både standardavviket og varansen. Hvis du bruker en trekant (beta-) betrakning, kan du også regne ut ekspektansen E med en god tilnærmet verdi. Gjennomsnitt og ekspektans er like kun i symmetriske fordelinger. En gammafordeling vil imidlertid bli litt tungvint å jobbe med, ettersom man i statistisk sammenheng ofte er opptatt av problemstillinger som "hvor stor er sannsynligheten for at antall tegn skal være maksimalt 200", eller "hva er sannsynligheten for at antall tegn er mellom 100 og 170 tegn"? Skal man finne svar på sånt er man avhengig av å bruke et matematikkprogram. Når man jobber med penn og papir blir det veldig tungvint å integrere en gammafordeling, derfor bruker man en trekantfordeling istedenfor, som er mye lettere å regne manuelt på. Alle kontinuerlige fordelinger vil automatisk eliminere statistisk støy (særdeles avvikende verdier). Ingen sett av statistikk fra den virkelige verden er slik at de passer en gitt fordeling 100 % uten avvik. Grunntanken bak statisktiske fordelinger er de beskriver "fysiske" forløp. Eksempelvis, hvor mange personer ankommer kassa på butikken i et gitt tidsintervall. Eller hvor lang tid tar å ekspedere en kunde? Disse to problemstillingene beskriver to forskjellige fordelingstyper. Normalfordelingen gjelder for store antall og når man estimerer varianser og std.avvik mhp. for eksempel konfidensintervaller, eller problemstillinger a la "hvor mange personer må intervjues i en politisk gallup". Selv om sistnevnte egentlig er en binomial betraktning. Men hva mener du med innsnevre bølgetoppen? Hvis du mener å gjøre den smalere eller bredere, så er variansen det eneste uttrykket som beskriver bredden av en fordeling. Lenke til kommentar
Anbefalte innlegg
Opprett en konto eller logg inn for å kommentere
Du må være et medlem for å kunne skrive en kommentar
Opprett konto
Det er enkelt å melde seg inn for å starte en ny konto!
Start en kontoLogg inn
Har du allerede en konto? Logg inn her.
Logg inn nå