Gå til innhold

Statistikk, kjapt spørsmål


Anbefalte innlegg

Har da noe data av formen "Måling-Hyppighet", med gjennomsnitt sånn hjalla utregnet med:


* Målinger = Kolonne A

* Hyppighet = Kolonne B



SUMPRODUCT(A1:A239;B1:B239)/SUM(B1:B239) = 21.49

 

Her er da standard variasjon 70.12, og et 95% konfidensintervall gir meg 8.89.

 

Da ligger den relative hyppigheten av målingene innen området 12.1 og 29.9, sant?

 

Dataene er forresten lengde på TrackTitle fra freedb, hvis det er interessant.

Lenke til kommentar
Videoannonse
Annonse

Jeg er usikker på hva du mener. Hvis du kan vise det med et par-tre linjer fra den modellen din (regneark?), hadde det vært greitt.

 

Det er ikke noe statistisk begrep som heter standard variasjon. Varians er ett begrep, standard avvik er et annet. Standard avvik er rota av variansen. For å få et konfidensintervall på ca. 95 % må du multiplisere standardavviket med 2. Da ligger ca. 95 % av alle målingene innenfor rammen av én middelverdi +/- (2 standardavvik).

Eksempel: Hvis middelverdien er 20 og ett standardavvik er 2, så ligger 95 % av verdiene mellom 16 og 24.

 

Men som sagt, hva du mener med "målinger" og "hyppighet" vet jeg ikke siden jeg er ikke har sett et bitte-lite utdrag av tabellen, og gjerne litt mer konsis forklaring.

Lenke til kommentar

Okay.

 

Mente 'standard avvik', leste 'standard deviation' og tok en rask oversettelse.

 

Jeg har da hentet dataene slik:


#! /usr/bin/env perl



open inputfile, @ARGV[0] or die "can't open file: $!";

open outfile, ">@ARGV[1]" or die "can't open file: $!";



my ($track_length, $track_count);

my $track_hash = {};



while (<inputfile>) {

# read in new line

chomp;



# count each line as a new albumentry

++$linecount;



# get all the tab-separated data entries in the current line

$_ =~ m/(.*)n/ && do { $track_title = $1; };



$track_length = length $track_title;

$track_hash->{$track_length} += 1;

     $track_hash->{$track_length}n";

}



::print_out();

close inputfile;

close outfile;



sub print_out {

# Print out all information

print "Total lines: $linecountn";

while(($key, $value) = each %$track_hash) {

 print outfile "$keyt$valuen";

}

};

 

Dette er da dataene, hvor første kolonne er lengden på tracktitle (eksempelvis sporet/låta'Thriller' fra Michael Jackson sitt album av samme navn er 8 bokstaver langt), og andre kolonne er hyppighet av tracks med lengden i første

Vi ser da at i freedb er det 20424 tracks med lengden 0.


0	20424

1	28061

2	34657

3	57745

4	172118

5	243926

6	287495

7	377232

8	435880

9	489887

10	528525

11	517682

12	559363

13	568811

14	567916

15	545937

16	530250

17	503758

18	480865

19	448698

20	411599

21	389970

22	374237

23	360881

24	340752

25	326460

26	307248

27	300063

28	280460

29	261902

30	254411

31	238546

32	220606

33	203318

34	189542

35	172210

36	159707

37	148829

38	136995

39	129755

40	116173

41	110534

42	98469

43	90327

44	82263

45	77342

46	72349

47	66472

48	59883

49	55032

50	50264

51	45630

52	40971

53	38845

54	34751

55	32417

56	28248

57	26652

58	24107

59	22382

60	20564

61	18128

62	16001

63	13538

64	11810

65	10725

66	9484

67	9725

68	8145

69	6874

70	6104

71	3686

72	2329

73	2044

74	1940

75	1730

76	1607

77	1526

78	1352

79	1197

80	1352

81	1107

82	1035

83	901

84	779

85	760

86	711

87	733

88	666

89	607

90	538

91	498

92	488

93	607

94	364

95	359

96	319

97	340

98	285

99	253

100	256

101	265

102	254

103	229

104	238

105	191

106	161

107	142

108	133

109	133

110	151

111	132

112	106

113	103

114	94

115	119

116	84

117	75

118	86

119	73

120	79

121	69

122	53

123	64

124	57

125	43

126	55

127	63

128	36

129	43

130	31

131	40

132	39

133	44

134	41

135	30

136	26

137	28

138	31

139	17

140	21

141	25

142	16

143	16

144	17

145	15

146	16

147	11

148	18

149	12

150	10

151	13

152	16

153	3

154	15

155	21

156	16

157	5

158	11

159	19

160	16

161	9

162	10

163	16

164	11

165	8

166	10

167	11

168	8

169	10

170	7

171	5

172	10

173	5

174	3

175	8

176	2

177	4

178	5

179	5

180	2

181	4

182	7

183	13

184	5

185	6

186	7

187	3

189	3

190	1

192	2

193	2

194	3

195	2

196	2

197	4

198	3

199	3

200	1

201	2

202	3

203	3

204	3

205	1

206	2

207	1

208	1

209	2

210	1

211	2

212	1

213	1

214	3

215	2

216	1

217	3

218	2

219	2

221	5

222	1

223	1

224	2

225	1

226	1

227	3

228	1

229	4

230	1

231	1

234	2

235	1

236	2

237	1

238	2

239	1

240	1

245	1

246	2

251	1

 

Men det egentlige problemet mitt er hvilken statistisk model jeg skal velge, etter som dette er venstre-forskjøvet data, til forskjell fra normal-fordelt (Bell-curve) data.

 

Er ikke så flink på statistikk, så hvis du kunne forklart for meg

a) hvilken model som er best

B) hvordan jeg best representerer konfidens-intervallet, dvs. hvordan ignorerer jeg svært avvikende data for å få et smallest mulig _pålitelig_ konfidens-intervall

Lenke til kommentar

a)

Dette er en gammafordeling. Den kjennetegnes med to parametre a og b, som beskriver skjevheten i fordelingen. For en gammafordeling gjelder at middelverdien m= a*b og variansen v= a*b^2. Fordelinga som sådan er litt vanskelig å ha med å gjøre sett fra et matematisk perspektiv siden den omfatter bruk av gammafunksjonen. Derfor tilnærmer man ofte en slik fordelig til å være en trekantfordeling som er mye lettere å jobbe med siden fordelingskurven kan vises lettere som en trekant med en betafordelings egenskaper.

 

B)

I ditt tilfelle trenger du antallet A som funksjon av tracklengde L, dvs. A = f (L). Hvis du skal ha sannsynligheter blir A først regnet om fra absolutte størrelser til relative størrelser, siden en sannsynlighet p <= 1.

For trekantfordelingen gjelder at

E (L) = 1/6 * (a + 4*m + B) (forventnigsverdi)

og variansen

V (L) = 1/36 * (b - a)^2

s = sqrt (V)

 

Dette siste kan en lett vise når en vet at +/- 3 standardavvik (= 6 standardavvik) dekker hele konfidensintervallet (egentlig 99%). 1s er da 1/6 av konfidensintervallet (b-a) og V = s^2 = (1/6 * (b- a))^2 = 1/36*(b-a)^2 (QED). b er øvre grense og a er nedre grense (høyeste og laveste verdi).

 

3s blir derfor hele konfidensintervallet, 2s utgjør 95%, mens 1s utgjør 66 %.

Lenke til kommentar

Ja, se det. Takker for tips.

 

Har forresten tilgang til Mathematica.

 

Når det gjelder a og b, setter jeg dem bare til 0 og 1 (respektivt), for å finne standard gamma fordeling?

 

 

Noen linker:

http://www.itl.nist.gov/div898/handbook/ed...on3/eda366b.htm

 

http://astronomy.swin.edu.au/~pbourke/anal.../distributions/

 

http://mathworld.wolfram.com/GammaDistribution.html

Lenke til kommentar

a ligger nok i størrelsesområdet 2, på bakgrunn av tallene dine. Jeg har ikke regnet på det, men det ser slik ut. Et sted mellom 1,3 og 3, men omkring 2. Da kan du lett regne ut b fra ligninga m= a*b. At a er omkring 2 ser du også av den første linken du har oppgitt, forsåvidt.

Lenke til kommentar

Hm. Finslig.

 

Så 'a', det er noe man velger sånn på gef?hlen det da? Eller er det en formel for å tilpasse variabelen til datasettet?

 

Anyway, med m=21.5 (som utregnet i første post), a=2, og 2s=2.92 (for 95% konfidensintervall), får jeg med "trekantstilnærming"'en resultatet:


21.5±2.92

 

til forskjell fra utregningen for normalfordelings-modelen (første post):


21.5±8.89

 

Kan dette stemme?

Lenke til kommentar

Nå har jeg ikke regnet på tallene dine, men 21,5 ser riktig ut. 2 standardavvik burde vært høyere siden det skal omfatte 95 % av verdiene.

 

Når jeg regner b (beta) basert på din middelverdi får jeg b = 11 (ca.) og videre V= a*b^2 = 2*11^2 = 242 og derav s= sqrt (242) = 16. Det gir 2s = 32. Så da burde det bli i størrelsesområdet 21,5 ± 32 for et 95 % konfidensnivå.

 

Det første spørsmålet: a (alfa) i en slik distribusjon tar man vanligvis på gefühlen når man har sett noen hundre slike kurver.

Lenke til kommentar

...

Når jeg regner b (beta) basert på din middelverdi får jeg b = 11 (ca.) og videre V= a*b^2 = 2*11^2 = 242 og derav s= sqrt (242) = 16.  Det gir 2s = 32.  Så da burde det bli i størrelsesområdet 21,5 ± 32 for et 95 % konfidensnivå.

...

 

Dette får jeg ikke til å stemme.

 

Se på tallene dine litt. 21,5 i middelverdi/gj.snitt, og du skal ha det til at konfidensintervallet er innen:

-10.5 < x < 53.4

?

 

Dette ser jo ikke helt godt ut - ta videre i betrakting at konfidensintervallet regnet ut fra normalfordelings-model jo burde gi _videre_ intervall - hele poenget med en gamma-fordeling er vel å lettere ignorere svært avvikende verdier og derav innsnevre intervallet rundt selve "bølgetoppen"?

 

Og formelen din for V er jo først:

V = 1/36 * (b - a)^2

og så blir den til:

V = a^b^2

 

Huh?

Lenke til kommentar

For å ta det siste først: Når du bruker en trekantfordeling er variansen gitt av

V = 1/36 * (b - a)^2.

Når du bruker gammafordelingens varians blir den gitt av

V = a*b^2

I det første er b øvre grense, a er nedre grense. For en gammafordeling er a alfa, og b er beta i fordelingens parametre.

Skjønner ?

 

Begge er kontimuerlige fordelinger og skjeve. På samme måte som man i en annengradsligning i visse sammenhenger må forkaste en negativ verdi fordi den ikke kan eksistere, må også en negativ verdi for spredningen i denne sammenheng forkastes. Det vil si, ikke forkastes, men settes til 0 siden den underskrider 0.

 

Poenget her er at 6s dekker hele spredingen din fra 0 til 251. Da har du i grunnen også gitt både standardavviket og varansen. Hvis du bruker en trekant (beta-) betrakning, kan du også regne ut ekspektansen E med en god tilnærmet verdi. Gjennomsnitt og ekspektans er like kun i symmetriske fordelinger.

 

En gammafordeling vil imidlertid bli litt tungvint å jobbe med, ettersom man i statistisk sammenheng ofte er opptatt av problemstillinger som "hvor stor er sannsynligheten for at antall tegn skal være maksimalt 200", eller "hva er sannsynligheten for at antall tegn er mellom 100 og 170 tegn"? Skal man finne svar på sånt er man avhengig av å bruke et matematikkprogram. Når man jobber med penn og papir blir det veldig tungvint å integrere en gammafordeling, derfor bruker man en trekantfordeling istedenfor, som er mye lettere å regne manuelt på.

 

Alle kontinuerlige fordelinger vil automatisk eliminere statistisk støy (særdeles avvikende verdier). Ingen sett av statistikk fra den virkelige verden er slik at de passer en gitt fordeling 100 % uten avvik. Grunntanken bak statisktiske fordelinger er de beskriver "fysiske" forløp. Eksempelvis, hvor mange personer ankommer kassa på butikken i et gitt tidsintervall. Eller hvor lang tid tar å ekspedere en kunde? Disse to problemstillingene beskriver to forskjellige fordelingstyper.

 

Normalfordelingen gjelder for store antall og når man estimerer varianser og std.avvik mhp. for eksempel konfidensintervaller, eller problemstillinger a la "hvor mange personer må intervjues i en politisk gallup". Selv om sistnevnte egentlig er en binomial betraktning.

 

Men hva mener du med innsnevre bølgetoppen? Hvis du mener å gjøre den smalere eller bredere, så er variansen det eneste uttrykket som beskriver bredden av en fordeling.

Lenke til kommentar

Opprett en konto eller logg inn for å kommentere

Du må være et medlem for å kunne skrive en kommentar

Opprett konto

Det er enkelt å melde seg inn for å starte en ny konto!

Start en konto

Logg inn

Har du allerede en konto? Logg inn her.

Logg inn nå
  • Hvem er aktive   0 medlemmer

    • Ingen innloggede medlemmer aktive
×
×
  • Opprett ny...