Gå til innhold

Fått et stort datasett som jeg skal bruke i regresjonsanalyse - hvor begynner jeg?


Anbefalte innlegg

Hei,

 

har en skoleoppgave hvor jeg skal bruke RStudio til å kjøre ulike "prediction methods". Datasettet består av over 50 variabler og er blanding av kvantitative og kvalitative variabler. Noen som har noen tips hvordan jeg starter? Hvordan "renske" datasettet slik at jeg kan bruke det i RStudio?

 

Håper noen har noen tips og triks på lur, for å kunne hjelpe meg å sette i gang med arbeidet :D 

Lenke til kommentar
  • 2 uker senere...
Videoannonse
Annonse

Hei,

 

har en skoleoppgave hvor jeg skal bruke RStudio til å kjøre ulike "prediction methods". Datasettet består av over 50 variabler og er blanding av kvantitative og kvalitative variabler. Noen som har noen tips hvordan jeg starter? Hvordan "renske" datasettet slik at jeg kan bruke det i RStudio?

 

Håper noen har noen tips og triks på lur, for å kunne hjelpe meg å sette i gang med arbeidet :D

 

Har du litt mer konkret informasjon? Skal du trene en modell, med kjent data, og så gjøre prediksjon på ny data? Må det være regresjon, eller kan du utføre clustering? 

 

Men, generelt: 

 

1. Undersøk data. Mangler det data? 

 

2. Transformer kvalitativ data til kvantitativ data. Dette kan gjøres via f.eks one-hot encoding, der du har f.eks en 1xN vektor (N svaralternativ), og transformerer denne til N nye 1x2 vektorer (Av = 0, på = 1) 

 

3. Skaler / normaliser all data. 

 

4. Utfør f.eks Principal Component Regression (PCR), eller liknende. Det finnes utrolig mange metoder der ute. 

Lenke til kommentar

Opprett en konto eller logg inn for å kommentere

Du må være et medlem for å kunne skrive en kommentar

Opprett konto

Det er enkelt å melde seg inn for å starte en ny konto!

Start en konto

Logg inn

Har du allerede en konto? Logg inn her.

Logg inn nå
  • Hvem er aktive   0 medlemmer

    • Ingen innloggede medlemmer aktive
×
×
  • Opprett ny...