Hente informasjon fra en table på en nettside

Knu753n · 15. februar 2010

Jeg holder på å lage et kontrollpanel for nettby.no som henter info hvert minutt, jeg har problemer med å få ned informasjon fra nettsiden, påloggingen går fint og alt annet fungerer men selve infoen får jeg ikke ned...

noen som har noen forslag?

på forhånd mange takk =)

Ståle · 15. februar 2010

cURL?

GeirGrusom · 15. februar 2010

Hvordan gjør du det? Bruker du WebBrowser eller System.Net.WebClient?

Knu753n · 16. februar 2010

Jeg bruker VB, og jeg bruker webbrowser.

Merko · 16. februar 2010

Jeg bruker VB, og jeg bruker webbrowser.

WebBrowser.DocumentText.ToString eller noe sånt.

Knu753n · 17. februar 2010

Men denne henter ut all informasjonen i såfall, jeg er ute etter spesifikke strenger.

men takk for svar

quantum · 17. februar 2010

Ville brukt enten dom-parsing av html-dokumentet eller regexp-søk i det.

Ståle · 17. februar 2010

Det er feil å bruke regex til å parse HTML.

GeirGrusom · 17. februar 2010

Vet du om noen bedre måte å parse tekst på enn regex? :O

snippsat · 18. februar 2010

Vet du om noen bedre måte å parse tekst på enn regex?

Som Ståle nevner er regex som regel ikke bra når det gjelder html.

http://stackoverflow.com/questions/1732348/regex-match

For python er det BeautifulSoup(en legende i python verden)

Nå kjenner jeg ikke så godt til parsing med C# og VB.

Et lite eksp på BeautifulSoup parsing.

#Python
import BeautifulSoup as bs

html = """\
<html>
<head>
  <title>html page</title>
</head>
<body>
 <div>Hello world</div>
</body>
</html>
"""

soup = bs.BeautifulSoup(html)
divs = soup.findAll('div')
children = divs[0].contents
my_data = divs[0].string

print my_data  #Hello world

Endret 19. februar 2010 av SNIPPSAT

GeirGrusom · 18. februar 2010

WebBrowser kotroll gjør fullstendig DOM parsing, og det skal da være unødvendig å bruke noe annet.

Endret 18. februar 2010 av GeirGrusom

quantum · 18. februar 2010

Det er feil å bruke regex til å parse HTML.

Jeg vet ... har nesten blitt politianmeldt pga. det der en gang i min ville ungdom.

Forøvrig vil jeg vel nesten si at det avhenger litt av hva man leter etter og hvordan siden er bygget opp.

GeirGrusom · 18. februar 2010

Det er feil å bruke regex til å parse HTML.

Jeg vet ... har nesten blitt politianmeldt pga. det der en gang i min ville ungdom.

Hva gjorde du?

quantum · 18. februar 2010

Hva gjorde du?

Vi var noen stk. som starta konsulent-as da alt gikk i dass forrige gang, for å ha noe å gjøre, jobber var det jo ikke å få. Så vi trengte noen bedrifter å spamme med markedsføringa vår, og da var Gule Sider et greit sted å plukke. Inntil det viste seg at ISP'en min ikke hadde noe imot å gi fra seg personopplysninger ... men jeg fikk jo prata meg ut av det og benyttet deretter en anonymiseringsproxy isteden. Nå hadde de vel neppe kommet særlig langt med å hevde at det er opphavsrett på emailadresser og at robots.txt er omfattet av det norske lovverket, men jeg følte vel ikke noe spesielt behov for å knote mer med det der. Vi fikk ihvertfall noen oppdrag og sparte statskassa for en hel del kroner i dagpenger... og jeg er fortsatt veldig usikker på hvaslags skade man egentlig påfører en katalogtjeneste ved å bruke den ...

Logg inn

Hente informasjon fra en table på en nettside

Anbefalte innlegg

Knu753n

Lenke til kommentar

Videoannonse

Ståle

Lenke til kommentar

GeirGrusom

Lenke til kommentar

Knu753n

Lenke til kommentar

Merko

Lenke til kommentar

Knu753n

Lenke til kommentar

quantum

Lenke til kommentar

Ståle

Lenke til kommentar

GeirGrusom

Lenke til kommentar

snippsat

Lenke til kommentar

GeirGrusom

Lenke til kommentar

quantum

Lenke til kommentar

GeirGrusom

Lenke til kommentar

quantum

Lenke til kommentar

Opprett en konto eller logg inn for å kommentere

Opprett konto

Logg inn

Populær nå

Hvor mye må politikere tåle av trakassering ?

Fastlegekrisen og pasienter uten fastlege 1 2 3

Trump 2025 1 2 3 4 151

Hvem er aktive 0 medlemmer