Knu753n Skrevet 15. februar 2010 Del Skrevet 15. februar 2010 Jeg holder på å lage et kontrollpanel for nettby.no som henter info hvert minutt, jeg har problemer med å få ned informasjon fra nettsiden, påloggingen går fint og alt annet fungerer men selve infoen får jeg ikke ned... noen som har noen forslag? på forhånd mange takk =) Lenke til kommentar
GeirGrusom Skrevet 15. februar 2010 Del Skrevet 15. februar 2010 Hvordan gjør du det? Bruker du WebBrowser eller System.Net.WebClient? Lenke til kommentar
Knu753n Skrevet 16. februar 2010 Forfatter Del Skrevet 16. februar 2010 Jeg bruker VB, og jeg bruker webbrowser. Lenke til kommentar
Merko Skrevet 16. februar 2010 Del Skrevet 16. februar 2010 Jeg bruker VB, og jeg bruker webbrowser. WebBrowser.DocumentText.ToString eller noe sånt. Lenke til kommentar
Knu753n Skrevet 17. februar 2010 Forfatter Del Skrevet 17. februar 2010 Men denne henter ut all informasjonen i såfall, jeg er ute etter spesifikke strenger. men takk for svar Lenke til kommentar
quantum Skrevet 17. februar 2010 Del Skrevet 17. februar 2010 Ville brukt enten dom-parsing av html-dokumentet eller regexp-søk i det. Lenke til kommentar
Ståle Skrevet 17. februar 2010 Del Skrevet 17. februar 2010 Det er feil å bruke regex til å parse HTML. Lenke til kommentar
GeirGrusom Skrevet 17. februar 2010 Del Skrevet 17. februar 2010 Vet du om noen bedre måte å parse tekst på enn regex? :O Lenke til kommentar
snippsat Skrevet 18. februar 2010 Del Skrevet 18. februar 2010 (endret) Vet du om noen bedre måte å parse tekst på enn regex? Som Ståle nevner er regex som regel ikke bra når det gjelder html. http://stackoverflow.com/questions/1732348/regex-match For python er det BeautifulSoup(en legende i python verden) Nå kjenner jeg ikke så godt til parsing med C# og VB. Et lite eksp på BeautifulSoup parsing. #Python import BeautifulSoup as bs html = """\ <html> <head> <title>html page</title> </head> <body> <div>Hello world</div> </body> </html> """ soup = bs.BeautifulSoup(html) divs = soup.findAll('div') children = divs[0].contents my_data = divs[0].string print my_data #Hello world Endret 19. februar 2010 av SNIPPSAT Lenke til kommentar
GeirGrusom Skrevet 18. februar 2010 Del Skrevet 18. februar 2010 (endret) WebBrowser kotroll gjør fullstendig DOM parsing, og det skal da være unødvendig å bruke noe annet. Endret 18. februar 2010 av GeirGrusom Lenke til kommentar
quantum Skrevet 18. februar 2010 Del Skrevet 18. februar 2010 Det er feil å bruke regex til å parse HTML. Jeg vet ... har nesten blitt politianmeldt pga. det der en gang i min ville ungdom. Forøvrig vil jeg vel nesten si at det avhenger litt av hva man leter etter og hvordan siden er bygget opp. Lenke til kommentar
GeirGrusom Skrevet 18. februar 2010 Del Skrevet 18. februar 2010 Det er feil å bruke regex til å parse HTML. Jeg vet ... har nesten blitt politianmeldt pga. det der en gang i min ville ungdom. Hva gjorde du? Lenke til kommentar
quantum Skrevet 18. februar 2010 Del Skrevet 18. februar 2010 Hva gjorde du? Vi var noen stk. som starta konsulent-as da alt gikk i dass forrige gang, for å ha noe å gjøre, jobber var det jo ikke å få. Så vi trengte noen bedrifter å spamme med markedsføringa vår, og da var Gule Sider et greit sted å plukke. Inntil det viste seg at ISP'en min ikke hadde noe imot å gi fra seg personopplysninger ... men jeg fikk jo prata meg ut av det og benyttet deretter en anonymiseringsproxy isteden. Nå hadde de vel neppe kommet særlig langt med å hevde at det er opphavsrett på emailadresser og at robots.txt er omfattet av det norske lovverket, men jeg følte vel ikke noe spesielt behov for å knote mer med det der. Vi fikk ihvertfall noen oppdrag og sparte statskassa for en hel del kroner i dagpenger... og jeg er fortsatt veldig usikker på hvaslags skade man egentlig påfører en katalogtjeneste ved å bruke den ... Lenke til kommentar
Anbefalte innlegg
Opprett en konto eller logg inn for å kommentere
Du må være et medlem for å kunne skrive en kommentar
Opprett konto
Det er enkelt å melde seg inn for å starte en ny konto!
Start en kontoLogg inn
Har du allerede en konto? Logg inn her.
Logg inn nå