Split html [VB.net]

Jolo · 5. november 2007

Holder på med et program trenger å hente ut informasjon fra en nettside. La oss si at det er tiden på http://www.klokka.no/

Jeg vil hente ut verdien til en tekstboks.

Noen som vet om dette lar seg gjøre/hvordan det lar jeg gjøre.

Manfred · 5. november 2007

Akkurat å hente ut noe fra klokka.no er vel litt jalla, siden det meste der kan hentes via System.DateTime...

Dessuten har du hatt samme typer tråder her før, Smalltimer... PRØV å let litt selv da, i alle fall! Det er tråder om nøyaktig det samme enten her eller i .net-forumet også!

Jolo · 5. november 2007

Du vet at jeg bare brukte klokka.no som et eksempel.

Jeg har aldri spurt om hvordan man splitter et html dokument i vb.net.

Jeg kan ikke finne noe i vb/.net forumet om hvordan man splitter noe i en webbrowser, men finner hvordan man splitter vanelig.

Så kan du hjelpe meg, eventuelt finne denne tråden der noen har sakt det Manfred.

Manfred · 5. november 2007

System.Net.WebClient.

aadnk · 6. november 2007

Jeg kan ikke finne noe i vb/.net forumet om hvordan man splitter noe i en webbrowser, men finner hvordan man splitter vanelig.

Du ser altså for deg å benytte strengmanipulasjonsmetoder? I så fall burde Regular Expressions, evt. IndexOf og Substring, rent teknisk være ypperlig til å ekstraktere informasjonen fra HTML-dokumentet, da via DocumentText.

Men, alt dette blir IMO nokså bortkastet når en har tilgang til en mer raskere, bedre objekt-oriententert fremgangsmpte: DOM (Document Object Model). Ta en titt på følgende tråd for mer informasjon:

https://www.diskusjon.no/index.php?session=...t&p=9392081

Endret 6. november 2007 av aadnk

Manfred · 6. november 2007

Det å bruke WebBrowser til dette, som er en GUI-kontroll, er i utgangspunktet ren idioti!

GeirGrusom · 6. november 2007

Du leser inn en fil som en string med WebClient.

Hvis du er såpass heldig at dette er en xhtml side, kan du bruke System.Xml til å parse hele siden, og deretter hente informasjonen du trenger.

Jolo · 6. november 2007

Er det ikke en enkel komando for dette slik som det er i vb6? I vb 6 er det bare

strRetval = split(split(wb.Document.body.parentelement.innerhtml, "Akkurat nå er klokken:")(1), "!)

aadnk · 6. november 2007

Joda, du kan få tilgang til Split()-kommandoen enten ved, dog ikke anbefalt, å importere Microsoft.VisualBasic eller ved å skrive <navn på streng-variabel>.Split("<din avgrenser>").

Skal en kun ekstraktere slik begrenset informasjon, holder densalgs sannsynligvis, men generelt sett bør en helst benytte et abstraksjonsnivå som DOM eller SAX. Selv lagde jeg en gang i tiden en automatisert spillbot utelukkende med førstnevnte, hvilket er en opplevelse jeg helst ikke vil gjenta. Det blir nokså trettende å kontinuerlig skrive Mid()- og InStr-setninger, særlig i et språk der tellesystemet er inkonsistent (0 og 1 blandes).

For øvrig tror jeg neppe VB6-eksempelet ditt er kompatibel med klokka.no. Jeg finner i hvert fall ingen forekomster av strengen "Akkurat nå er klokken:" på nettsiden.

Jolo · 6. november 2007

Dere kan ikke se et eksempel for et eksempel.

Wubbable · 6. november 2007

Dere kan ikke se et eksempel for et eksempel.

F.eks. F.eks.

Du kan bygge det opp så mye du vil.. Bare se på raske menn: Flytogbusstogflyet ^^

Manfred · 6. november 2007

Å skulle parse en html (som er laget for GUI) er i utgangspunktet en dårlig idé. Hvis du ikke kan få tilgang til et bedre grensesnitt/API så er det neppe noe "lovlig" eller legitimt du skal drive med.

Og i alle fall ikke noe du kommer til å få bruk for senere.

cyclo · 6. november 2007

Manfred: Hva er det egentlig du mener? Personlig får jeg støtt og stadig behov for å parse html. (Bruker forøvrig alltid perl til det formålet). Det finnes haugevis med lovlige legitime ting man kan bruke slikt til.

Et helt konkret eksempel kan være et script som slår opp innkommende nummer i telefonkatalogen. Det er helt lovlig, og gulesider sier til og med det i TOS. Man har lov å maskinelt hente ut informasjon fra siden, men ikke lov å publisere informasjonen.

Og bare fordi noen ikke har laget et API for noe, betyr ikke at det ikke er lovlig, og det betyr heller ikke at ingen har behov for det.

PS! Likevell er jeg helt enig i din signatur.

Endret 6. november 2007 av cyclo

Manfred · 6. november 2007

I de færreste sammenhenger vil du ha behov for å kunne parse HTML. Det er også til tider en møysommelig jobb, da folk ikke holder standarder og slikt.

Ang. telefonoppslag, så har 1881 et xml-api du kan få tilgang til.

cyclo · 6. november 2007

Som sagt. Jeg parser html hele tiden. Og det spørs hva man legger i ordet parse. Skal man hente ut informasjon er det som regel hverken vanskelig eller tar lang tid, om man vet hva man driver med.

Om man derimot skal parse den for å rendre en side, så prater vi om noe helt annet.

og 1881 er ikke gulesider.

I de færreste sammenhenger vil du ha behov for å kunne parse HTML.

Snakk for deg selv. At du ikke har behovet betyr ikke at andre ikke har behovet. Skjønner ikke hvorfor du skal fortelle meg hva jeg har behov for og ikke.

Endret 6. november 2007 av cyclo

HDSoftware · 7. november 2007

Endelig litt motstand mot de som vil ha html parserene vekk fra dette forumet. Jeg er 100% enig med Cyclo. Dette er interresant stoff. Enten det dreier seg om å jukse i dustete nett spill eller at det faktisk er matnyttig teknologi. Jeg driter i om det dreier seg om det ene eller andre. Teknologien er tilgjengelig og også interesant. Og hvis noen vil jukse - gjerne for meg.

Jeg kan tenke meg en dullion ting jeg kunne brukt dette til. Selv har jeg ikke tid til å leke med nettspill, men jeg ser ingen forskjell i det å "jukse" med nettspill og det å lage seg en nettbank tilkobling i programmet sitt. Det gjøres på nøyaktig den samme måten. Og hvis ikke en bank gir noe API ut så betyr ikke det at man ikek kan tilnærme seg nettbanken dems med et selvlaget program.

Hurra!!

cyclo · 7. november 2007

Jeg kan komme med et konkret eksempel jeg har vært borti:

Man har en svært lang liste varer man ønsker å sjekke pris og lagerstatus på diverse nettbutikker. De færreste nettbutikker har noe API mot deres varedatabase (Amazon har det, men det er såpass komplekst at det tar alt for lang tid å programmere mot, om man bare skal hente ut engangsinformasjon).

Da har man altså følgende to valg:

1) Bruke lang tid på å sjekke alt manuelt.

2) Skrive et kjappt perl script som gjør det automatisk.

Jeg er ikke i tvil om hvilken metode jeg ville valgt. Jeg er heller ikke i tvil om at ingen vil anse metode 2 som noe som ikke er legitimt. Dette er også en situasjon som mange kan komme borti (Uansett hva Manfred måtte hevde).

Eksempel nr 2:

Man ønsker å sette opp en Asterisk server som automatisk router basert på operatør. Den skal route nummer som tilhører Netcom på GSM linje1, den skal route andre mobilnummer på GSM linje2. Den skal route samtaler til spesialnummer og nummer som tilhører SIP-leverandør 1 på SIP1, andre fastnummer skal routes via SIP2.

Eneste måte man kan gjøre dette på pr. i dag er å hente denne informasjonen fra nettsiden til iplink (som har vært så snille at de har lagt ut denne informasjonen). Og da må man nødvendigvis parse. Helt legitimt, og en situasjon som mange kan komme borti (uansett hva Manfred måtte hevde).

Endret 7. november 2007 av cyclo

Manfred · 7. november 2007

iplink sier vel strengt tatt ikke noe om at du kan bruke informasjonen kommersiellt, så det er strengt tatt litt på kanten.

Dette er en tjeneste som heter HLR lookup, som koster operatøren penger pr oppslag.

cyclo · 7. november 2007

Og hva i huleste har det med saken å gjøre? Det er jo på langt nær kommersielt bruk. Asteriskserveren som står borti hjørnet her hjemme er da langt i fra kommersiell.

Og nei, det er ikke HLR. HLR er en GSM spesifikk greie.

Du kverulerer på detaljer som ikke har noe som helst med saken å gjøre.

I stedet for å kverulere om ting som ikke angår saken, hva med å forsvare din egen påstand:

Hvis du ikke kan få tilgang til et bedre grensesnitt/API så er det neppe noe "lovlig" eller legitimt du skal drive med.

Og i alle fall ikke noe du kommer til å få bruk for senere.

som jeg har gitt flere eksempler på er feil. Eller har du kanskje ikke noe argument å komme med?

Jeg kan komme med enda et eksempel jeg:

For en del år siden jobbet jeg med et prosjekt hvor lister fra en periode på flere 10-år skulle digitaliseres. Alle listene var i papirformat, og det ble leid inn folks om satt og "punchet" listene manuelt.

Men noen av listene fantes også som HTML filer, da de hadde blitt publisert på nettet, ved hjelp av et publiseringsverktøy som lagret i ren html.

Kan du da si meg. Parseren jeg lagde for å importere disse listene. Var den "ulovlig" eller ikke legitim? Og var det en problemstilling som ingen har vært borti? Det siste kan jeg svare på for deg.

Og bare for ordens skyld, nevner jeg følgende:

- Googles indekseringsrobot

- Microsofts indekseringsrobot

- Yahoos indekseringsrobot

- Operas proxy som endrer og komprimerer websider for å tilpasse dem mobile enheter.

- Overvåkningsprogramvare som overvåker en haug nyhetsbyråer på jakt etter stikkord i nyheter slik at firmaer kan holde seg oppdattert på sine fagfelt.

Er det noen av de overnevnte tjenestene som er "ulovlig" eller ikke legitime. Er det noen av de overnevnte tjenestene som har dukket opp helt spontant ut av ingenting, slik at man ikke har hatt behov for folk som jobber med prosjektene? Er det noen av tjenestene som ikke parser html?

Endret 7. november 2007 av cyclo

Manfred · 7. november 2007

Jeg snakker om generelt sett er ikke dette noe de fleste vil ha bruk for, og veldig sjeldent i jobbsammenheng. At du drar frem masse spesielle saker, som de fleste aldri noen sinne vil komme borti argumenterer vel ikke for din sak.

Men du er så nedgravd i dine egne saker, at du nekter å høre på noen andre, så jeg gidder ikke prøve å diskutere med deg en gang.

Det blir omtrent som å skulle diskutere politikk med kristne, som har det eneste argumentet "jammen det står i bibelen".

Split html [VB.net]

Anbefalte innlegg

Lenke til kommentar

Videoannonse

Lenke til kommentar

Lenke til kommentar

Lenke til kommentar

Lenke til kommentar

Lenke til kommentar

Lenke til kommentar

Lenke til kommentar

Lenke til kommentar

Lenke til kommentar

Lenke til kommentar

Lenke til kommentar

Lenke til kommentar

Lenke til kommentar

Lenke til kommentar

Lenke til kommentar

Lenke til kommentar

Lenke til kommentar

Lenke til kommentar

Lenke til kommentar

Opprett en konto eller logg inn for å kommentere

Opprett konto

Logg inn

Hvem er aktive 0 medlemmer