Hente news fra nettsider.

msolberg · 22. oktober 2003

Hei.

Tenkte å lage et php script hvor jeg henter news fra nettsider litt her og der. Noen som vet hvordan man gjør dette? Helst uten bruk av RSS fordi noen av de nettsidene jeg skal hente news fra ikke bruker RSS. Hvordan? Takk på forhånd....

morty :o

Torbjørn · 22. oktober 2003

html parsing i verset fall,

$rader_med_html = file('http://hw.no');

deretter får du se hvordan html ser ut på hver enkelt side og lage en funksjon som henter ut nyhetene fra hver enkelt side.

msolberg · 26. oktober 2003

Vet du hvordan man henter 10 siste fra ITavisen, VG?

Noen som har et bra script som kan brukes til å parse html tags? Skal hente nyheter fra et par stykker som ikke har RSS.

Torbjørn · 26. oktober 2003

jeg kan varmt anbefale deg å lære deg perl istedet for php for html parsing!

msolberg · 29. oktober 2003

Problemet er vel egentlig at jeg ikke bruker Perl, jeg bruker PHP og skal fortsette å bruke det. Noen som har noen scripts som de har lyst til å lære meg angående dette?

Har enda ikke fått det til, sliter...HELP!!

Fnix · 29. oktober 2003

Ja dette har jeg og lyst å lære, men jeg er helt blank på php.

Hvordan henter man de 5 siste nyhetsoverskriftene fra en side som f.eks. hw.no eller digi.no ?

Noen som kan paste et ferdig laget script? Med timestamp hvis mulig?

DrDoogie · 29. oktober 2003

jeg kan varmt anbefale deg å lære deg perl istedet for php for html parsing!

I second that.

Hva er det som er så bra med PHP, egentlig?

Torbjørn · 30. oktober 2003

syntaxmessig kan perl skrives helt likt php. selvsagt ikke med de samme funksjonsnavnene.

det er ikke rare forskjellen, jeg har skrevet en perl variant for de fleste store aviser allerede.

Torbjørn · 4. november 2003

her er en demo av skript for å hente hw-nyheter:

http://sirius.isa-geek.org/~lindahl/hw.cgi

kilden, ca 30 linjer med kode:

http://sirius.isa-geek.org/~lindahl/hw.html

msolberg · 10. november 2003

Takk for perl scripts..Men hvordan bruker jeg disse? har ikke vært i nærheten av perl scripts før. Jeg har server som støtter php, mysql. Kan jeg bruke det cgi scriptet du postet på min server?

Torbjørn · 11. november 2003

hør med server-admin om de støtter cgi script

Fnix · 11. november 2003

Torbjørn: Går det ann og redusere anntall viste lenker?

Torbjørn · 11. november 2003

Selvsagt!

Smidt · 12. november 2003

takk for bra script!!

hva kan jeg forandre for å hente nyhetene fra en annen side? må jeg endre andre steder enn i andressen. er ikke helt inni dette enda..

Edit:

kan jeg redigere med dreamwaver? får bare opp vanlig tekst når jeg skal redigere det i "code view"..

hva innledes et cgi script med?

Endret 12. november 2003 av tsmidt

Torbjørn · 12. november 2003

et perl script kan ligne på et php script.

hvordan dreamweaver takler det, aner jeg ikke. det innledes med en såkalt "she-bang", #!/usr/bin/perl som forteller serveren hvilket program som skal kjøre skriptet.

det kan imidlertid ikke "legges inn i" et php-skript eller html-fil slik som php-tagger gjøres i en php-fil.

hvis serveren kjører shtml, kan du legge inn en eller annen tag som inkluderer cgi-script, skal google litt og se om jeg finner det.

Du må nok forandre en del for andre aviser... husk at jeg må lete gjennom HTML fra hardware.no, hvis du ser i skriptet f.eks, så leter jeg etter en <table> med width=472, etter å ha funnet den, leter jeg etter <p> tags uten noen attributer, deretter henter jeg ut første <a> tag etter det, for der ligger nyhetene.

Hvordan andre aviser har bygget opp sine nettsider er en helt annen sak... Det må spesialiseres for hver avis (med mindre de bruker rss)

Smidt · 12. november 2003

okei.

men alstå, hvis jeg har forstått rett kan jeg ikke legge det inn i et php eller html/htm document. jeg må da lagre det som en eget .cgi dokument som det ikke er mulig å lagre det som i dreamwaver.. hvilket program bruker du til cgi?

Torbjørn · 13. november 2003

Notepad går fint

det er bare en enkel tekst fil, akkurat som php-filer.

Hvis du ser litt nøyere hvordan HTML'en skrives ut, så skal det ikke mye fantasi til for å endre det til ditt layout.

Endret 13. november 2003 av Torbjørn

Sugx · 13. november 2003

Hva er det som er så bra med PHP, egentlig?

Det er sinnsykt lett og har bra dokumentasjon. Dette har også gjort at det finnes 10000000 tutorial sider om php på nettet, dette legger heller ikke noen særlig demper på populariteten.

Fnix · 15. november 2003

Hvordan henter man ut RRS fra en webside da? Har funnet en del programmer men ikke php eller cgi script som gjør det.

Torbjørn:

Kan man bruke cgi scriptet ditt til å rippe fra siste nytt tabellen på Nyhetsagenten.no ?

Torbjørn · 15. november 2003

nei, cgi-skriptet parser html fra hardware.no. mao er det gjort for å kjenne igjen utseendet til hardware.no, (med alle tabeller, tager, etc... ), veldig spesifikt mao.

med litt fantasi skjønner man hva det gjør, hvis man ser nøyere på det.

for eksempel vet jeg på forhånd at nyhetene ligger i en tablell med bredde 472, hvilket er det første jeg leter etter.

deretter leter den etter <p> tags uten noen attributter satt og henter ut første linken fra etter hver av dem.

det er sånn framsiden ser ut til å være bygget opp.

andre html sider har sitt eget design.

hvis man derimot bruker rss-feed'en, trenger man ikke parse html (som er grunnen til at man "fant opp" rss feed)

Hente news fra nettsider.

Anbefalte innlegg

Lenke til kommentar

Videoannonse

Lenke til kommentar

Lenke til kommentar

Lenke til kommentar

Lenke til kommentar

Lenke til kommentar

Lenke til kommentar

Lenke til kommentar

Lenke til kommentar

Lenke til kommentar

Lenke til kommentar

Lenke til kommentar

Lenke til kommentar

Lenke til kommentar

Lenke til kommentar

Lenke til kommentar

Lenke til kommentar

Lenke til kommentar

Lenke til kommentar

Lenke til kommentar

Opprett en konto eller logg inn for å kommentere

Opprett konto

Logg inn

Populær nå

Hvem er aktive 0 medlemmer