Gå til innhold

Identifisere en søkemotor


Anbefalte innlegg

Videoannonse
Annonse
Gjest Slettet+9871234

Det kan du ikke om du mener en generell søkemotor selv om der finnes databaser over manges Ip'er.

 

Progamvare som phpBB har php skripter som identifiserer de kjente gode botene. Du kan jo laste ned koden og se hvordan de identifiserer "gode" boter. Du kjemper en evig håpløs kamp du vil tape om du vil idenifisere alle boter som kravler, indekserer og arkiverer innhold på nettet.

 

Den raskeste metodne å identifisere nye på ville være å ha en kjent nettside med stor trafikk. Deretter kunne du lage en enkel eller avansert bot felle.

 

En enkel felle er å se hvilke boter som ikke respekterer filen robots.txt. De regnes som dårlige boter.

 

Du kan for eksempel lage en mappe med et usynlig bilde med 0 bredde og høyde og se hvilke Iper som besøker denne mappen. Du kan jo lage en lenke (med samme farge som designet du bruke) til dette bildet som er usynlig for mennesker. Lenker med samme farge som designet kan imidlertid regnes som SEO spam av gode boter.

Endret av Slettet+9871234
Lenke til kommentar

nå tenker jeg i hovedsak på google, yahoo, bing.. Har de noe i headeren som gjenkjenner dem? Evt noe i browserinformasjonen.

 

nå tenker jeg i hovedsak på google, yahoo, bing.. Har de noe i headeren som gjenkjenner dem? Evt noe i browserinformasjonen.

 

utfordingen min er at jeg har en DIV på websiden min som jeg ikke vil skal vises i google

Lenke til kommentar
Gjest Slettet+9871234

Dersom det er det eneste du ønsker, kan du gjøre det ved hjelp av html meta tagger

 

<meta name="googlebot" content="noindex, nofollow, noarchive">

 

på den siden det gjelder og tillate boten på resten av domenet ditt.

 

<meta name="googlebot" content="index, follow, archive">

 

Se for øvrig:

 

http://googlewebmast...s-meta-tag.html

 

Du kan i tillegg stenge boten ute i filen robots.text.

 

http://www.robotstxt.../robotstxt.html

 

Mer om en enkelt "god" bot. Søk på:

 

robots.txt disallow googlebot-images

 

og mer generelt

 

robots.txt disallow googlebot

 

Merk for øvrig at:

  1. Google kommer fra mange datasentre ip'er og de er ikke konstante.
  2. Jeg vet ikke om Google kan identifieres ved "user agent" el lignende som de kjente nettleserene. Uansett er ikke det en pålitelig metode ettersom det er vanlig å maskere gode og ikke gode boter som en nettleser.
  3. I programvaren til phpBB https://www.phpbb.com/downloads/ er der noe som heter søkerobot tilgang så den programvaren identifierer tydeligvis Google og andre kjente såkalte gode boter uten at jeg har sjekket det.
  4. Jeg regner med at når den programvaren oppdateres så oppdateres koden som eventuelt identifiserer GoogleBOT.

Det gjøres på tilsvarened måte for Bing, Yahoo etc.

Endret av Slettet+9871234
Lenke til kommentar

Dersom det er det eneste du ønsker, kan du gjøre det ved hjelp av html meta tagger

 

<meta name="googlebot" content="noindex, nofollow, noarchive">

 

på den siden det gjelder og tillate boten på resten av domenet ditt.

 

<meta name="googlebot" content="index, follow, archive">

 

Se for øvrig:

 

http://googlewebmast...s-meta-tag.html

 

Du kan i tillegg stenge boten ute i filen robots.text.

 

http://www.robotstxt.../robotstxt.html

 

Mer om en enkelt "god" bot. Søk på:

 

robots.txt disallow googlebot-images

 

og mer generelt

 

robots.txt disallow googlebot

 

Merk for øvrig at:

  1. Google kommer fra mange datasentre ip'er og de er ikke konstante.
  2. Jeg vet ikke om Google kan identifieres ved "user agent" el lignende som de kjente nettleserene. Uansett er ikke det en pålitelig metode ettersom det er vanlig å maskere gode og ikke gode boter som en nettleser.
  3. I programvaren til phpBB https://www.phpbb.com/downloads/ er der noe som heter søkerobot tilgang så den programvaren identifierer tydeligvis Google og andre kjente såkalte gode boter uten at jeg har sjekket det.
  4. Jeg regner med at når den programvaren oppdateres så oppdateres koden som eventuelt identifiserer GoogleBOT.

Det gjøres på tilsvarened måte for Bing, Yahoo etc.

ok takk for bra svar. men det er bare én DIV på siden som jeg ikke vil vise til google (en div som ber brukeren om å velge kommune), og meta-tagen løser ikke det problemet.

Lenke til kommentar

Til trådstarter: Jeg syntes du angriper dette på helt feil måte. Hvorfor skal ikke dette vises på Google? Hva er det som gjør at Google ikke skal indexe dette?

 

Tommelregelen er egentlig at alt som ligger åpent på nettet skal være index-bart. Dersom det er noe informasjon som ikke skal være allmenn må du enten blokke med robots, eller ha en login-funksjon.

 

Av ren nysgjerrighet, hva er det du ikke vil at skal indexes?

Lenke til kommentar
  • 3 uker senere...
  • 3 måneder senere...

Av ren nysgjerrighet, hva er det du ikke vil at skal indexes?

 

fordi at jeg har en DIV der man blir bedt om å velge kommunen som man bor i. denne DIV'en styrer bare hvilke annonser som skal vises på siden.

Lenke til kommentar

Opprett en konto eller logg inn for å kommentere

Du må være et medlem for å kunne skrive en kommentar

Opprett konto

Det er enkelt å melde seg inn for å starte en ny konto!

Start en konto

Logg inn

Har du allerede en konto? Logg inn her.

Logg inn nå
  • Hvem er aktive   0 medlemmer

    • Ingen innloggede medlemmer aktive
×
×
  • Opprett ny...