Få fuld kontrol over hvilke sider der indekseres af søgemaskinerne med robots(.txt) filer

Din hjemmeside vil automatisk, efter et givent stykke tid blive indekseret af automatiske robotter der ‘crawler’ din hjemmeside. Når din hjemmeside er blevet ‘crawlet’ har søgemaskinen indekseret de sider den finder nødvendige og du kan findes i eksempelvis Googles søgemaskine. Denne artikel vil gennemgå metoden til at styre søgemaskinerobotterne igennem en simpel robots.txt fil som skal placeres på din ftp (webhotel). Vi vil nøje gennemgå opsætning, benyttelse og fordele. Kort sagt vil robots.txt filen kunne bestemme hvilke af din hjemmesides sider søgeaskinerobotterne skal kunne indeksere.

Det vil være en stor fordel for dig som webmaster at have læst vores to indledende artikler om søgemaskineoptimering som fortæller dig om de grundlæggende og mere avancerede instrumenter i søgemaskineoptimeringen. Du kan læse artiklen om grundlæggende søgemaskineoptimering her og klik her for at læse om de mere avancerede teknikker.

Hvad er en robots.txt fil ?

En robots.txt fil er blot en simpel fil som kan “programmeres” (måske en smule overdrevent at snakke om programmering i dette tilfælde 🙂 i Notesblok og som skal placeres i din FTP/Webhotel. Filen overføres blot fra din computer til din ftp på samme måde som du plejer at overføre filer/sider til din ftp. Såsnart en søgemaskine-robot undersøger/crawler dit website vil den straks lede efter en robots.txt fil. Det eneste man bør bemærke sig indledningsvis er at filen SKAL placeres i roden af dine filer – den må ikke gemme sig i en mappe eller lignende.

Opsætning af en robots.txt fil

Vi vil nu gå igang med at opsætte en robots.txt fil. Du kan se et eksempel fra Notesblok/Notepad til højre for teksten – klik på billedet for at se det i fuld størrelse. Du kan benytte ethvert tekst-editor program til udformning af din robots.txt fil.
Vi skal anvende to syntakser:

1) User-agent indleder robots.txt filen.
2) Disallow angiv hvilke mapper, filer, sider der ikke må indeseres af robotten.

Vi vil nu i de følgende punkter vise hvordan man laver forskellige opsætninger.

Ingen robotter må indeksere/læse min hjemmeside!
Ønsker du at dit site ikke skal indekseres kan du skrive “/” ved syntaksen ‘Disallow’. Et eksempel på en sådant robots.txt fil kunne være som herunder:
 
User-agent: *
Disallow:
/
Alle robotter må indeksere/læse min hjemmeside!
Fjerner vi ‘/’ fra syntaksen ‘disallow’ fortæller vi nu i stedet at hele hjemmesiden skal læses! Se eksempel:
 
User-agent: *
Disallow:
Diriger robotterne uden om en bestemt mappe eller undermappe.
Ønsker du at holde en bestemt mappe eller undermappe hemmelig for offentligheden kan du lave din robots.txt fil som eksemplet herunder:
 
User-agent: *
Disallow:
 /hemmeligmappe-navn/
Diriger robotterne uden om en bestemt fil.
Ønsker du at en bestemt fil ikke skal indekseres udformes robots.txt blot som i eksemplet med mappen, dvs:
 
User-agent: *
Disallow:
 /hemmelig-fil-navn.htm
Disallow flere filer.
Du kan også vælge at lade flere filer/mapper være hemmelige så de ikke indekseres:
 
User-agent: *
Disallow:
 /hemmelig-fil-navn.htm
Disallow: /hemmeligmappe-navn/
Disallow: /hemmelig-fil-02-navn.htm

Konklusion

Du er således nu i stand til at lave en robots.txt fil. Det er vigtigt at bemærke at der ikke findes en syntaks der hedder ‘allow’ – du kan derfor udelukkende nægte robotterne adgang, ikke give dem adgang (:.

Husk på at andre mennesker (ikke roboter) godt kan få adgang til din robots.txt fil (ved mindre du beskytter den). Det kan derfor være en dårlig idé at ligge utrolig følsomt materiale ud som fx. disallow: /meget-meget-hemmeligt-indhold/

Læs mere om søgemaskineoptimering her.

%d bloggers like this: