Den utestenging roboter protokollen ofte kalt robots.txt , er en ressurs av størrelse tekst som kan plasseres ved roten av en nettside som inneholder en liste over nettstedet ressurser som ikke er ment å bli indeksert av roboter av søkemotorer . Etter konvensjon, bruker roboter den nevnte tekstfilenrobots.txt før de indekserer et nettsted. Denne protokollen ble foreslått av Martijn Koster i 1994 og ble raskt vedtatt som et standard de facto- nett.
Bruken av robots.txtforhindrer at ressurser uten offentlig interesse havner på resultatsiden til en søkemotor . I tillegg lyser det faktum at robotene ikke får tilgang til disse ressursene, arbeidet til HTTP-serveren og trafikken på datanettverket .
Det er viktig å forstå at dette bare er en indikasjon på hva velvillige roboter skal gjøre , det er på ingen måte et sikkerhetselement . Faktisk ignorerer noen roboter denne filen, enten bevisst fordi de leter etter privat informasjon ( e-postadresser for eksempel for å sende søppelpost ), eller fordi roboten er for enkel til å administrere denne standarden.
Eventuelt kan denne filen inneholde adressen til et områdekart dedikert til søkemotorer kalt et “ sitemap ”, hvis format er XML .
De 1 st juli 2019, Google har antydet at de ønsker å standardisere tolkningen av robots.txt-filen mens de spesifiserer at forslaget respekterer det opprinnelige utkastet til skaperen Martijn Koster . Denne nye standarden skal for eksempel tillate enhver overføringsprotokoll å få tilgang til robots.txt og derfor ikke lenger bare HTTP , men også FTP , CoAP, osv ... NOS
Tillat alle roboter å få tilgang til nettstedet:
User-agent: * Allow:Forby tilgang til nettstedet til alle roboter:
User-agent: * Disallow: /For å nekte alle roboter, unntatt Googlebot , tilgang til en bestemt mappe, for eksempel http://example.org/forum/ .
User-agent: * Disallow: /forum User-agent: googlebot Disallow: