Internet Suchmaschinen wie Google oder Yahoo verwenden Programme zur
Durchsuchung des Internets nach neuen Seiten. Diese automatisch ablaufenden
Programme nennt man Robots, Spider, Crawler oder Bots.
In der Log-Datei des Servers können diese leicht ausfindig gemacht
werden, z.B: crawl1.googlebot.com
Die Bots verwenden dabei teilweise die Datei robots.txt im root
des Servers. Also z.B. www.break-it-down.de/robots.txt. In dieser
Datei können spezielle Anweisungen für den Bot abgelegt werden,
z.B. dass verschiedene Bereiche nicht vom Bot gescannt werden sollen.
Ob sich die Bots an diese Anweisungen halten, steht jedoch im ermessen
des einzelnen Bots.
Beispiel: robots.txt
# robots.txt for www.break-it-down.de
User-agent: * # for all bots
Disallow: /_pic/ # keep robots out
Disallow: /print.asp
|
|
Eine andere viel wichtigere Steuerung der Bots kann über Meta-Tags
in den einzelnen Html Seiten erfolgen.
Das Meta-Tag keywords gibt wichtige Schlüsselworte an,
die der Bot aufgreifen kann. Es sei erwähnt, dass es meine Garantie
gibt, ob der Bot diese Begriffe auch wirklich verwendet. Dies liegt ausschließlich
im Ermessen des Bots bzw. dessen Betreibers.
Das Tag robots gibt an, ob der Bot den Html Links in der Seite
folgen soll (follow).
Normalerweise macht es keinen Sinn einem Bot den Zugriff auf die Seiten
zu verweigern, da die Verfügbarkeit der Seite in einer Suchmaschine
die Seitenzugriffe enorm steigern kann.
|
Beispiel:
<html>
<head>
<meta http-equiv="Content-Type"
content="text/html; charset=iso-8859-1">
<meta name="description" content="Stefan
Kuhn, IT Professional fuer
technische
Informatik">
<meta name="keywords" content="Software,
Softwaredesign, Softwarearchitektur,
Programmierung, UML, technische
Informatik, Safety, Bildverarbeitung,
C++, Java, Compilerbau, Datenbanken,
Koenigsbrunn">
<meta name="robots" content="index,follow">
<meta name="content-language" content="de">
<meta name="Author" content="S.Kuhn">
<meta name="publisher" content="S.Kuhn">
<meta http-equiv="expires" content="1">
<title>break-it-down</title>
</head>
|
|