Home

Der Crawler

MetaJobBot ist der automatisiert arbeitende Crawler von METAJob und durchsucht Webseiten nach Jobs. Er wird von folgenden Grundsätzen geleitet:

  1. MetaJobBot erfüllt den Robots Exclusion Standard. Sie können als Webmaster das Besuchen von Seiten Ihrer Domain verhindern, indem Sie eine Datei robots.txt im Root-Verzeichis mit folgendem Inhalt erstellen:
    User-agent: metajobbot
    Disallow: /
    
  2. MetaJobBot respektiert die robots-Meta-Tags index/noindex bzw. follow/nofollow. noindex verhindert die Indexierung einer Seite, während nofollow das Weiterverfolgen von Links auf dieser Seite verhindert. Meta-Tags werden innerhalb des head-Elements einer Html-Seite angeführt. Beispiel:
    <meta name="robots" content="noindex, nofollow">
    
  3. MetaJobBot folgt folgenden "Politeness"-Kriterien:
    • Zwischen 2 aufeinanderfolgenden Zugriffen von Seiten der selben Domain liegen mindestens 5 Sekunden
    • Zwischen 2 Zugriffen liegt mindestens das 7-fache der zuletzt beobachteten Antwortzeiten
  4. MetaJobBot ist ein sog. "Topical" oder auch "Focused" Crawler der nur am Auffinden von Jobs interessiert. Beim Besuch einer Website trifft er aufgrund von wenigen Seiten eine Entscheidung, ob weitere Seiten überhaupt besucht werden.

Sollten Sie als Webmaster eine Verletzung der obigen Kriterien feststellen oder sonstige Fragen haben, können Sie uns jederzeit kontaktieren.

Vollständiges Blockieren des Crawlers

Auch wenn Sie den Zugriff per robots.txt verbieten, muss eine Suchmaschine trotzdem via HTTP auf die robots.txt selber zugreifen. Falls Sie auch das vermeiden wollen, können Sie Ihre Domain komplett bei uns sperren lassen.