SEO

robots.txt – Was ist das?

Die robots.txt ist eine Textdatei im Hauptverzeichnis einer Website, die Suchmaschinen-Bots Anweisungen gibt. Sie kann Bots vom Crawlen bestimmter Bereiche abhalten – aber nicht vom Indexieren!

robots.txt im Detail

Die robots.txt liegt unter domain.de/robots.txt und wird von Crawlern als erstes gelesen. Sie ist eine Empfehlung, keine Sperre – boese Bots ignorieren sie.

Aufbau

User-agent: *
Disallow: /admin/
Disallow: /warenkorb/
Allow: /

Sitemap: https://example.de/sitemap.xml

Wichtige Anweisungen

  • User-agent: Fuer welchen Bot gilt die Regel (* = alle)
  • Disallow: Diese Pfade nicht crawlen
  • Allow: Diese Pfade explizit erlauben
  • Sitemap: Pfad zur Sitemap

Was blockieren?

  • Admin-Bereiche (/admin/, /wp-admin/)
  • Interne Suche (/suche?q=)
  • Doppelte Inhalte (Druckversionen, Filter)
  • Warenkorb, Checkout

Wichtig zu wissen

robots.txt verhindert nur das Crawlen, nicht das Indexieren! Wenn Google Links zu einer Seite findet, kann sie trotzdem indexiert werden. Fuer echtes Blockieren: noindex Meta-Tag.

Praxisbeispiel

Ein Online-Shop hat Tausende Filter-URLs (/produkte?farbe=rot&groesse=m&sortierung=preis...). Google crawlt diese endlos. Die robots.txt wird angepasst: Disallow: /*?*sortierung=. Googlebot konzentriert sich jetzt auf die wichtigen Seiten – das Crawl-Budget wird nicht mehr verschwendet.

robots.txt bei TwoPixels

Eine korrekt konfigurierte robots.txt ist Teil unserer technischen SEO-Optimierung. Wir stellen sicher, dass Suchmaschinen die richtigen Seiten finden und unwichtige ignorieren.

Jetzt anrufen