robots.txt – Was ist das?

Die robots.txt ist eine Textdatei im Hauptverzeichnis einer Website, die Suchmaschinen-Bots Anweisungen gibt. Sie kann Bots vom Crawlen bestimmter Bereiche abhalten – aber nicht vom Indexieren!

robots.txt im Detail

Die robots.txt liegt unter domain.de/robots.txt und wird von Crawlern als erstes gelesen. Sie ist eine Empfehlung, keine Sperre – böse Bots ignorieren sie.

Aufbau

User-agent: *
Disallow: /admin/
Disallow: /warenkorb/
Allow: /

Sitemap: https://example.de/sitemap.xml

Wichtige Anweisungen

User-agent: für welchen Bot gilt die Regel (* = alle)
Disallow: Diese Pfade nicht crawlen
Allow: Diese Pfade explizit erlauben
Sitemap: Pfad zur Sitemap

Was blockieren?

Admin-Bereiche (/admin/, /wp-admin/)
Interne Suche (/suche?q=)
Doppelte Inhalte (Druckversionen, Filter)
Warenkorb, Checkout

Wichtig zu wissen

robots.txt verhindert nur das Crawlen, nicht das Indexieren! Wenn Google Links zu einer Seite findet, kann sie trotzdem indexiert werden. für echtes Blockieren: noindex Meta-Tag.

Praxisbeispiel

Ein Online-Shop hat Tausende Filter-URLs (/produkte?farbe=rot&größe=m&sortierung=preis...). Google crawlt diese endlos. Die robots.txt wird angepasst: Disallow: /*?*sortierung=. Googlebot konzentriert sich jetzt auf die wichtigen Seiten – das Crawl-Budget wird nicht mehr verschwendet.

robots.txt bei TwoPixels

Eine korrekt konfigurierte robots.txt ist Teil unserer technischen SEO-Optimierung. Wir stellen sicher, dass Suchmaschinen die richtigen Seiten finden und unwichtige ignorieren.