robots.txt – Was ist das?
Die robots.txt ist eine Textdatei im Hauptverzeichnis einer Website, die Suchmaschinen-Bots Anweisungen gibt. Sie kann Bots vom Crawlen bestimmter Bereiche abhalten – aber nicht vom Indexieren!
robots.txt im Detail
Die robots.txt liegt unter domain.de/robots.txt und wird von Crawlern als erstes gelesen. Sie ist eine Empfehlung, keine Sperre – boese Bots ignorieren sie.
Aufbau
User-agent: * Disallow: /admin/ Disallow: /warenkorb/ Allow: / Sitemap: https://example.de/sitemap.xml
Wichtige Anweisungen
- User-agent: Fuer welchen Bot gilt die Regel (* = alle)
- Disallow: Diese Pfade nicht crawlen
- Allow: Diese Pfade explizit erlauben
- Sitemap: Pfad zur Sitemap
Was blockieren?
- Admin-Bereiche (/admin/, /wp-admin/)
- Interne Suche (/suche?q=)
- Doppelte Inhalte (Druckversionen, Filter)
- Warenkorb, Checkout
Wichtig zu wissen
robots.txt verhindert nur das Crawlen, nicht das Indexieren! Wenn Google Links zu einer Seite findet, kann sie trotzdem indexiert werden. Fuer echtes Blockieren: noindex Meta-Tag.
Praxisbeispiel
Ein Online-Shop hat Tausende Filter-URLs (/produkte?farbe=rot&groesse=m&sortierung=preis...). Google crawlt diese endlos. Die robots.txt wird angepasst: Disallow: /*?*sortierung=. Googlebot konzentriert sich jetzt auf die wichtigen Seiten – das Crawl-Budget wird nicht mehr verschwendet.
robots.txt bei TwoPixels
Eine korrekt konfigurierte robots.txt ist Teil unserer technischen SEO-Optimierung. Wir stellen sicher, dass Suchmaschinen die richtigen Seiten finden und unwichtige ignorieren.