robots.txt + ai.txt

Nach RFC 9309

Crawler-Steuerung inklusive Block für KI-Crawler (ClaudeBot, GPTBot, Google-Extended).

Was ist das, und wann brauche ich es?

Was ist das?

Die robots.txt ist eine Textdatei im Stamm Ihrer Website (/robots.txt), die Such-Crawlern sagt, welche Bereiche sie indexieren dürfen und welche nicht. Standardisiert in RFC 9309.

Ergänzend dazu: ai.txt und llms.txt wenden sich speziell an KI-Crawler (ClaudeBot, GPTBot, Google-Extended, PerplexityBot). Damit signalisieren Sie, ob Ihre Inhalte als Trainingsmaterial für Sprachmodelle erlaubt sind - rechtlich noch nicht bindend, aber von den seriösen Anbietern bisher respektiert.

Wann brauche ich das?

robots.txt ist Pflicht für jede produktive Website. Ohne sie crawlen Suchmaschinen alles - auch interne Pfade, Admin-Seiten, Testumgebungen. Ein paar Disallow-Zeilen sparen Crawl-Budget und schützen vor versehentlicher Indexierung.

ai.txt / llms.txt sind Empfehlung, sobald Sie Inhalte mit geistigem Eigentum (Texte, Code, Daten) veröffentlichen, die Sie nicht im KI-Training sehen wollen. Praktisch wirksam bei den großen Anbietern; gegen Trittbrettfahrer hilft nur juristische Mittel.

/robots.txt nach RFC 9309
# robots.txt per RFC 9309 (Robots Exclusion Protocol)
# Created with Dernium Webtools

User-agent: *
Disallow: /admin/
Disallow: /api/

# AI crawler block. Tokens per vendor documentation as of early 2026.
# List requires ongoing maintenance because vendors change tokens.
User-agent: GPTBot
User-agent: ChatGPT-User
User-agent: OAI-SearchBot
User-agent: ClaudeBot
User-agent: Claude-Web
User-agent: anthropic-ai
User-agent: Google-Extended
User-agent: CCBot
User-agent: PerplexityBot
User-agent: Perplexity-User
User-agent: Bytespider
User-agent: Amazonbot
User-agent: Applebot-Extended
User-agent: cohere-ai
User-agent: cohere-training-data-crawler
User-agent: YouBot
User-agent: Meta-ExternalAgent
User-agent: Meta-ExternalFetcher
User-agent: FacebookBot
User-agent: facebookexternalhit
User-agent: ImagesiftBot
User-agent: Diffbot
User-agent: Webzio-Extended
User-agent: omgili
User-agent: omgilibot
User-agent: Timpibot
User-agent: PetalBot
User-agent: AI2Bot
User-agent: Andibot
User-agent: Kangaroo Bot
User-agent: Velen Crawler
User-agent: MistralAI-User
User-agent: DuckAssistBot
User-agent: iaskspider
User-agent: Sidetrade indexer bot
User-agent: ICC-Crawler
User-agent: ISSCyberRiskCrawler
Disallow: /

Sitemap: https://example.com/sitemap.xml

Kostenlos, ohne Gewähr (Best-Effort). Erzeugte wie geprüfte Angaben sind unverbindlich; für fehlerhafte oder unvollständige Ergebnisse und Konfigurationen übernehmen wir keine Haftung. Anwendung und Prüfung erfolgen in eigener Verantwortung, vor dem Produktiveinsatz bitte testen.

Free, no warranty (best effort). Generated and inspected values are non-binding; we accept no liability for erroneous or incomplete results or configurations. Use and verification are your own responsibility; please test before production use.

Zusatz: ai.txt und llms.txt

ai.txt nach Spawning ist ein Opt-out- oder Opt-in-Marker für KI-Trainings-Pipelines auf Medientyp-Ebene (text, image, audio, video, code). llms.txt nach llmstxt.org ist ein Kurzbriefing in Markdown-Form, das Sprachmodelle bei Bedarf zur Strukturierung der Seite einlesen.

/ai.txt nach Spawning ai.txt
# ai.txt per Spawning (https://spawning.ai/)
# Opt-out / opt-in signal for AI training pipelines, separate from robots.txt.
# Created with Dernium Webtools

User-Agent: *
Disallow: image, text, audio, video, code

# Domain: example.com
# Host under https://<domain>/ai.txt

Kostenlos, ohne Gewähr (Best-Effort). Erzeugte wie geprüfte Angaben sind unverbindlich; für fehlerhafte oder unvollständige Ergebnisse und Konfigurationen übernehmen wir keine Haftung. Anwendung und Prüfung erfolgen in eigener Verantwortung, vor dem Produktiveinsatz bitte testen.

Free, no warranty (best effort). Generated and inspected values are non-binding; we accept no liability for erroneous or incomplete results or configurations. Use and verification are your own responsibility; please test before production use.

/llms.txt nach llmstxt.org
# Beispiel GmbH
> Kurzbeschreibung der Seite für Sprachmodelle.

## Wichtige Inhalte

- [Startseite](https://example.com/)
- [Impressum](https://example.com/imprint)
- [Kontakt](https://example.com/contact)

<!-- Created with Dernium Webtools -->

Kostenlos, ohne Gewähr (Best-Effort). Erzeugte wie geprüfte Angaben sind unverbindlich; für fehlerhafte oder unvollständige Ergebnisse und Konfigurationen übernehmen wir keine Haftung. Anwendung und Prüfung erfolgen in eigener Verantwortung, vor dem Produktiveinsatz bitte testen.

Free, no warranty (best effort). Generated and inspected values are non-binding; we accept no liability for erroneous or incomplete results or configurations. Use and verification are your own responsibility; please test before production use.

Bestehende robots.txt prüfen

Holt /robots.txt der angegebenen Domain und zeigt den Inhalt.

Probieren mit:

Server-Pfad: Diese Inspektion läuft NICHT browser-lokal. Wir holen den DNS-Record bzw. die HTTPS-Antwort über unseren Server. Wir loggen weder die abgefragte Domain noch das Ergebnis. 12 Anfragen pro Minute pro IPv4-Adresse bzw. IPv6-/64-Subnet.