robots.txt + ai.txt

Nach RFC 9309

Crawler-Steuerung inklusive Block für KI-Crawler (ClaudeBot, GPTBot, Google-Extended).

Was ist das, und wann brauche ich es?

Was ist das?

Die robots.txt ist eine Textdatei im Stamm Ihrer Website (/robots.txt), die Such-Crawlern sagt, welche Bereiche sie indexieren dürfen und welche nicht. Standardisiert in RFC 9309.

Ergänzend dazu: ai.txt und llms.txt wenden sich speziell an KI-Crawler (ClaudeBot, GPTBot, Google-Extended, PerplexityBot). Damit signalisieren Sie, ob Ihre Inhalte als Trainingsmaterial für Sprachmodelle erlaubt sind - rechtlich noch nicht bindend, aber von den seriösen Anbietern bisher respektiert.

Wann brauche ich das?

robots.txt ist Pflicht für jede produktive Website. Ohne sie crawlen Suchmaschinen alles - auch interne Pfade, Admin-Seiten, Testumgebungen. Ein paar Disallow-Zeilen sparen Crawl-Budget und schützen vor versehentlicher Indexierung.

ai.txt / llms.txt sind Empfehlung, sobald Sie Inhalte mit geistigem Eigentum (Texte, Code, Daten) veröffentlichen, die Sie nicht im KI-Training sehen wollen. Praktisch wirksam bei den großen Anbietern; gegen Trittbrettfahrer hilft nur juristische Mittel.

Sinnvolle nächste Schritte

security.txt für Kontakt-Pfad zu Sicherheitsforschern

User-Agent Zielt auf einen spezifischen Crawler ab. * betrifft alle Crawler, die keine eigene, spezifischere Regel haben. Sitemap-URL (absolut, RFC 9309 § 2.2.4) Vollständige https://-URL Ihrer XML-Sitemap. Suchmaschinen lesen sie für effizientes Crawling. Mehrere Sitemaps mehrfach eintragen.

Disallow (eine Pfad-Regel pro Zeile) Pfade, die der Crawler nicht abrufen darf. Präfix-Matching (z. B. /admin/ blockt alles darunter). Wichtig: KEIN Sicherheits-Mechanismus, nur Höflichkeitsregel - geheime URLs bleiben über Brute-Force erreichbar. Allow (eine Pfad-Regel pro Zeile) Ausnahmen vom Disallow. Beispiel: Disallow: /admin/ plus Allow: /admin/public/ erlaubt nur den öffentlichen Unterbereich.

Crawl-delay (Sek., 0 = aus) Wartezeit zwischen zwei Requests. Nicht in RFC 9309. Google ignoriert, Bing/Yandex unterstützen. Host (Yandex-spezifisch) Bevorzugte Schreibweise der Domain (mit/ohne www), nur Yandex liest das. Bei anderen Crawlern Redirect via Server. KI-Crawler blocken Fügt eine Sperre für 37 bekannte KI-Trainings-Crawler hinzu (GPTBot, ClaudeBot, Google-Extended, PerplexityBot, ...). Liste laufend zu pflegen.

/robots.txt nach RFC 9309

Herunterladen

# robots.txt per RFC 9309 (Robots Exclusion Protocol)
# Created with Dernium Webtools

User-agent: *
Disallow: /admin/
Disallow: /api/

# AI crawler block. Tokens per vendor documentation as of early 2026.
# List requires ongoing maintenance because vendors change tokens.
User-agent: GPTBot
User-agent: ChatGPT-User
User-agent: OAI-SearchBot
User-agent: ClaudeBot
User-agent: Claude-Web
User-agent: anthropic-ai
User-agent: Google-Extended
User-agent: CCBot
User-agent: PerplexityBot
User-agent: Perplexity-User
User-agent: Bytespider
User-agent: Amazonbot
User-agent: Applebot-Extended
User-agent: cohere-ai
User-agent: cohere-training-data-crawler
User-agent: YouBot
User-agent: Meta-ExternalAgent
User-agent: Meta-ExternalFetcher
User-agent: FacebookBot
User-agent: facebookexternalhit
User-agent: ImagesiftBot
User-agent: Diffbot
User-agent: Webzio-Extended
User-agent: omgili
User-agent: omgilibot
User-agent: Timpibot
User-agent: PetalBot
User-agent: AI2Bot
User-agent: Andibot
User-agent: Kangaroo Bot
User-agent: Velen Crawler
User-agent: MistralAI-User
User-agent: DuckAssistBot
User-agent: iaskspider
User-agent: Sidetrade indexer bot
User-agent: ICC-Crawler
User-agent: ISSCyberRiskCrawler
Disallow: /

Sitemap: https://example.com/sitemap.xml

Zusatz: ai.txt und llms.txt

ai.txt nach Spawning ist ein Opt-out- oder Opt-in-Marker für KI-Trainings-Pipelines auf Medientyp-Ebene (text, image, audio, video, code). llms.txt nach llmstxt.org ist ein Kurzbriefing in Markdown-Form, das Sprachmodelle bei Bedarf zur Strukturierung der Seite einlesen.

Domain Apex-Domain ohne Protokollpräfix (z. B. example.com). Wird in ai.txt als Domain-Kommentar und in llms.txt als Basis der Link-URLs verwendet. Markenname / Titel für llms.txt Hauptüberschrift (H1) am Anfang der llms.txt-Datei. Üblicherweise Domainname oder Markenname; Sprachmodelle nutzen ihn zur Einordnung. llms.txt-Kurzbeschreibung 1-2 Sätze, was die Seite tut. Wird als Blockzitat direkt unter der Überschrift eingefügt. ai.txt-Direktive Medientypen (Komma-getrennt)

/ai.txt nach Spawning ai.txt

Herunterladen

# ai.txt per Spawning (https://spawning.ai/)
# Opt-out / opt-in signal for AI training pipelines, separate from robots.txt.
# Created with Dernium Webtools

User-Agent: *
Disallow: image, text, audio, video, code

# Domain: example.com
# Host under https://<domain>/ai.txt

/llms.txt nach llmstxt.org

Herunterladen

# Beispiel GmbH
> Kurzbeschreibung der Seite für Sprachmodelle.

## Wichtige Inhalte

- [Startseite](https://example.com/)
- [Impressum](https://example.com/imprint)
- [Kontakt](https://example.com/contact)

<!-- Created with Dernium Webtools -->

Bestehende robots.txt prüfen

Holt /robots.txt der angegebenen Domain und zeigt den Inhalt.

Probieren mit:

Server-Pfad: Diese Inspektion läuft NICHT browser-lokal. Wir holen den DNS-Record bzw. die HTTPS-Antwort über unseren Server. Wir loggen weder die abgefragte Domain noch das Ergebnis. 12 Anfragen pro Minute pro IPv4-Adresse bzw. IPv6-/64-Subnet.