Was ist das?
Die robots.txt ist eine Textdatei im Stamm Ihrer Website (/robots.txt), die Such-Crawlern sagt, welche Bereiche sie indexieren dürfen und welche nicht.
Standardisiert in RFC 9309.
Ergänzend dazu: ai.txt und llms.txt wenden sich speziell an KI-Crawler
(ClaudeBot, GPTBot, Google-Extended, PerplexityBot). Damit signalisieren Sie, ob Ihre Inhalte
als Trainingsmaterial für Sprachmodelle erlaubt sind - rechtlich noch nicht bindend, aber von
den seriösen Anbietern bisher respektiert.
Wann brauche ich das?
robots.txt ist Pflicht für jede produktive Website. Ohne sie crawlen Suchmaschinen alles - auch interne Pfade, Admin-Seiten, Testumgebungen. Ein paar Disallow-Zeilen sparen Crawl-Budget und schützen vor versehentlicher Indexierung.
ai.txt / llms.txt sind Empfehlung, sobald Sie Inhalte mit geistigem Eigentum (Texte, Code, Daten) veröffentlichen, die Sie nicht im KI-Training sehen wollen. Praktisch wirksam bei den großen Anbietern; gegen Trittbrettfahrer hilft nur juristische Mittel.