Der Textreiniger verwandelt Texte aus KI-Modellen, PDFs, Webseiten und Office-Dokumenten in einwandfreie Fließtexte. Mit einem Klick verschwinden alle störenden Formatierungsreste wie Zeilenumbrüche, Tabs, Silbentrennungen, Sonderzeichen und sogar versteckte KI-Marker. Begeistere dich an sauber strukturierten Texten – perfekt für deine Projekte im Beruf, Studium oder online.

Was wird entfernt?

Tabs und doppelte Leerzeichen
Einrückungen am Zeilenanfang (Leerzeichen oder Tabs)
Geschützte und unsichtbare Zeichen (z. B. \u00A0, \u200B, \uFEFF)
KI-Watermark-Zeichen: StegCloak-Alphabet (U+200B/C/D, U+2060, U+2062), Innamark-Whitespace-Methode (U+2004, U+2008, U+2009, U+202F, U+205F), Combining Grapheme Joiner, Hangul Fillers
Alle Unicode-Leerzeichen-Varianten (Em Space, En Space, Thin Space, Ideographic Space, Narrow No-Break Space etc.) → normales Leerzeichen
Markdown- und Aufzählungszeichen (*, —, 1., • etc.)
HTML-Entitäten ( , &, > usw., dekodiert in Klartext)
Silbentrennungen über Zeilen hinweg (z. B. „Be-\nreich“ → „Bereich“)
Interlinear-Annotation-Zeichen und Object-Replacement-Characters (U+FFF9–U+FFFD)
Unicode Tag-Block (U+E0000–U+E007F) – wird für unsichtbare Prompt-Injection in KI-Assistenten missbraucht
Zeilenumbrüche (einzeln oder mehrfach, inkl. Vertical Tab, Form Feed, NEL, U+2028/U+2029) Aktualisiert!
Alle Steuer- und Formatierungszeichen (Soft-Hyphen, Word-Joiner-Block U+2060–U+206F, Bidi-Marker, unsichtbare Mathe-Operatoren, alle C0-/C1-Steuerzeichen) Aktualisiert!
Homoglyphs – ähnlich aussehende fremdsprachige Zeichen (Kyrillisch, Griechisch, Armenisch, IPA, Lateinisch-Erweitert, jetzt auch Lisu → lateinische Buchstaben) Aktualisiert!
Typografische Sonderzeichen („Smart Punctuation“ wie –, —, „ “ ‘ ’ « ») Aktualisiert!
Variation Selectors (U+FE00–U+FE0F, U+180B–U+180F, U+E0100–U+E01EF) – verstecktes Einbetten von Daten pro Zeichen („Emoji-Smuggling“) Aktualisiert!
Bindestrich-Varianten (U+2010–U+2012, U+2015, Minus U+2212) → normaler Bindestrich Aktualisiert!
Braille Pattern Blank (U+2800) – unsichtbares Füllzeichen, das Whitespace-Filter umgeht → Leerzeichen Neu!

Was kann nicht erkannt werden?

Einige Watermarking-Methoden arbeiten ausschließlich auf statistischer oder semantischer Ebene – sie hinterlassen keine Zeichenspuren und lassen sich durch Textreinigung nicht entfernen:

SynthID Text (Google DeepMind): Beeinflusst die Token-Auswahl beim Generieren über eine geheime Schlüsselliste. Kein einzelnes Zeichen wird verändert – die Markierung steckt in der statistischen Häufigkeitsverteilung gewählter Wörter.
Statistisches Token-Watermarking (OpenAI-Forschung, KGW-Methode): Teilt den Wortschatz in „grüne“ und „rote“ Token auf und bevorzugt grüne beim Generieren. Statistisch nachweisbar, aber auf Zeichenebene unsichtbar.
Semantische Watermarks: Synonym-Auswahl, Satzstruktur-Varianten oder Diskurs-Marker, die nach einem geheimen Schema gewählt werden. Nur durch vollständiges Umformulieren des Textes zu entfernen.

Hinweis zur Vollständigkeit: Die Erkennungsmuster werden regelmäßig auf Basis aktueller Forschungsveröffentlichungen und Sicherheitsberichte aktualisiert. Da sich die Methoden der KI-Entwickler sehr schnell weiterentwickeln, kann keine Garantie auf Vollständigkeit gegeben werden. Wir empfehlen, den bereinigten Text zusätzlich mit spezialisierten Online-Tools zu prüfen – z. B. mit einem Unicode-Inspektor oder einem KI-Detektor – um sicherzustellen, dass keine versteckten Marker übrig geblieben sind.

Ursprünglicher Text

Bereinigter Text

Was wird entfernt?

Was kann nicht erkannt werden?