Der Textreiniger verwandelt Texte aus KI-Modellen, PDFs, Webseiten und Office-Dokumenten in einwandfreie Fließtexte. Mit einem Klick verschwinden alle störenden Formatierungsreste wie Zeilenumbrüche, Tabs, Silbentrennungen, Sonderzeichen und sogar versteckte KI-Marker. Begeistere dich an sauber strukturierten Texten – perfekt für deine Projekte im Beruf, Studium oder online.
Was wird entfernt?
- Zeilenumbrüche (einzeln oder mehrfach)
- Tabs und doppelte Leerzeichen
- Einrückungen am Zeilenanfang (Leerzeichen oder Tabs)
- Geschützte und unsichtbare Zeichen (z. B.
\u00A0,\u200B,\uFEFF) - Alle Steuer- und Formatierungszeichen (Soft-Hyphen, vollständiger Word-Joiner-Block U+2060–U+206F, Bidi-Marker, unsichtbare mathematische Operatoren)
- KI-Watermark-Zeichen: StegCloak-Alphabet (U+200B/C/D, U+2060, U+2062), Innamark-Whitespace-Methode (U+2004, U+2008, U+2009, U+202F, U+205F), Combining Grapheme Joiner, Hangul Fillers
- Alle Unicode-Leerzeichen-Varianten (Em Space, En Space, Thin Space, Ideographic Space, Narrow No-Break Space etc.) → normales Leerzeichen
- Homoglyphs – ähnlich aussehende fremdsprachige Zeichen (kyrillische, griechische, armenische, IPA-, Lisu- und lateinisch-erweiterte Buchstaben werden zu lateinischen normalisiert)
- Typografische Sonderzeichen („Smart Punctuation“ wie –, —, „ “ ‘ ’)
- Markdown- und Aufzählungszeichen (
*,—,1.,•etc.) - HTML-Entitäten (
,&,>usw., dekodiert in Klartext) - Silbentrennungen über Zeilen hinweg (z. B. „Be-\nreich“ → „Bereich“)
- Interlinear-Annotation-Zeichen und Object-Replacement-Characters (U+FFF9–U+FFFD)
- Variation Selectors (U+FE00–U+FE0F) und Variation Selectors Supplement (U+E0100–U+E01EF) – ermöglichen verstecktes Einbetten von Daten pro Zeichen Neu!
- Unicode Tag-Block (U+E0000–U+E007F) – wird für unsichtbare Prompt-Injection in KI-Assistenten missbraucht Neu!
- Geschützter Bindestrich (U+2011) → normaler Bindestrich Neu!
Was kann nicht erkannt werden?
Einige Watermarking-Methoden arbeiten ausschließlich auf statistischer oder semantischer Ebene – sie hinterlassen keine Zeichenspuren und lassen sich durch Textreinigung nicht entfernen:
- SynthID Text (Google DeepMind): Beeinflusst die Token-Auswahl beim Generieren über eine geheime Schlüsselliste. Kein einzelnes Zeichen wird verändert – die Markierung steckt in der statistischen Häufigkeitsverteilung gewählter Wörter.
- Statistisches Token-Watermarking (OpenAI-Forschung, KGW-Methode): Teilt den Wortschatz in „grüne“ und „rote“ Token auf und bevorzugt grüne beim Generieren. Statistisch nachweisbar, aber auf Zeichenebene unsichtbar.
- Semantische Watermarks: Synonym-Auswahl, Satzstruktur-Varianten oder Diskurs-Marker, die nach einem geheimen Schema gewählt werden. Nur durch vollständiges Umformulieren des Textes zu entfernen.
Hinweis zur Vollständigkeit: Die Erkennungsmuster werden regelmäßig auf Basis aktueller Forschungsveröffentlichungen und Sicherheitsberichte aktualisiert. Da sich die Methoden der KI-Entwickler sehr schnell weiterentwickeln, kann keine Garantie auf Vollständigkeit gegeben werden. Wir empfehlen, den bereinigten Text zusätzlich mit spezialisierten Online-Tools zu prüfen – z. B. mit einem Unicode-Inspektor oder einem KI-Detektor – um sicherzustellen, dass keine versteckten Marker übrig geblieben sind.