Datenqualität entscheidet: Wie KI aus Rohdaten Wissen macht

Viele Unternehmen investieren in KI-gestützte Suchsysteme, damit Mitarbeiter schneller an Informationen kommen. Die Erwartung: Ein Mitarbeiter stellt eine Frage, die KI liefert die passende Antwort aus dem Unternehmensbestand. In der Praxis scheitert das meistens an den Daten, lange bevor das Sprachmodell überhaupt zum Zug kommt. Wenn die verrauscht oder schlecht strukturiert sind, hilft auch das teuerste Modell nicht weiter. Garbage in, Garbage out.

Dieser Beitrag zeigt, welche Aufbereitungsschritte in einem konkreten Projekt den Unterschied gemacht haben, und warum sich gerade für den Mittelstand der Aufwand lohnt.

Warum rohe Daten nicht suchbar sind

Ein Beispiel aus der Praxis: Ein Flottenmanager sucht nach einem Vorfall an der Hauptmaschine eines bestimmten Schiffes. Die relevante Information steckt in einer E-Mail von vor drei Monaten, verteilt auf fünf weitergeleitete Nachrichten, mit einem angehängten PDF-Inspektionsbericht und einer Excel-Tabelle mit Messwerten. Dazwischen: Signaturen, rechtliche Hinweise, Satellitenkommunikations-Header, ein Logo als Bilddatei.

Wenn ein Suchsystem diese E-Mail unverändert verarbeitet, clustern sich die Einbettungen (die mathematischen Repräsentationen des Textes) um die immer gleichen Textbausteine. Der Rechtshinweis am Ende jeder E-Mail dominiert die Suche, weil er tausendfach vorkommt. Der eigentliche Problembericht geht im Rauschen unter. Die KI liefert irrelevante Treffer oder findet die Information schlicht nicht.

Die relevante Information geht im Rauschen gleichförmiger Daten unter

Die Antwort darauf liegt in der Datenaufbereitung.

Bereinigung an der Quelle: Vom E-Mail-Chaos zur sauberen Wissensbasis

Der wirkungsvollste Schritt ist die Bereinigung bei der Datenaufnahme.

E-Mail-Threads werden in einzelne Nachrichten zerlegt, damit jeder Beitrag unabhängig bereinigt und bewertet werden kann. Ohne das verwässert eine einzelne Antwort mit “OK, verstanden” den gesamten Thread.

Über 20 Muster erkennen und entfernen automatisch Signaturen, Rechtshinweise, Kontaktblöcke, Satellitenkommunikations-Header und leere Antworten. Übrig bleibt der tatsächliche Inhalt.

Nachrichten mit weniger als 20 Wörtern nach der Bereinigung werden verworfen. Diese Auto-Antworten und Bestätigungen erzeugen Einträge, die nach der Kontextanreicherung künstlich relevant wirken und echte Ergebnisse verdrängen.

Dazu kommt die Zeichensatz-Wiederherstellung: E-Mails aus verschiedenen Systemen weltweit verwenden unterschiedliche Kodierungen. Eine mehrstufige Erkennung stellt sicher, dass auch fehlerhaft deklarierte Kodierungen korrekt verarbeitet werden, statt ganze Dokumente zu verlieren.

Das klingt nach technischem Kleinkram. Aber ohne diese Bereinigung clustern sich die Einbettungen um bedeutungslose Textbausteine statt um die eigentlichen Inhalte. Allein durch das Entfernen von Rauschen steigt die Treffergenauigkeit messbar.

Kosten senken durch gestufte Dokumentenverarbeitung

Nicht jedes Dokument braucht die gleiche Behandlung. In einem typischen Unternehmensbestand finden sich einfache Textdokumente neben gescannten Formularen, Sensordaten-Tabellen und leeren Platzhalter-PDFs.

Dokumente werden je nach Komplexität auf lokale und Cloud-Verarbeitung verteilt

Einfache PDFs werden lokal und kostenfrei in Sekundenschnelle verarbeitet. Komplexe PDFs mit gescannten Inhalten oder Formularen gehen an eine Cloud-KI, die den visuellen Inhalt interpretiert (ca. 0,25 Cent pro Seite). Bei leeren oder reinen Bilddateien, die lokal keinen Text liefern, wird gezielt die Cloud eingesetzt. Beschädigte Dateien erzeugen keinen unnötigen API-Aufruf.

Tabellarische Daten und Sensormesswerte machen 15-25 % der Anhänge aus. Statt Zeile für Zeile einzubetten, repräsentiert eine einzelne Zusammenfassung den gesamten Anhang. Das reduziert den Einbettungsaufwand um 95 %, ohne die Auffindbarkeit zu beeinträchtigen.

In konkreten Projekten senkt diese gestufte Verarbeitung die Parsing-Kosten um 28-42 % gegenüber pauschaler Cloud-Verarbeitung. Bei einem Bestand von über 6.000 E-Mails sind das 63-94 Euro Ersparnis allein beim Parsen. Beim Thema Bildanalyse kommt ein weiterer Hebel dazu: In einem typischen Bestand sind 60-80 % der eingebetteten Bilder Logos und Banner. Ein Vorfilter eliminiert 30-50 % der Bildanalyse-Aufrufe, bevor eine KI sie sieht. Das spart 19-32 Euro pro Durchlauf.

Diese Beträge klingen klein. Aber sie multiplizieren sich, sobald weitere Geschäftsbereiche oder Datenquellen dazukommen.

Warum isolierte Textbausteine nicht reichen

Wenn ein Textabschnitt aus einem Anhang lautet “Das Ventil wurde am Dienstag ersetzt”, fehlt jeder Zusammenhang. Welches Schiff? Welches Ventil? Welcher Dienstag? Ohne Kontext ist dieser Eintrag für die Suche wertlos.

Dagegen helfen mehrere Maßnahmen, die zusammenspielen.

Für jedes Dokument wird eine kurze Zusammenfassung erzeugt: Typ, Thema, die wichtigsten Begriffe. Diese Zusammenfassung wird jedem Textbaustein vorangestellt, bevor er eingebettet wird. Forschungsergebnisse zeigen, dass kontextuelle Einbettungen die Treffergenauigkeit um 35-67 % verbessern.

Anhänge erben die Kontextinformationen der übergeordneten E-Mail. Ein PDF-Inspektionsbericht, der selbst keinen Schiffsnamen enthält, wird über die E-Mail dem richtigen Schiff zugeordnet. Damit wird der Bericht per Schiffsname auffindbar, obwohl das Dokument den Namen nie erwähnt.

Jede E-Mail erhält automatisch zugewiesene Themen für die gefilterte Suche. Eine semantische Deduplizierung verhindert, dass dasselbe Thema unter verschiedenen Schreibweisen mehrfach existiert.

Bei E-Mail-Verläufen mit mehreren Nachrichten wird zusätzlich eine Gesamtzusammenfassung erstellt, die den Gesprächsbogen abbildet: Problem, Untersuchung, Lösung. Die KI kann dann übergreifende Fragen wie “Wie wurde das Pumpenproblem gelöst?” beantworten, ohne einzelne Nachrichten zusammensetzen zu müssen.

Das Ergebnis: Ein Anwender stellt eine Frage in natürlicher Sprache und erhält eine Antwort, die den vollständigen Kontext berücksichtigt. Ohne diese Aufbereitung müsste er wissen, in welcher E-Mail und in welchem Anhang die Information steckt.

Schutz vor schadhaften Daten

Ein Aspekt, der bei KI-Projekten oft übersehen wird: Die Datenaufnahme ist auch ein Sicherheitsthema. E-Mail-Anhänge können schädliche Inhalte enthalten, bewusst oder unbewusst.

Mehrere Schutzebenen fangen bei der Datenaufnahme unterschiedliche Angriffsvektoren ab

ZIP-Bomben sind Dateien mit extremen Kompressionsraten, die beim Entpacken den Speicher füllen und das System zum Stillstand bringen. Ein automatischer Grenzwert bei einem Kompressionsverhältnis von über 100:1 erkennt und blockiert sie. ZIP-Einträge mit ../ im Dateinamen versuchen, Dateien außerhalb des vorgesehenen Verzeichnisses abzulegen (Pfad-Traversal). Solche Pfade werden automatisch abgelehnt.

Weniger offensichtlich: Wenn API-Aufrufe fehlschlagen, können die Fehlermeldungen Bearer-Tokens, API-Schlüssel oder Verbindungszeichenketten enthalten. Ohne Bereinigung landen diese Informationen in der Datenbank und werden möglicherweise in der Benutzeroberfläche angezeigt. Eine automatische Erkennung ersetzt solche Einträge, bevor sie gespeichert werden.

Konfigurierbare Obergrenzen für Entpacktiefe (3 Ebenen), Dateianzahl (100) und Gesamtvolumen (500 MB) verhindern, dass ein einzelner Anhang die gesamte Verarbeitung blockiert.

Diese Schutzmaßnahmen arbeiten gestaffelt. Jede Ebene fängt einen anderen Angriffsvektor ab. Bei einem Treffer läuft die Verarbeitung mit den übrigen Anhängen normal weiter.

Validierung und gezielte Reparatur

Die beste Aufbereitung nützt wenig, wenn niemand prüft, ob die Ergebnisse stimmen. Deshalb gehört eine Qualitätskontrolle zum Prozess. 31 automatisierte Prüfungen laufen nach jeder Verarbeitung oder Aktualisierung:

Gibt es verwaiste Einträge ohne Zuordnung?
Fehlen Einbettungen oder enthalten sie ungültige Werte?
Stimmen die Archiv-Verweise mit den tatsächlichen Dateien überein?
Sind die Themen vollständig und konsistent?

Diese Prüfungen fangen Probleme auf, die Tests allein nicht abdecken: datenabhängige Sonderfälle, teilweise Ausfälle, Abweichungen zwischen Softwareversionen.

Genauso wichtig ist die gezielte Reparatur. Wenn ein Problem nur wenige Dokumente betrifft, muss nicht der gesamte Bestand neu verarbeitet werden. Eine verbesserte Bereinigungsregel lässt sich rückwirkend auf alle archivierten Dokumente anwenden, ohne Kosten. Ein fehlerhaft verarbeitetes Dokument kann einzeln markiert und neu verarbeitet werden. Eine vollständige Neuverarbeitung des gesamten Bestands bleibt die absolute Ausnahme.

Zusätzlich dokumentiert eine Verarbeitungshistorie, welches Werkzeug, welches Modell und welche Version jeden einzelnen Eintrag erzeugt hat. Wenn die Qualitätskontrolle ein Problem aufdeckt, lässt sich sofort nachvollziehen, woher es stammt und wie es zu beheben ist.

Die Wissensbasis bleibt damit dauerhaft korrekt. Jede Änderung ist nachvollziehbar, und die Kosten für Korrekturen stehen in direktem Verhältnis zum Umfang des Problems.

Fazit: Datenqualität ist kein Nebenthema

Der Erfolg einer KI-gestützten Suche hängt weniger vom Sprachmodell ab als von der Aufbereitung davor. Bereinigung, Kontextanreicherung, gestufte Verarbeitung, Sicherheit, Validierung: Auf diesen Schritten baut alles Weitere auf.

Wenn Sie mit KI-gestützter Suche starten wollen, investieren Sie zuerst in die Qualität Ihrer Datenaufbereitung. Saubere Daten mit einem einfachen Modell liefern bessere Ergebnisse als eine schlechte Datenbasis mit dem teuersten Modell.

In einem begleitenden Beitrag beleuchten wir die Suchseite: Wie die aufbereiteten Daten abgerufen und zu verlässlichen Antworten zusammengesetzt werden.

Kontaktieren Sie uns, wenn Sie wissen möchten, wie eine durchdachte Datenaufbereitung auch in Ihrem Unternehmen die Grundlage für eine verlässliche KI-Suche schaffen kann.

Tech Insights

IT Consulting Willmer