KI-Camp Vol. 3: RAG-Systeme und Datenqualität im Verlag

Ich beschäftige mich schon länger mit RAG-Systemen. Beim KI-Camp Vol. 3 des MedienNetzwerk Bayern habe ich das zum Anlass genommen, eine spontane Session anzubieten – weniger um zu erklären, mehr um zu hören, wie andere damit umgehen. Das Interesse war größer als erwartet. Und die Diskussion hat etwas bestätigt, das ich schon länger beobachte: Die technische Frage ist selten das eigentliche Problem.

RAG im Verlag – was steckt dahinter?

RAG steht für Retrieval-Augmented Generation. Vereinfacht: Ein KI-System sucht sich aus einer vorhandenen Datenbasis relevante Inhalte und nutzt diese als Grundlage für seine Antworten. Kein freies Erfinden, sondern Antworten auf Basis von dem, was tatsächlich vorhanden ist.

Für Verlage klingt das nach einer guten Idee. Fachcontent als Basis für KI-gestützte Antworten, Recherchen, Produkterweiterungen. Die Technologie ist da. Das Prinzip ist nachvollziehbar.

Das Problem sitzt woanders.

Garbage in, garbage out – die Datengrundlage entscheidet

In der Session haben wir schnell gemerkt, wo die eigentliche Herausforderung liegt: nicht im System, sondern in dem, was ins System geht.

Ein RAG-System ist nur so gut wie die Datenbasis, auf der es arbeitet. Wer unstrukturierten, veralteten oder inkonsistenten Content einspeist, bekommt unstrukturierte, veraltete oder inkonsistente Ergebnisse zurück. Das ist keine Schwäche der Technologie – das ist eine Frage der Datenqualität.

Wer in Verlagen und Bildungsorganisationen arbeitet, kennt das Problem aus einem anderen Kontext: Ein Archiv, das nicht erschlossen ist, hilft niemandem. Man weiß, dass der Inhalt irgendwo vorhanden ist – aber auffinden, einordnen, verlässlich nutzen lässt er sich nicht. RAG-Systeme brauchen das Gegenteil davon: Inhalte, die strukturiert, aktuell und eindeutig zugeordnet sind.

Welche Rolle XML dabei spielt

Ein Teil der Diskussion drehte sich um XML – und warum das für RAG relevanter ist als es auf den ersten Blick wirkt.

Strukturierte Inhalte, die mit klaren Metadaten, Beziehungen und semantischen Auszeichnungen versehen sind, lassen sich von einem RAG-System präziser abrufen und verarbeiten. XML ist dabei kein Selbstzweck. Es ist eine Möglichkeit, Inhalten eine Struktur zu geben, die Maschinen lesen und Menschen trotzdem pflegen können.

Wer seine Inhalte bisher als Dokumente verwaltet – Word-Dateien, PDFs, InDesign-Layouts – steht vor einer grundlegenden Frage: Wie bringe ich diese Inhalte in eine Form, die für KI-gestützte Systeme tatsächlich nutzbar ist? Das ist keine technische Frage. Das ist eine redaktionelle und strategische.

Was das KI-Camp Vol. 3 gezeigt hat

Das Mediennetzwerk Bayern hat mit dem KI-Camp ein Format geschaffen, das ich schätze: kein Frontalvortrag, sondern echter Austausch. Wissen aufbauen, einsetzen, teilen – das war das Motto. Und das hat funktioniert.

Was mich an der spontanen Session über RAG am meisten beschäftigt hat: Das Interesse war groß, obwohl – oder vielleicht weil – es kein Werkzeug-Thema war. Keine Demo, kein Tool-Vergleich. Sondern die Frage, was eigentlich passieren muss, bevor ein System sinnvoll eingesetzt werden kann.

Das ist die Frage, die ich immer wieder stelle. Und die Antwort fängt fast immer bei den Daten an.

KI-Camp Vol. 3: Was RAG-Systeme mit schlechten Archiven gemeinsam haben

RAG im Verlag – was steckt dahinter?

Garbage in, garbage out – die Datengrundlage entscheidet

Welche Rolle XML dabei spielt

Was das KI-Camp Vol. 3 gezeigt hat