KI Faktenprüfung: Wie ein automatisches System Zahlen verifiziert, bevor sie in Ihrem Feed landen
- Marcus Machon

- 4. Apr.
- 9 Min. Lesezeit
Aktualisiert: 21. Apr.
Auf LinkedIn kursieren ständig Zahlen zu Copilot, KI-Produktivität und Digitalisierung. Die wenigsten sind vielleicht geprüft. Dieser Beitrag zeigt, wie ich ein eigenes System für KI Faktenprüfung und KI Wissensmanagement gebaut habe, das Zahlen automatisch verifiziert, wo es scheitert, und was Sie als Lesende davon haben: Datenpunkte die zumindest einen mehrstufigen Prüfprozess durchlaufen haben. Ob das reicht, wird sich zeigen. Inklusive Fehlerquote, blinder Flecken und einem konkreten Experiment mit offenem Ausgang.

Was haben Sie davon?
⚡ Ab sofort veröffentliche ich regelmäßig datengetriebene LinkedIn-Posts mit Zahlen die einen mehrstufigen KI-Prüfprozess durchlaufen haben, offenen Quellen und einer Einladung zur Korrektur. Dieser Blogbeitrag erklärt den Prozess dahinter.
Wenn Sie als IT-Leitung oder Geschäftsführung Entscheidungen zu Microsoft 365, Copilot oder KI-Strategie treffen, kennen Sie das Problem: Jeder hat Zahlen. "Laut einer Studie..." steht in jedem zweiten LinkedIn-Post. Aber welche Studie? Wie groß war die Stichprobe? Wer hat sie bezahlt?
Mein Ziel: Ihnen Datenpunkte liefern, bei denen Sie die Quelle nachschlagen, die Methodik prüfen und mir sagen können, wenn etwas nicht stimmt. Kein "Trust me", sondern "Check me". Funktioniert das? Ehrlich gesagt: Ich weiß es noch nicht. Genau deshalb ist es ein Experiment.
Warum braucht ein Berater ein eigenes Wissenssystem?
Wer Unternehmen zu Microsoft 365, Copilot oder KI-Strategie berät, braucht belastbare Zahlen. Nicht Bauchgefühl, sondern verifizierte Datenpunkte mit Quelle, Methodik und Einschränkungen.
Das Problem: KI-Sprachmodelle wie ChatGPT oder Claude halluzinieren systematisch. Falsche Zahlen, erfundene Quellen, verdrehte Zusammenhänge. Ein konkretes Beispiel aus meinem eigenen System: Die Zahl "57% der Copilot-Nutzenden sehen keinen Mehrwert" tauchte in einer KI-Recherche auf und landete in meiner Datenbank. Bei der Verifikation gegen die Originalquelle (Gartner-Report, Max Goss, 2024, https://www.gartner.com/en/documents/5659223) stellte sich heraus: Die korrekte Aussage lautet "57% berichten, dass das Engagement nach der Einführung schnell sinkt." Das klingt ähnlich, misst aber etwas anderes. Ohne die Gegenkontrolle hätte ich die falsche Version weiterverbreitet.
Wer mit KI recherchiert und die Ergebnisse nicht prüft, verbreitet mit hoher Wahrscheinlichkeit Fehler. Also habe ich ein System gebaut, das genau das löst (oder es zumindest versucht).
Wie ist das entstanden?
⚡ Ein Solo-Berater, Open-Source-Tools, KI als Entwicklungspartner, wenige Wochen Bauzeit. Kein Budget, kein Team, kein Vendor.
Ich habe das System allein gebaut. Konzeption, Architektur, Umsetzung. Mein Entwicklungspartner war KI selbst: Claude Code mit Opus 4.6 als Programmier-Assistent, Claude Chat mit Deep Research für die Recherchen, spezialisierte Skills und Agenten für die Verifikation. Die gesamte Infrastruktur läuft auf einem einzelnen Linux-Server mit Open-Source-Software. Keine Enterprise-Lizenzen, keine Cloud-Plattform mit fünfstelligem Monatspreis.
Von der ersten Zeile Code bis zum heutigen Stand hat das wenige Wochen gedauert. Viel harte Arbeit, viele Abende, viele Sackgassen. Aber ich habe den Eindruck, dass es funktioniert. Klar, einzelne Fehler sind immer noch drin, aber im Großen und Ganzen spüre und messe ich Verbesserungen.
Was ich dabei gelernt habe: Es ist nicht "ein Prompt und es funktioniert". Das System erfordert ständige Verbesserung. Lücken erkennen, Fehlertypen verstehen, Prozesse anpassen, neue Prüfregeln einführen, alte Annahmen hinterfragen. Klassischer kontinuierlicher Verbesserungsprozess, nur eben mit KI statt mit Fließbandoptimierung.
Über das reine Wissensmanagement hinaus habe ich aktuell 17 Verbesserungszyklen definiert, davon 15 aktiv. Jeder Zyklus adressiert eine konkrete Schwäche (mein Eindruck: es gibt immer eine neue). Das System wird besser, aber "fertig" wird es nie sein. Wer Ihnen erzählt, man könne so ein KI System einmal aufsetzen und dann läuft es, verkauft Ihnen etwas.

Wie funktioniert die KI Faktenprüfung?
⚡ Jede Zahl durchläuft drei Stufen, bevor sie in einem Beitrag verwendet werden darf. Der Prozess läuft größtenteils automatisch im Hintergrund, über Tage und Wochen.
Stufe 1: Recherche. Ich gebe einem KI-Sprachmodell (aktuell Claude mit Deep Research) eine präzise Forschungsfrage. Nicht "Was weißt du über Copilot?", sondern: "Wie hoch ist die Aktivierungsrate von Copilot vs. ChatGPT, basierend auf Studien ab 2024, mit Stichprobengröße und Methodik?" Je präziser die Frage, desto besser das Ergebnis. Bisher: 92 solcher Recherchen.
Stufe 2: Datenbank-Aufnahme mit 6 Reifegraden. Konkrete Zahlen werden in eine strukturierte Datenbank übernommen. Jeder Eintrag bekommt einen Reifegrad, der genau beschreibt, was geprüft wurde und wer es geprüft hat:
Stufe 1 — Ungeprüft (raw) (13,5%, 79 Einträge): Aus KI-Recherche übernommen, noch nichts verifiziert. Nicht zitieren.
Stufe 2 — Existenz geprüft (existence_checked) (26,2%, 153 Einträge): Quelle existiert, URL/DOI funktioniert. Allgemein referenzierbar, aber ohne konkrete Zahl.
Stufe 3 — Zahl belegt (content_matched) (44,3%, 259 Einträge): Zahl wurde 1:1 in der Primärquelle gefunden. Mit Einschränkung zitierbar.
Stufe 4 — Kontext validiert (context_validated) (3,6%, 21 Einträge): Zusätzlich Attribution, Methodik und Stichprobe geprüft. Mit voller Quellenangabe zitierbar.
Stufe 5 — Zitierfähig (citation_ready) (3,8%, 22 Einträge): Plus Primärquellen-Zitat hinterlegt und von mir persönlich "signed off". Einzige Stufe für öffentliche Posts ohne Einschränkung.
Widerlegt (debunked) (8,7%, 51 Einträge): Falsch, ungenau oder zurückgezogen.
Nur 3,8% sind ohne Einschränkung zitierfähig (citation_ready, 22 von 585). Das klingt wenig, ist aber Absicht: Diese Stufe erfordert, dass ich die Primärquelle persönlich geöffnet, die Zahl im Wortlaut gelesen und das 1:1-Zitat mit einer Daten-Bank-Sperre ("Trigger") abgesichert habe. Weitere 51,7% (302 Einträge) stehen auf Stufe 3 oder 4 und sind mit expliziter Quellenangabe nutzbar. Für die Data Drops verwende ich bevorzugt Stufe 5 (citation_ready).
Stufe 3: Gegenkontrolle. Spezialisierte Software-Agenten (kleine KI-Programme, die gezielt eine Aufgabe erledigen) prüfen die Originalquellen: Existiert die Studie? Stimmt die Zahl? Passt die Methodik zur Behauptung? Bei dem oben genannten 57%-Beispiel hat dieser Schritt den Fehler aufgedeckt, indem der Agent das originale Gartner-Dokument lokalisierte und den tatsächlichen Wortlaut abglich.

Was steckt aktuell im System?
Das System wächst seit März 2026. Aktueller Stand (5. April 2026):
585 Datenpunkte aus 239 referenzierten Studien, diese zum Großteil aus 92 "Deep Researches"
326 Erkenntnisse (Schlussfolgerungen aus eigenen Daten, Meinungen, Hypothesen, Muster)
2.969 Verknüpfungen zwischen Datenpunkten und Erkenntnissen
15 aktive Hypothesen mit vorab definierten Erfolgskriterien
Mindestens 51 widerlegte Einträge (8,7% erkannte Fehlerquote)
Ich schreibe bewusst "mindestens", weil die 9% nur die erkannten Fehler sind. Ein Eintrag, den das System als "geprüft" einstuft, könnte trotzdem falsch sein, wenn die Originalquelle selbst fehlerhaft ist oder der Prüf-Agent die falsche Stelle gelesen hat. Die tatsächliche Fehlerquote kennen wir nicht. Das gehört zur Ehrlichkeit dazu.
"AI is weird." — Ethan Mollick, Professor an der Wharton School of Business.
Niemand hat jahrzehntelange Erfahrung mit Multi Agent Systemen. Jedes Modell-Update kann alles auf den Kopf stellen. In diesem Umfeld sind echte praktische Erfahrungen wertvoller als Zertifizierungen oder Frameworks, die auf Hörensagen basieren.
Welche Prinzipien stecken dahinter?
⚡Mehrere Prinzipien, angelehnt an wissenschaftliche Methodik. Keine akademische Forschung, aber ein strukturierter Versuch, die Qualität systematisch zu verbessern.
Jede Zahl bekommt einen Reifegrad. Das ist der Kern des Systems und funktioniert zuverlässig. 585 Einträge, jeder mit einer von sechs Stufen (raw, existence_checked, content_matched, context_validated, citation_ready, debunked). In öffentlichen Posts verwende ich bevorzugt "citation_ready", alternativ "content_matched" oder "context_validated" mit expliziter Quellenangabe. Wenn eine Zahl nur "existence_checked" oder "raw" ist, sage ich das oder lasse sie weg. Auch wenn es den Post weniger überzeugend macht.
Erfolgskriterien möglichst vorher festlegen. Wenn ich eine These aufstelle, versuche ich vorher zu definieren: Wann gilt sie als bestätigt, wann als widerlegt? Das verhindert, dass ich mir die Ergebnisse im Nachhinein passend zurechtlege. Ehrlich: Das gelingt mir bei etwa 40% der Thesen. Bei den anderen entsteht die These spontan aus einer Analyse. Ich arbeite daran, die Quote zu erhöhen, weil der Unterschied in der Qualität spürbar ist.
Automatische Qualitätsmessung. Das System prüft seine eigenen Ausgaben über definierte Regeln (aktuell über 60 für verschiedene Ausgabetypen). Wenn eine Regel nicht bestanden wird, passt das System seinen Prozess an. 17 Verbesserungszyklen sind definiert, davon 15 aktiv. Das klingt beeindruckend, ist aber im Grunde simples Handwerk: messen, Fehler finden, besser machen, wiederholen.

Was geht bei der KI Faktenprüfung schief? Und was ich nicht weiß
Transparenz bedeutet auch: über Fehler und blinde Flecken reden.
Wie groß ist das Halluzinations-Problem wirklich? Hier die Zahlen, eigene und fremde:
Eine peer-reviewed Studie im Journal Cureus hat gemessen, dass bis zu 47% der Referenzen in KI-generierten Recherchen halluziniert sind. Erfundene Autoren, nicht existierende Studien, falsche Zuordnungen (Cureus, ABER medizinischer Kontext, Chat GPT 3.5 und 2023! https://pmc.ncbi.nlm.nih.gov/articles/PMC10277170/). Andere Studien kommen auf ganz andere Zahlen (19%, 56%, 91%), je nach Modell, Prompt, Domäne und Messmethodik. Und genau das erlebe ich bei meinen Studien- und Paper-Auswertungen ständig: Studien sind schwer miteinander zu vergleichen. Eine Zahl isoliert zu zitieren ist bequem, aber fast immer irreführend. Ich habe es zu Beginn im Bild auch gemacht.
Meine eigene Messung über einen Monat: 20-30% der Quellenangaben in KI-Recherche-Outputs sind fehlerhaft. Zahlen erfunden, Autoren durcheinandergebracht, Studien die nicht existieren. Interessant dabei: Die Kernaussagen sind meist trotzdem korrekt. Die KI "weiß" oft das Richtige, erfindet aber die Quelle dazu.
Nach meiner mehrstufigen Verifikation bleiben 8,7% widerlegte Einträge übrig (51 von 585), plus 13,5% noch gar nicht geprüft (79 Einträge auf Stufe raw). Die Prüfung drückt die Fehlerrate also von geschätzt 20-30% auf 8,7% widerlegte Einträge. Plus 13,5% die noch in der Warteschlange stehen. Besser, aber nicht gut genug, um blind zu vertrauen.
Mindestens 51 Datenpunkte mussten als widerlegt markiert werden. Die häufigsten Fehlertypen:
KI-Sprachmodelle erfinden Quellen-URLs. Die Studien-Kennung stimmt manchmal, der Link dahinter nicht.
Zahlen werden korrekt zitiert, aber aus dem Kontext gerissen. Eine Befragung unter 132 IT-Leitenden wird als "Nutzerbefragung" dargestellt, obwohl keine Endnutzenden befragt wurden.
Mehrere Recherchen zum gleichen Thema liefern widersprüchliche Zahlen, weil sie unterschiedliche Originalquellen verwenden.
Bei einem systematischen Audit Anfang April 2026 waren nach 4+ Suchversuchen einzelne Studien schlicht nicht auffindbar. Wahrscheinlich komplett erfunden.
Die Verifikation hilft also nachweislich (von ~30% auf ~9%), aber sie eliminiert das Problem nicht. Und 79 Einträge warten noch auf ihre Prüfung. Genau dafür ist unter anderem das Data Drop Experiment gedacht.

Die blinden Flecken, die ich nicht verschweigen will:
Das System nutzt KI, um die Ergebnisse von KI zu prüfen. Wenn beide Modelle auf ähnlichen Trainingsdaten basieren, bestätigen sie möglicherweise dieselben Fehler, statt sie zu finden. Bei frei zugänglichen Quellen (wie dem Gartner-Report) funktioniert die Gegenkontrolle gut. Bei Quellen hinter Bezahlschranken ist sie strukturell schwächer.
Die Qualitätsbewertung meiner Recherchen (4,5 von 5) ist intern und nicht unabhängig validiert. Das System bewertet sich teilweise selbst. Ich arbeite daran, das zu ergänzen, aber Stand heute ist es eine Einschränkung.
Die Fehlerquote sinkt mit jeder Iteration. Aber sie wird nie Null erreichen. Das ist kein Makel, sondern der Grund für das folgende Experiment.
Was ist das Experiment "Data Drop"?
⚡ 10 LinkedIn-Posts, nahezu vollständig von KI erstellt, mit echten Studien und Daten. Öffentlich dokumentiert, öffentlich korrigiert.
Ab Montag, dem 7. April 2026 poste ich auf meinem LinkedIn-Profil 10 datengetriebene Beiträge. Der Ablauf: Ich wähle ein Thema und gebe etwas Kontext. Mein KI-System sammelt die Fakten, Studien und Zahlen aus der Datenbank, formuliert eine These und schreibt den Post und passe Kleinigkeiten via Prompt an. Dann kopiere und veröffentliche ich den Text auf LinkedIn. Ich überprüfe extra NICHT die Daten und Fakten!
Jeder Post folgt demselben Muster:
Echte Studien, Daten, Fakten zu einem Thema (nur geprüfte oder plausible Einträge aus dem System)
Inkl. KI Interpretation und Thesen
Immer mit Disclaimer im Post: KI-gestützt erstellt, Einladung zur Korrektur
Quellen im ersten Kommentar (nachschlagbar)
Nach der Veröffentlichung prüfe ich die Angaben nochmal manuell. Und wer will, kann das auch: Die Quellen stehen im Kommentar. Wenn ich oder jemand aus der Community einen Fehler oder eine Inkonsistenz findet, wird das transparent im Kommentar gepostet. Kein stilles Korrigieren, kein Löschen.
Nach den 10 Posts werte ich aus: Wie viele Fehler und Inkonsistenzen waren trotz des mehrstufigen Prüfprozesses drin? Selbst wenn keine Kommentare kommen, heißt das natürlich nicht, dass alles stimmt. Ich entdecke auch nach der x-ten Prüfschleife noch Fehler.
Warum mache ich das?
Erstens: Echte Daten sind interessant, auch wenn sie widersprüchlich sind. Die meisten Studien zu Copilot, KI-Produktivität oder Digitalisierung widersprechen sich. US-Kontext vs. DACH, Survey vs. Messung, 2023 vs. 2026. Man kann sie nicht 1:1 vergleichen. Aber eine Sammlung der wichtigsten Datenpunkte mit Einordnung und Quellenangabe ist trotzdem wertvoller als "Laut einer Studie..." ohne Beleg.
Zweitens: Sie begleiten ein echtes KI-Experiment. Nicht "wir haben KI getestet und es war toll", sondern ein laufendes Experiment mit offenen Fragen, ehrlichen Fehlern und einer Auswertung am Ende. Wie gut funktioniert ein selbst aufgebautes KI-Wissenssystem wirklich? Das sehen Sie in Echtzeit.
Drittens, ganz ehrlich: Ich spare mir das mühsame manuelle Zusammensuchen. Das händische Recherchieren, Abgleichen und Prüfen von Zahlen kostet Stunden pro Post. Mein System nimmt mir einen großen Teil davon ab. Nicht alles (die finale Prüfung bleibt meist doch bei mir), aber genug, um regelmäßig datengetriebenen Content zu veröffentlichen, der sonst nicht machbar wäre.
Die vollständige Auswertung nach #DataDrop 10 wird hier auf dem Blog veröffentlicht. Mit allen Zahlen. Auch den unangenehmen.
Warum ist das relevant?
Dieses Experiment ist nach meiner Kenntnis einmalig im DACH-Raum. Nicht weil das System besonders ausgereift wäre (mindestens 9% Fehlerquote ist kein Grund zum Feiern), sondern weil die Transparenz darüber fehlt.
Jeder redet über KI-gestützte Prozesse. Kaum jemand zeigt die Fehler. Kaum jemand misst die Qualität. Und kaum jemand lädt die Community ein, Korrekturen beizutragen.

Ist dieses Experiment selbst ein Stück weit Positionierung? Natürlich. "Ich zeige meine Fehler" ist auch ein Vertrauenssignal, und ich bin mir bewusst, dass das eine Marketing-Komponente hat. Aber die Alternative wäre, die Zahlen ohne Disclaimer zu posten und so zu tun, als wären sie unfehlbar. Ich halte die transparente Variante für ehrlicher.
KI und Agenten verändern sich mit jedem Modell-Update. Was heute funktioniert, kann morgen obsolet sein. In diesem Umfeld sind praktische Erfahrungen, offen geteilt und ehrlich ausgewertet, wertvoller als jede Zertifizierung.
10 Drops, offene "Bücher", öffentliche Korrekturen. Mal sehen was passiert.
Marcus Machon berät Mittelständler bei Microsoft 365 Governance und KI-Readiness.


