top of page

KI Faktenprüfung: Wie ein automatisches System Zahlen verifiziert, bevor sie in Ihrem Feed landen

  • Autorenbild: Marcus Machon
    Marcus Machon
  • 4. Apr.
  • 11 Min. Lesezeit

Aktualisiert: 4. Juni

Auf LinkedIn kursieren ständig Zahlen zu Microsoft Copilot, KI-Produktivität und Digitalisierung. Die wenigsten sind geprüft. Dieser Beitrag zeigt, wie ich ein eigenes System für KI Faktenprüfung und KI-Wissensmanagement gebaut habe, das Zahlen automatisch verifiziert, wo es scheitert, und was Sie als Lesende davon haben. Inklusive Fehlerquote, blinder Flecken und der ehrlichen Frage, ob das reicht.

Eine Vorbemerkung in eigener Sache: Dieser Beitrag ist KI-gestützt entstanden, genau wie der Prozess, den er beschreibt. Die Recherche, die Struktur und ein Teil der Formulierungen kommen aus meinem System. Die Einordnung, die Korrekturen und die Verantwortung bleiben bei mir.

Was haben Sie davon?

⚡ Sie bekommen einen ungeschönten Blick in ein laufendes KI-Wissenssystem: wie es Zahlen prüft, wie gut das funktioniert, und wo es nach zwei Monaten Betrieb besser geworden ist. Kein Hochglanz, sondern Mechanik mit echten Kennzahlen.

Wenn Sie als IT-Leitung oder Geschäftsführung Entscheidungen zu Microsoft 365, Copilot oder KI-Strategie treffen, kennen Sie das Problem: Jeder hat Zahlen. "Eine aktuelle Studie zeigt..." steht in jedem zweiten LinkedIn-Post. Aber welche Studie? Wie groß war die Stichprobe? Wer hat sie bezahlt?

Mein Ziel ist es, datenbasierte Entscheidungen auf etwas Belastbareres zu stellen als ein Bauchgefühl. Datenpunkte, bei denen Sie die Quelle nachschlagen, die Methodik prüfen und mir widersprechen können, wenn etwas nicht stimmt. Kein "Trust me", sondern "Check me". Funktioniert das schon perfekt? Nein. Aber es wird messbar besser, und genau diese Entwicklung zeige ich hier offen.

Warum braucht ein Berater ein eigenes Wissenssystem?

Wer Unternehmen zu Microsoft 365, Copilot oder KI-Strategie berät, braucht belastbare Zahlen. Nicht Bauchgefühl, sondern verifizierte Datenpunkte mit Quelle, Methodik und Einschränkungen.

Das Problem: KI-Sprachmodelle wie ChatGPT oder Claude erfinden systematisch Quellen. Falsche Zahlen, nicht existierende Studien, verdrehte Zusammenhänge. Ein konkretes Beispiel aus meinem eigenen System: Die Behauptung "57% der Copilot-Nutzenden sehen keinen Mehrwert" tauchte in einer KI-Recherche auf und landete in meiner Datenbank. Bei der Prüfung gegen die Originalquelle (Gartner-Report, Max Goss, 2024, https://www.gartner.com/en/documents/5659223) stellte sich heraus: Der korrekte Satz lautet "57% berichten, dass das Engagement nach der Einführung schnell sinkt." Das klingt ähnlich, misst aber etwas anderes. Ohne die Gegenkontrolle hätte ich die falsche Version weiterverbreitet, vermutlich mit Brustton der Überzeugung.

Wer mit KI recherchiert und die Ergebnisse nicht prüft, verbreitet mit hoher Wahrscheinlichkeit Fehler. Also habe ich ein System gebaut, das genau das abfängt, oder es zumindest versucht.

Wie ist das entstanden?

⚡ Ein Solo-Berater, Open-Source-Tools, KI als Entwicklungspartner, wenige Wochen bis zur ersten Version, seither Dauerbetrieb. Kein Budget, kein Team, kein Vendor.

Ich habe das System allein gebaut. Konzeption, Architektur, Umsetzung. Mein Entwicklungspartner war KI selbst: Claude Code als Programmier-Assistent, Claude mit Deep Research für die Recherchen, spezialisierte Skills und Agenten für die Verifikation. Die gesamte Infrastruktur läuft auf einem einzelnen Linux-Server mit Open-Source-Software. Keine Enterprise-Lizenzen, keine Cloud-Plattform mit fünfstelligem Monatspreis.

Von der ersten Zeile Code bis zur ersten brauchbaren Version hat es wenige Wochen gedauert. Viel harte Arbeit, viele Abende, viele Sackgassen. Inzwischen läuft das Ganze seit März 2026 im Dauerbetrieb. Einzelne Fehler sind immer noch drin, aber im Großen und Ganzen spüre und messe ich Verbesserungen.

Was ich dabei gelernt habe: Es ist nicht "ein Prompt und es funktioniert". Das System erfordert ständige Verbesserung. Lücken erkennen, Fehlertypen verstehen, Prozesse anpassen, neue Prüfregeln einführen, alte Annahmen hinterfragen. Klassischer kontinuierlicher Verbesserungsprozess, nur eben mit KI statt mit Fließbandoptimierung. Wer Ihnen erzählt, man könne so ein System einmal aufsetzen und dann läuft es, verkauft Ihnen etwas. Wie so eine Architektur im Detail aussieht, habe ich an anderer Stelle aufgeschrieben: Was ist ein Agentensystem?

Meine KI-Wissensmanagement App. Fun Fact: ich habe fast alle Buttons für mich als Mensch wieder entfernt. Ich nutze meist nur noch einen Button 'An Claude / KI übergeben'...

Wie funktioniert die KI Faktenprüfung?

⚡ Jede Zahl durchläuft mehrere Stufen, bevor sie in einem Beitrag verwendet werden darf. Der Prozess läuft größtenteils automatisch im Hintergrund, über Tage und Wochen.

Stufe 1: Recherche. Ich gebe einem KI-Sprachmodell (aktuell Claude mit Deep Research) eine präzise Forschungsfrage. Nicht "Was weißt du über Copilot?", sondern: "Wie hoch ist die Aktivierungsrate von Copilot im Vergleich zu ChatGPT, basierend auf Studien ab 2024, mit Stichprobengröße und Methodik?" Je präziser die Frage, desto besser das Ergebnis. Aus rund 230 solcher Recherchen ist der heutige Datenbestand gewachsen.

Stufe 2: Datenbank-Aufnahme mit Reifegraden. Konkrete Zahlen werden in eine strukturierte Datenbank übernommen. Jeder Eintrag bekommt einen Reifegrad, der genau beschreibt, was geprüft wurde und wer es geprüft hat. So sieht die Verteilung heute aus (Stand 2. Juni 2026, 1.223 Datenpunkte):

  • Ungeprüft (raw) (0,1%, 1 Eintrag): Aus KI-Recherche übernommen, noch nichts verifiziert. Nicht zitieren.

  • Existenz geprüft (existence_checked) (10,1%, 124 Einträge): Quelle existiert, URL oder DOI funktioniert. Allgemein referenzierbar, aber ohne belegte Zahl.

  • Zahl belegt (content_matched) (67,4%, 824 Einträge): Zahl wurde 1:1 in der Primärquelle gefunden. Mit Einschränkung zitierbar.

  • Zitierfähig (citation_ready) (15,8%, 193 Einträge): Plus Primärquellen-Zitat hinterlegt und von mir persönlich freigegeben. Einzige Stufe für öffentliche Posts ohne Einschränkung.

  • Widerlegt (debunked) (6,6%, 81 Einträge): Falsch, ungenau oder zurückgezogen.

Ein interessantes Detail am Rande: Zwischen "Zahl belegt" und "zitierfähig" kennt das Modell noch eine feinere Zwischenstufe, in der Methodik und Stichprobe gesondert dokumentiert werden. Diese Stufe ist aktuell nicht gefüllt; in der Praxis gehen die Einträge direkt von "Zahl belegt" in meine finale Freigabe. Ob das eine bewusste Verschlankung ist oder eine Stelle, an der ich noch genauer hinschauen muss, lasse ich hier offen. Solche offenen Punkte verschweige ich lieber nicht.

Nur 15,8% sind ohne Einschränkung zitierfähig (193 von 1.223). Das klingt wenig, ist aber Absicht: Diese Stufe verlangt, dass ich die Primärquelle persönlich geöffnet, die Zahl im Wortlaut gelesen und das Zitat mit einer Datenbank-Sperre abgesichert habe. Im April waren es übrigens erst 3,8%. Der Bestand an sauber belegten Zahlen ist seither schlicht gewachsen, von 22 auf 193 Einträge.

Zur Einordnung, weil es mir wichtig ist: Im April standen noch 79 Einträge (13,5%) komplett ungeprüft in der Warteschlange. Heute ist genau ein einziger übrig. Dieser Stapel ist abgearbeitet, und das war eine der mühsamsten Strecken.

Stufe 3: Gegenkontrolle. Spezialisierte Software-Agenten, also kleine KI-Programme, die gezielt eine Aufgabe erledigen, prüfen die Originalquellen: Existiert die Studie? Stimmt die Zahl? Passt die Methodik zur Behauptung? Beim 57%-Beispiel oben hat dieser Schritt den Fehler aufgedeckt, indem der Agent das originale Gartner-Dokument lokalisierte und den tatsächlichen Wortlaut abglich.

Infografik des dreistufigen Verifikationsprozesses: 230 Deep Researches werden zu 1.223 geprüften Datenpunkten, von denen 15,8 Prozent ohne Einschränkung zitierfähig sind.
Der Weg einer Zahl durch die drei Stufen, vom KI-Rechercheoutput bis zur freigegebenen Quelle.

Was steckt aktuell im System?

Das System wächst seit März 2026. Aktueller Stand (2. Juni 2026):

  • 1.223 Datenpunkte aus gut 1.000 referenzierten Quellen, zusammengetragen aus etwa 230 "Deep Researches"

  • 1.724 Erkenntnisse (Schlussfolgerungen aus eigenen Daten, Meinungen, Hypothesen, Muster)

  • Mindestens 81 widerlegte Einträge (6,6% erkannte Fehlerquote)

In zwei Monaten hat sich der Datenbestand mehr als verdoppelt, und die erkannte Fehlerquote ist dabei sogar leicht gesunken, von 8,7% auf 6,6%. Ich schreibe trotzdem bewusst "mindestens", weil die 6,6% nur die erkannten Fehler sind. Ein Eintrag, den das System als "geprüft" einstuft, kann trotzdem falsch sein, wenn die Originalquelle selbst fehlerhaft ist oder der Prüf-Agent die falsche Stelle gelesen hat. Die tatsächliche Fehlerquote kennen wir nicht. Das gehört zur Ehrlichkeit dazu.

"AI is weird." - Ethan Mollick, Professor an der Wharton School of Business.

Niemand hat jahrzehntelange Erfahrung mit Systemen aus vielen zusammenarbeitenden KI-Agenten. Jedes Modell-Update kann alles auf den Kopf stellen. In diesem Umfeld sind echte praktische Erfahrungen wertvoller als Zertifizierungen oder Frameworks, die auf Hörensagen basieren.

Eigene App zur Überwachung des Wissensmanagements und der automatischen Verbesserungen der Fähigkeiten

Welche Prinzipien stecken dahinter?

⚡ Mehrere Prinzipien, angelehnt an wissenschaftliche Methodik. Keine akademische Forschung, aber ein strukturierter Versuch, die Qualität systematisch zu verbessern.

Jede Zahl bekommt einen Reifegrad. Das ist der Kern des Systems und funktioniert zuverlässig. In öffentlichen Posts verwende ich bevorzugt "citation_ready", alternativ "content_matched" mit expliziter Quellenangabe. Wenn eine Zahl nur "existence_checked" oder "raw" ist, sage ich das oder lasse sie weg. Auch wenn es den Post weniger überzeugend macht.

Erfolgskriterien möglichst vorher festlegen. Wenn ich eine These aufstelle, versuche ich vorher zu definieren: Wann gilt sie als bestätigt, wann als widerlegt? Das verhindert, dass ich mir die Ergebnisse im Nachhinein passend zurechtlege. Ehrlich: Das gelingt mir bei etwa 40% der Thesen. Bei den anderen entsteht die These spontan aus einer Analyse. Ich arbeite daran, die Quote zu erhöhen, weil der Unterschied in der Qualität spürbar ist.

Automatische Qualitätsmessung. Das System prüft seine eigenen Ausgaben über definierte Regeln. Wenn eine Regel nicht bestanden wird, passt es seinen Prozess an. Das klingt beeindruckend, ist aber im Grunde simples Handwerk: messen, Fehler finden, besser machen, wiederholen.

Die Datenbasis ist das eigentliche Fundament

Das Wissenssystem ist längst nicht mehr nur für Blogposts da. Dieselbe geprüfte Datenbasis speist inzwischen einen großen Teil meiner Arbeit: Zahlen für LinkedIn-Beiträge, Belege für Konzepte und Projektskizzen, Substanz für Angebote und Akquise-Anschreiben, Bausteine für Präsentationen und Lebensläufe, sogar die Vorbereitung von Vertriebsgesprächen. Auch Lead-Recherchen laufen über denselben Apparat. Der Aufwand, eine Zahl einmal sauber zu prüfen, zahlt sich damit immer wieder aus, jedes Mal, wenn sie irgendwo erneut gebraucht wird.

Das ist der eigentliche Punkt, wichtiger als jede einzelne Prozentzahl in diesem Beitrag: Die Architektur und das systematische Sammeln strukturierter Daten sind das Fundament. Nicht das schicke Frontend, nicht der eine clevere Prompt. Und dieses Fundament entsteht nur mit einem integrierten System, in dem Recherche, Prüfung, Speicherung und Wiederverwendung zusammenhängen, statt in fünf getrennten Tools nebeneinanderher zu laufen. Wie dieses System bei mir technisch aufgebaut ist, von den Schichten über die Datenbank bis zu den spezialisierten Agenten, habe ich in einem laufend gepflegten technischen Steckbrief offengelegt.

Was ich Mittelständlern dazu sage: Dass so ein System Arbeit macht, darf kein Grund sein, nicht anzufangen. Eher das Gegenteil. Eine Mittelstands-Befragung nennt fehlendes Wissen als größtes Hindernis für KI-Projekte, mit 71 Prozent noch vor Budget und Technik (BVMW, 2025). Genau dieses Wissen baut ein solches System Stück für Stück auf, statt es verfallen zu lassen. Jeder Monat, den Sie warten, ist ein Monat voller Entscheidungen, Erfahrungen und Daten, die ungenutzt verfallen. Eine Zahl, die in einer PowerPoint oder einem Word-Dokument auf irgendeinem Laufwerk liegt, schaut so gut wie nie wieder jemand an. Dieselbe Zahl, sauber in einem System abgelegt, arbeitet weiter.

Obsidian-Graphansicht des vernetzten Wissensvaults mit hunderten verknüpften Notizen und Datenpunkten.
Das vernetzte Wissen hinter den Zahlen: jeder Knoten eine Notiz oder ein Datenpunkt, jede Linie eine Verknüpfung.

Was geht bei der KI Faktenprüfung schief?

Transparenz bedeutet auch, über Fehler und blinde Flecken zu reden. Eine ehrliche KI Faktenprüfung steht und fällt damit, die eigenen Grenzen offen zu benennen.

Wie groß ist das Problem der KI-Halluzination eigentlich? Eine ehrliche Antwort lautet: Es kommt darauf an, und niemand hat eine saubere Zahl für die neuesten Modelle. Aussagekräftig ist eine Untersuchung der Stanford University aus 2025: Selbst spezialisierte juristische KI-Werkzeuge, die mit angeschlossener Quellendatenbank arbeiten (also dem, was eigentlich gegen Halluzinationen helfen soll), erfinden oder verdrehen noch in 17 bis 33 Prozent der Fälle Inhalte (Magesh et al., 2025). Reine Chatbots ohne Quellenanbindung lagen in derselben Studie deutlich höher. Anbindung an echte Quellen hilft also messbar, beseitigt das Problem aber nicht.

Andere Studien kommen je nach Modell, Aufgabe und Messmethodik auf ganz andere Werte, von einstelligen Prozentsätzen bis über 50%. Eine ältere medizinische Untersuchung etwa zählte bei einem damaligen Modell fast jede zweite erfundene Quellenangabe. Eine einzelne Halluzinations-Zahl isoliert zu zitieren ist bequem, aber fast immer irreführend. Für die allerneueste Generation an Modellen, mit der ich täglich arbeite, gibt es Stand Mitte 2026 noch kaum unabhängige, geprüfte Zahlen dazu, wie oft sie Quellen erfinden. Auch deshalb messe ich lieber selbst.

Meine eigene Messung über mehrere Monate: 20 bis 30 Prozent der Quellenangaben in KI-Recherche-Outputs sind fehlerhaft. Zahlen erfunden, Autoren durcheinandergebracht, Studien, die nicht existieren. Interessant dabei: Die Kernaussagen sind oft trotzdem korrekt. Die KI "weiß" häufig das Richtige, erfindet aber die Quelle dazu.

Nach meiner mehrstufigen Verifikation bleiben 6,6% widerlegte Einträge übrig (81 von 1.223). Vorsicht beim Vergleich: Die 20 bis 30 Prozent messen die rohen KI-Ausgaben, die 6,6 Prozent den fertig geprüften Bestand. Das sind zwei verschiedene Messpunkte, kein sauberer Vorher-Nachher-Wert. Die Richtung stimmt, eine exakte Reduktionszahl wäre Augenwischerei.

Die häufigsten Fehlertypen:

  • KI-Sprachmodelle erfinden Quellen-URLs. Die Studien-Kennung stimmt manchmal, der Link dahinter nicht.

  • Zahlen werden korrekt zitiert, aber aus dem Kontext gerissen. Eine Befragung unter 132 IT-Leitenden wird als "Nutzerbefragung" dargestellt, obwohl keine Endnutzenden befragt wurden.

  • Mehrere Recherchen zum gleichen Thema liefern widersprüchliche Zahlen, weil sie unterschiedliche Originalquellen verwenden.

  • Bei systematischen Audits waren nach mehreren Suchversuchen einzelne Studien schlicht nicht auffindbar. Wahrscheinlich komplett erfunden.

Die blinden Flecken, die ich nicht verschweigen will:

Das System nutzt KI, um die Ergebnisse von KI zu prüfen. Wenn beide Modelle auf ähnlichen Trainingsdaten basieren, bestätigen sie möglicherweise dieselben Fehler, statt sie zu finden. Bei frei zugänglichen Quellen wie dem Gartner-Report funktioniert die Gegenkontrolle gut. Bei Quellen hinter Bezahlschranken ist sie strukturell schwächer.

Ein weiterer Effekt, der mich nachdenklich macht: Aktuelle, noch vorläufige Forschung deutet darauf hin, dass die neuen, stärker "denkenden" Modelle nicht automatisch ehrlicher werden. Mehr Schlussfolgern kann die Leistung steigern und gleichzeitig die Neigung erhöhen, Dinge plausibel zu erfinden. Bessere Modelle lösen das Problem also nicht von selbst. Sie verschieben es.

Was nachweislich hilft, sind genau solche Gegenkontrollen. Wenn ein Modell seine eigenen Aussagen noch einmal gezielt gegenprüft (Chain-of-Verification, Dhuliawala et al., 2024), sinken Halluzinationen messbar. Noch wirksamer wird es, wenn mehrere verschiedenartige KI-Instanzen unabhängig prüfen und nur übereinstimmende Ergebnisse durchgehen: Ein adversariales Trio aus Skeptiker, Rechercheur und Richter übertrifft Einzelmodelle quer über vier Faktenbenchmarks (Yao et al., 2026), und schon ein kleiner Verbund aus zwei unterschiedlichen Modellen schlägt deutlich größere, gleichförmige Setups (Yang et al., 2026). In Summe drücken solche Verfahren die Fehlerquote in Studien um ein Drittel bis deutlich über die Hälfte. Genau dieses Prinzip steckt in Stufe 3 meines Prozesses, mit mehreren spezialisierten Prüf-Agenten. Es macht die Verifikation besser, nicht perfekt.

Die Fehlerquote sinkt mit jeder Iteration. Aber sie wird nie null erreichen. Das ist kein Makel. Es ist genau der Grund, warum ich diesen Prozess offen dokumentiere, statt fertige Wahrheiten zu verkaufen. Wo dieselbe Methodik im Tagesgeschäft an Grenzen stößt, habe ich hier zusammengetragen: Multi-Agent-System Schwächen: 5 Anfänger-Fehler und 5 belegte Risiken.

Vom System zum Feed: der öffentliche Test

⚡ Theorie ist billig. Also habe ich den Prozess öffentlich laufen lassen, mit echten Daten aus dem System, sichtbarem Disclaimer und Einladung zur Korrektur.

Ein Wissenssystem, das nur intern läuft, prüft sich am Ende selbst. Deshalb habe ich angefangen, einzelne Auswertungen direkt auf LinkedIn zu posten, unter dem Stichwort Data Drop. Die Themen bisher: das Copilot-Paradox in Zahlen, KI und Empathie, wo Deutschland bei KI wirklich steht, und die Frage, ob Ermutigung durch Führungskräfte mehr bewirkt als Druck.

Jeder dieser Posts folgt demselben Muster: echte Datenpunkte aus dem System, eine klar als Meinung gekennzeichnete Interpretation, ein Disclaimer, dass KI im Spiel war, und die Quellen zum Nachschlagen. Bei einigen habe ich bewusst darauf verzichtet, vor der Veröffentlichung jede Zahl noch einmal von Hand zu prüfen. Genau das war der Test: Wie weit trägt der automatische Prozess allein?

Was ich daraus gelernt habe, ist unspektakulärer, als ich gehofft hatte. Erstens: Die Disziplin im System ist wichtiger als der öffentliche Auftritt. Zweitens: Korrekturen aus der Community sind selten. Wer einen Fehler findet, schreibt ihn meist nicht in die Kommentare. Die Kontrolle bleibt am Ende doch bei mir. Drittens, und das ist der ehrlichste Teil: Ein laufender Betrieb frisst die schöne Idee einer langen, getakteten Serie. Aus dem geplanten Countdown wurden ein paar gezielte Stichproben, und im Zweifel hat die Arbeit am System Vorrang vor der Show drumherum.

Einblick in das komplette KI-System hinter den Auswertungen.

Warum ist das relevant?

Diese Art, ein eigenes Wissenssystem offen zu dokumentieren, ist nach meiner Kenntnis im DACH-Raum selten. Nicht weil das System besonders ausgereift wäre, mindestens 6,6% Fehlerquote sind kein Grund zum Feiern, sondern weil die Transparenz darüber meistens fehlt.

Jeder redet über KI-gestützte Prozesse. Kaum jemand zeigt die Fehler. Kaum jemand misst die Qualität. Und kaum jemand schreibt hin, welche Stufe einer Aussage er gerade wirklich zutraut.

Was heißt das für Sie als Entscheiderin oder Entscheider? Nehmen Sie das 57-Prozent-Beispiel von oben. Wer die falsche Lesart ("sehen keinen Mehrwert") in eine Copilot-Rollout-Entscheidung einbaut, stoppt womöglich ein Projekt, das in Wahrheit nur ein Adoptionsproblem hatte und mit Schulung lösbar gewesen wäre. Eine einzige unsauber geprüfte Zahl kann so über Budget, Rollout oder eine Governance-Regel falsch entscheiden. Wenn auf einer Zahl eine echte Entscheidung steht, zählt deshalb weniger, welche Studie Sie zitieren, als wie tief sie geprüft ist. Einen Reflex können Sie sofort mitnehmen: Fragen Sie bei jeder KI-Zahl drei Dinge, bevor Sie darauf bauen, woher sie stammt, wie sie geprüft wurde und wie groß die Stichprobe war. Genau das ist auch der Kern eines KI-Readiness-Gesprächs: herauszufinden, welchen Zahlen Sie Ihre Budgets überhaupt anvertrauen können.

Ist das auch ein Stück Positionierung? Natürlich. "Ich zeige meine Fehler" ist ebenfalls ein Vertrauenssignal, und mir ist die Marketing-Komponente bewusst. Aber die Alternative wäre, Zahlen ohne Disclaimer zu posten und so zu tun, als wären sie unfehlbar. Ich halte die transparente Variante für ehrlicher, gerade gegenüber Entscheiderinnen und Entscheidern, die auf solchen Zahlen Budgets und KI-Readiness-Programme verplanen.

Wie aus geprüften Daten am Ende eine konkrete Entscheidung wird, habe ich an einem Praxisfall durchgespielt: Datenbasierte Entscheidungen mit KI. KI und Agenten verschieben sich mit jedem Modell-Update. Genau deshalb dokumentiere ich lieber einen ehrlichen Zwischenstand, als eine Gewissheit zu behaupten, die es nicht gibt.

Offene Bücher, sichtbare Fehlerquote, nachschlagbare Quellen. Mal sehen, wie weit das trägt.

Über den Autor: Marcus Machon berät mittelständische Unternehmen bei Microsoft 365 Governance, SharePoint-/Teams-Struktur, Power-Platform-Automatisierung und Copilot-/KI-Readiness.

Quellen

  1. Magesh, V.; Surani, F.; Dahl, M.; Suzgun, M. et al. (2025): Hallucination-Free? Assessing the Reliability of Leading AI Legal Research Tools. Journal of Empirical Legal Studies. https://onlinelibrary.wiley.com/doi/10.1111/jels.12413

  2. Yao, Tang, Yang, Cheng et al. (2026): MAVEN - Multi-Agent Verification-Elaboration Network. https://arxiv.org/abs/2605.07646

  3. Yang, Qu, Wen et al. (2026): Heterogeneity over Hierarchy - 2 diverse Agents match 16 homogeneous. https://arxiv.org/abs/2602.03794

  4. Dhuliawala, S.; Komeili, M. et al. (2024): Chain-of-Verification Reduces Hallucination in Large Language Models. ACL Findings 2024.

  5. Wu, S.; Li, X. et al. (2026): Multi-Agent-Konsens zur Reduktion von LLM-Halluzinationen.

  6. BVMW / TH Aschaffenburg (2025): KI-Readiness im Mittelstand - 71% nennen fehlendes Wissen als Haupthindernis. https://www.bvmw.de/de/frankfurt-am-main/internet-und-digitalisierung/news/ki-readiness-im-mittelstand-grosse-luecke-zwischen-potenzial-und-realitaet

bottom of page