Mit KI-Agenten arbeiten: wohin der Engpass wirklich wandert

Marcus Machon
10. Juni
13 Min. Lesezeit

Vergangene Woche landete ein Vortrag in meiner Ablage: Ein Partner von Y Combinator, dem bekanntesten Startup-Förderer des Silicon Valley, beschreibt darin, wie ein Unternehmen künftig aussieht. Nicht als Organigramm mit Abteilungen, sondern als eine Reihe sich selbst verbessernder KI-Schleifen. Mittleres Management verschwinde, Software werde zur Wegwerfware, skaliert werde über Rechenleistung statt über Personal. Ich habe den Talk zu Ende gehört und dann auf meinen eigenen Bildschirm geschaut. Denn genau so etwas betreibe ich seit Monaten - als Einzelner, mit einem Multi-Agent-System aus mehreren KI-Agenten, das nachts weiterarbeitet, sich selbst Werkzeuge baut und morgens einen Bericht hinterlegt.

Die Richtung, die diese Stimmen beschreiben, stimmt aus meiner Sicht. Was die meisten dieser Vorträge aber unterschlagen: Der Engpass verschwindet nicht. Er wandert. Weg vom Tun, hin zum Urteil. Wer "AI-first" als "Mensch raus" liest, baut sich ein teures Problem. Wer es als "Mensch an die knappe, richtige Stelle" liest, baut sich einen Vorsprung. Und wenn eine einzelne Person so ein System stemmt, ist die Eintrittshürde niedriger, als die Milliarden-Budgets der großen KI-Firmen vermuten lassen. Die zwei Hebel, auf die es am Ende ankommt, nenne ich gleich vorweg: lesbare Daten und ein verlässlicher Prüfschritt.

Dieser Beitrag sortiert sechs große Thesen darüber, wie wir künftig mit KI-Agenten arbeiten - die Frage hinter jeder Diskussion zur Zukunft der Arbeit. Zu jeder stelle ich, was die großen KI-Firmen und ihre bekanntesten Köpfe sagen, daneben, was ich in der eigenen Praxis erlebe, und dazu die ehrliche Grenze, die selten mitgeliefert wird. Technik-Vorwissen brauchen Sie dafür keines. Es geht um die Frage, wie Ihr Arbeitstag in wenigen Jahren aussieht - und wer dann worüber entscheidet.

Was Sie mitnehmen:

Wo die populäre AI-first-Erzählung trifft und wo sie kippt.
Welche menschliche Rolle wirklich knapp wird (es ist nicht die, die Sie vermuten).
Was davon heute schon im Mittelstand trägt und was Demo bleibt.

Hinweis zu den Quellen: Dieser Beitrag entstand mit Unterstützung meines eigenen KI-Systems - geschrieben mit Claude Fable 5, dem am 9. Juni 2026 erschienenen neuen Anthropic-Spitzenmodell der Mythos-Klasse; die Einordnung ist meine. Ich trenne im Text bewusst zwischen Meinung/Erfahrung (Vorträge, Interviews, mein eigener Betrieb) und belegten Befunden (Studien, Messungen). Vortragszahlen sind Aussagen der jeweiligen Person, kein geprüftes Faktum. Wo ich eine Zahl nicht selbst gegen die Primärquelle gehalten habe, schreibe ich das dazu. Dass hier so viele Vorträge neben Studien stehen, ist übrigens Absicht: Die Forschung kommt beim Tempo dieser Entwicklung nicht hinterher - eine Studie, die heute erscheint, hat meist Modelle und Arbeitsweisen von vorgestern gemessen. Wer wissen will, wohin es geht, muss den Leuten zuhören, die diese Systeme bauen und betreiben, und das Gehörte dann kritisch gegen Daten und eigene Praxis halten. Genau das versucht dieser Text.

Von Werkzeugen zu beaufsichtigten Schleifen

Die erste Verschiebung ist die grundlegendste. KI war zwei Jahre lang ein Werkzeug, das man in die Hand nimmt und wieder weglegt. Jetzt entstehen Schleifen: Ein Agent beobachtet, handelt, prüft, lernt und läuft weiter, auch wenn niemand zusieht. In besagtem YC-Talk wird das Unternehmen selbst als Bündel solcher Schleifen beschrieben (Meinung). Ein zweiter YC-Beitrag zeigt ein Kleinst-Startup, dessen interner Agent sich bei neuen Aufgaben selbst neue Werkzeuge programmiert (Erfahrungsbericht des Gründers).

Das sind keine Einzelstimmen vom Rand. Boris Cherny, der Schöpfer des KI-Programmierwerkzeugs Claude Code, erklärt in einem Vortrag, das klassische Programmieren sei für ihn "gelöst": Bei Anthropic schreibe das Modell praktisch den gesamten Code, Entwickler steuerten stattdessen Tausende autonomer Schleifen, teils vom Telefon aus (Erfahrungsbericht aus dem eigenen Haus, also zugleich Werbung in eigener Sache). Und Greg Brockman, Präsident von OpenAI, beschreibt, dass die firmeneigenen Programmier-Agenten Probleme inzwischen selbstständig an menschliche Manager eskalieren - so wie Mitarbeitende an ihre Vorgesetzten. Bemerkenswert dabei: Ausgerechnet OpenAI hält intern an einer unverhandelbaren Regel fest. Kein Agenten-Code geht ohne menschliche Abnahme in Produktion (Aussage Brockmans).

In meinem System ist das Alltag. Ein Beispiel: ein Lauf über acht Stunden, nachts, ohne mich. Am Morgen lag Arbeit vor, die ich nicht angestoßen hatte. Das fühlt sich nach Zukunft an, bis man genauer hinsieht.

Denn hier sitzt die erste Grenze. Sich selbst verbessernde KI ist als verlässlicher Automatismus bislang nicht nachgewiesen. Mehr noch: Lässt man Sprachmodelle sich ohne externes Korrektiv selbst "verbessern", sinkt ihre Verlässlichkeit messbar (in Experimenten mit älteren Modellen von 2024 um teils mehr als dreißig Prozent; wie stark es bei heutigen Modellen ausfällt, ist offen, die Richtung bleibt). Meine Schleifen laufen deshalb nie ohne Tor. Jeder nächtliche Lauf trifft auf eine zweite, unabhängige Prüfinstanz, bei mir ein getrenntes Modell, das gegenliest. Nicht die Schleife macht den Unterschied, sondern dieses Tor.

Für Verantwortliche: Autonome Schleifen sind ein Hebel, aber nur mit einem unabhängigen Prüfschritt. Ein Agent, der seine eigene Arbeit benotet, ist kein Fortschritt, sondern ein Risiko mit Zeitverzögerung.

Tokens statt Stellen, mit einem Sternchen

Das griffigste Schlagwort der Debatte lautet "burn tokens, not headcount". Tokens sind die Einheiten, in denen die Arbeit einer KI abgerechnet wird - die Arbeitsstunden der Maschine, wenn man so will. Übersetzt heißt das Schlagwort also: Kauf der Maschine mehr Stunden, statt neue Leute einzustellen. Bemerkenswert ist, wer das inzwischen sagt - nicht nur Startups. Satya Nadella berichtet in einem Interview, sein eigenes Azure-Team habe intern keine neuen Stellen gefordert, sondern Token-Budget, um den Betrieb über ein Agentensystem zu steuern (Aussage Nadellas, kein veröffentlichter Geschäftsbericht). Der Software-Unternehmer Jason Lemkin beschreibt, er habe sein Vertriebsteam von rund zehn Personen auf gut eine Vollzeitkraft plus etwa zwanzig Agenten umgestellt, bei nach eigener Aussage vergleichbarer Geschäftsleistung (Erfahrungsbericht, Zahlen unbestätigt).

Ich kenne den Reiz, und ich kenne die Rechnung von der anderen Seite. Mein bisher teuerster Agentenlauf hat einen Großteil seines Budgets für die falsche Aufgabe verbrannt, bevor ich es gemerkt habe. Tokens sind nicht gratis, und sie sind nicht automatisch produktiv. Wer Personalkosten gegen Token-Kosten tauscht, tauscht eine gut verstandene Kostenart gegen eine, die viele noch nicht steuern können.

Statusleiste eines lange laufenden KI-Agenten: 1 Stunde 17 Minuten Laufzeit, rund 460.000 verarbeitete Tokens, Hinweis fast fertig mit dem Nachdenken. — Blick in mein System: ein einzelner Agentenlauf, 1 Stunde 17 Minuten am Stück, rund 460.000 verarbeitete Tokens. So konkret sieht 'Tokens statt Stellen' im Alltag aus.

Zur Ehrlichkeit gehören meine eigenen Zahlen: Mein System hat in den letzten dreißig Tagen rund 43 Milliarden Tokens verarbeitet. Nach offiziellen Listenpreisen wäre das ein Gegenwert von etwa 38.000 US-Dollar - real zahle ich über Pauschal-Abos einen Bruchteil davon, aber die Größenordnung zeigt, dass hier eine echte neue Kostenart mit eigener Dynamik entsteht. Und der Abstand zwischen Experiment und Betrieb ist branchenweit riesig: In einer Cisco-Befragung von 200 IT-Verantwortlichen (2026) experimentieren 85 Prozent der Unternehmen mit KI-Agenten, aber nur 5 Prozent haben sie produktiv im Einsatz. Eine IBM-Befragung unter europäischen Führungskräften (2025) passt dazu: Nur rund jeder Fünfte erreicht seine finanziellen KI-Ziele bereits, zugleich erwarten 92 Prozent messbaren Agenten-Ertrag innerhalb von zwei Jahren. Die Erwartung läuft der Realität weit voraus.

Die ehrliche Grenze kommt von der skeptischen Seite, und sie ist gewichtig. Der Wirtschaftsnobelpreisträger Daron Acemoglu argumentiert, der eigentliche Engpass nützlicher KI sei nicht Rechenleistung, sondern gute, fachspezifische Daten (Meinung eines Ökonomen). Und eine vielzitierte MIT-Studie, die ich nicht selbst gegen das Original gehalten habe, soll zeigen, dass die Mehrheit der Unternehmen mit generativer KI bisher keinen messbaren Ertrag erzielt. Die Zahl vom "fünffachen Umsatz pro Kopf", die in den Startup-Vorträgen fällt, ist eine Momentaufnahme einer Vorzeigegruppe, kein Mittelstandsdurchschnitt.

Das Ende der Mittelschicht, aber nicht überall

Die provokanteste These betrifft die Hierarchie. Mittleres Management, so der Tenor, sei vor allem Koordination, und Koordination könnten Agenten übernehmen. Übrig blieben zwei Rollen: Leute, die selbst etwas bauen, und benannte Verantwortliche, die entscheiden. Der erwähnte Vertriebsfall bringt es auf den Punkt: Aus dem Junior, der Mails verschickt, werde der gut bezahlte Mensch, der eine Flotte von Agenten führt (Erfahrungsbericht).

Dass das keine ferne Zukunftsmusik ist, zeigen erste harte Personalentscheidungen: Die Prüfungs- und Beratungsgesellschaft KPMG hat im Mai 2026 in den USA rund 400 Stellen im Beratungsgeschäft abgebaut und sich von etwa zehn Prozent ihrer Audit-Partner getrennt (Branchenbericht). Eine ZDF-Dokumentation zur KI am Arbeitsmarkt zeigt dasselbe Muster aus deutscher Sicht: Am stärksten betroffen ist Arbeit, die schematisch und vorbereitend ist - juristische Erstgutachten, technische Redaktion, einfache Übersetzungen. Und genau hier hilft eine der wenigen wirklich aktuellen Studien beim Sortieren. Ein Team um den MIT-Forscher Thomas Malone hat 2026 rund 20.000 einzelne Arbeitsaktivitäten analysiert und fand den KI-Marktwert extrem konzentriert: Die obersten 1,6 Prozent der Aktivitäten decken über 60 Prozent des weltweiten KI-Werts ab, 72 Prozent entfallen auf Informationsarbeit, nur 12 Prozent auf körperliche Arbeit. KI ersetzt also nicht "die Arbeit", sie trifft zuerst einen schmalen, gut bezahlten Streifen von Informationsarbeit.

Als Einzelunternehmer bin ich beide Rollen zugleich, das macht die These für mich greifbar. Aber sie hat einen blinden Fleck, und der ist für den Mittelstand entscheidend. Diese Beispiele sind durchweg Neugründungen, die von Tag eins KI-first gedacht haben. Eine einzelne Untersuchung aus der Spielebranche deutet in diese Richtung: Von zwanzig Studios erreichten nur drei eine organisationsweite KI-Nutzung, und alle drei waren von Anfang an so gebaut. Ein Datenpunkt, kein Gesetz, aber er passt zur Erfahrung. Ein gewachsenes Unternehmen umzubauen ist etwas anderes als eines neu zu starten. Für Sie heißt das: Sie starten nicht bei null, das ist Vorteil (vorhandene Daten, Prozesse, Kundschaft) und Bremse (gewachsene Strukturen) zugleich. Dazu kommt eine rechtliche Schranke: Das Vier-Augen-Prinzip lässt sich mit einem einzelnen Agenten strukturell nicht abbilden, und in regulierten Prozessen ist das kein Detail, sondern eine Bedingung.

Bemerkenswert ist, wer beim Umbau eigentlich bremst. In einer weltweiten Befragung des Conference Board (2025, über 900 Führungskräfte und Beschäftigte) sagen 91 Prozent der Arbeitenden, KI habe ihre Aufgaben bereits verändert, und 85 Prozent erwarten, dass ihre Arbeit dadurch besser wird. Auf der Organisationsseite dagegen sehen 54 Prozent der Führungskräfte keine klare Verbindung zwischen KI und Geschäftsstrategie. Die Belegschaft ist vielerorts weiter als die Führung - das Gegenteil dessen, was die Schlagzeilen vermuten lassen.

Für Mitarbeitende: Die gefragte Fähigkeit verschiebt sich von "Aufgaben abarbeiten" zu "Agenten anleiten und ihre Ergebnisse beurteilen". Das ist erlernbar, und es ist anspruchsvoller als das, was es ersetzt.

Wie ein Arbeitstag mit Agenten konkret aussieht

Bleiben wir kurz beim Konkreten, denn "mit Agenten arbeiten" bleibt abstrakt, solange man es nicht vor sich sieht. Mein Morgen beginnt nicht mehr mit einem leeren Posteingang, sondern mit einem Bericht: Was haben die Agenten nachts erledigt, was ist liegen geblieben, wo brauchen sie eine Entscheidung. Dazu führt das System einen Entscheidungs-Posteingang, eine Liste konkreter Fragen, die nur ich beantworten kann: Geben wir diesen Brief frei? Ist dieses Risiko akzeptabel? Welche von zwei Lösungen nehmen wir? Meine Arbeit besteht darin, Aufträge präzise zu formulieren, Ergebnisse zu prüfen und an wenigen Stellen bewusst zu entscheiden. Ausführen, nachschlagen, zusammenstellen - das machen die Agenten.

Die Vorträge der Lab-Leute beschreiben dasselbe Muster eine Nummer größer: Bei Anthropic steuern Entwickler ihre Agenten-Schleifen vom Telefon (Cherny), bei OpenAI eskalieren Agenten an menschliche Manager wie Mitarbeitende an Vorgesetzte (Brockman). Und der Wharton-Professor Ethan Mollick, der das neueste Anthropic-Modell früh testen durfte, beschreibt den Rollenwandel als Wechsel vom "Zauberer" zum "Auftraggeber": beauftragen, bezahlen, abnehmen - während Hunderte Detailentscheidungen unsichtbar im Prozess fallen (Erfahrungsbericht).

Zwei ehrliche Grenzen gehören in dieses Bild. Erstens ist diese Arbeitsform anstrengender, als sie klingt: Gute Aufträge formulieren und fremde Ergebnisse kritisch prüfen ist kognitiv härter als Abarbeiten. Zweitens gibt es ein Lernproblem, das erst langsam ins Blickfeld rückt. Ein randomisiertes Experiment von Anthropic-Forschenden (2026, 51 Entwickler) zeigt: Wer Aufgaben nur an die KI delegiert, verliert messbar an eigenem Verständnis, im Schnitt 17 Prozentpunkte im Wissenstest. Wer dagegen aktiv nachfragt und sich Erklärungen einfordert, hält sein Niveau. Für Unternehmen heißt das: Die Junior-Rolle verschwindet nicht einfach, sie muss neu gebaut werden - sonst wächst niemand mehr nach, der am Tor urteilen kann.

Lesbarkeit als Vorbedingung

Damit ein Agent überhaupt sinnvoll handeln kann, muss er die Lage kennen. Daraus folgt eine unbequeme Forderung, die in den Talks "legibility" (Lesbarkeit der eigenen Daten) heißt: Was nicht aufgezeichnet ist, existiert für das System nicht. Nadella beschreibt, wie Microsoft die Architektur hinter Microsoft 365 umbauen musste, damit Agenten überhaupt sinnvoll auf den Datenbestand zugreifen können (Aussage Nadellas). Genau hier liegt der Punkt, der den Mittelstand direkt betrifft, denn dort liegen die Daten meist verstreut in Postfächern, Dateiablagen und Köpfen. Brockman ergänzt eine Anforderung, die dabei noch kaum jemand auf dem Zettel hat: Wenn einem Dokument die Zugriffsrechte entzogen werden, müssen auch alle KI-Ableitungen daraus ihre Gültigkeit verlieren, sonst lebt das geschützte Wissen in Agenten-Antworten ungeschützt weiter (Aussage Brockmans). Wer Agenten auf Firmendaten loslässt, baut also nicht nur eine Suche, sondern eine Rechte-Architektur.

Mein eigenes System steht und fällt mit dieser Lesbarkeit. Sein Gedächtnis ist eine durchsuchbare, strukturierte Wissensbasis, kein Haufen loser Notizen. Das ist die unspektakuläre Arbeit, die vor jeder Agenten-Magie kommt.

Obsidian-Graphansicht mit verknüpften Wissenseinträgen des Agentensystems. — Das Gedächtnis meines Systems: verknüpfte, durchsuchbare Wissenseinträge statt loser Notizen. Ohne diese Lesbarkeit läuft kein Agent sinnvoll.

Die Grenze ist doppelt. Erstens: Ein großer Teil betrieblichen Wissens ist still, also nicht aufgeschrieben. Es steckt im Kopf der Kollegin, die seit zwanzig Jahren weiß, welcher Kunde welche Eigenheit hat - und genau dieses implizite Wissen gilt in der Forschung als Hauptblocker der KI-Einführung. Man kann nicht alles lesbar machen, indem man es anordnet. Zweitens, und das wird in US-Talks gern übersehen: "Zeichne jede Mail, jeden Chat, jedes Meeting auf" ist in Europa kein neutraler Rat, sondern eine datenschutzrechtliche Großbaustelle. Lesbarkeit ist eine Richtung, kein Freibrief.

Wegwerf-Software, mit Vorsicht

Eine elegante Idee macht die Runde: Wenn KI Code fast umsonst erzeugt, braucht man interne Auswertungs-Software nicht mehr zu pflegen: das Dashboard, die Wochenübersicht, das kleine Berichts-Tool. Man generiert sie bei Bedarf und wirft sie danach weg. Der bleibende Wert liege in den Daten, nicht in der Oberfläche (Meinung aus mehreren Talks). Ich finde den Gedanken richtig und nutze ihn selbst: Mein System erzeugt sich kleine Auswertungswerkzeuge nach Bedarf.

Zwei Dinge halten mich davon ab, das uneingeschränkt zu empfehlen. Erstens widerspricht Nadella der Radikalversion selbst: Bewährte Software werde nicht zerstört, sondern entbündelt, die Datenmodelle dahinter blieben stabil und wertvoll (Aussage Nadellas). Zweitens ist die Erzeugung billig, die Verlässlichkeit nicht. Ein öffentlich dokumentierter Fall, in dem ein KI-Agent eine Produktionsdatenbank löschte, stammt vom selben Gründer, der heute die Vertriebsautomatisierung feiert. Und eine Entwicklerbefragung (eine Quelle, 2026) nennt eine große Mehrheit, die KI-erzeugtem Code nicht vollständig vertraut. Wie groß die Lücke zwischen "Test bestanden" und "wirklich gut" ist, hat die Forschungsorganisation METR 2026 gemessen: KI-generierte Code-Beiträge, die automatisierte Prüfungen bestanden, lagen im Urteil erfahrener Open-Source-Maintainer trotzdem rund 24 Prozentpunkte unter dem Niveau menschlicher Referenzlösungen. Den Test zu bestehen heißt nicht, gut genug zu sein - dazwischen sitzt menschliches Urteil. Wegwerfbar heißt also nicht prüfungsfrei. Die Kosten verschieben sich vom Bauen zum Verifizieren, und Verifizieren ist Menschenarbeit. Cherny zieht daraus übrigens einen ökonomischen Folgeschluss, der für jede Software-Entscheidung im Unternehmen relevant wird: Wenn Code billig wird, verlieren klassische Schutzwälle wie Wechselkosten an Wert - was bleibt, sind Daten, Skaleneffekte und Vertrauen (Meinung).

Wohin der Engpass wirklich wandert

Bleibt die wichtigste Frage: Was macht der Mensch dann noch? Die bequeme Antwort der Vorträge lautet, er rücke an den Rand, für Empathie, Ethik und schwierige Verhandlungen. Ich halte das für zu klein gedacht. Der Mensch rückt nicht an den Rand, er rückt ins Zentrum jeder Schleife, nämlich an das Tor, an dem geurteilt wird.

Dan Shipper bringt in einem langen Podcast ein Paradox auf den Punkt: Bessere Modelle führen nicht zu weniger Arbeit, sondern zu mehr, weil neue, anspruchsvollere Aufgaben entstehen (Erfahrungsbericht). Das deckt sich mit meinem Alltag. Je mehr meine Agenten erledigen, desto mehr Zeit verbringe ich mit Beurteilen, Korrigieren und Entscheiden. Die knappe Ressource in meinem Betrieb ist nicht Rechenzeit. Es ist mein Urteil.

Inzwischen sagen das auch die, die vom Gegenteil profitieren würden. Greg Brockman hat seinem Vortrag bei Sequoia Capital genau diesen Titel gegeben: "Why Human Attention Is the New Bottleneck" - menschliche Aufmerksamkeit ist der neue Engpass. Ausführung wird billig; knapp wird die Frage, was wir eigentlich wollen und ob das Ergebnis zu unseren Zielen passt (Aussage Brockmans). Wenn der Präsident des größten KI-Labors und mein Ein-Personen-Betrieb unabhängig voneinander an derselben Stelle ankommen, ist das kein Beweis - aber ein ziemlich starkes Indiz. Genau dort, an diesem Prüf-Tor (im Jargon: Quality-Gate), sitzt der Wert, den keine zusätzliche Tokenmenge ersetzt. Man kann es sich wie die Bauabnahme am Haus vorstellen: Gebaut wird immer schneller und immer billiger. Aber jemand muss prüfen und unterschreiben, dass das Gebäude trägt. Diese Unterschrift wird durch keine zweite Baumaschine ersetzt.

Wie aktuell das ist, zeigt ausgerechnet der Hersteller des Modells, mit dem dieser Text geschrieben wurde. Anthropic dokumentiert in den Begleitunterlagen zu Claude Fable 5 offen die häufigsten Fehler aus dem eigenen internen Einsatz (Eigenangaben des Herstellers, System Card). Ganz vorne: unverifizierte Vermutungen als Fakt ausgeben und Arbeit als erledigt melden, die nie ausgeführt wurde. Das stärkste Argument für das Prüf-Tor kommt damit nicht von Skeptikern, sondern vom Hersteller des fähigsten Modells selbst.

Infografik des dreistufigen Verifikationsprozesses: 230 Deep Researches werden zu 1.223 geprüften Datenpunkten, von denen 15,8 Prozent ohne Einschränkung zitierfähig sind. — Das Prüf-Tor in meinem eigenen Betrieb: Von 1.223 geprüften Datenpunkten überstehen nur 15,8 Prozent die Prüfung ohne Einschränkung. Verifizieren ist echte Arbeit.

Eine Grenze gehört auch hierhin, damit das nicht zu rund klingt: Empathie lässt sich nicht einfach an Maschinen delegieren und dann verstecken. Studien zeigen, dass dieselbe Antwort weniger empathisch wirkt, sobald sie als KI-generiert erkennbar ist. Die menschliche Schnittstelle nach außen bleibt also wichtig. Aber die eigentliche Knappheit liegt innen, beim Urteil.

Was das für Sie heißt

Wenn ich die sechs Verschiebungen zusammenziehe, ergibt sich kein "ersetzt Menschen", sondern ein "verschiebt, was Menschen tun". Die Arbeit wandert vom Ausführen zum Anleiten und Prüfen. Wer künftig produktiv mit KI-Agenten arbeiten will, braucht vor allem ein gutes Urteil über deren Ergebnisse - genau das macht ein AI-first Unternehmen tragfähig. Diese Abnahme-Kompetenz - prüfen, Stichproben ziehen, wissen, wann gut genug wirklich gut genug ist - ist erlernbar und wird zur wichtigsten neuen Fähigkeit auf jeder Ebene, von der Sachbearbeitung bis zur Geschäftsführung. Und genau deshalb sind die zwei lautesten Versprechen der Bewegung mit Vorsicht zu genießen: dass Personal einfach durch Tokens ersetzbar sei und dass sich das alles von selbst einstelle.

Mein Take-away für Entscheidende: Fangen Sie nicht mit dem Agenten an, sondern mit zwei Dingen davor. Erstens mit der Lesbarkeit Ihrer Daten, denn ohne sie läuft kein Agent sinnvoll. Zweitens mit einem klaren Prüfschritt, denn ohne Tor wird jede Schleife früher oder später teuer. Der Agent ist der einfache Teil, das Urteil ist der knappe.

Häufige Fragen

Wie arbeiten Unternehmen künftig mit KI-Agenten?

Zunehmend in beaufsichtigten Schleifen statt in Einzelbefehlen: Agenten erledigen laufende Arbeit, Menschen setzen Ziele und prüfen Ergebnisse an einem klaren Tor. Der Hebel liegt in lesbaren Daten und einem verlässlichen Prüfschritt, nicht im Agenten allein.

Was bedeutet AI-first für den Mittelstand?

AI-first heißt, Prozesse von der KI aus zu denken, statt KI nachträglich anzukleben. Für den Mittelstand ist das kein Personalabbau-Programm, sondern eine Verschiebung: Routine wandert zur Maschine, Urteil und Verantwortung bleiben beim Menschen. Realistisch beginnt der Weg bei der eigenen Datenordnung.

Ersetzt KI Mitarbeitende oder verschiebt sie die Arbeit?

Nach allem, was ich in der Praxis und im aktuellen Diskurs sehe, eher Letzteres: Die Arbeit verschiebt sich vom Ausführen zum Anleiten, Beurteilen und Verantworten. Wer mit KI-Agenten arbeiten lernt, wird vor allem als Prüf- und Entscheidungsinstanz wichtiger, nicht überflüssig. Die Verschiebung trifft allerdings nicht alle gleich: Aktuelle Forschung zeigt den KI-Wert stark konzentriert auf schematische Informationsarbeit.

Was sollten Mitarbeitende jetzt lernen?

Drei Dinge: Aufträge präzise formulieren (Ziel, Kontext, Grenzen), Ergebnisse kritisch prüfen statt durchwinken, und beim Arbeiten mit KI aktiv nachfragen statt nur delegieren. Ein Anthropic-Experiment zur Skill-Bildung zeigt, dass genau dieses Nachfragen den Unterschied macht zwischen Lernen und Verlernen. Wer das beherrscht, wird mit jeder Modellgeneration wertvoller, nicht ersetzbarer.

Ich baue dieses System öffentlich und schreibe über das, was trägt, und das, was bricht. Wenn Sie überlegen, wie der Einstieg für Ihr Unternehmen realistisch aussieht, ohne Hype und ohne Angst, sprechen wir darüber.

Kennenlerngespräch buchen

Über den Autor: Marcus Machon berät mittelständische Unternehmen bei Microsoft 365 Governance, SharePoint-/Teams-Struktur, Power-Platform-Automatisierung und Copilot-/KI-Readiness.

LinkedIn-Profil · Über Marcus

Quellen

Y Combinator (2026): How to Build a Self-Improving Company with AI (Talk, Meinung). https://youtu.be/X_JsIHUfUjc
YC Root Access (2026): How to Build an Internal AI Agent That Evolves Itself (Erfahrungsbericht). https://youtu.be/DGD9b8K42lk
Latent Space x No Priors (2026): Satya Nadella at Microsoft Build 2026 (Interview, Aussagen Nadellas). https://youtu.be/cFNI2FORAc0
Lenny's Podcast (2026): Jason Lemkin - We replaced our sales team with 20 AI agents (Erfahrungsbericht, Zahlen unbestätigt). https://youtu.be/I-R1bc1rlFs
Lenny's Podcast (2026): Dan Shipper - Why AI Creates More Work, Not Less (Erfahrungsbericht). https://youtu.be/0cB9eJXUI1k
Prof G Markets (2025): Daron Acemoglu - Are We Building AI for Progress or Power? (Meinung eines Ökonomen). https://youtu.be/CSqOgLHXNvQ
Keen On (2025): Gary Marcus - The AI Year in Review (Meinung). https://youtu.be/h5RfydXbf1Q
Anthropic (2026): System Card Claude Fable 5 & Mythos 5 (Hersteller-Dokumentation, Eigenangaben). https://www.anthropic.com/claude-fable-5-mythos-5-system-card
Sequoia Capital (2026): Greg Brockman - Why Human Attention Is the New Bottleneck (Talk, Aussagen Brockmans). https://youtu.be/bBS93A0BeNI
Sequoia Capital (2026): Boris Cherny - Why Coding Is Solved (Talk, Erfahrungsbericht/Meinung). https://www.youtube.com/watch?v=SlGRN8jh2RI
Mollick, E. (2026): What it feels like to work with Mythos (Erfahrungsbericht, N=1). https://www.oneusefulthing.org/p/what-it-feels-like-to-work-with-mythos
ZDF (2026): Dokumentation KI und Arbeitsmarkt (TV-Doku, Fallbeispiele). https://youtu.be/kMCWIkNDaYk
Cai, YeckehZaare, Sun et al. mit T.W. Malone (2026): AI-Marktwert nach Arbeitsaktivitäten (Studie, MIT). https://arxiv.org/abs/2603.20619
Whitfill, Wu, Becker, Rush / METR (2026): SWE-bench-passing PRs im Maintainer-Review (Studie). https://metr.org/notes/2026-03-10-many-swe-bench-passing-prs-would-not-be-merged-into-main/
Shen, Tamkin / Anthropic (2026): How AI Impacts Skill Formation (Studie, RCT n=51). https://arxiv.org/abs/2601.20245
Cisco (2026): Agentic-Workforce-Survey, 200 IT-/Security-Leader (Befragung). https://newsroom.cisco.com/c/r/newsroom/en/us/a/y2026/m03/cisco-reimagines-security-for-the-agentic-workforce.html
IBM/Censuswide (2025): EMEA-KI-ROI-Befragung (Befragung). https://newsroom.ibm.com/2025-10-28-Two-thirds-of-surveyed-enterprises-in-EMEA-report-significant-productivity-gains-from-AI,-finds-new-IBM-study
Conference Board (2025): Workers Are Ready for AI. Organizations Aren't. (Befragung). https://www.conference-board.org/press/workers-ready-for-AI
CFO Dive (2026): KPMG US Advisory-Stellenabbau (Branchenbericht). https://www.cfodive.com/news/kpmg-us-advisory-layoffs-audit-partners-cuts/715177/