KI-Agenten in der Produktion: Was wirklich funktioniert // nh labs

Der Agent-Hype

2026 ist das Jahr der KI-Agenten. Jede Konferenz, jeder Newsletter, jeder LinkedIn-Post handelt von autonomen Systemen, die selbstständig Aufgaben erledigen, Entscheidungen treffen und ganze Workflows übernehmen. Die Vision: Man gibt einem Agenten ein Ziel, und er erledigt den Rest.

Die Realität sieht anders aus. Wir setzen seit Monaten KI-Agenten in echten Projekten ein – in der Softwareentwicklung, in der Datenverarbeitung, im Monitoring. Manches funktioniert erstaunlich gut. Anderes ist noch weit von produktionsreif entfernt.

Was heute funktioniert

Es gibt Bereiche, in denen KI-Agenten echten Wert liefern – nicht als Demo, sondern im Tagesgeschäft:

Code-Agenten: Tools wie Claude Code schreiben, refactoren und debuggen Code mit einer Qualität, die vor einem Jahr undenkbar war. Nicht als Spielerei, sondern als ernsthaftes Werkzeug im Entwickleralltag. Der Schlüssel: Der Mensch bleibt in der Schleife. Der Agent schlägt vor, der Entwickler entscheidet. Das funktioniert, weil Code überprüfbar ist – man sieht sofort, ob das Ergebnis stimmt.

Datenverarbeitung und -analyse: Agenten, die strukturierte Daten aus unstrukturierten Quellen extrahieren, klassifizieren und aufbereiten, laufen zuverlässig in Produktion. E-Mails parsen, Dokumente kategorisieren, Reports generieren – repetitive Aufgaben mit klaren Regeln und überprüfbaren Ergebnissen.

Monitoring und Alerting: KI-Agenten, die Logs analysieren, Anomalien erkennen und erste Diagnosen erstellen, reduzieren die Reaktionszeit bei Incidents erheblich. Nicht weil sie besser sind als erfahrene Ops-Ingenieure, sondern weil sie 24/7 hinschauen und die offensichtlichen Fälle vorfiltern.

Test-Generierung: Agenten, die bestehenden Code analysieren und automatisch Testfälle generieren, haben unsere Testabdeckung in mehreren Projekten verdoppelt. Nicht perfekte Tests, aber eine solide Basis, die manuell verfeinert wird.

Was noch nicht funktioniert

Und hier beginnt der Teil, über den auf Konferenzen seltener gesprochen wird:

Vollautonome Workflows: Die Idee, einem Agenten zu sagen „Erstelle eine komplette Webanwendung" oder „Optimiere unsere Marketingstrategie" und dann wegzugehen, funktioniert nicht. Nicht weil die Modelle schlecht sind, sondern weil komplexe Aufgaben Kontext erfordern, der sich nicht in einen Prompt packen lässt. Geschäftslogik, Stakeholder-Erwartungen, implizites Domänenwissen – das alles fehlt dem Agenten.

Entscheidungen mit Konsequenzen: Sobald ein Agent Entscheidungen treffen soll, die schwer rückgängig zu machen sind – Geld überweisen, E-Mails an Kunden senden, Daten löschen – wird es heikel. Die Fehlerrate von 2–5 %, die bei Textgenerierung akzeptabel ist, wird bei Finanztransaktionen zum Dealbreaker.

Langkettige Aufgaben: Agenten, die zehn oder mehr Schritte autonom ausführen sollen, akkumulieren Fehler. Jeder Schritt hat eine kleine Fehlerwahrscheinlichkeit, und über die Kette multiplizieren sich diese. Bei Schritt acht arbeitet der Agent dann auf Basis falscher Annahmen aus Schritt drei.

Multi-Agenten-Systeme: Die Idee, mehrere Agenten miteinander kommunizieren und zusammenarbeiten zu lassen, ist faszinierend – und in der Praxis ein Debugging-Albtraum. Wenn Agent A Agent B falsch instruiert und Agent B daraufhin Agent C mit falschen Daten füttert, ist die Fehlersuche exponentiell schwieriger als bei einem einzelnen System.

Die Muster, die funktionieren

Aus unserer Erfahrung kristallisieren sich klare Muster heraus:

Human-in-the-Loop: Die erfolgreichsten Agenten-Setups haben einen Menschen an einer definierten Stelle im Prozess. Nicht als Alibi, sondern als echten Entscheidungspunkt. Der Agent bereitet vor, der Mensch genehmigt, der Agent führt aus.

Enger Scope: Agenten, die eine klar abgegrenzte Aufgabe erledigen, funktionieren besser als Generalisten. Ein Agent, der ausschließlich Pull Requests reviewt, ist nützlicher als einer, der „alles rund um Code" können soll.

Überprüfbare Ergebnisse: Aufgaben, bei denen das Ergebnis automatisch validiert werden kann – Tests laufen durch, Datenformat stimmt, API antwortet korrekt – eignen sich hervorragend für Agenten. Aufgaben, deren Qualität nur subjektiv beurteilbar ist, weniger.

Graceful Degradation: Gute Agenten-Systeme wissen, wann sie nicht weiterkommen, und eskalieren an einen Menschen, statt weiterzuraten. Das klingt trivial, ist aber der Unterschied zwischen einem nützlichen Tool und einer Fehlerquelle.

Der Build-vs-Buy-Fehler

Viele Unternehmen machen denselben Fehler: Sie kaufen einen generischen „KI-Agenten-Service" und erwarten, dass er ihre spezifischen Probleme löst. Das funktioniert selten.

Die Agenten, die in Produktion echten Wert liefern, sind fast immer maßgeschneidert. Nicht weil sie proprietäre Modelle verwenden, sondern weil sie tief in die bestehende Infrastruktur integriert sind. Sie kennen die Datenbank-Schemas, die API-Endpoints, die Business-Regeln. Dieses Kontextwissen macht den Unterschied – nicht die Wahl des Modells.

Das bedeutet nicht, dass jedes Unternehmen seine eigenen Agenten von Grund auf bauen muss. Aber es bedeutet, dass die Integration und Konfiguration mindestens so wichtig ist wie die KI-Komponente selbst.

Was das für Unternehmen bedeutet

KI-Agenten sind kein Zukunftsthema mehr – sie sind ein Jetzt-Thema. Aber der richtige Einstieg ist entscheidend:

Klein anfangen: Einen konkreten, wiederholbaren Prozess identifizieren. Nicht den komplexesten, sondern den, bei dem der Nutzen klar messbar ist und die Fehlertoleranz hoch.

Messen statt glauben: Bevor ein Agent in Produktion geht, muss klar sein, wie Erfolg aussieht. Zeitersparnis? Fehlerreduktion? Durchsatz? Ohne Metriken ist jede Agent-Einführung Bauchgefühl.

Schrittweise Autonomie: Agenten sollten nicht von Tag eins an autonom laufen. Erst überwacht, dann semi-autonom, dann autonom – und nur dort, wo die Daten zeigen, dass es funktioniert.

Wir bei nh labs bauen KI-Agenten nicht als Technologie-Demo, sondern als Werkzeuge, die konkrete Probleme lösen. Das klingt weniger spektakulär als „vollautonome KI" – liefert aber tatsächlich Ergebnisse.

Fazit

Der KI-Agent-Hype übertreibt die kurzfristigen Möglichkeiten und unterschätzt die langfristigen. Heute funktionieren Agenten dort am besten, wo sie klar abgegrenzte Aufgaben mit überprüfbaren Ergebnissen erledigen – unterstützt von Menschen, nicht als Ersatz für sie. In zwei Jahren wird das anders aussehen. Aber wer jetzt auf vollautonome Systeme wartet, verpasst den Wert, den Agenten heute schon liefern. Die Unternehmen, die jetzt pragmatisch starten, bauen Erfahrung und Infrastruktur auf, die ihnen einen echten Vorsprung verschaffen werden.