Datenhoheit als Wettbewerbsvorteil: Wer seine Daten verschenkt, trainiert die Konkurrenz // nh labs

Das stille Geschenk an die Cloud

Ein deutscher Mittelständler nutzt ChatGPT Enterprise für interne Recherche, Microsoft Copilot in Outlook und Word, Salesforce Einstein für Vertriebsanalysen und ein KI-gestütztes Recruiting-Tool. Jedes dieser Tools verarbeitet Daten – Verträge, Kundenkommunikation, Vertriebshistorie, Bewerberprofile. Das meiste landet auf US-Servern, ein Teil fließt in die Trainingspipeline der Anbieter, der Rest wird zumindest dazu genutzt, die Modelle zu verbessern, die der nächste Wettbewerber ebenfalls einsetzt.

Niemand hat das aktiv entschieden. Es ist passiert, weil die Tools nützlich sind und der Pfad des geringsten Widerstands über Standard-Settings führt. Das Ergebnis: Daten, die das eigentliche Kapital des Unternehmens darstellen, werden zur Eingabe in fremde Systeme – ohne dass jemand den Wert dieser Eingabe je beziffert hätte.

Warum Daten plötzlich anders sind

Daten waren immer wertvoll, aber sie waren passiv. Sie lagen in Datenbanken, wurden in Reports verdichtet und für Entscheidungen herangezogen. Mit KI sind sie aktiv geworden – sie trainieren Modelle, sie kalibrieren Prognosen, sie definieren das Verhalten von Software.

Genau deshalb verschiebt sich ihre strategische Bedeutung. Ein Modell ist nur so gut wie die Daten, auf denen es trainiert wurde. Wer einzigartige Daten besitzt – Daten, die kein Wettbewerber hat – kann Modelle bauen, die kein Wettbewerber nachbauen kann. Umgekehrt: Wer seine Daten teilt, gibt diese Einzigartigkeit auf.

Das ist kein theoretisches Problem. Bei jedem Prompt, der an einen großen Anbieter geschickt wird, ohne dass die Datenflüsse vertraglich klar geregelt sind, entscheidet das Kleingedruckte darüber, ob die Daten nur verarbeitet oder auch zur Modellverbesserung genutzt werden. „Anonymisiert" und „aggregiert" sind in diesem Zusammenhang dehnbare Begriffe.

Die drei Schichten der Datenhoheit

Datenhoheit zerfällt in drei Ebenen, die in der Praxis oft durcheinandergeworfen werden:

Speicherort. Wo liegen die Daten physisch? EU, USA, Asien? Diese Frage dominiert die DSGVO-Debatten, ist aber nur ein Teil des Problems. Selbst wenn Daten in einem Frankfurter Rechenzentrum liegen, kann ein US-Anbieter unter dem Cloud Act darauf zugreifen.

Nutzungsrechte. Was darf der Anbieter mit den Daten tun? Verarbeitung für den angeforderten Zweck ist Standard. Aber: Training eigener Modelle? Benchmarking? Aggregierte Insights an Dritte? Die Vertragsklauseln sind hier entscheidend, und sie werden bei Standard-Abos selten gelesen.

Modell-Kontrolle. Wer kontrolliert das Modell, das auf den Daten arbeitet? Wenn das Modell beim Anbieter liegt, kontrolliert der Anbieter, was es kann, wann es upgedatet wird, ob es eingestellt wird. Modell-Kontrolle ist die Ebene, die am häufigsten übersehen wird – und die strategisch am wichtigsten ist.

Wirkliche Datenhoheit bedeutet, alle drei Schichten zu beherrschen. Nicht für jedes Datum, aber für die, die den Wettbewerb entscheiden.

Was wirklich auf dem Spiel steht

Drei konkrete Risiken, die selten offen besprochen werden:

Trainingsbeitrag zur Konkurrenz. Wenn ein Anbieter ein generisches Modell baut, das alle Kunden nutzen, dann formt jeder Kunde mit seinen Daten das Modell mit. Im besten Fall profitieren alle Kunden gemeinsam. In der Realität profitieren vor allem die Anbieter und die Wettbewerber, die später denselben Service abonnieren. Wer früh Daten beigesteuert hat, hat die spätere Konkurrenz mit ausgebildet.

Verlust unternehmensspezifischer Muster. In den eigenen Daten stecken Muster, die spezifisch sind – Kundenverhalten in einer Nische, regionale Besonderheiten, Prozess-Eigenarten. Genau diese Muster machen einen Wettbewerbsvorteil aus. Wenn sie in ein generisches Modell einfließen, werden sie geglättet. Aus dem Vorteil wird ein Durchschnittswert, den alle nutzen können.

Geopolitische Abhängigkeit. US-amerikanische Anbieter dominieren den KI-Markt. Diese Konzentration wird zum Risiko, sobald politische Entscheidungen den Zugang einschränken, Preise diktieren oder Exportkontrollen verschärfen. Wer sein Geschäftsmodell auf einer einzelnen ausländischen Plattform aufbaut, akzeptiert ein Klumpenrisiko, das nichts mit der Qualität der Software zu tun hat.

Was Datenhoheit nicht heißt

Datenhoheit heißt nicht, alles selbst zu hosten, eigene LLMs zu trainieren oder die Cloud zu vermeiden. Das wäre teurer Aktionismus. Es heißt: bewusst zu entscheiden, welche Daten welche Reise machen dürfen.

Eine E-Mail an einen Lieferanten kann durch jedes vernünftige KI-Tool laufen. Eine Roadmap-Diskussion oder ein Vertragsentwurf mit strategischem Inhalt sollte das nicht. Die Frage ist nicht „Cloud ja oder nein", sondern „Welche Daten gehören in welche Umgebung".

In der Praxis bedeutet das gestaffelte Architekturen: öffentliche Modelle für unkritische Aufgaben, EU-gehostete Modelle für sensible Inhalte, On-Premise- oder Edge-Modelle für die Daten, die das Geschäft tragen. Diese Stufung ist heute technisch machbar und wirtschaftlich tragbar – sie war es vor zwei Jahren nicht.

Was sich technisch verändert hat

Drei Entwicklungen machen Datenhoheit jetzt erst praktikabel:

Offene Modelle sind nutzbar geworden. Modelle wie Llama, Mistral oder DeepSeek erreichen für viele Anwendungsfälle Qualität, die noch vor zwei Jahren nur den Frontier-Modellen vorbehalten war. Sie lassen sich selbst hosten – im eigenen Rechenzentrum, in einer souveränen Cloud oder am Edge.

Hardware wurde erschwinglich. Inferenz-Hardware, die ein Modell mit 70 Milliarden Parametern lokal betreibt, kostet heute fünfstellig, nicht mehr siebenstellig. Für Unternehmen, deren Daten genug Wert haben, ist diese Investition leicht zu rechtfertigen.

RAG und Fine-Tuning sind reif. Statt ein Modell von Grund auf zu trainieren, lässt sich heute ein offenes Basismodell mit den eigenen Daten verfeinern oder per Retrieval an die eigene Wissensbasis anschließen. Der Aufwand liegt in Wochen, nicht in Jahren.

Was Unternehmen jetzt tun sollten

Vier konkrete Schritte:

Daten-Inventar erstellen. Welche Daten verarbeitet das Unternehmen? Welche sind strategisch, welche operativ, welche austauschbar? Ohne diese Klarheit ist jede weitere Diskussion über Datenhoheit Stochern im Nebel.

Datenflüsse kartieren. Welche dieser Daten verlassen das Unternehmen über welche Tools? Bei jedem KI-Tool: Was steht im Vertrag, was steht in den AGB, was passiert tatsächlich? Die Antworten überraschen oft.

Strategische Daten isolieren. Für die Daten, die den Wettbewerb entscheiden: gestaffelte Infrastruktur aufbauen. Keine generischen KI-Tools, kein unkontrollierter Cloud-Upload, klare Verträge mit klaren Klauseln zur Nicht-Nutzung für Modelltraining.

Eigene Fähigkeiten aufbauen. Datenhoheit erfordert technisches Können, das in vielen Unternehmen fehlt. Das muss aufgebaut werden – intern oder über Partner, die wirklich verstehen, was zwischen Inferenz, Fine-Tuning und Retrieval-Augmentation der Unterschied ist.

Wir bei nh labs erleben in den letzten Monaten, dass dieses Bewusstsein deutlich wächst. Anfragen nach EU-gehosteten Architekturen, nach On-Premise-Inferenz, nach klar dokumentierten Datenflüssen sind keine Ausnahme mehr, sondern Standard im Erstgespräch.

Fazit

Datenhoheit ist kein juristisches Detail und keine Compliance-Übung. Sie ist die Frage, ob ein Unternehmen seine Wettbewerbsbasis im KI-Zeitalter selbst kontrolliert oder an Dritte verleiht. Die Anbieter werden weiter argumentieren, dass alles sicher, anonymisiert und reguliert ist. Manches davon stimmt – aber Hoheit über die eigenen Daten ist kein Vertrauensvorschuss, sondern eine Architekturentscheidung. Wer sie jetzt trifft, sichert sich den Vorsprung, den die eigenen Daten ermöglichen. Wer sie aufschiebt, gibt diesen Vorsprung Quartal für Quartal weiter ab.