Was die Daten zur KI im SOC wirklich belegen, und was nicht (Teil 1 von 5)

„Aber ChatGPT sagt, das geht so." „Unser Anbieter verspricht 70 Prozent weniger Headcount." „Autonome SOCs sind bald Realität."

Drei Sätze. Ich höre sie seit anderthalb Jahren in fast jedem Gespräch zur KI im SOC. Hier ist meine Position. Ungeschönt. Wer’s anders sieht und Daten dazu hat, höre ich gerne zu. Bis dahin gilt meine.

TL;DR: Die belastbare Forschung trägt rund 22 Prozent Productivity-Plus in eng definierten SOC-Aufgaben (Microsoft-RCTs, methodisch transparent, herstellerfinanziert, nicht repliziert). Die 70-Prozent-Versprechen und der „autonome SOC" aus Marketing-Folien tragen sich nicht. Keine Stichprobe, keine Methodik, keine Baseline. Wer auf der dokumentierten Basis investiert, hat ein Argument. Wer auf Marketing-Zahlen baut, übernimmt das Replikations-Risiko des Vendors.

Vorab eine Klarstellung. Wenn ich „KI im SOC" sage, meine ich grosse Sprachmodelle und ML-Klassifizierer in Triage-, Korrelations- und Detection-Workflows. Nicht Intelligenz im klassischen Sinn. Nicht die Agentic-AGI-Visionen aus den Vendor-Roadmaps. Pattern-Matching auf grossen Korpora. Manchmal nützlich. Oft überschätzt.

Was hier folgt, ist meine Position. Belegt, ungeschönt, gegen den dominierenden Marketing-Klang.

Was ich von den drei Sätzen halte

Der erste Satz kommt vom Detection-Engineer: „ChatGPT hat mir die Sigma-Regel geschrieben, sieht doch okay aus." Sieht sie. Bis sie im Goodware-Test einbricht. Bis die Bedingung im Real-Traffic nie matcht. Inzwischen frage ich beim Wort „sieht okay aus" reflexartig nach dem Goodware-Test. Spart Zeit.

Den zweiten höre ich aus der CFO-Ecke: „Der Anbieter verspricht uns 70 Prozent weniger Headcount." Auf welcher Datenbasis? Welche Stichprobe? Welche Methodik? Welche Baseline? Steht nirgends. Eine Folie ist eine Folie, keine Studie. Wer das eine als das andere verkauft, hat ein Marketing-Statement als Beweis ausgegeben.

Der dritte sitzt im CISO-Briefing: „Wir hören, dass autonome SOCs bald Realität sind." Microsoft Threat Intelligence selbst räumt im März 2026 ein, dass agentic AI auf Threat-Actor-Seite „not yet observed at scale" sei. Symmetrisch für die Defensive. Wenn der grösste Anbieter im Markt das so vorsichtig formuliert, sollte einem das zu denken geben. Mir gibt es zu denken. „Bald" ist Marketing-Wortwahl. Kein Produkt-Status.

Diese Sätze hinterfrage ich jedes Mal. Die nächsten Abschnitte zeigen, mit welchen Daten.

Was die Forschung tatsächlich trägt

Die einzigen belastbaren Zahlen kommen aktuell von Microsoft. Das ärgert mich. Ich wünschte mir mehr Player, die ihre Methodik publizieren. Stand heute: drei Studien, alle Microsoft.

Im RCT mit erfahrenen Security-Analysten: 22 Prozent schneller, 7 Prozent genauer als die Kontrolle, gemittelt über vier Tasks. Per Task variiert das zwischen 14 und 49 Prozent (Edelman et al. 2024).

In der Live-Operations-Auswertung über 180 Tage: 30,13 Prozent MTTR-Reduktion in Microsoft Defender XDR. Observational, nicht kausal. Bono selbst schreibt, dass „unobserved confounders inhibit causal identification" (Bono/Grana/Xu 2024). Eine der ehrlichsten Zeilen in der ganzen Literatur. Sie steht im Microsoft-eigenen Paper.

Beim Phishing-Triage-Agent: 6,5-mal mehr True Positives pro Analyst-Minute, 53 Prozent mehr Aufmerksamkeit auf bösartige Mails (Bono 2025). Reallokation der menschlichen Aufmerksamkeit. Kein Rubber-Stamping.

Was diese Zahlen tragen, ist begrenzt. Alle auf Microsoft-Stack mit Microsoft-Subjects, methodisch transparent dokumentiert, herstellerfinanziert, nicht von Dritten repliziert. Wer eine davon im CXO-Briefing zitiert, ohne den Caveat dazuzusagen, verkauft das Ergebnis ohne die Methode. Das ist mir oft genug passiert, dass ich den Caveat reflexartig dazusage. Sonst geht das eine ohne das andere über den Tisch. Keine ehrliche Zahl mehr.

Eine zweite Zahl, die in CXO-Briefings Karriere macht: IBMs Cost-of-a-Data-Breach-Report 2024. USD 1,88 Mio. niedrigere Breach-Kosten und 98 Tage kürzerer Lifecycle bei Organisationen mit extensivem KI-Einsatz (IBM 2024). Korrelation, keine Kausalität, und das steht so im Original-Report. Wer es als „KI spart Geld" weiterverkauft, vereinfacht eine multivariate Realität auf einen kausalen Pfad. Den die Daten nicht hergeben.

Wo der Vendor-Pitch den Boden verlässt

Stellar Cyber wirbt mit 70 Prozent schnellerer Threat-Detection ohne zusätzliches Personal. Achtfache MTTD. Zwanzigfache MTTR. Dropzone AI bewirbt einen MSSP-Case mit Alert-Reduktion von 144 000 auf 200, also 99,8 Prozent. In keiner der Publikationen findet sich Methodik. Ich habe nicht nachgefragt; wer die Stichprobe oder Baseline kennt, schicke sie mir.

Ehrlich gesagt frustriert mich genau diese Schief-Lage am meisten. Ich verbringe in vielen Gesprächen Zeit damit, einer SOC-Lead zu erklären, warum die 70 Prozent nichts wert sind, weil dahinter keine Stichprobe steht. Wenn die Methode mitgeliefert ist, kann sie die Studie auf den eigenen Stack übertragen oder verwerfen. Wenn nur die Schluss-Zahl mitgeliefert ist, bleibt Glauben oder Nicht-Glauben. Das ist Lotterie, keine Investitions-Basis.

Microsoft selbst formuliert in den eigenen „autonomous SOC"-Blog-Posts auffallend vorsichtig. „Can". „Will". „Moves toward". Zukunftsgerichtete Sprache. Im März 2026 räumt Microsoft Threat Intel ausdrücklich ein, dass agentic AI auf Threat-Actor-Seite „not yet observed at scale and limited by reliability and operational risk" sei (Microsoft 2026). Die methodisch ehrlichste Stelle in der Marketing-Welt. Im selben Konzern, der den „autonomous SOC" auf der Konferenz-Folie verkauft. Den Widerspruch musst du im Hinterkopf behalten, wenn jemand dir den „autonomous SOC" verkauft.

Was dazwischen produktiv ist

In Hunt-Engagements und beim Detection-Rule-Crafting funktioniert ein Pattern reproduzierbar. KI als Refinement-Schicht. Nicht als Generator.

Der Engineer schreibt das Skelett: YARA, Sigma, KQL, Snort. Die KI verfeinert auf konkreten Hint, also Strings erweitern, Format anpassen, eine Erst-Draft-Korrelation aufstellen. Forschung, Kontext, Präzision bleiben beim Menschen. yarGen mit --ai-Flag ist ein Beispiel, das diese Logik im Code zeigt: Mensch baut das Gerüst, KI feilt am Detail. Funktioniert.

Was im selben Pattern weniger gut funktioniert: KI als End-to-End-Rule-Generator für alles ausserhalb von IOC-Matching. Eine LLM-generierte Detection-Regel, die nicht auf einem bekannten Hash, einer C2-IP oder einem Filename basiert, sieht meistens plausibel aus. Im Goodware-Test bricht sie ein, mit erfundenen Werten, Bedingungen die nie matchen, fabrizierten Feldern.

Den Befund finde ich nicht überraschend. Die Modelle wurden auf einem Korpus trainiert, der zu grossen Teilen aus minderqualitativen Detection-Engineering-Outputs der letzten Dekade besteht. Garbage in. Garbage out. Auf Regel-Ebene. Wer das trotzdem als Tier-1-Replacement verkauft, verkauft den False-Positive-Anstieg gleich mit. Meine Position. Wer Daten hat, die das Gegenteil belegen, ich schaue sie an. Aber bitte mit Stichprobe.

Der DACH-Anker

Das BSI bewertete KI im April 2024 als Werkzeug, das die Einstiegshürden senkt und Geschwindigkeit/Volumen offensiver Operationen erhöht. Aber nicht zur vollständigen Angriffsautomatisierung führt. „Auch in naher Zukunft" (BSI 30.04.2024). BACS in der Schweiz und ENISA stehen mit ähnlichen Bewertungen daneben.

Aus US-Vendor-Perspektive klingt das vorsichtig. Aus Behörden-Perspektive ist es methodisch konsistent. Behörden-Lagebilder arbeiten mit Meldedaten, nicht mit Sales-Claims. Kein Hinterherhinken, sondern die Folge einer anderen Datenquelle. Ich nutze die DACH-Lagebilder in fast jedem Gespräch, in dem ein US-Vendor-Pitch auf dem Tisch liegt.

Was bleibt

Eine Zahl, die in jedem Gespräch hängenbleiben sollte: 22 Prozent. Geschwindigkeits-Plus, leichter Accuracy-Gewinn, Reallokation menschlicher Aufmerksamkeit auf relevante Fälle. Nachprüfbar, methodisch dokumentiert, herstellerfinanziert. Nicht 70 Prozent, und auch kein „autonomer SOC".

Wer auf der dokumentierten Basis aufbaut, hat ein Argument, das einem Audit standhält. Wer auf den Marketing-Zahlen aufbaut, finanziert eine Aussage, die der Vendor selbst nicht testbar gemacht hat. Und übernimmt damit das Replikations-Risiko, das der Vendor offen gelassen hat. Mein Bauchgefühl, methodisch gestützt: kauf nicht, was sich nicht prüfen lässt.

In Teil 2 geht es um die Grenzen der Augmentation: adversariale ML, Out-of-Distribution-Detection, und was passiert, wenn ein LLM-Triage-Agent ein Log-File ingestiert, in dem der Angreifer mitgeschrieben hat.

Teil 1 von 5 dieser Reihe zu KI im defensiven Cyber, Augmentation, nicht Ablösung:

Teil 1, Was die Daten tragen (aktuell)
Teil 2, Wo Augmentation aufhört
Teil 3, Was es für SOC-Teams heisst
Teil 4, KI gegen KI
Teil 5, Wie es doch gehen könnte