KI gegen KI, was Angreifer wirklich machen, und was nicht (Teil 4 von 5)

Bisher ging es in dieser Reihe um die Defensiv-Seite. Was Augmentation leistet, wo sie aufhört, was es organisatorisch heisst. Daneben sitzt eine Frage, die in CISO-Briefings selten ehrlich beantwortet wird: was machen Angreifer eigentlich mit KI? Die Antwort ist nüchterner als die Boulevard-Berichte und differenzierter als ein BSI-Einsatz-Satz. Wer eine andere Antwort hat, ich höre zu. Aber bitte mit Daten, nicht mit Headlines.

TL;DR: Angreifer nutzen KI real für Phishing-Skalierung (Hybrid Mensch+LLM ist das wirksame Mittelfeld, reine LLM-Mails werden zunehmend filterbar) und für Variant-Analysis bei Vuln-Discovery (Big Sleep, mit Caveats). Vollautonome Angriffs-KI bleibt überwiegend Hype. BSI, ENISA und Microsoft Threat Intel bewerten sie bis Mai 2026 als nicht im operativen Massstab beobachtbar.

Phishing: real, aber mit Granularität

Die ehrlichsten Daten zur LLM-Phishing-Wirkung kommen aus zwei akademischen Studien. Heiding et al. messen Click-Rates: Kontroll-Templates 19 bis 28 Prozent, GPT-generierte Phishing-Mails 30 bis 44 Prozent, Mensch-mit-Psychologie-Modell (V-Triad) 69 bis 79 Prozent, Hybrid Mensch-plus-LLM 43 bis 81 Prozent (n=112). Bethany et al. haben in einer Universitäts-Studie über elf Monate mit rund 9 000 Empfängern eine Credential-Eingabe-Rate von etwa 10 Prozent für LLM-generierte Phishing-Mails dokumentiert (arXiv:2401.09727). LLM-Mails matchen menschlich erstellte Spear-Phish-Effektivität. Und ein ML-Detektor mit F1 von 98,96 Prozent bleibt machbar.

Die TU Berlin bestätigt das in einer 2026-Arbeit (mlsec.tu-berlin.de). LLM-Phishing über 30 Prozent Click-Rate, in kleineren Firmen teilweise menschliche Baselines übertreffend. Real, mess- und filterbar.

CrowdStrike veröffentlichte im Global Threat Report 2025 eine andere Zahl. 442 Prozent Vishing-Anstieg in der zweiten Hälfte 2024 gegenüber der ersten, 54 Prozent Click-Rate bei LLM-Phishing gegenüber 12 Prozent bei menschlichen Mails. Die Methode steht nicht in der Publikation. Ich akzeptiere CrowdStrikes Zahlen als Trend-Indikator, weil sie konsistent mit der akademischen Evidenz sind. In einem Investment-Case oder einem Customer-Briefing würde ich sie nicht als Primärbeleg zitieren. Wer das tut, kauft das Marketing-Volumen. Nicht die methodische Aussage.

Die wichtigere Beobachtung verbirgt sich in den Heiding-Daten. Human-crafted Spear-Phishing schlägt reine LLM-Mails um den Faktor zwei. Das interessante Mittelfeld ist Hybrid: Mensch plus LLM. Das deckt sich mit dem, was ich in Hunt-Engagements sehe. Die effektivsten Spear-Phish-Kampagnen kombinieren LLM-Skalierung mit menschlicher Psycho-Crafting der ersten ein, zwei Mails pro Target. Reine LLM-Volumen-Phishing wird zunehmend filterbar. Hybrid-Phishing bleibt das, was Detection-Pipelines real fordert. Genau darauf bauen wir unsere Pipelines gerade um.

Vuln-Discovery: erste echte Erfolge, mit zwei Caveats

Die Schlagzeilen-Kandidaten sind real. Big Sleep, das LLM-Agent-Projekt von Google Project Zero und DeepMind, hat im Oktober 2024 die erste „previously unknown exploitable memory-safety issue" in weit-genutzter Software identifiziert: einen Stack-Buffer-Underflow in SQLite, vor Release (Project Zero Blog). Im August 2025 meldete das Team 20 weitere Bugs in FFmpeg, ImageMagick und anderen Open-Source-Projekten. Die DARPA AI Cyber Challenge im selben Monat dokumentiert: autonome Cyber-Reasoning-Systeme finden 86 Prozent synthetischer Vulnerabilities, patchen 68 Prozent davon, im Schnitt für 152 USD Compute pro Task (DARPA).

Beide Beispiele sind belastbar. Beide haben die Caveats, die in der Marketing-Lesart verloren gehen. Big Sleep operiert in Variant-Analysis-Modus. Der Agent bekommt ein bekanntes Vulnerability-Pattern und sucht in Code-Bases nach Varianten. Das Project-Zero-Team selbst formuliert es trocken: „target-specific fuzzer would be at least as effective at present". Kein Open-Ended-Vulnerability-Hunting. Pattern-Erweiterung. Der DARPA-Wettbewerb operiert auf synthetischen Challenge-Projekten, also Open-Source-Codebasen mit eingebauten Vulnerabilities. Definierter Spielraum. Kein adversariales End-to-End-Setting.

Das Mouzopoulos-Paper aus 2025 fasst das systematisch zusammen. LLM-Cyber-Evaluations unterschätzen die Real-World-Risiko-Komponenten (Wartung, Skalierung, Detection-Vermeidung) gegenüber den Lab-Settings (arXiv:2502.00072). Was als „LLM findet 0-days" Schlagzeile macht, ist in der Realität enger umgrenzt. Variant-Analysis mit klarem Startpunkt funktioniert produktiv. Open-Ended-Vulnerability-Discovery ohne Hypothese funktioniert nicht. Wer das eine als das andere verkauft, verkauft eine andere These als die, die die Daten tragen.

Vollautonome Angriffs-KI: hauptsächlich Hype

Die DACH-Behörden-Position ist konservativ und konsistent. Das BSI bewertete im April 2024 vollautonome Angriffs-KI als „nicht verfügbar und in naher Zukunft unwahrscheinlich" (BSI 30.04.2024). ENISA Threat Landscape 2024 und 2025 dokumentieren KI-augmentierte Operationen (Phishing-Kampagnen, einfache Malware-Mutation) auf „begrenzter, sich entwickelnder Skala". Microsoft Threat Intel im März 2026: agentic AI auf Threat-Actor-Seite „not yet observed at scale and limited by reliability and operational risk".

Der Gegen-Datenpunkt heisst GTG-1002. Anthropic publizierte im November 2025 einen Bericht zu einer mutmasslich chinesisch-staatlich attribuierten Espionage-Operation, in der Claude Code via MCP-Tooling laut Anthropic-Telemetrie 80 bis 90 Prozent der taktischen Operationen autonom ausgeführt habe (Anthropic). Die aggressivste Autonomie-Behauptung am Markt. Sie kommt von einem AI-Anbieter über sein eigenes Produkt. Und Anthropic dokumentiert in derselben Publikation AI-Halluzinationen und Result-Validation als Reibungs-Faktoren.

Selbst in dem Fall, der von einem AI-Anbieter offensiv als „AI-orchestrated" kommuniziert wird, dokumentiert der Anbieter selbst Halluzinationen als Engpass. Nicht Bescheidenheit. Die strukturelle Eigenschaft der Architektur, die uns auf Defensiv-Seite genauso einschränkt. Sie verschwindet auch auf Offensiv-Seite nicht durch ein Modell-Release.

Wer die GTG-1002-Zahl in einem Risk-Assessment übergewichtet, ohne den Halluzinations-Caveat mitzuzitieren, kauft das Marketing der Hersteller-Self-Disclosure. Umgekehrt: die BSI- und ENISA-Bewertungen wegen geringerer Sensationsdichte zu ignorieren, gibt eine Datenquelle weg, die methodisch sauberer arbeitet als jeder Hersteller-Threat-Report. Meine Position dazu ist klar: BSI, BACS und ENISA sind keine vorsichtige Behörden-Höflichkeit, sondern die einzige verfügbare Datenquelle, die nicht auf einem kommerziellen Selektions-Bias basiert. Wer mir das widerlegen will, soll mir den Hersteller-Threat-Report mit offengelegter Methode und unabhängiger Replikation zeigen. Ich warte.

Wabi-Sabi: warum Detection-Reflex die Gleichung verschiebt

Eine letzte Beobachtung, die nicht aus der Cyber-Forschung kommt, sondern aus der Mensch-AI-Interaktion. AI-generierte Inhalte entwickeln erkennbare Stil-Marker. Eine zu glatte Rhythmus-Struktur, fake-contrast-Konstruktionen, übertriebene Gewissheit. Menschen, die viele AI-Inhalte sehen, entwickeln einen „klingt-nach-AI"-Reflex und discounten den Inhalt automatisch.

Zwei Detection-Engineering-Implikationen daraus. Pure-AI-Phishing-Inhalte werden mit der Zeit detektierbarer, nicht weniger detektierbar. Die Heiding-Daten zeigen das bereits: Hybrid (Mensch+LLM) bleibt effektiv, pure LLM verliert. Das gilt auch für unsere eigene Editorial-Disziplin. Für Defensive-Content-Pipelines (Threat-Intel-Briefings, Customer-Reports, Detection-Documentation) ist ein „klingt-nach-AI"-Output ein Glaubwürdigkeits-Risiko, auch wenn der Inhalt korrekt ist. Wer CTI-Reports im AI-Standard-Stil ausliefert, lehrt seine Mandanten, die Reports nicht mehr zu lesen.

Ich teste meine eigenen Reports gegen den „klingt-nach-AI"-Reflex. Wenn ein Mandanten-Briefing zu glatt klingt, schreibe ich es um. Das ist Glaubwürdigkeits-Erhaltung, nicht Marketing. Wer das nicht aktiv macht, lässt seine Reports von der gleichen Modell-Familie schreiben, die seine Mandanten gerade ausfiltern lernen.

Was das in der Threat-Modellierung heisst

LLM-augmentiertes Phishing ist real und benötigt aktualisierte Content-Pattern-Detection. Hybrid-Spear-Phish-Erkennung wird die anspruchsvollere Sub-Aufgabe. LLM-Vuln-Discovery ist real für Variant-Analysis und sollte als Defensive-Pattern repliziert werden. Eigene Variant-Analysis-Pipelines auf bekannten Vulnerability-Klassen ziehen pre-disclosure-Findings in den eigenen Stack. Vollautonome Angriffs-KI bleibt überwiegend Hype und gehört nicht in die Top-Tier des Risk-Assessments. Die DACH-Behörden-Bewertung ist hier der Anker. Nicht die spektakulären Hersteller-Reports.

In Teil 5, dem Schluss-Teil dieser Reihe, geht es um die konstruktive Frage. Nach vier Parts methodischer Skepsis: was empfehle ich tatsächlich? Welche Patterns funktionieren, welche Voraussetzungen müssen stehen, und welches Decision-Framework wende ich in Engagements an?

Teil 4 von 5 dieser Reihe zu KI im defensiven Cyber, Augmentation, nicht Ablösung:

Teil 1, Was die Daten tragen
Teil 2, Wo Augmentation aufhört
Teil 3, Was es für SOC-Teams heisst
Teil 4, KI gegen KI (aktuell)
Teil 5, Wie es doch gehen könnte