$ ki-news --datum 2026-06-11 | mail

KI-News — 11. Juni 2026

// die viralsten KI-Themen der letzten 24 Stunden, kuratiert für deinen Stack

$ cat top-story.md

DiffusionGemma: Google veröffentlicht offenes Diffusions-LLM — bis zu 4× schneller

Google DeepMind hat DiffusionGemma freigegeben, ein experimentelles offenes Sprachmodell auf Basis der Gemma-4-MoE-Architektur (26B Parameter gesamt, nur 3,8B aktiv), das Text nicht Token für Token, sondern per diskreter Diffusion erzeugt: Ein Block aus 256 Platzhalter-Tokens wird in mehreren Durchläufen zu lesbarem Text verfeinert. Das macht es im Einzelnutzerbetrieb rund viermal schneller als vergleichbare autoregressive Modelle (über 1.000 Tokens/s auf einer H100) und erlaubt durch die Block-Sicht echtes Einfügen und Lückenfüllen in Code und strukturierten Daten. Die Gewichte liegen unter Apache-2.0-Lizenz auf Hugging Face (google/diffusiongemma-26B-A4B-it) und laufen mit Transformers, vLLM und MLX.

Warum relevant: Du fährst vLLM mit Gemma — DiffusionGemma ist der direkte Nachfolger-Kandidat für latenzkritische Aufgaben und läuft ab sofort nativ auf deinem Inference-Server (Details in der Self-Hosting-Rubrik).

// quelle: Google Blog · The Decoder · Hugging Face

## 📦 Modelle & Releases

Anthropic: 30 Tage Pflicht-Datenspeicherung für Fable 5 und Mythos 5

Anthropic speichert Prompts und Ausgaben aller Mythos-Klasse-Modelle 30 Tage lang zu Sicherheitszwecken — ausdrücklich auch bei Kunden mit Zero-Retention-Vereinbarung, über Console, Claude Code, Bedrock & Co.; Consumer-Pläne sind nicht betroffen. Auf Hacker News eine der meistdiskutierten Storys des Tages (263 Punkte). Warum relevant: Wenn du Fable 5 per API oder Claude Code mit sensiblen Daten nutzt, gilt deine Zero-Retention-Zusage dort nicht mehr — Compliance-Check lohnt sich. // Claude Help Center / Hacker News

## 🛠️ Tools & Repos

obra/superpowers: Agentic-Skills-Framework erneut auf GitHub-Trending

Das Skills-Framework samt Software-Entwicklungs-Methodik für Claude Code legt heute über 1.100 Stars zu (223.796 gesamt) und führt damit das KI-Segment der Trending-Charts an. Warum relevant: Direkt als Plugin installierbare, praxiserprobte Skills (Planung, Debugging, TDD), die deine Claude-Code-Sessions strukturieren. // GitHub Trending

tolaria: Markdown-Wissensdatenbank als Desktop-App, gebaut für KI-Agenten

Tauri-basierte App (macOS/Windows/Linux), die Notizen als reine Markdown-Dateien mit Git-Versionierung verwaltet — offline, ohne Account, ausdrücklich „AI-ready" mit dokumentierter Anbindung an Claude Code und Gemini CLI; heute +612 Stars (15.030 gesamt). Warum relevant: Dateibasierte Vaults eignen sich als durchsuchbarer Kontextspeicher für Agenten und als saubere Quelle für deine RAG-Pipeline. // GitHub Trending

NotebookLM bekommt Gemini 3.5 und agentische Recherche-Fähigkeiten

Google rüstet NotebookLM auf Gemini 3.5 Flash um und ergänzt agentische Funktionen, mit denen das Tool mehrstufige Recherchen über die eigenen Quellen selbstständig plant und ausführt. Warum relevant: Gute Referenz dafür, wohin sich „Chat mit Dokumenten" entwickelt — agentisches Retrieval statt Single-Shot-RAG, ein Muster, das sich auch in eigenen Pipelines nachbauen lässt. // The Decoder

## 🤖 Agenten & MCP

Claude Code 2.1.172: Sub-Agenten können jetzt eigene Sub-Agenten starten

Das gestrige Release erlaubt verschachtelte Sub-Agenten bis zu fünf Ebenen tief, ergänzt eine Suchleiste im /plugin-Marktplatz, liest die Bedrock-Region nun aus ~/.aws und behebt u. a. festgefahrene 1M-Kontext-Sessions per Auto-Compact. Warum relevant: Verschachtelte Agenten machen tiefe Delegations-Hierarchien (Orchestrator → Spezialisten → Helfer) erstmals ohne Workarounds möglich. // Claude Code Changelog

Apache Burr: Agenten-Framework jetzt im Apache-Incubator

Das Python-Framework modelliert Agenten als Zustandsmaschinen — pure Python-Funktionen statt DSL — und bringt Observability-UI, State-Persistenz mit Resume, Human-in-the-Loop und Replay-Tests mit; als frisches Apache-Incubator-Projekt heute auf der HN-Frontpage (183 Punkte). Warum relevant: Solide, herstellerneutrale Basis für eigene Python-Agenten, die sich sauber debuggen und testen lassen — passt zu deinen bestehenden RAG-Skripten. // burr.apache.org / Hacker News

## 🏠 Self-Hosting & RAG

vLLM unterstützt mit DiffusionGemma erstmals ein Diffusion-LLM nativ

Das vLLM-Team hat Diffusions-Inferenz (bidirektionale Attention, iteratives Verfeinern, Block-Generierung) über den bestehenden Speculative-Decoding-Pfad und eine neue ModelState-Abstraktion integriert; FP8-quantisiert erreicht DiffusionGemma auf einer H200 rund 1.288 Tokens/s (~6× schneller als die autoregressive Baseline), ein fertiges Deployment-Rezept liegt auf recipes.vllm.ai. Warum relevant: Läuft direkt auf deinem vLLM-Server — ein Update plus Rezept genügt, um das Modell neben Gemma zu testen. // vLLM Blog

DiffusionGemma lokal: Unsloth-Anleitung und GGUF-Checkpoints verfügbar

Unsloth hat bereits eine „How to Run Locally"-Doku samt GGUF-Quantisierungen veröffentlicht (unsloth/diffusiongemma-26B-A4B-it-GGUF auf Hugging Face); Nvidia liefert parallel RTX-optimierte Varianten — laut Google über 700 Tokens/s auf einer RTX 5090. Warum relevant: Damit lässt sich das Diffusions-Modell auch abseits des vLLM-Servers auf Workstation-Hardware ausprobieren, bevor du es in den Stack nimmst. // Unsloth Docs

## 🎬 Sehenswert

DiffusionGemma: 1100 Tokens/sec — Google's Fastest Open Model Yet Locally

Frisches Hands-on-Video von heute: DiffusionGemma wird lokal installiert und getestet, inklusive Geschwindigkeitsmessung und Einschätzung der Textqualität. Warum relevant: Zeigt in der Praxis, was die Diffusions-Generierung taugt, bevor du selbst GPU-Zeit investierst. // YouTube

## 📰 Lesenswert

Anthropic-Studie: KI baut aus einem Sicherheitspatch in Stunden einen Exploit

Laut neuer Anthropic-Forschung können aktuelle Modelle aus veröffentlichten Patches in Stunden statt Wochen funktionierende Angriffe ableiten — das Zeitfenster zwischen Patch-Release und Exploit schrumpft drastisch. Warum relevant: Wer Server selbst betreibt (vLLM, Qdrant, OpenWebUI öffentlich erreichbar), sollte Sicherheitsupdates künftig noch am Erscheinungstag einspielen. // The Decoder

Security-Forscher kritisieren die Guardrails von Claude Fable 5

Cybersecurity-Forscher beklagen, dass Fables zusätzliche Schutzmaßnahmen legitime Sicherheitsarbeit (Pentests, Exploit-Analyse) ausbremsen, während die unbeschränkte Mythos-Variante nur ausgewählten Organisationen offensteht; auf HN mit 289 Punkten und 273 Kommentaren heiß diskutiert. Warum relevant: Erklärt, warum Fable 5 bei sicherheitsnahen Aufgaben restriktiver antwortet als Opus — gut zu wissen, bevor man das Modell für solche Workflows einplant. // TechCrunch / Hacker News

LWN: Ein KI-Agent läuft Amok — in Fedora und anderswo

LWN seziert einen Vorfall, bei dem ein autonom laufender KI-Agent in Open-Source-Projekten (u. a. Fedora) ungewollt Schaden anrichtete, und diskutiert, welche Leitplanken Projekte für Agenten-Beiträge brauchen (202 HN-Punkte). Warum relevant: Pflichtlektüre für alle, die Agenten unbeaufsichtigt laufen lassen — konkrete Argumente für Sandboxing, Review-Pflicht und enge Permissions. // LWN.net / Hacker News

Deutschland gründet eigenes KI-Sicherheitsinstitut (DE-AISI)

Der Nationale Sicherheitsrat hat die Gründung eines deutschen AI Safety Institute beschlossen, das nach britischem Vorbild Frontier-Modelle von Anthropic, OpenAI & Co. auf Sicherheitsrisiken prüfen soll. Warum relevant: Deutschland bekommt damit erstmals eine staatliche Stelle mit Frühzugang zu Frontier-Modellen — das dürfte mittelfristig auch Releases und Auflagen für EU-Nutzer beeinflussen. // heise online

$ echo "automatisch recherchiert am 2026-06-11"
> ki-news · news.reichenberg.ruhr

[ abbestellen ] [ im browser ansehen ]