🤖 KI-News — 9. Juni 2026

Die viralsten KI-Themen der letzten 24 Stunden, kuratiert für deinen Stack.

⭐ Top-Story

Anthropic veröffentlicht Claude Fable 5 — erstes öffentliches Mythos-Klasse-Modell

Anthropic hat heute Claude Fable 5 und Claude Mythos 5 freigegeben — das erste Mythos-Klasse-Modell für die breite Öffentlichkeit und laut Anthropic State of the Art auf nahezu allen getesteten Benchmarks (Software-Engineering, Wissensarbeit, Vision, Forschung). Sicherheitskritische Anfragen (Cybersecurity, Biologie) beantwortet stattdessen Opus 4.8 — das greift in unter 5 % der Sessions. Preis: 10 $/50 $ pro Mio. Input-/Output-Tokens; bis 22. Juni ist Fable 5 in Pro-, Max-, Team- und Enterprise-Plänen ohne Aufpreis enthalten, danach nur noch gegen Usage-Credits. Auf Hacker News mit über 1.200 Punkten die mit Abstand größte Story des Tages.

Warum relevant: Bis 22. Juni kannst du Fable 5 im Pro/Max-Plan kostenlos in Claude Code testen (ab Version 2.1.170) — das Zeitfenster lohnt sich für einen direkten Vergleich mit Opus 4.8 an deinen echten Projekten.

(Anthropic · weitere Quellen: The Decoder, TechCrunch)

📦 Modelle & Releases

WWDC: Apple startet „Siri AI" auf Gemini-Basis neu — vorerst nicht in der EU

Apple hat auf der WWDC den kompletten KI-Neustart von Apple Intelligence vorgestellt: Die neue Siri basiert auf einer eigens angepassten Gemini-Architektur und durchsucht Mails, Nachrichten und Fotos auf dem Gerät — EU-iPhones bleiben zum Start aber außen vor. Warum relevant: Falls du Apple-Geräte nutzt, heißt es abwarten — der EU-Rollout ist offen, und die Diskussion um DMA-bedingte Feature-Verzögerungen geht in die nächste Runde. (heise online)

Xiaomi MiMo-V2.5-Pro-UltraSpeed: 1-Billionen-Modell mit über 1.000 Tokens/s

Xiaomi serviert sein 1T-Parameter-Modell dank FP4-Quantisierung, DFlash-Speculative-Decoding und der TileRT-Runtime mit Spitzen um 1.200 Tokens/s — auf handelsüblichen GPUs, nicht auf Spezial-Silizium; der FP4-DFlash-Checkpoint ist auf Hugging Face offen verfügbar (608 HN-Punkte). Warum relevant: Die Technik-Kombination FP4 + Speculative Decoding zeigt, wohin Inference-Optimierung geht — Konzepte, die mittelfristig auch in vLLM landen dürften. (Xiaomi MiMo Blog · MarkTechPost)

🛠️ Tools & Repos

turbovec: Neuer Rust-Vektorindex auf TurboQuant-Basis

Der heute mit +1.800 Sternen auf GitHub Trending durchstartende Vektorindex setzt auf TurboQuant-Quantisierung, ist in Rust geschrieben und bringt Python-Bindings mit (10.000 Sterne gesamt). Warum relevant: Für deine RAG-Pipeline einen Blick wert — als leichtgewichtige Embedded-Alternative zu Qdrant für kleinere Kollektionen oder als Benchmark-Vergleich. (GitHub)

Supply-Chain-Angriff: Microsofts Open-Source-Tools stahlen Passwörter von KI-Entwicklern

Angreifer kompromittierten mindestens 70 Microsoft-Repos auf GitHub (v. a. Azure-Tooling); die Malware griff Credentials ab, sobald die Pakete in KI-Coding-Tools wie Claude Code, Gemini CLI oder VS Code geöffnet wurden — Microsoft hat betroffene Repos vorübergehend offline genommen. Warum relevant: Wenn du Azure-nahe Pakete oder MCP-Server aus diesen Repos nutzt, jetzt Dependencies prüfen und ggf. Tokens rotieren. (TechCrunch)

🤖 Agenten & MCP

Claude Code 2.1.166–2.1.170: Fable 5, Safe Mode, /cd und Fallback-Modelle

Die Releases der letzten Tage bringen Fable-5-Support (2.1.170), ein --safe-mode-Flag zum Start ohne CLAUDE.md/Plugins/Hooks/MCP, den /cd-Befehl zum Verzeichniswechsel ohne Prompt-Cache-Verlust, das fallbackModel-Setting mit bis zu drei Fallbacks sowie Glob-Patterns in Deny-Regeln. Warum relevant: --safe-mode ist das neue Mittel der Wahl, um Probleme mit eigenen Hooks/Skills sauber zu isolieren — und Fallback-Modelle fangen Rate-Limits in Automationen ab. (Claude Code Docs)

MCP-Spezifikation 2026-07-28: Release Candidate mit stateless Core, Tasks und MCP Apps

Der RC der nächsten MCP-Spec macht das Protokoll auf Kernebene stateless (skaliert damit auf gewöhnlicher HTTP-Infrastruktur), führt Extensions, Tasks für langlaufende Jobs und server-gerenderte UIs (MCP Apps) ein und härtet die OAuth-Autorisierung; final wird die Spec am 28. Juli. Warum relevant: Wer eigene MCP-Server betreibt, sollte jetzt gegen den RC testen — die Stateless-Umstellung betrifft Session-Handling direkt. (MCP Blog)

🏠 Self-Hosting & RAG

Gemma 4 12B: Multimodaler Gemma-Nachfolger für 16-GB-Hardware

Google DeepMinds neues Open-Weights-Modell (Apache 2.0) verarbeitet Text, Bilder, Audio und Video nativ ohne separate Encoder, läuft mit 16 GB VRAM/Unified Memory und erreicht fast das Niveau des 26B-Vorgängers. Warum relevant: Der natürliche Upgrade-Pfad für dein vLLM+Gemma-Setup — gleiche Hardware, dazu Audio/Video-Verständnis für neue RAG-Anwendungsfälle. (Google Blog · The Decoder)

vLLM v0.22.1: Support für JetBrains Mellum v2 und DeepSeek-V4-Fixes

Das Patch-Release bringt Support für JetBrains' offenes MoE-Code-Modell Mellum v2, behebt CUTLASS-Initialisierungsprobleme bei DeepSeek-V4, beschleunigt quantisierte Inferenz (W8A8/W4A16) auf AMD-Zen-CPUs und fixt einen Hänger beim Multi-Node-Serving mit Ray. Warum relevant: Routine-Update für deinen Inference-Server — besonders falls du quantisierte Modelle auf CPU-Backends testest. (GitHub)

Qdrant v1.18.2 schließt Auth-Bypass in der REST-API — Update empfohlen

Das Release behebt zwei Sicherheitslücken (Whitelist-Bypass in der REST-Authentifizierung, Heap-Read über manipulierte Snapshots) sowie eine potenzielle Endlosschleife im Optimizer bei Multi-Vektoren. Warum relevant: Dein Qdrant sollte zeitnah auf 1.18.2 — gerade wenn die REST-API über das LAN hinaus erreichbar ist. (GitHub)

Open WebUI v0.9.6: Knowledge-Base-Sync für Verzeichnisse, GitHub und S3

Knowledge Bases lassen sich jetzt automatisch mit lokalen Ordnern, GitHub-Repos und S3-Buckets synchronisieren (mit Delta-Erkennung), bekommen verschachtelte Ordnerstrukturen und ein Filesystem-Tool, mit dem Modelle KB-Inhalte per ls/cat/grep durchsuchen; Skills sind nun pro Chat zuschaltbar. Warum relevant: Der KB-Sync könnte Teile deiner eigenen Ingestion-Skripte ersetzen — Delta-Erkennung inklusive. (GitHub)

LiteLLM-Lücke CVE-2026-42271 wird aktiv ausgenutzt — CISA warnt

Die Command-Injection in LiteLLMs MCP-Test-Endpoints (CVSS 8.7) steht jetzt im CISA-KEV-Katalog und lässt sich mit der Starlette-Lücke „BadHost" (CVE-2026-48710) zu unauthentifiziertem RCE verketten; Abhilfe: LiteLLM ≥ 1.83.7 und Starlette ≥ 1.0.1. Warum relevant: Falls irgendwo in deinem Stack ein LiteLLM-Proxy läuft (auch als OpenWebUI-Backend), sofort patchen — Starlette steckt zudem in vielen Python-API-Stacks. (The Hacker News · Help Net Security)

🎬 Sehenswert

Matthew Berman: „MYTHOS is LIVE!!!!"

Bermans Einordnung des Fable-5/Mythos-5-Launches vom heutigen Tag — erste Eindrücke, Benchmarks und was die Safeguards in der Praxis bedeuten. Warum relevant: Schneller Überblick zur Top-Story, bevor du selbst Credits investierst. (YouTube)

Fireship: „Anthropic is starting to panic…"

Fireships gewohnt zugespitzter Blick auf den Spagat, dass Anthropic erst vor Gefahren der KI warnt und Tage später sein bislang stärkstes Modell veröffentlicht. Warum relevant: Die Gegenperspektive zum Launch-Hype in fünf Minuten. (YouTube)

📰 Lesenswert

OpenAI reicht vertraulichen S-1 ein — erster Schritt Richtung Börsengang

Eine Woche nach Anthropic hat auch OpenAI vertraulich einen S-1 bei der SEC eingereicht („Wir erwarten, dass es leakt, also kündigen wir es einfach an"); Analysten erwarten ein Listing möglicherweise ab September bei über einer Billion Dollar Bewertung. Warum relevant: Beide großen Modellanbieter werden börsennotiert — das dürfte Preis- und Produktpolitik (Stichwort Usage-Credits) spürbar prägen. (The Decoder · OpenAI)

Automatisch recherchiert am 2026-06-09 · KI-News · news.reichenberg.ruhr
Newsletter abbestellen · Im Browser ansehen