$ ki-news --datum 2026-06-14 | mail

KI-News — 14. Juni 2026

// die viralsten KI-Themen der letzten 24 Stunden, kuratiert für deinen Stack

$ cat top-story.md

Fable 5 löst 88 % von FrontierMath Tier 4 — Vorgänger schaffte unter 10 %

Anthropics Claude Fable 5 hat den FrontierMath-Benchmark auf der schwierigsten Stufe (Tier 4 v2) mit 87–88 % Genauigkeit gelöst. Das Vorgängermodell Opus 4.5 lag noch unter 10 % auf derselben Stufe, GPT-5.5 kommt heute auf rund 75 %. FrontierMath gilt als Königsdisziplin unter den KI-Benchmarks, da es offene Forschungsprobleme aus der Mathematik enthält — kein Trainings-Datenleck möglich. Trotz der aktuellen Regierungs-Abschaltung ist dieser Fähigkeitssprung der eigentliche technische Paukenschlag der Woche.

Warum relevant: Wer mathematisch anspruchsvolle Reasoning-Tasks, wissenschaftliche Berechnungen oder Theorem-Proving plant, sollte Fable 5 (sobald wieder zugänglich) priorisieren — der Abstand zu allen anderen Modellen ist bei echtem Mathe erstmals groß.

// quelle: The Decoder

## 📦 Modelle & Releases

Gemini-SQL2: Google übersetzt natürliche Sprache in SQL — 80 % BIRD-Accuracy

Googles neues Gemini-SQL2 (aufbauend auf Gemini 3.1 Pro) führt den BIRD-Benchmark mit 80 % Execution Accuracy an und lässt GPT-5.5 (~72,8 %) und Claude Opus 4.6 (~70,9 %) hinter sich. Ein öffentlicher Release-Termin steht noch aus. Warum relevant: Für RAG-Pipelines mit SQL-Backend und Text-to-SQL-Anwendungen zeigt das den State-of-the-Art — relevant für eigene Qdrant- und Datenbankprojekte. // The Decoder

Claude Code v2.1.176: Session-Titel in Gesprächssprache + neues Modell-Enforcement

Version 2.1.176 generiert Sitzungstitel automatisch in der Sprache des Gesprächs (per language-Setting konfigurierbar) und bringt enforceAvailableModels: Alias-basierte Modell-Picks können nun keine gesperrten Modelle mehr via Umgebungsvariablen umgehen. Außerdem neue footerLinksRegexes für Link-Badges. Warum relevant: Wer Claude Code in mehrsprachigen Projekten oder mit Team-Allowlists betreibt, gewinnt direkt nutzbare Kontrolle. // Claude Code Docs

OpenAI Codex: Flexible Rate-Limit-Resets — Zeichen im Preiskampf

OpenAI lässt Codex-Nutzer Rate-Limit-Resets selbst timen statt automatisch zurückzusetzen; alle Go/Plus/Pro/Business-Abonnenten erhalten einen Gratis-Reset, Plus- und Pro-User können weitere durch Einladen neuer Nutzer sammeln. Warum relevant: Die Maßnahme signalisiert wachsenden Preisdruck — und ist ein Hinweis darauf, dass Token-Kosten im Coding-Segment demnächst weiter fallen könnten. // The Decoder

## 🛠️ Tools & Repos

agent-pd — Audit-Logger und Polizei für Claude Code Agents

agent-pd zeichnet alle Tool-Calls, Permission-Events und Sub-Agenten-Aktionen einer Claude Code-Session auf, ohne einzugreifen. Sechs deterministische Detektoren erkennen Verstöße wie unautorisierte Dateizugriffe oder Credential-Exposition; pd watch streamt Events in Echtzeit. Warum relevant: Wer Agenten in produktiven Umgebungen oder auf geteilten Servern betreibt, bekommt unveränderliche Flight-Recorder-Logs — wichtig für Debugging und Compliance. // GitHub / Hacker News

Count Anything — neues Modell löst KI-Schwäche beim Objektzählen

Das Tsinghua-Modell Count Anything zählt Objekte aller Art (Menschenmassen, Satelliten-, Medizin- und Mikroskopbilder) per Textanweisung und halbiert die Fehlerrate: ~9 Fehler pro Kategorie vs. 20+ bei CLIP-Count und CountGD. Warum relevant: Wer Computer-Vision in RAG-Pipelines oder Dokumentenanalyse integriert, findet hier endlich ein belastbares Open-Research-Tool für ein bisher schwaches KI-Glied. // The Decoder

## 🤖 Agenten & MCP

Microsoft SkillOpt: Agent-Skills wie neuronale Netze optimieren — ohne Fine-Tuning

SkillOpt analysiert Agent-Execution-Logs und schlägt präzise Änderungen an Skill-Dokumenten (Markdown, 300–2.000 Token) vor — analog zu Lernraten und Gradienten im klassischen Training. In sechs Benchmarks stieg GPT-5.5-Performance um ~23 Punkte; das Verfahren funktioniert modellunabhängig ohne Gewichtsänderung. Warum relevant: Zeigt einen praxisnahen Weg, wie Claude Code Skills, MCP-Instruktionen oder RAG-Pipelines systematisch iteriert werden können — ohne Retraining oder Fine-Tuning. // The Decoder

## 🎬 Sehenswert

c't 3003: Claude 5 Fable ausgeschaltet

c't 3003 ordnet die US-Regierungsanweisung zur globalen Sperrung von Fable 5 und Mythos 5 ein und diskutiert Konsequenzen für europäische Nutzer — mit gewohnt nüchternem Blick auf die politische Dimension. Warum relevant: Kompakte deutsche Einordnung des geopolitisch wichtigsten KI-Events der Woche — für alle, die die Hintergründe in 10 Minuten verstehen wollen. // c't 3003 (YouTube, 13. Juni 2026)

## 📰 Lesenswert

Metas Token-Maxing-Skandal: 73,7 Billionen Tokens in 30 Tagen für ein internes Leaderboard

Meta-Mitarbeiter hatten über das interne Leaderboard „Claudeonomics" ihren KI-Tokenverbrauch maximiert — ein Nutzer häufte in 30 Tagen 73,7 Billionen Tokens an. Meta reagiert ab 2027 mit Budgets und einem zentralen „AI Gateway"-Dashboard. Warum relevant: Lehrbeispiel, wie falsche Incentives KI-Kosten explodieren lassen — und warum Token-Verbrauch kein Proxy für Produktivität ist. // The Decoder

Heise-Kommentar: Die Fable-Abschaltung ist die beste Werbung für alternative KI-Anbieter

Heises Kommentar zur US-Exportkontrolle macht deutlich, wie abhängig Unternehmen weltweit von US-kontrollierten KI-Anbietern sind — und warum die Abschaltung von Fable 5 der Debatte um europäische und Open-Source-Alternativen neuen Schub gibt. Warum relevant: Wer Self-Hosting und KI-Souveränität strategisch bewertet, findet hier eine pointierte Einordnung der geopolitischen Dimension — direkt relevant für den eigenen Stack. // heise online

$ echo "automatisch recherchiert am 2026-06-14"
> ki-news · news.reichenberg.ruhr

[ abbestellen ] [ im browser ansehen ]