Qognio / Apps / Kai

Live · ki-kennzahlen-coach

Kai KI-Methodik & Kennzahlen-Coach — ML-Bewertung, Bias, Drift

Kai ist die Methodik-Stimme: was bedeutet Precision/Recall/F1 in eurer HR-KI? Wie messt ihr Drift in einem Predictive-Maintenance-Modell? Wann ist ein Adverse-Impact-Befund statistisch belastbar, wann Stichprobenfehler? Übersetzt zwischen ML-Engineers, Compliance und Geschäftsführung.

Kai fragen → Use-Cases

12 MetrikenPrecision · Recall · F1 · ROC-AUC · PR-AUC · MCC · Calibration · …

Bias-TestsAdverse-Impact-Ratio · Equal-Opportunity · Demographic-Parity

DriftData-Drift · Concept-Drift · KS-/PSI-/JS-Divergenz

ki-kennzahlen-coach.on.qognio.com

„Eine Genauigkeit von 92 % klingt nach vier Quartalen — bis du merkst, dass eure Klasse-1-Quote 5 % ist und der Trivial-Klassifikator ‚alles negativ’ schon 95 % hätte.” — Kai-KB · 02-warum-accuracy-luegt.md

Was kann Kai

Vier typische Anlässe, ein Coach.

Kai ordnet ML-Methodik für Praktiker:innen ohne PhD ein. Vier typische Anlässe:

USE-CASE 01 · Metriken-Wahl

Welche Kennzahl passt zu welchem Use-Case?

Imbalance, Cost-Sensitive, Multi-Class, Ranking. Kai erklärt, warum Accuracy bei medizinischer Klassifikation lügt, warum F1 bei Spam-Filter sinnvoll ist und warum PR-AUC bei Bias-Befund relevanter ist als ROC-AUC.

„HR-Screening-Modell mit 5 % Annahme-Quote — welche Kennzahl?”

USE-CASE 02 · Bias-Befund

AIR 0.78 — Befund oder Stichprobenrauschen?

Kai rechnet Konfidenzintervalle, prüft Sample-Größe, ordnet AIR + EOD + KS-Test zueinander ein und sagt: belastbar oder noch nicht. Cross-Sell zu Bea, wenn der Heartbeat-Workflow gebraucht wird.

„AIR 0.78 nach 200 Bewerber:innen — schon Befund?”

USE-CASE 03 · Drift-Detection

Wann ist ein Modell veraltet?

Kai erklärt Data-Drift vs. Concept-Drift, schlägt KS-Test / PSI / JS-Divergenz vor und gibt Schwellwerte (PSI > 0.25 = Re-Train-Trigger). Cross-Sell zu Vestigia für die Audit-Trail-Doku des Re-Trainings.

„Predictive-Maintenance-Modell drei Jahre alt — wie messe ich, ob es veraltet ist?”

USE-CASE 04 · GF-Übersetzung

Geschäftsführer:in versteht F1 0.83 nicht — Kai übersetzt

Aus der Metrik wird eine Business-Aussage: von 100 vorhergesagten positiven Fällen sind 80 richtig, von allen tatsächlich Positiven erkennen wir 85 %. Kein Zahlenbrei.

„Vorstand will Modell-Performance — wie sage ich das ohne Statistik-Lecture?”

Metriken-Cheatsheet

Welche Kennzahl wann?

Pro Aufgabentyp die Default-Wahl + die Falle.

Aufgabe	Default-Metrik	Falle
Binary, balanced	F1, Accuracy	nur okay solange Klassen-Quote ≈ 50/50
Binary, imbalanced	PR-AUC, MCC	ROC-AUC verschönert bei sehr seltener Positiv-Klasse
Multi-Class	Macro-F1	Weighted-F1 versteckt schwache Minderheits-Klassen
Ranking / Empfehlung	NDCG, MAP@K	Accuracy auf Top-1 bewertet die ganze Liste nicht
Regression	MAE, RMSE	R² lügt bei nicht-linearen Mustern
Kalibrierung	Brier-Score, Reliability-Diagram	hohe Accuracy + schlechte Kalibrierung = Entscheidungs-Risiko
Bias / Fairness	AIR, EOD, Demographic-Parity-Difference	nur ein Maß zeigen verzerrt — drei zusammen geben Bild

Für wen

Kai ist für drei Rollen.

Kai-Zielgruppen — vom Engineer bis zur Geschäftsführung:

ML-Engineer / Data-Scientist

Sparringspartner für Metriken-Wahl, Drift-Schwellen, Bias-Tests. Spart Sekundärliteratur-Recherche bei jeder Modell-Review.

AI-Officer / Compliance-Lead

Übersetzt ML-Kennzahlen in Konformitätsbewertungs-Begriffe (AI-Act Art. 15 Robustheit / Genauigkeit). Übergabe zu Vestigia für Tech-Doku-Trail.

Geschäftsführung / Produkt-Owner

GF-taugliche Übersetzung: was bedeutet F1 / Recall / Drift für eure Geschäftsentscheidung? Risiko, ROI, Re-Train-Cost.

Workflow

Drei Schritte, eine Übergabe-bereite Antwort.

Kai arbeitet in drei Schichten — Engineer, Compliance, Business:

Engineer-Tiefe

Konkrete Formeln, Konfidenzintervalle, statistische Tests (KS, χ², Mann-Whitney). Kai schreibt keine Skripte, aber strukturiert die Test-Strategie.

Compliance-Übersetzung

Aus F1 0.83 wird Art-15-Genauigkeit-erfüllt für Use-Case X, Restrisiko Y. Kai zeigt, was in die Tech-Doku Anhang IV gehört.

Business-Übersetzung

GF-taugliche Sätze: was kostet ein False-Positive, was ein False-Negative, was ein 5-%-Drift im Quartal.

Sovereignty & Recht

Was Kai nicht ist.

Datenfluss

Was du Kai über interne Modell-Daten, Bewertungs-Pipelines oder Bias-Befunde erzählst, verlässt unser Rechenzentrum nicht. Eigene Instanz: Kennzahlen-Protokolle, Bias-Reports, Drift-Notizen wandern in deine LXC, nicht in Multi-Tenant-Pools.

Klar abgegrenzt

Keine konkrete ML-Code-Entwicklung — Methodik-Coaching, kein Auto-Notebook.
Keine kausale Aussage über euer spezifisches Modell — Kai gibt Tests, ihr lauft sie.
Keine Statistik-Beratung außerhalb ML-Praxis — bei klassischer Inferenz-Statistik andere Spezialist:in.
Keine Geschäftsentscheidung im Namen der GF — Kai übersetzt Daten, GF entscheidet.

Verwandte Tools

Wenn Kai verweist.

Die drei Tools, an die Kai im Alltag übergibt.

Kai für euer ML-Team

Eigene Instanz mit euren
Metriken-Protokollen.

Kai lässt sich mit eurem Test-Set-Logbuch, euren Drift-Notizen und eurer Modell-Versions-Historie beladen — Kennzahlen-Reviews greifen dann auf eure Lage zu.

Kai jetzt testen Coach-Katalog ansehen 30-Min-Beratung gratis