MSA 7 -- Attributive Messsystemanalyse
Die MSA Methode 7 ist die attributive Messsystemanalyse und dient der Bewertung von Messsystemen, bei denen Merkmale nicht metrisch (als Zahlenwert), sondern attributiv (als Kategorie) bewertet werden -- also z. B. "gut/schlecht", "i.O./n.i.O." oder nach einer Notenskala.
Übersicht
Zweck und Einsatzgebiet
Die attributive MSA beantwortet die Frage: Sind die Prüfer in der Lage, Teile konsistent und übereinstimmend zu bewerten, wenn keine metrischen Messwerte vorliegen?
Typische Anwendungsfälle:
- Visuelle Prüfungen -- Oberflächenqualität, Farbabweichungen, Kratzer, Dellen
- Funktionsprüfungen -- Gut/Schlecht-Entscheidungen (z. B. Lehrdorn-Prüfung)
- Subjektive Bewertungen -- Geruch, Haptik, akustische Prüfungen
- Sortierprüfungen -- Klassifizierung in mehrere Qualitätsstufen
Versuchsdesign
Für die attributive MSA gilt folgender grundsätzlicher Versuchsaufbau:
- Eine Auswahl von Teilen wird zusammengestellt. Die Teile sollten sowohl eindeutig gute als auch eindeutig schlechte Teile sowie Grenzfälle umfassen.
- Jeder Prüfer bewertet jedes Teil mehrfach (mindestens 2 Durchläufe, empfohlen 3).
- Die Bewertungen werden verblindet durchgeführt -- die Prüfer kennen weder die "richtige" Antwort (Referenzbewertung) noch die Bewertungen der anderen Prüfer.
- Optional wird eine Referenzbewertung (Masterentscheid) für jedes Teil festgelegt, gegen die die Prüferbewertungen verglichen werden.
| Parameter | Empfehlung |
|---|---|
| Anzahl Teile | Mindestens 20, idealerweise 50 |
| Anzahl Prüfer | Mindestens 2, empfohlen 3 |
| Anzahl Durchläufe | Mindestens 2, empfohlen 3 |
| Anteil Grenzfälle | Ca. 30--50 % der Teile |
| Referenzbewertung | Empfohlen (durch Experten oder Spezifikation festgelegt) |
Wichtig: Die Qualität einer attributiven MSA hängt maßgeblich von der Teileauswahl ab. Wenn nur eindeutig gute und eindeutig schlechte Teile verwendet werden, wird die Studie die Fähigkeit des Prüfprozesses überschätzen. Achten Sie darauf, ausreichend Grenzfälle einzuschließen.

Eingabe
Konfiguration
Vor der Dateneingabe legen Sie die Versuchsparameter fest:
| Feld | Beschreibung |
|---|---|
| Bewertungskategorien | Die möglichen Bewertungen (z. B. "i.O." / "n.i.O." oder "1" / "2" / "3") |
| Anzahl Prüfer | Wie viele Prüfer an der Studie teilnehmen |
| Anzahl Teile | Wie viele Teile bewertet werden |
| Anzahl Durchläufe | Wie oft jeder Prüfer jedes Teil bewertet |
| Referenzbewertung | Optionale "richtige" Bewertung für jedes Teil (Masterentscheid) |
Bewertungen eingeben
Die Dateneingabe erfolgt über eine Tabelle mit folgender Struktur:
- Zeilen: Teile (nummeriert oder benannt)
- Spalten: Prüfer x Durchläufe (z. B. "Prüfer A / Durchlauf 1", "Prüfer A / Durchlauf 2", ...)
- Zellwerte: Die gewählte Bewertungskategorie
- Klicken Sie in die gewünschte Zelle.
- Wählen Sie die Bewertungskategorie aus der Dropdown-Liste oder geben Sie den Wert direkt ein.
- Navigieren Sie mit
TaboderEnterzur nächsten Zelle.
Tipp: Falls eine Referenzbewertung vorhanden ist, geben Sie diese in der ersten Spalte ("Referenz") ein. Die Übereinstimmung der Prüfer mit der Referenz wird automatisch berechnet.
Info: Sie können die Eingabedaten auch per Copy & Paste aus Excel übernehmen. Achten Sie darauf, dass die Bewertungskategorien exakt mit den definierten Kategorien übereinstimmen (Groß-/Kleinschreibung beachten).

Kappa-Werte
Die zentralen Kennwerte der attributiven MSA sind die Kappa-Koeffizienten, die die Übereinstimmung der Prüfer quantifizieren.
Cohen's Kappa
Cohen's Kappa misst die Übereinstimmung zwischen zwei Prüfern (paarweiser Vergleich) unter Berücksichtigung der zufällig erwarteten Übereinstimmung.
Formel:
Kappa = (P_o - P_e) / (1 - P_e)
- P_o = Beobachtete Übereinstimmung (tatsächlicher Anteil übereinstimmender Bewertungen)
- P_e = Erwartete zufällige Übereinstimmung
Cohen's Kappa wird für jedes Prüferpaar separat berechnet. In my8data wird eine vollständige Kappa-Matrix angezeigt, in der jede Zelle den Kappa-Wert für ein bestimmtes Prüferpaar enthält.
Fleiss' Kappa
Fleiss' Kappa ist eine Erweiterung von Cohen's Kappa für mehr als zwei Prüfer. Er misst die Gesamtübereinstimmung aller Prüfer gleichzeitig.
Fleiss' Kappa wird in my8data als einzelner Gesamtwert angezeigt und gibt Auskunft darüber, wie gut die Prüfer insgesamt übereinstimmen.
Bewertungsskala
Die Interpretation der Kappa-Werte folgt der gängigen Klassifizierung nach Landis & Koch (1977):
| Kappa-Wert | Stärke der Übereinstimmung | Bewertung |
|---|---|---|
| < 0.00 | Schlecht (Poor) | Schlechter als Zufall. Grundsätzliches Problem mit dem Prüfprozess. |
| 0.00 -- 0.20 | Gering (Slight) | Kaum Übereinstimmung. Prüfprozess ungeeignet. |
| 0.21 -- 0.40 | Ausreichend (Fair) | Schwache Übereinstimmung. Erhebliche Verbesserungen nötig. |
| 0.41 -- 0.60 | Moderat (Moderate) | Mäßige Übereinstimmung. Verbesserungen empfohlen. |
| 0.61 -- 0.80 | Gut (Substantial) | Gute Übereinstimmung. Akzeptabel für viele Anwendungen. |
| 0.81 -- 1.00 | Sehr gut (Almost Perfect) | Nahezu perfekte Übereinstimmung. Prüfprozess hervorragend. |
Info: Ein Kappa-Wert von 1.0 bedeutet perfekte Übereinstimmung. Ein Wert von 0 bedeutet, dass die Übereinstimmung nicht besser ist als reiner Zufall. Negative Werte deuten auf systematische Widersprüchlichkeit hin.
Wichtig: In der Praxis wird häufig ein Kappa-Wert von mindestens 0.75 gefordert. In sicherheitskritischen Bereichen (z. B. Medizintechnik, Luft- und Raumfahrt) können höhere Anforderungen gelten.

Übereinstimmung
Neben den Kappa-Werten bietet my8data weitere Analysen zur Übereinstimmung der Prüfer.
Übereinstimmungsraten
my8data berechnet verschiedene Übereinstimmungsraten:
| Kennwert | Beschreibung |
|---|---|
| Innerhalb Prüfer (Within Appraiser) | Wie konsistent ist jeder einzelne Prüfer mit sich selbst über die verschiedenen Durchläufe? Ein hoher Wert zeigt, dass der Prüfer bei wiederholter Bewertung desselben Teils zum gleichen Ergebnis kommt. |
| Zwischen Prüfern (Between Appraisers) | Wie gut stimmen die Prüfer untereinander überein? Vergleicht die Bewertungen aller Prüfer für jedes Teil. |
| Prüfer vs. Referenz (Appraiser vs. Reference) | Wie gut stimmt jeder Prüfer mit der Referenzbewertung überein? Zeigt die Genauigkeit jedes einzelnen Prüfers. |
| Alle Prüfer vs. Referenz | Wie gut stimmen alle Prüfer gemeinsam mit der Referenz überein? Nur Teile, bei denen alle Prüfer in allen Durchläufen übereinstimmen, werden gezählt. |
Entscheidungsmatrix (Confusion Matrix)
Die Entscheidungsmatrix stellt die Bewertungen jedes Prüfers den Referenzbewertungen gegenüber:
| Referenz: i.O. | Referenz: n.i.O. | |
|---|---|---|
| Prüfer: i.O. | Richtig positiv (korrekt akzeptiert) | Falsch positiv (falsch akzeptiert) |
| Prüfer: n.i.O. | Falsch negativ (falsch abgelehnt) | Richtig negativ (korrekt abgelehnt) |
Aus der Entscheidungsmatrix werden folgende Kennwerte abgeleitet:
| Kennwert | Formel | Beschreibung |
|---|---|---|
| Effektivität | (Richtig positiv + Richtig negativ) / Gesamt | Anteil der insgesamt korrekten Entscheidungen |
| Fehlschlupfrate (Miss Rate) | Falsch positiv / (Richtig negativ + Falsch positiv) | Anteil der fälschlich akzeptierten schlechten Teile |
| Falschalarmrate (False Alarm Rate) | Falsch negativ / (Richtig positiv + Falsch negativ) | Anteil der fälschlich abgelehnten guten Teile |
Warnung: Die Fehlschlupfrate ist besonders kritisch, da sie angibt, wie viele schlechte Teile als gut durchgelassen werden. In sicherheitsrelevanten Bereichen muss diese Rate möglichst nahe bei 0 liegen.
Tipp: Analysieren Sie die Entscheidungsmatrix für jeden Prüfer einzeln. Wenn ein bestimmter Prüfer eine auffällig hohe Fehlschlupfrate hat, sollte dieser gezielt geschult werden. Betrachten Sie auch, bei welchen Teilen Fehler gehäuft auftreten -- häufig sind es die Grenzfälle, bei denen die Prüferentscheidung unsicher ist.
Grafische Auswertungen
my8data stellt die Übereinstimmungsanalyse auch grafisch dar:
- Übereinstimmungsbalken: Zeigt die Übereinstimmungsrate pro Prüfer als Balkendiagramm.
- Heatmap: Farbcodierte Matrix, die zeigt, bei welchen Teilen die Prüfer übereinstimmen und bei welchen nicht.
- Fehlermuster-Diagramm: Visualisiert, welche Teile besonders häufig falsch bewertet werden.
