Berechnung und Interpretation des Kontingenzkoeffizienten

Der Kontingenzkoeffizient (auch Pearsons C) ist ein statistisches Maß, das die Stärke des Zusammenhangs zwischen zwei nominalskalierten Variablen misst. Er hilft dir herauszufinden, ob und wie stark zwei kategoriale Merkmale miteinander verbunden sind.

Der Hauptzweck dieses Maßes liegt darin, eine Abhängigkeit nicht nur festzustellen, sondern auf einer standardisierten Skala greifbar zu machen. Du nutzt ihn immer dann, wenn deine Daten keine natürliche Rangfolge aufweisen und du über bloße Häufigkeiten hinausgehen möchtest.

Typische Anwendungsbereiche in der Datenanalyse sind die Marktforschung, etwa bei der Frage nach Geschlecht und Produktpräferenz, oder die Bildungsforschung zur Untersuchung von demografischen Merkmalen.

Der Kontingenzkoeffizient am Beispiel erklärt

Um die Theorie direkt greifbar zu machen, schauen wir uns ein alltägliches Problem aus dem Uni-Leben an. Stell dir vor, du wertest eine Umfrage unter Studierenden aus:

Beispiel: Studiengang und Lernformat

Du möchtest wissen, ob es einen Zusammenhang zwischen dem gewählten Studiengang und dem bevorzugten Lernformat gibt. Du hast 100 Studierende befragt, ob sie lieber in Präsenz oder Online lernen.

Deine gesammelten Ausgangsdaten sehen wie folgt aus:

  • BWL: 30 bevorzugen Präsenz, 20 bevorzugen Online (Gesamt: 50).
  • Informatik: 10 bevorzugen Präsenz, 40 bevorzugen Online (Gesamt: 50).
  • Gesamtsumme (n): 100 befragte Personen.

Da sowohl der Studiengang als auch das Lernformat nominalskalierte Variablen sind, kannst du hier keine klassische Korrelation wie bei metrischen Daten berechnen. Genau deshalb wählst du den Kontingenzkoeffizienten nach Pearson. Er ist speziell dafür gemacht, Abhängigkeiten in solchen Kreuztabellen mathematisch korrekt aufzudecken.

Was sagt der Kontingenzkoeffizient aus?

Der Kontingenzkoeffizient liefert dir immer einen Wert zwischen null und (fast) eins. Ein Wert von 0 bedeutet, dass es absolut keinen statistischen Zusammenhang zwischen den Variablen gibt. Je näher der Wert an die 1 rückt, desto stärker ist die Verbindung.

Die theoretische Grundlage dieser Methode nach Karl Pearson basiert auf der sogenannten Chi-Quadrat-Statistik (χ²). Pearson vergleicht dabei die tatsächlich beobachteten Häufigkeiten deiner Daten mit den Häufigkeiten, die man erwarten würde, wenn die beiden Merkmale völlig unabhängig voneinander wären. Weichen diese Werte stark voneinander ab, wächst der Chi-Quadrat-Wert und damit auch der Kontingenzkoeffizient.

Das Problem der klassischen Berechnung ist jedoch, dass der Maximalwert niemals exakt 1 erreichen kann. Wie hoch der Wert maximal ausfallen kann, hängt von der Anzahl der Zeilen und Spalten in deiner Kreuztabelle ab. Um dieses Problem zu lösen und die Werte über verschiedene Tabellengrößen hinweg vergleichbar zu machen, benötigst du den korrigierten Kontingenzkoeffizienten. Er skaliert das Ergebnis so, dass das absolute Maximum tatsächlich 1 beträgt.

EigenschaftKlassischer Kontingenzkoeffizient (C)Korrigierter Kontingenzkoeffizient (C_korr)
Wertebereich0 bis C_max (immer kleiner als 1).Exakt 0 bis 1.
VergleichbarkeitNur bei Tabellen gleicher Größe möglich.Universell vergleichbar.
AnwendungZwischenschritt der Berechnung.Endgültiges Maß für die Interpretation.

Der Kontingenzkoeffizient berechnen

Die Berechnung erfordert zwei Schritte. Zuerst ermittelst du den klassischen Wert, danach nimmst du die Korrektur vor. Die mathematische Formel für den klassischen Wert lautet: C = √( χ² / ( χ² + n ) ):

  • χ² (Chi-Quadrat):  die Summe der quadrierten Abweichungen zwischen beobachteten und erwarteten Häufigkeiten.
  • n:  die Gesamtanzahl der untersuchten Fälle (Stichprobengröße).
  • k:  das Minimum aus der Anzahl der Zeilen und Spalten deiner Kreuztabelle.
  • C_max:  der maximal erreichbare Wert für deine spezifische Tabellengröße, berechnet als √((k-1)/k).

Gehe bei der Berechnung systematisch vor:

  1. Schritt 1: Erwartete Häufigkeiten berechnen.
    Multipliziere für jede Zelle die jeweilige Zeilensumme mit der Spaltensumme und teile das Ergebnis durch n. In unserem Beispiel für BWL-Studierende, die Präsenz bevorzugen: (50 * 40) / 100 = 20. Du erwartest also 20 Personen, hast aber 30 beobachtet.
  2. Schritt 2: Chi-Quadrat (χ²) ermitteln.
    Subtrahiere den erwarteten Wert vom beobachteten Wert, quadriere das Ergebnis und teile es durch den erwarteten Wert. Für die erste Zelle: (30 - 20)² / 20 = 5. Wiederholst du dies für alle vier Zellen und summierst die Ergebnisse, erhältst du in unserem Beispiel ein χ² von 16,66.
  3. Schritt 3: Klassischen Kontingenzkoeffizienten (C) berechnen.
    Setze χ² und n in die Formel ein. Für unser Beispiel: C = √(16,66 / (16,66 + 100)) = √(0,1428) ≈ 0,378.
  4. Schritt 4: Korrigierten Wert (C_korr) bestimmen.
    Finde zuerst k. Da wir 2 Studiengänge und 2 Lernformate haben, ist k = 2. C_max ist √((2-1)/2) = √0,5 ≈ 0,707. Teile nun C durch C_max: 0,378 / 0,707 ≈ 0,535.

Ein häufiger Fehler ist es, die Berechnung nach Schritt 3 abzubrechen. Ohne die Division durch C_max unterschätzt du die Stärke des Zusammenhangs systematisch. Melde in deinen Hausarbeiten immer den korrigierten Wert (C_korr).

Der Kontingenzkoeffizient interpretieren

Sobald du deinen korrigierten Wert berechnet hast, musst du ihn in den Kontext deiner Forschungsfrage setzen. Die Interpretation richtet sich nach festen Schwellenwerten, die dir helfen, die Stärke des statistischen Zusammenhangs einzuordnen.

Wert (C_korr)Interpretation der Stärke
0,00 bis 0,20Kein bis sehr schwacher Zusammenhang.
0,21 bis 0,40Schwacher Zusammenhang.
0,41 bis 0,60Mittelstarker Zusammenhang.
0,61 bis 0,80Starker Zusammenhang.
0,81 bis 1,00Sehr starker Zusammenhang.

Unser berechneter Wert von C_korr = 0,535 fällt in die Kategorie "Mittelstarker Zusammenhang". Es gibt eine deutliche, aber nicht absolute Tendenz, dass der gewählte Studiengang das bevorzugte Lernformat beeinflusst. Informatik-Studierende tendieren in dieser Stichprobe merklich stärker zu Online-Formaten als BWL-Studierende.

Beim Formulieren deiner Ergebnisse tappen viele Studierende in typische Fallen. Achte darauf, folgende Fehlinterpretationen zu vermeiden:

  • Kausalität annehmen.
    Ein hoher Wert beweist nicht, dass Variable A die Variable B verursacht. Er zeigt nur, dass sie gemeinsam auftreten.
  • Richtung interpretieren.
    Bei nominalen Daten gibt es kein "Je mehr, desto mehr" oder "Je mehr, desto weniger". Du kannst nur sagen, ob ein Zusammenhang besteht, aber keine Richtung (positiv/negativ) angeben.
  • Unkorrigierte Werte vergleichen.
    Der Vergleich von zwei C-Werten aus unterschiedlich großen Tabellen führt zu falschen Schlüssen, wenn du nicht den korrigierten C_korr nutzt.

Fazit und abschließende Gedanken

Der Kontingenzkoeffizient ist ein unverzichtbares Werkzeug, um die Stärke der Verbindung zwischen zwei nominalskalierten Variablen präzise zu messen. Wenn du stets den korrigierten Wert berechnest, stellst du sicher, dass deine Ergebnisse standardisiert und mit anderen Studien vergleichbar sind.

Nutze für die manuelle Berechnung Tabellenkalkulationsprogramme wie Excel, um die erwarteten Häufigkeiten und Chi-Quadrat-Werte Zelle für Zelle zu berechnen. Das minimiert Leichtsinnsfehler bei den Zwischenschritten enorm.