Der Kontingenzkoeffizient (auch Pearsons C) ist ein statistisches Maß, das die Stärke des Zusammenhangs zwischen zwei nominalskalierten Variablen misst. Er hilft dir herauszufinden, ob und wie stark zwei kategoriale Merkmale miteinander verbunden sind.
Der Hauptzweck dieses Maßes liegt darin, eine Abhängigkeit nicht nur festzustellen, sondern auf einer standardisierten Skala greifbar zu machen. Du nutzt ihn immer dann, wenn deine Daten keine natürliche Rangfolge aufweisen und du über bloße Häufigkeiten hinausgehen möchtest.
Typische Anwendungsbereiche in der Datenanalyse sind die Marktforschung, etwa bei der Frage nach Geschlecht und Produktpräferenz, oder die Bildungsforschung zur Untersuchung von demografischen Merkmalen.
Inhaltsverzeichnis
Der Kontingenzkoeffizient am Beispiel erklärt
Um die Theorie direkt greifbar zu machen, schauen wir uns ein alltägliches Problem aus dem Uni-Leben an. Stell dir vor, du wertest eine Umfrage unter Studierenden aus:
Beispiel: Studiengang und Lernformat
Du möchtest wissen, ob es einen Zusammenhang zwischen dem gewählten Studiengang und dem bevorzugten Lernformat gibt. Du hast 100 Studierende befragt, ob sie lieber in Präsenz oder Online lernen.
Deine gesammelten Ausgangsdaten sehen wie folgt aus:
- BWL: 30 bevorzugen Präsenz, 20 bevorzugen Online (Gesamt: 50).
- Informatik: 10 bevorzugen Präsenz, 40 bevorzugen Online (Gesamt: 50).
- Gesamtsumme (n): 100 befragte Personen.
Da sowohl der Studiengang als auch das Lernformat nominalskalierte Variablen sind, kannst du hier keine klassische Korrelation wie bei metrischen Daten berechnen. Genau deshalb wählst du den Kontingenzkoeffizienten nach Pearson. Er ist speziell dafür gemacht, Abhängigkeiten in solchen Kreuztabellen mathematisch korrekt aufzudecken.
Was sagt der Kontingenzkoeffizient aus?
Der Kontingenzkoeffizient liefert dir immer einen Wert zwischen null und (fast) eins. Ein Wert von 0 bedeutet, dass es absolut keinen statistischen Zusammenhang zwischen den Variablen gibt. Je näher der Wert an die 1 rückt, desto stärker ist die Verbindung.
Die theoretische Grundlage dieser Methode nach Karl Pearson basiert auf der sogenannten Chi-Quadrat-Statistik (χ²). Pearson vergleicht dabei die tatsächlich beobachteten Häufigkeiten deiner Daten mit den Häufigkeiten, die man erwarten würde, wenn die beiden Merkmale völlig unabhängig voneinander wären. Weichen diese Werte stark voneinander ab, wächst der Chi-Quadrat-Wert und damit auch der Kontingenzkoeffizient.
Das Problem der klassischen Berechnung ist jedoch, dass der Maximalwert niemals exakt 1 erreichen kann. Wie hoch der Wert maximal ausfallen kann, hängt von der Anzahl der Zeilen und Spalten in deiner Kreuztabelle ab. Um dieses Problem zu lösen und die Werte über verschiedene Tabellengrößen hinweg vergleichbar zu machen, benötigst du den korrigierten Kontingenzkoeffizienten. Er skaliert das Ergebnis so, dass das absolute Maximum tatsächlich 1 beträgt.
| Eigenschaft | Klassischer Kontingenzkoeffizient (C) | Korrigierter Kontingenzkoeffizient (C_korr) |
|---|---|---|
| Wertebereich | 0 bis C_max (immer kleiner als 1). | Exakt 0 bis 1. |
| Vergleichbarkeit | Nur bei Tabellen gleicher Größe möglich. | Universell vergleichbar. |
| Anwendung | Zwischenschritt der Berechnung. | Endgültiges Maß für die Interpretation. |
Der Kontingenzkoeffizient berechnen
Die Berechnung erfordert zwei Schritte. Zuerst ermittelst du den klassischen Wert, danach nimmst du die Korrektur vor. Die mathematische Formel für den klassischen Wert lautet: C = √( χ² / ( χ² + n ) ):
- χ² (Chi-Quadrat): die Summe der quadrierten Abweichungen zwischen beobachteten und erwarteten Häufigkeiten.
- n: die Gesamtanzahl der untersuchten Fälle (Stichprobengröße).
- k: das Minimum aus der Anzahl der Zeilen und Spalten deiner Kreuztabelle.
- C_max: der maximal erreichbare Wert für deine spezifische Tabellengröße, berechnet als √((k-1)/k).
Gehe bei der Berechnung systematisch vor:
Ein häufiger Fehler ist es, die Berechnung nach Schritt 3 abzubrechen. Ohne die Division durch C_max unterschätzt du die Stärke des Zusammenhangs systematisch. Melde in deinen Hausarbeiten immer den korrigierten Wert (C_korr).
Der Kontingenzkoeffizient interpretieren
Sobald du deinen korrigierten Wert berechnet hast, musst du ihn in den Kontext deiner Forschungsfrage setzen. Die Interpretation richtet sich nach festen Schwellenwerten, die dir helfen, die Stärke des statistischen Zusammenhangs einzuordnen.
| Wert (C_korr) | Interpretation der Stärke |
|---|---|
| 0,00 bis 0,20 | Kein bis sehr schwacher Zusammenhang. |
| 0,21 bis 0,40 | Schwacher Zusammenhang. |
| 0,41 bis 0,60 | Mittelstarker Zusammenhang. |
| 0,61 bis 0,80 | Starker Zusammenhang. |
| 0,81 bis 1,00 | Sehr starker Zusammenhang. |
Unser berechneter Wert von C_korr = 0,535 fällt in die Kategorie "Mittelstarker Zusammenhang". Es gibt eine deutliche, aber nicht absolute Tendenz, dass der gewählte Studiengang das bevorzugte Lernformat beeinflusst. Informatik-Studierende tendieren in dieser Stichprobe merklich stärker zu Online-Formaten als BWL-Studierende.
Beim Formulieren deiner Ergebnisse tappen viele Studierende in typische Fallen. Achte darauf, folgende Fehlinterpretationen zu vermeiden:
- Kausalität annehmen.
Ein hoher Wert beweist nicht, dass Variable A die Variable B verursacht. Er zeigt nur, dass sie gemeinsam auftreten. - Richtung interpretieren.
Bei nominalen Daten gibt es kein "Je mehr, desto mehr" oder "Je mehr, desto weniger". Du kannst nur sagen, ob ein Zusammenhang besteht, aber keine Richtung (positiv/negativ) angeben. - Unkorrigierte Werte vergleichen.
Der Vergleich von zwei C-Werten aus unterschiedlich großen Tabellen führt zu falschen Schlüssen, wenn du nicht den korrigierten C_korr nutzt.
Fazit und abschließende Gedanken
Der Kontingenzkoeffizient ist ein unverzichtbares Werkzeug, um die Stärke der Verbindung zwischen zwei nominalskalierten Variablen präzise zu messen. Wenn du stets den korrigierten Wert berechnest, stellst du sicher, dass deine Ergebnisse standardisiert und mit anderen Studien vergleichbar sind.
Nutze für die manuelle Berechnung Tabellenkalkulationsprogramme wie Excel, um die erwarteten Häufigkeiten und Chi-Quadrat-Werte Zelle für Zelle zu berechnen. Das minimiert Leichtsinnsfehler bei den Zwischenschritten enorm.
Lena Richter ist für die Lehre und Forschung im Bereich der Naturwissenschaften verantwortlich. Sie unterrichtet Studierende in verschiedenen naturwissenschaftlichen Disziplinen, betreut und führt eigenständige Forschungsprojekte durch und trägt zur wissenschaftlichen Weiterentwicklung ihres Fachgebiets bei. Zudem ist sie in die Verfasser von wissenschaftlichen Publikationen und die Präsentation von Forschungsergebnissen auf nationalen und internationalen Konferenzen eingebunden. Sie sorgt für den Transfer von theoretischem Wissen in die praktische Anwendung und ist maßgeblich an der Weiterentwicklung von Lehrinhalten und Forschungsschwerpunkten beteiligt.
Entdecke die Artikel des Autors