Die Ergebnisse von Umfragen nach Relevanz zu ordnen, ist doch ganz einfach – oder vielleicht doch nicht? Testen Sie Ihre Fähigkeiten anhand des folgenden fiktiven Beispiels.
Nehmen wir einmal an, dass in Deutschlands Fußgängerzonen 18500 zufällig ausgewählte erwachsene Passanten befragt wurden, ob sie an Horoskope glauben. Alle angesprochenen Personen haben bereitwillig ihre Meinung kundgetan und neben dem offensichtlichen Geschlecht auch Berufsgruppe, Alter und Sternzeichen verraten.
Die Auswertung der Antworten nach Geschlecht ergab folgende Tabelle:
Offensichtlich stimmen hier Frauen der Frage prinzipiell häufiger zu. Wie sieht es mit dem Beruf aus?
Es sieht so aus, dass Arbeiter doch eher an Horoskope glauben als die anderen Berufsgruppen. Eine weitere Tabelle nach Altersklassen verrät eine gewisse Abneigung der Twens:
Schließlich variiert die Quote, je nach betrachtetem Sternzeichen, von 28 bis 35 Prozent:
Welche der Dimensionen liefert nun das auffälligste Ergebnis bei der Auswertung der Horoskopgläubigkeit des gemeinen volljährigen Fußgängerzonenbummlers? Ist der beobachtete Unterschied zwischen Frauen und Männern erwähnenswert oder doch eher die Streuung entlang der Sternzeichen (“Widder glauben nicht an Horoskope”)?
Zur Beantwortung solcher Fragen kann die Prüfgröße eines Chi-Quadrat-Tests zu Rate gezogen werden, genauer gesagt, der p-Wert, der angibt, mit welcher Wahrscheinlichkeit eine solch große Prüfgröße wie die beobachtete erreicht oder überschritten werden kann. Dies geschieht unter der Annahme, dass eigentlich gar kein Einfluss der Dimensionselemente vorliegt, also die theoretischen Quoten für alle Dimensionselemente gleich sind, und dass somit die beobachteten Abweichungen in der Stichprobe allein durch Zufall entstanden sind.
Ist der p-Wert klein, ist der Einfluss der Dimensionselemente auf die Quote groß. Ist der p-Wert groß, liegt eher keine besondere Auffälligkeit vor. Bei unseren Daten entsteht nun aber das Problem, dass im Fall des Geschlechts und der Altersklasse handelsübliche Prozeduren die p-Werte durch die beschränkte Rechengenauigkeit der verwendeten Algorithmen mit einer glatten 0 ausgeben. Es ist dadurch zwar fast sicher, dass sowohl Geschlecht, als auch Alter einen deutlichen Einfluss auf die Quote haben und solch unterschiedliche Quoten kaum durch reinen Zufall entstehen, jedoch können diese beiden Dimensionen nicht angeordnet werden.
Dieser Makel ließ uns nicht ruhen, und wir haben deshalb einen besseren Score entwickelt, der die Reihung der p-Werte beibehält, sich aber bezüglich der Vergleichbarkeit von Dimensionen keine Blöße gibt.
Wie sieht nun das Ergebnis aus? Unser Score sieht folgende Reihung vor:
Besonders der Einfluss der Altersklassen auf die Quoten ist bei diesem Datensatz erwähnenswert; die Bedeutung der Sternzeichen für die Quoten ist im relativen Vergleich weniger ausgeprägt. Absolut gesehen sollten Scorewerte mindestens 1 betragen (bei strengerer Auslegung mindestens 2), um als relevant angesehen werden zu können. Dies ist hier für alle 4 Dimensionen der Fall.
Unser Score lässt sich durch vermeintlich hohe Schwankungen, wie sie bei der Dimension Sternzeichen beobachtet werden, nicht irritieren, sondern berücksichtigt implizit, dass hier die gleiche Anzahl von Personen (18500) auf insgesamt 12 mögliche Elemente verteilt wird. Die Varianz einer Quote steigt, wenn die Stichprobengröße sinkt, und somit sind bei 12 Dimensionselementen mit durchschnittlich ca. 1540 Personen pro Sternzeichen allein durch reinen Zufall höhere Schwankungen zu erwarten als etwa beim Geschlecht, da hier bei 2 Dimensionselementen bereits knapp 9000 Personen pro Dimensionselement vorliegen und die Quoten weniger Variabilität aufweisen.
Kurz: Unser Score berücksichtigt die höhere Varianz von Quoten, die mit einer höheren Anzahl von Dimensionselementen einhergeht, und kann auch noch Dimensionen mit extremeren Abweichungen gemäß ihrer Bedeutung verlässlich anordnen.