Wilcoxon-Mann-Whitney-Test

nichtparametrischer Test der Nullhypothese

Der Wilcoxon-Mann-Whitney-Test (auch: Mann-Whitney-U-Test, U-Test, Wilcoxon-Rangsummentest) ist die zusammenfassende Bezeichnung für zwei äquivalente nichtparametrische statistische Tests für Rangdaten (ordinalskalierte Daten). Sie testen, ob es bei Betrachtung zweier Populationen gleich wahrscheinlich ist, dass ein zufällig aus der einen Population ausgewählter Wert größer oder kleiner ist als ein zufällig ausgewählter Wert aus der anderen Population. Bei Verwerfung dieser Hypothese ist anzunehmen, dass die Werte aus der einen Population dazu tendieren, größer bzw. kleiner zu sein als die aus der anderen Population. Der Mann-Whitney-U-Test bzw. Wilcoxon-Rangsummentest ist – anders als der Median-Test – nicht von vornherein ein Test zur Gleichheit zweier Mediane. Dies ist nur unter der Voraussetzung der Fall, dass die Verteilungsform und Streuung der abhängigen Variable in beiden Gruppen gleich ist.

Die Tests wurden von Henry Mann und Donald Whitney (U-Test, 1947) bzw. Frank Wilcoxon (Wilcoxon-Rangsummentest, 1945) entwickelt.[1][2] Die zentrale Idee des Tests wurde bereits 1914 von dem deutschen Pädagogen Gustaf Deuchler entwickelt.[3]

Praktisch findet der Wilcoxon-Rangsummentest bzw. der U-Test als Alternative zum t-Test für unabhängige Stichproben Anwendung, wenn dessen Voraussetzungen verletzt sind. Dies ist unter anderem der Fall, wenn die zu testende Variable nur Ordinalskalenniveau aufweist, oder wenn intervallskalierte Variablen in den beiden Populationen nicht (näherungsweise) normalverteilt sind.

Der Wilcoxon-Rangsummentest für zwei unabhängige Stichproben ist nicht zu verwechseln mit dem Wilcoxon-Vorzeichen-Rang-Test, der bei zwei verbundenen (gepaarten) Stichproben Anwendung findet.

Annahmen

Bearbeiten

Für den Test zieht man eine Stichprobe   vom Umfang   aus der 1. Population und unabhängig davon eine Stichprobe   vom Umfang   aus der 2. Population. Für die zugehörigen unabhängigen Stichprobenvariablen   und   gilt   und  , wobei   Verteilungsfunktionen sind. Der Wilcoxon-Mann-Whitney-Test ist ein valider Test unter verschiedenen Annahmen und Hypothesen[4]. Eine sehr allgemeine Formulierung ist wie folgt[5].

  1. Die untersuchte Variable ist mindestens ordinal.
  2. Die Nullhypothese ist: Es ist gleich wahrscheinlich, dass ein zufällig aus der einen Population ausgewählter Wert größer oder kleiner ist als ein zufällig ausgewählter Wert aus der anderen Population (notiert als   oder  )
  3. Die Alternativhypothese ist: Es ist nicht gleich wahrscheinlich, dass ein zufällig aus der einen Population ausgewählter Wert größer oder kleiner ist als ein zufällig ausgewählter Wert aus der anderen Population (notiert als   oder  )
  4. Wenn die Nullhypothese wahr ist, dann sind die beiden Verteilungen gleich:  .

Unter diesen Annahmen ist der Test exakt und konsistent.

Verschiedene andere Perspektiven auf den Wilcoxon-Mann-Whitney-Test sind Spezialfälle dieser allgemeinen Formulierung unter stärkeren Annahmen.

  1. Unter der Annahme, dass   bzw.  , stetig sind und sich nur um eine Verschiebung   voneinander unterscheiden, das heißt:  . Weil die beiden Verteilungsfunktionen bis auf Verschiebung gleich sind, muss insbesondere   (Varianzhomogenität) gelten. D. h. bei Ablehnung der Varianzhomogenität durch den Bartlett-Test oder Levene-Test unterscheiden sich die beiden Zufallsvariablen X und Y nicht nur durch eine Verschiebung.
    • Nullhypothese: Verschiebung ist 0,  , oder Gleichheit der Mediane der zwei Populationen,  
    • Alternativhypothese: Verschiebung ist ungleich 0,  , oder Ungleichheit der Mediane der zwei Populationen  .
  2. Unter der zusätzlichen Annahme, dass der arithmetische Mittelwert für beide Populationen existiert
    1. Nullhypothese: Gleichheit der Populationsmittelwerte,  
    2. Alternativhypothese: Ungleichheit der Populationsmittelwerte,  

Dies folgt, da unter allen alternativen Perspektiven die Nullhypothese (zusammen mit den Annahmen) Gleichheit der Verteilungen impliziert und die Alternativhypothese genau dann wahr ist wenn  .

Teststatistik

Bearbeiten

Es gibt zwei Teststatistiken: die Mann-Whitney-U-Statistik   und die Wilcoxon-Rangsummenstatistik  . Aufgrund des Zusammenhangs zwischen den Teststatistiken

 

sind der Wilcoxon-Rangsummentest und der Mann-Whitney-U-Test äquivalent.

Mann-Whitney-U-Statistik

Bearbeiten

Die Teststatistik ist die Mann-Whitney-U-Statistik:

 ,

worin  , wenn  ,  , wenn  , und sonst   ist. Abhängig von der Alternativhypothese wird die Nullhypothese abgelehnt für zu kleine oder zu große Werte von  . In dieser Form findet er sich bei Mann und Whitney und wird oft als Mann-Whitney-U-Test bezeichnet.

Exakte kritische Werte

Bearbeiten

Die exakte Verteilung von   unter der Bedingung der Nullhypothese kann mittels kombinatorischer Überlegungen leicht gefunden werden. Allerdings steigt der Rechenaufwand für große Werte von   rasch an. Einige exakte kritische Werte liegen tabelliert vor und können für kleine Stichprobenumfänge der Tabelle unten entnommen werden (  beim zweiseitigen Test und   beim einseitigen Test).

Es gibt eine Rekursionsformel, die eine schrittweise und wenig rechenzeitintensive Ermittlung der kritischen Werte für geringe Stichprobengrößen erlaubt.[6]

Approximative kritische Werte

Bearbeiten

Für  ,   und   kann

 

durch die Normalverteilung approximiert werden.[7] Die kritischen Werte ergeben sich dann aus den kritischen Werten der approximativen Normalverteilung.

Wilcoxon-Rangsummenstatistik

Bearbeiten

Die Wilcoxon-Rangsummenstatistik ist

 

mit   der Rang der i-ten X in der gepoolten, geordneten Stichprobe. In dieser Form trägt der Test häufig die Bezeichnung Wilcoxon-Rangsummentest.

Exakte kritische Werte

Bearbeiten

Die exakte Verteilung von   unter der Bedingung der Nullhypothese kann mittels kombinatorischer Überlegungen leicht gefunden werden. Allerdings steigt der Rechenaufwand für große Werte von   rasch an. Man kann die exakten kritischen Werte   zum Signifikanzniveau   mittels einer Rekursionsformel berechnen:

  (oder   oder   oder  )

Die Formel entsteht, wenn man konditioniert auf die Bedingung, ob der letzte Wert in der Anordnung ein × (...X) oder ein Y (...Y) ist.

 
 

Approximative kritische Werte

Bearbeiten

Für   oder   (auch:   oder  ) kann die Teststatistik

 

durch die Normalverteilung approximiert werden.[8][9] Die kritischen Werte ergeben sich dann aus den kritischen Werten der approximativen Normalverteilung.

Einseitige Hypothesen

Bearbeiten

Der Test kann auch für die einseitigen Hypothesen

  bzw.
 

formuliert werden.

Beispiel

Bearbeiten

Aus den Daten der allgemeinen Bevölkerungsumfrage der Sozialwissenschaften 2006 wurden zufällig 20 Personen gezogen und ihr Nettoeinkommen ermittelt:

Rang 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Nettoeinkommen 0 400 500 550 600 650 750 800 900 950 1000 1100 1200 1500 1600 1800 1900 2000 2200 3500
Geschlecht M W M W M W M M W W M M W M W M M M M M

Man hat zwei Stichproben vor sich, Stichprobe der Männer mit   Werten und Stichprobe der Frauen mit   Werten. Wir könnten nun prüfen, ob das Einkommen der Männer und Frauen gleich ist (zweiseitiger Test) oder das Einkommen der Frauen geringer (einseitiger Test). Da es unrealistisch ist anzunehmen, dass sich die Einkommen von Männer und Frauen nur um eine Verschiebung   voneinander unterscheiden, nehmen wir die allgemeinste Perspektive an. Das heißt, wir testen

Zweiseitiger Test Einseitiger Test
   

Wir müssen zudem annehmen, dass wenn die Nullhypothese gilt die Einkommensverteilungen komplett gleich sind.

Zunächst wird aus beiden Zahlenreihen je eine Prüfgröße   gebildet:

 
 

  und   sind dabei die Anzahlen der Werte pro Stichprobe,   und   sind die jeweiligen Summen aller Rangzahlen pro Stichprobe. (Sind mehrere Werte in beiden Datensätzen identisch, dann muss für ihre Ränge jeweils der Median bzw. das arithmetische Mittel eingetragen werden.) Für die folgenden Tests benötigt man das Minimum von   und  , also  .

Für unser Beispiel ergibt sich (Index M = Männer, W = Frauen)

  und  .
  und   und
 .

Bei korrekter Berechnung muss gelten   bzw.  . Die Testgröße   wird nun mit den kritischen Wert(en) verglichen. Das Beispiel ist so gewählt, dass sowohl ein Vergleich mit den exakten kritischen Werten als auch mit den approximativen Werten möglich ist.

Zweiseitiger Test

Bearbeiten

Exakte kritische Werte

Bearbeiten

Anhand der untenstehenden Tabelle ergibt sich mit   und   ein kritischer Wert von   für ein Signifikanzniveau von  . Abgelehnt wird die Nullhypothese, wenn   ist; dies ist hier aber nicht der Fall.

Approximative kritische Werte

Bearbeiten

Da die Teststatistik   approximativ normal verteilt ist, folgt, dass die

 

verteilt ist. Für ein Signifikanzniveau von   ergibt sich der Nichtablehnungsbereich der Nullhypothese im zweiseitigen Test durch das 2,5%- bzw. 97,5%-Quantil der Standardnormalverteilung   mit  . Es ergibt sich jedoch  , d. h., der Prüfwert liegt innerhalb des Intervalls und die Nullhypothese kann nicht abgelehnt werden.

Einseitiger Test

Bearbeiten

Exakte kritische Werte

Bearbeiten

Anhand der untenstehenden Tabelle ergibt sich mit   und   ein kritischer Wert von   für ein Signifikanzniveau von   (anderes Signifikanzniveau als beim zweiseitigen Test!). Abgelehnt wird die Nullhypothese, wenn   ist (es ist das passende   für das gewählte einseitige Testproblem zu betrachten); dies ist hier nicht der Fall.

Approximative kritische Werte

Bearbeiten

Für ein Signifikanzniveau von   ergibt sich der kritische Wert als das 5%-Quantil der Standardnormalverteilung   und der Nichtablehnungsbereich der Nullhypothese als  . Es ergibt sich jedoch  , d. h., die Nullhypothese kann nicht abgelehnt werden.

Tabelle der kritischen Werte der Mann-Whitney-U-Statistik

Bearbeiten

Die folgende Tabelle ist gültig für   (zweiseitig) bzw.   (einseitig) mit  . Der Eintrag „-“ bedeutet, dass die Nullhypothese in jedem Fall zu dem gegebenen Signifikanzniveau nicht abgelehnt werden kann. Z. B. ist:

  und
 

so dass 55 der geeignete kritische Wert für den einseitigen Test bei   mit   und   ist.

 
  1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40
1 - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - 0 0
2 - - - - - - 0 0 0 0 1 1 1 1 1 2 2 2 2 3 3 3 3 3 4 4 4 4 5 5 5 5 5 6 6 6 6 7 7
3 - - 0 1 1 2 2 3 3 4 4 5 5 6 6 7 7 8 8 9 9 10 10 11 11 12 13 13 14 14 15 15 16 16 17 17 18 18
4 0 1 2 3 4 4 5 6 7 8 9 10 11 11 12 13 14 15 16 17 17 18 19 20 21 22 23 24 24 25 26 27 28 29 30 31 31
5 2 3 5 6 7 8 9 11 12 13 14 15 17 18 19 20 22 23 24 25 27 28 29 30 32 33 34 35 37 38 39 40 41 43 44 45
6 5 6 8 10 11 13 14 16 17 19 21 22 24 25 27 29 30 32 33 35 37 38 40 42 43 45 46 48 50 51 53 55 56 58 59
7 8 10 12 14 16 18 20 22 24 26 28 30 32 34 36 38 40 42 44 46 48 50 52 54 56 58 60 62 64 66 68 70 72 74
8 13 15 17 19 22 24 26 29 31 34 36 38 41 43 45 48 50 53 55 57 60 62 65 67 69 72 74 77 79 81 84 86 89
9 17 20 23 26 28 31 34 37 39 42 45 48 50 53 56 59 62 64 67 70 73 76 78 81 84 87 89 92 95 98 101 103
10 23 26 29 33 36 39 42 45 48 52 55 58 61 64 67 71 74 77 80 83 87 90 93 96 99 103 106 109 112 115 119
11 30 33 37 40 44 47 51 55 58 62 65 69 73 76 80 83 87 90 94 98 101 105 108 112 116 119 123 127 130 134
12 37 41 45 49 53 57 61 65 69 73 77 81 85 89 93 97 101 105 109 113 117 121 125 129 133 137 141 145 149
13 45 50 54 59 63 67 72 76 80 85 89 94 98 102 107 111 116 120 125 129 133 138 142 147 151 156 160 165
14 55 59 64 69 74 78 83 88 93 98 102 107 112 117 122 127 131 136 141 146 151 156 161 165 170 175 180
15 64 70 75 80 85 90 96 101 106 111 117 122 127 132 138 143 148 153 159 164 169 174 180 185 190 196
16 75 81 86 92 98 103 109 115 120 126 132 137 143 149 154 160 166 171 177 183 188 194 200 206 211
17 87 93 99 105 111 117 123 129 135 141 147 154 160 166 172 178 184 190 196 202 209 215 221 227
18 99 106 112 119 125 132 138 145 151 158 164 171 177 184 190 197 203 210 216 223 230 236 243
19 113 119 126 133 140 147 154 161 168 175 182 189 196 203 210 217 224 231 238 245 252 258
20 127 134 141 149 156 163 171 178 186 193 200 208 215 222 230 237 245 252 259 267 274

Implementierung

Bearbeiten

In vielen Softwarepaketen ist der Mann-Whitney-Wilcoxon-Test (der Hypothese der gleichen Verteilungen gegenüber geeigneten Alternativen) schlecht dokumentiert. Einige Pakete behandeln Bindungen falsch oder dokumentieren asymptotische Techniken nicht (z. B. Korrektur für Kontinuität). Bei einer Überprüfung im Jahr 2000 wurden einige der folgenden Pakete diskutiert:[10]

Alternativen

Bearbeiten

Falls die Annahme der Gleichheit der Populationsverteilungen unter der Nullhypothese nicht realistisch ist, sollte der Wilcoxon-Mann-Whitney Test nicht benutzt werden. In diesem Fall kann die Wahrscheinlichkeit für einen Fehler 1. Art selbst in sehr großen Stichproben stark erhöht sein[13]. Dieses Problem wurde durch die Entwicklung alternativer Tests behoben. Zwei Beispiele sind der Brunner-Munzel und der Fligner-Policello-Test[14]. Beide Tests sind approximativ exakte und konsistente Tests für   vs  , das heißt, sie testen die gleiche Hypothese wie der Wilcoxon-Mann-Whitney-Test, aber benötigen nicht die Annahme der Gleichheit der Verteilungen unter der Nullhypothese. Daher wird empfohlen den Brunner-Munzel Test anzuwenden, wenn die Annahme der Gleichheit der Populationsverteilungen unter der Nullhypothese nicht gemacht werden kann[13].

Literatur

Bearbeiten
  • Herbert Büning, Götz Trenkler: Nichtparametrische statistische Methoden. de Gruyter, 1998, ISBN 3-11-016351-9.
  • Sidney Siegel: Nichtparametrische statistische Methoden. 2. Auflage. Fachbuchhandlung für Psychologie, Eschborn bei Frankfurt am Main 1985, ISBN 3-88074-102-6.
Bearbeiten

Einzelnachweise

Bearbeiten
  1. Frank Wilcoxon: Individual Comparisons by Ranking Methods. In: Biometrics Bulletin. 1, 1945, S. 80–83, JSTOR:3001968.
  2. Henry Mann, Donald Whitney: On a test of whether one of two random variables is stochastically larger than the other. In: Annals of mathematical Statistics. 18, 1947, S. 50–60, doi:10.1214/aoms/1177730491.
  3. William H. Kruskal: Historical Notes on the Wilcoxon Unpaired Two-Sample Test. In: Journal of the American Statistical Association. Band 52, 1957, S. 356–360, JSTOR:2280906.
  4. Michael P. Fay, Michael A. Proschan: Wilcoxon-Mann-Whitney or t-test? On assumptions for hypothesis tests and multiple interpretations of decision rules. In: Statistics surveys. Band 4, 2010, ISSN 1935-7516, S. 1–39, doi:10.1214/09-SS051, PMID 20414472, PMC 2857732 (freier Volltext).
  5. George W. Divine, H. James Norton, Anna E. Barón, Elizabeth Juarez-Colunga: The Wilcoxon–Mann–Whitney Procedure Fails as a Test of Medians. In: The American Statistician. Band 72, Nr. 3, 3. Juli 2018, ISSN 0003-1305, S. 278–286, doi:10.1080/00031305.2017.1305291.
  6. A. Löffler: Über eine Partition der natürlichen Zahlen und ihre Anwendung beim U-Test. In: Wiss. Z. Univ. Halle. Band XXXII, Heft 5 1983, S. 87–89. (German_version, English_translation)
  7. B. Rönz, H. G. Strohe (Hrsg.): Lexikon Statistik. Gabler, Wiesbaden 1994, ISBN 3-409-19952-7.
  8. H. Rinne: Taschenbuch der Statistik. 3. Auflage. Verlag Harri Deutsch, 2003, S. 534.
  9. S. Kotz, C. B. Read, N. Balakrishnan: Encyclopedia of Statistical Sciences. Wiley, 2003, S. 208.
  10. Reinhard Bergmann, John Ludbrook, Will P.J.M. Spooren: Different Outcomes of the Wilcoxon–Mann–Whitney Test from Different Statistics Packages. In: The American Statistician. Band 54, Nr. 1, 2000, S. 72–77, doi:10.1080/00031305.2000.10474513, JSTOR:2685616 (englisch).
  11. scipy.stats.mannwhitneyu. In: SciPy v0.16.0 Reference Guide. The Scipy community, 24. Juli 2015, abgerufen am 11. September 2015: „scipy.stats.mannwhitneyu(x, y, use_continuity=True): Computes the Mann–Whitney rank test on samples x and y.“
  12. org.apache.commons.math3.stat.inference.MannWhitneyUTest.
  13. a b Julian D. Karch: Psychologists Should Use Brunner-Munzel’s Instead of Mann-Whitney’s U Test as the Default Nonparametric Procedure. In: Advances in Methods and Practices in Psychological Science. Band 4, Nr. 2, 1. April 2021, ISSN 2515-2459, S. 2515245921999602, doi:10.1177/2515245921999602.
  14. Arne C. Bathke, Frank Konietschke: Rank and Pseudo-Rank Procedures for Independent Observations in Factorial Designs : Using R and SAS. 1st ed. Cham 2018, ISBN 978-3-03002914-2.