Varianzanalyse–ANOVA

Transcription

Varianzanalyse – ANOVAJohannes HainLehrstuhl für Mathematik VIII – Statistik1 / 23

Einfaktorielle Varianzanalyse (ANOVA)Bisher war man lediglich in der Lage, mit dem t-Test einenMittelwertsvergleich für zwei unabhängige Stichprobendurchzuführen.Hat man nun aber mehr als zwei Stichproben vorliegen, stellt dert-Test nicht mehr die geeignete Auswertungsmöglichkeit dar. Indiesem Fall muss es also noch eine andere Möglichkeit derstatistischen Auswertung geben – die Varianzanalyse (Analyis ofVariance).Gegeben sind also I 2 Stichproben xi ,1 , . . . , xi ,ni , i 1, . . . , I ,wobei alle auftretenden Zufallsvariablen voneinander unabhängigsind. Ferner sei der Gesamtumfang n der Stichprobe definiert durchn : n1 · · · nI .2 / 23

Einfaktorielle Varianzanalyse (ANOVA)Beispiel: Vier verschiede Unterrichtsarten sollen untersuchtwerden. Dazu werden 32 Personen zufällig auf vier Gruppen à 8Personen aufgeteilt. Am Ende des Kurses wird eineAbschlussprüfung durchgeführt und die Punkte jedes Teilnehmersdokumentiert:Gruppe 1161820152015231918.25Gruppe 2161210141815121313.75Gruppe 32109101191098.75Gruppe 45881119597.00Gibt es signifikante Unterschiede zwischen den Gruppen?3 / 23

Einfaktorielle Varianzanalyse (ANOVA)Die unabhängige Variable, die in I Kategorien vorliegt, nennt manauch Faktor, die einzelnen Kategorien Faktorstufen. Da man denEinfluss von nur einem Faktor auf die abhängige Variableuntersucht, spricht man auch von einer einfaktoriellenVarianzanalyse.Die zu untersuchende Nullhypothese lautet:H0 : µ1 . . . µI ,also dass keine Unterschiede in den Mittelwerten der IFaktorstufen vorliegen.4 / 23

Einfaktorielle Varianzanalyse (ANOVA)Um die Ergebnisse einer ANOVA verwenden zu können, müssen diefolgenden drei Voraussetzungen für das obige Modell erfüllt sein:Voraussetzungen der ANOVA1Die Stichproben müssen unabhängig voneinander erhobenworden sein2Die i -te Stichprobe (i 1, . . . , I ) folgt einerN(µi , σ 2 )-Verteilung3Die Varianz ist in allen I Stichproben gleich(Varianzhomogenität) Diese Voraussetzungen sind zu überprüfen!!5 / 23

Einfaktorielle Varianzanalyse (ANOVA)Überprüfung der Normalverteilungsannahme bei der ANOVA Analysieren Deskriptive Statistiken Explorative Datenanalyse. . . Ziehe die zu untersuchende Variable in das Feld AbhängigeVariablen, die Gruppierungsvariable in das Feld Faktorenliste Wähle das Feld Diagramme aus und klicke dort das FeldNormalverteilungsdiagramm mit Tests anDer Test zur Voraussetzung der Varianzhomogenität wird direktbei der Durchführung der ANOVA mit ausgegeben.6 / 23

Einfaktorielle Varianzanalyse (ANOVA)Grundlegende IdeeSei xij die j-te Beobachtung der i -ten Stichprobe und x̄ dasGesamtmittel, sowie x̄i das i -te Gruppenmittel. Dann gilt:xij x̄ (x̄i x̄) {z }Abweichung Gruppenmittelvom Gesamtmittel (xij x̄i ) {z }Abweichung Beobachtungvom GruppenmittelGilt H0 nicht, wird die Abweichung der Gruppenmittel zumGesamtmittel hoch sein im Vergleich zur Abweichung derBeobachtungen zum Gruppenmittel.7 / 23

Einfaktorielle Varianzanalyse (ANOVA)Grundlegende IdeeAuf diesen Überlegungen basiert auch die TeststatistikF0,α : 1I 11n 1· SSA· SSR P· J Ji 1 (x̄i x̄)2.P P· Ii 1 Jj 1 (xij x̄i )21I 11n 1Je weiter die Mittelwerte der einzelnen Faktorstufen vomGesamtmittel abweichen, desto größer wird der Wert für SSA , imSSAVergleich zum Wert für SSR . Unter H0 sollte also der Quotient SSRnahe bei Null liegen. Je größer SSA wird – und somit auch jegrößer der Quotient wird – desto unwahrscheinlicher ist dieGültigkeit von H0 . Bei zu großen Werten von F wird H0 verworfen.8 / 23

Einfaktorielle Varianzanalyse (ANOVA)Grundlegende IdeeSST º SSRSST à SSR9 / 23

Einfaktorielle Varianzanalyse (ANOVA)VarianzhomogenitätEinfaktorielle ANOVA in SPSS Analysieren Mittelwerte vergleichen Einfaktorielle ANOVA. . . Ziehe die zu untersuchende Variable in das Feld AbhängigeVariablen und die Gruppierungsvariable in das Feld Faktor Klicke zusätzlich das Feld Optionen an und aktiviere das FeldTest auf Homogenität der Varianzen um die Voraussetzungder Varianzhomogenität mit dem Levene-Test zu überprüfen.10 / 23

Einfaktorielle Varianzanalyse (ANOVA)VarianzheterogenitätIst der p-Wert des Levene-Tests kleiner als 0.05, wird dieVoraussetzung der Varianzgleichheit in den Stichproben verworfen.In diesem Fall muss man, wie beim t-Test, auf einen bedingtenTest ausweichen (Behrens-Fisher-Problem), den Welch-Test.Welch-Test in SPSS Analysieren Mittelwerte vergleichen Einfaktorielle ANOVA. . . Ziehe die zu untersuchende Variable in das Feld AbhängigeVariablen und die Gruppierungsvariable in das Feld Faktor Klicke zusätzlich das Feld Optionen an und aktiviere das FeldWelch um den Welch-Test durchzuführen.11 / 23

ANOVA – Posthoc-AnalyseZusammenfassung ANOVADer durchgeführte Test (F -Test) bei der Varianzanalyse ist einsogenannter globaler Test (oder auch Omnibustest).Es wird also nur überprüft, ob überhaupt ein Unterschied zwischenden einzelnen Faktorstufen vorliegt, aber nicht wo eventuellvorhandene Unterschiede liegen. Wie geht es also nach der ANOVA weiter?bzw. Wie findet man bei einem signifikanten globalen Testergebnisauch noch heraus, wo genau die Unterschiede zwischen denFaktorstufen liegen?12 / 23

ANOVA – Posthoc-AnalyseDie intuitive Herangehensweise an dieses Thema lautet: Warum macht man nicht mit jeder Faktorkombination einent-Tests?Antwort:Mit dieser Vorgehensweise steigt der Fehler 1. Art sehr schnell an!Hat man z.B. 5 Faktorstufen, gibt es 10Kombinationsmöglichkeiten. Werden diese 10 t-Tests durchgeführtsteigt die Fehlerwahrscheinlichkeit auf über 40%!13 / 23

ANOVA – Posthoc-AnalyseDie Lösung dieses Problems stellen die sogenanntenPosthoc-Tests dar:Definition: Posthoc-TestsPosthoc-Analysen sind paarweise Vergleichsprozeduren, mitdenen nach einem signifikanten Ergebnis des globalen Tests durchsog. multiple Mittelwertsvergleiche nach signifikantenUnterschieden zwischen den einzelnen Faktorstufen gesucht werdenkann.Achtung:Posthoc-Verfahren gibt es in der Statistik sehr viele. Im Folgendensoll jedoch nur der sog. Tukey-Test vorgestellt werden. DerTukey-Test ähnelt dem t-Test, hat aber die besondere Eigenschaft,dass er das Fehlerniveau konstant nahe 5% hält.14 / 23

ANOVA – Posthoc-AnalyseTukey-Test SPSS Analysieren Mittelwerte vergleichen Einfaktorielle ANOVA. . . Ziehe die zu untersuchende Variable in das Feld AbhängigeVariablen und die Gruppierungsvariable in das Feld Faktor Klicke den Schalter Post Hoc an und wähle dort im FeldVarianz-Gleichheit angenommen die Option Tukey aus15 / 23

Der Kruskal-Wallis-Test als nichtparametrische AltervativeFolgen die untersuchten Daten keiner Normalverteilung, stellt dieANOVA nicht das geeignete Auswertungsverfahren dar.Eine nichtparametrische Alternative zur Varianzanalyse stelltder Kruskal-Wallis-Test dar, der kaum Voraussetzungen an dasModell fordert. Er kann als eine Verallgemeinerung desMann-Whitney-U-Tests angesehen werden.Genau wie der U-Test betrachtet auch der Kruskal-Wallis-Testnicht konkreten Realisierungen xi ,j selbst, sondern nur ihrejeweiligen Ränge Ri ,j .16 / 23

Der Kruskal-Wallis-Test als nichtparametrische AltervativeVoraussetzungenGegeben sind I 2 Stichproben. Die ZufallsvariablenXi ,j , j 1, . . . , ni , der i -ten Stichprobe besitzen die gleiche stetigeVerteilung, i 1, . . . , I . Es sei n : n1 . . . nI . Ferner sind alleZufallsvariablen unabhängig voneinander.Es soll nun die folgende Nullhypothese untersucht werden:H0 : Die I Stichproben entstammen der gleichen GrundgesamtheitGilt H0 dann bedeutet dies, dass dann insbesondere auch ihreErwartungswerte übereinstimmen.17 / 23

Der Kruskal-Wallis-Test als nichtparametrische AltervativeVorgehen beim Kruskal-Wallis-TestAlle Beobachtungen werden zu einer Stichprobe zusammengefasst.Diese wird der Größe nach aufsteigend angeordnet und jedem Wertxi ,j wird sein entsprechender (zufälliger) Rang Ri ,j zugeordnet. Mitdem Rang-Gesamtmittel R̄ und dem i -ten Rang-GruppenmittelR̄i bildet man die TeststatistikSRSA JXJ(R̄i R̄)2 .i 1Unterscheiden sich die Gruppen stark voneinander, ist SRSAtendenziell groß. Je größer SRSA , desto unwahrscheinlicher wirddamit auch H0 .18 / 23

Der Kruskal-Wallis-Test als nichtparametrische AltervativeDer Kruskal-Wallis-Test ist kein exakter Test – unter H0 ist dieTeststatistik12SRSAn(n 1)approximativ χ2 -verteilt mit I 1 Freiheitsgraden.Damit die Näherung hinreichend gute Ergebnisse liefert sollten dieStichprobenumfänge wieder groß genug sein:Faustregeln für den Kruskal-Wallis-TestFalls I 3: n1 , n2 , n3 5.Falls I 4: n1 , . . . , nI 4.19 / 23

Der Kruskal-Wallis-Test als nichtparametrische AltervativeEntweder . . .Der Kruskal-Wallis-Test in SPSS Analysieren Nichtparametrische Tests Unabhängige Stichproben. . . Aktiviere das Feld Felder Übertrage die unabhängigen Variablen in das Feld Testfelder Übertrage die abhängige Variable in das Feld Gruppen undbestätige mit AusführenBei diesem Analyseweg wird im Output-Viewer das Testergebnis imsog. Model Viewer angezeigt. Dort findet man auch unterPaarweise Vergleiche“ Posthoc-Analysen.”20 / 23

Der Kruskal-Wallis-Test als nichtparametrische Altervativeoder . . .Der Kruskal-Wallis-Test in SPSS Analysieren Nichtparametrische Tests Alte Dialogfelder K unabhängige Stichproben. . . Ziehe die zu untersuchende Variable in das Feld Testvariablenund die Gruppierungsvariable in das Feld Gruppenvariable Klicke den Schalter Bereich definieren an und bestimme dortin den Feldern Minimum und Maximum den gewünschtenUntersuchungsbereich der Gruppierungsvariable21 / 23

ANOVAAufgaben ICholesterin.savDer Datensatz enthält den Blut-Cholesterin-Spiegel vonProbanden, die einem deutlich erhöhten Wert ( 250 mg/dl)aufgefallen sind. Seit diesem Befund erfuhren die Testpersonen eineder folgenden drei Behandlungsarten: kein Medikament (0),Medikament A oder Medikament B. Aufgezeichnet werden dieCholesterinwerte einen bestimmten Zeitraum nach Gabe derMedikamente.Verringert die Gabe eines Medikaments den Cholesterin-Wert imVergleich zur Kontrolle? Wirkt eines der beiden Medikamentebesser?22 / 23

ANOVAAufgaben IIph.savDer Datensatz untersucht (unter anderem) den Einfluss desFaktors Beregnung (sauer, normal, keine) auf den pH-Wert vonWaldboden.Gibt es (signifikante) Unterschiede zwischen den dreiBeregnungsarten bezüglich des pH-Werts der Waldbodenproben?Falls ja, wo liegen die Unterschiede?Wein.savZur Prämierung von Weinen werden diese von Prüfern bewertet. Jehöher die Bewertung, desto besser die Qualität des Weins. Es wirdvermutet, dass die einzelnen Weinprüfer unterschiedlicheWertungen abgeben.Untersuche ob es Prüfer gibt, die die Weine (signifikant) andersbewerten als andere Prüfer und identifiziere diese mit einemPosthoc-Testverfahren.23 / 23

Der Kruskal-Wallis-Test in SPSS Analysieren Nichtparametrische Tests Unabh angige Stichproben . Aktiviere das Feld Felder Ubertrage die unabh angigen Variablen in das Feld Testfelder Ubertrage die abh angige Variable in das Feld Gruppen und best atige mit Ausf uhren Bei diesem Analyseweg wird im Output-Viewer das Testergebnis im sog. ModelViewerangezeigt .