Kurs:Statistik für Anwender/Tests für normalverteilte Zufallsvariablen

Aus testwiki
Zur Navigation springen Zur Suche springen

Tests für normalverteilte Zufallsvariablen

Einstichprobentests

Bei Einstichprobentests werden Hypothesen über die Parameter einer normalverteilten ZV mit Hilfe einer Stichprobe (der Länge n) getestet.

Situation: Es sei bekannt, dass eine ZV X normalverteilt ist. Allerdings sind μ und σ nicht bekannt. Es liegt eine Stichprobe x1,,xn der Länge n von X vor.

Daraus kann man zunächst den arithmetischen Mittelwert und die empirische Standardabweichung berechnen, also: x=1ni=1nxi und s=sx=1n1i=1n(xix)2

Wiederholung Hypothesentest I

Bei einem Hypothesentest ist wie folgt vorzugehen: Zunächst stellt man eine Nullhypothese auf (hier eine Aussage, die μ oder σ betrifft) und legt das Signifikanzniveau α sowie die Methode zur Berechnung des p-Werts fest. Dann erst sichtet man die Daten der Stichprobe und kommt anhand dieser Daten mit dem zuvor festgelegten Verfahren zu einer Entscheidung:
ZV mit unbekannten Parametern μ,σzufälligDaten x1,,xnmethodischEntscheidung bzgl. H0

Wiederholung Hypothesentest II

Somit hängt auch die Entscheidung bzgl. H0 vom Zufall ab und es kann daher zu Fehlern kommen. Wie bei allen Hypothesentests ist aber immer garantiert: Falls H0 giltP(Ablehnung von H0)α
(Wir werden dies nicht immer wieder begründen. Bei allen Verfahren ist dies aber stets garantiert.)

Linksseitiger t-Test

Voraussetzung und Hypothesenpaar

Voraussetzung: X normalverteilt mit EW μ=? und Standardabweichung σ=?
Hypothesenpaar: H0:μμ0 und H1:μ<μ0
(Dabei ist μ0 vorgegeben.)

Vorliegende Daten: Stichprobe x1,,xn

Teststatistik und p-Wert

Teststatistik: T=nxμ0sx (niedrige Werte von T sprechen gegen H0)

p-Wert zu konkreter Teststatistik T: 𝔭=Tn1(T)=pt(T,n1)
Dabei bezeichnet Tn1 die Verteilungsfunktion einer t-Verteilung mit n1 FG.

Durchführung mit R: t.test(x,y=NULL,alt=" less ",μ0)
(Dabei muss x ein Vektor mit den Daten x1,,xn sein.)

Beispiel linksseitiger t-Test:

Beim Testen der Nullhypothese H0:μ16 zu einer (normalverteilten) ZV X erhält man die folgende Stichprobe x1,,x20:
17.49, 14.22, 13.56, 14.48, 13.14, 16.44, 11.66, 17.02, 13.39, 14.66,14.79, 15.99, 15.50, 16.66, 14.02, 15.60, 13.62, 14.42, 16.10, 18.48
Daraus dann 𝔭=0.0108

Rechtsseitiger t-Test

Voraussetzung und Hypothesenpaar

Voraussetzung: X normalverteilt mit EW μ=? und Standardabweichung σ=?
Hypothesenpaar: H0:μμ0 und H1:μ>μ0
(Dabei ist μ0 vorgegeben.)

Vorliegende Daten: Stichprobe x1,,xn

Teststatistik und p-Wert

Teststatistik: T=nxμ0sx (hohe Werte von T sprechen gegen H0)

p-Wert zu konkreter Teststatistik T: 𝔭=1Tn1(T)=1pt(T,n1)
Dabei bezeichnet Tn1 die Verteilungsfunktion einer t-Verteilung mit n1 FG.

Durchführung mit R: t.test(x,y=NULL,alt=" greater ",μ0)
(Dabei muss x ein Vektor mit den Daten x1,,xn sein.)

Beispiel rechtsseitiger t-Test:

Beim Testen der Nullhypothese H0:μ170 zu einer (normalverteilten) ZV X erhält man die folgende Stichprobe x1,,x10: 160.0, 154.7, 182.8, 181.4, 165.3, 181.0, 176.5, 182.9, 187.1, 168.4
Daraus ergibt sich 𝔭=0.1418

Zweiseitiger t-Test

Voraussetzung und Hypothesenpaar

Voraussetzung: X normalverteilt mit EW μ=? und Standardabweichung σ=?
Hypothesenpaar: H0:μ=μ0 und H1:μ=μ0
(Dabei ist μ0 vorgegeben.)

Vorliegende Daten: Stichprobe x1,,xn

Teststatistik und p-Wert

Teststatistik: T=n|xμ0|sx (hohe Werte von T sprechen gegen H0)

p-Wert zu konkreter Teststatistik T: 𝔭=2(1Tn1(T))=2(1pt(T,n1))
Dabei bezeichnet Tn1 die Verteilungsfunktion einer t-Verteilung mit n1 FG.

Durchführung mit R: t.test(x,y=NULL,alt=" two.sided ",μ0)
(Dabei muss x ein Vektor mit den Daten x1,,xn sein.)

Beispiel zweiseitiger t-Test

Beim Testen der Nullhypothese H0:μ=66 zu einer (normalverteilten) ZV X erhält man die folgende Stichprobe x1,,x15: 68.6, 72.8, 66.6, 67.7, 62.1, 75.9, 74.4, 69.8, 76.1, 70.1, 68.4,  65.2, 72.1, 68.7, 69.4
Daraus ergibt sich 𝔭=0.001805

Linksseitiger Test zur Standardabweichung

Voraussetzung und Hypothesenpaar

Voraussetzung: X normalverteilt mit EW μ=? und Standardabweichung σ=?
Hypothesenpaar: H0:σσ0 und H1:σ<σ0
(Dabei ist σ0>0 vorgegeben.)

Vorliegende Daten: Stichprobe x1,,xn

Teststatistik und p-Wert

Teststatistik: T=(n1)sx2σ02 (niedrige Werte von T sprechen gegen H0)

p-Wert zu konkreter Teststatistik T: 𝔭=Sn1(T)=pchisq(T,n1)
Dabei bezeichnet Sn1 die Verteilungsfunktion einer χ2-Verteilung mit n1 FG.

Beispiel: Linksseitiger Test zur Standardabweichung

Für eine (normalverteilte) ZV X betrachtet man die Nullhypothese H0:σ12 und testet diese mit Hilfe der folgenden Stichprobe x1,,x30: 51.4, 38.8, 57.7, 41.3, 37.9, 50.6, 32.4, 53.9, 54.6, 56.9,52.8, 64.6, 42.2, 60.3, 42.0, 69.4, 44.4, 55.1, 68.8, 39.4,36.6, 44.9, 48.7, 56.9, 57.1, 44.6, 54.7, 54.2, 50.3, 59.6
Daraus ergibt sich
𝔭=0.0575

Rechtsseitiger Test zur Standardabweichung

Voraussetzung und Hypothesenpaar

Voraussetzung: X normalverteilt mit EW μ=? und Standardabweichung σ=?
Hypothesenpaar:H0:σσ0 und H1:σ>σ0
(Dabei ist σ0>0 vorgegeben.)

Vorliegende Daten: Stichprobe x1,,xn

Teststatistik und p-Wert

Teststatistik: T=(n1)sx2σ02 (hohe Werte von T sprechen gegen H0)

p-Wert zu konkreter Teststatistik T: 𝔭=1Sn1(T)=1pchisq(T,n1)
Dabei bezeichnet Sn1 die Verteilungsfunktion einer χ2-Verteilung mit n1 FG.

Beispiel: Rechtsseitiger Test zur Standardabweichung

Für eine (normalverteilte) ZV X betrachtet man die Nullhypothese H0:σ0.3 und testet diese mit Hilfe der folgenden Stichprobe x1,,x22:
8.888, 8.620, 8.843, 7.890, 8.354, 8.048, 8.225, 7.957,7.701, 8.690, 8.133, 8.246, 8.519, 8.616, 8.521, 8.150,8.682, 8.733, 8.449, 8.024, 8.685, 8.198
Daraus ergibt sich dann 𝔭=0.2066

Zweiseitiger Test zur Standardabweichung

Voraussetzung und Hypothesenpaar

Voraussetzung: X normalverteilt mit EW μ=? und Standardabweichung σ=?
Hypothesenpaar: H0:σ=σ0 und H0:σ=σ0

(Dabei ist

σ0>0

vorgegeben.)

Vorliegende Daten: Stichprobe x1,,xn

Teststatistik und p-Wert

Teststatistik: T=(n1)sx2σ02 (hohe Werte von T sprechen gegen H0)

p-Wert:
𝔭=2min(Sn1(T), 1Sn1(T))=2min(pchisq(T,n1),1pchisq(T,n1))
Dabei bezeichnet Sn1 die Verteilungsfunktion einer χ2-Verteilung mit n1 FG.

Beispiel: Zweiseitiger Test zur Standardabweichung

Für eine (normalverteilte) ZV X betrachtet man die Nullhypothese H0:σ=4.8 und testet diese mit Hilfe der folgenden Stichprobe x1,,x14: 29.23, 32.36, 30.13, 30.38, 27.20, 30.27, 34.45, 37.90, 26.93, 31.57,  32.58, 30.54, 29.62, 32.50
Daraus ergibt sich 𝔭=0.0314

Anmerkungen zu den t-Tests I

  • Würde man die Standardabweichung σ (aber nicht den EW μ) der Normalverteilung kennen, so könnte man sx durch σ ersetzen und statt der t-Verteilung Tn1 die Standardnormverteilung Φ benutzen. Dies könnte man näherungsweise auch dann tun, wenn n groß ist, da sich dann die t-Verteilung der Standardnormalverteilung annähert. Benutzt man Φ statt Tn1, so spricht man von einem Gauß-Test.

Anmerkungen zu den t-Tests II

  • Grundsätzlich sind bei einer ZV X, die nicht normalverteilt ist, sondern eine beliebige (unbekannte) Verteilung hat, die in diesem Kapitel vorgestellten t-Tests (und auch die Tests zur Standardabweichung σ) mathematisch nicht exakt. Falls aber n groß genug ist (eine Faustregel besagt n>30, im allgemeinen hängt dies aber von der unbekannten Verteilung ab), so funktionieren die t-Tests (wie auch die entsprechenden Gauß-Tests) näherungsweise immer noch und liefern gute Ergebnisse. Man sagt: Die Tests sind robust gegenüber Verletzungen der Normalverteilungsannahme.

Aufgabe 1.1

Gegeben ist eine Stichprobe x1,,xn (die Sie als Vektor daten in der Datei datenUEB7.R auf GitHub finden) zu einer normalverteilten Größe X mit unbekannten Parametern μ und σ.
Bestimmen Sie anhand dieser Daten zu den folgenden Nullhypothesen jeweils den p-Wert:
H0:μ315; H0:μ308; H0:μ=306; H0:σ16 ; H0:σ25 ; H0:σ=22
(Verwenden Sie die in der Vorlesung behandelten Tests).

Aufgabe 1.2

Eine Firma füllt maschinell Saft in 1,5-Liter-Flaschen ab. Sie behauptet dabei die folgenden Standards einzuhalten:

  • Die durchschnittliche (zu erwartende) Füllmenge beträgt mindestens 1.51 Liter.

  • Die Standardabweichung der Füllmenge beträgt nicht mehr als 0.02 Liter.

  • Mindestens 80% aller Flaschen enthalten mindestens 1.51 Liter.

Verwenden Sie die Daten aus dem R-Skript datenUEB7.r unter GitHub.

Aufgabe 2

Wie verändert sich bei den Nullhypothesen für den Erwartungswert μ einer Normalverteilung H0:μμ0 H0:μμ0 H0:μ=μ0

jeweils der p-Wert des entsprechenden t-Tests, wenn:

  • sx und n unverändert bleiben und x größer wird?
  • x und n unverändert bleiben und sx größer wird?
  • x und sx unverändert bleiben und n größer wird?

Erklären Sie Ihre Antworten (kurz).

Zweistichprobentests

Wir untersuchen nun den Fall, dass zwei (normalverteilte) ZV X,Y vorliegen, deren Erwartungswerte μX,μY wir vergleichen wollen. Dazu werden zwei unabhängige Stichproben x1,,xn und y1,,ym erhoben, anhand derer man dann Hypothesentests durchführen kann.

Beispiel Anwendung Zweistichprobentest I

Das Gewicht von Afrikanischen (ZV X) und Indischen Elefantenkühen (ZV Y) wird untersucht. Für die Erwartungswerte μX bzw. μY kann man (z.B.) folgende Hypothesen aufstellen:

H0:μXμY,H0:μXμY,H0:μX=μY

Es ergeben sich folgende Stichproben (Werte in kg):
Stichprobe für X (n=18):
2835, 3979, 3012, 2548, 2213, 3094, 2225, 2006, 2554, 2921,
2876, 2855, 3294, 3481, 3186, 2280, 3755, 2432

Stichprobe für Y (m=15) :
2567, 2833, 2425, 2754, 2499, 2529, 2438, 2863, 2850, 2574,
2665, 2771, 2829, 2161, 2919

Beispiel Anwendung Zweistichprobentest II

Möchte man einen "empirischen Nachweis" erbringen, dass Afrikanische Elefantenkühe (im erwarteten Durchschnitt) schwerer sind als Indische, so kann man die Nullhypothese H0:μXμY einem Test unterziehen. Bei einem signifikanten Ergebnis wird H0 abgelehnt und folglich die Gegenhypothese H1:μX>μY bestätigt (H0 könnte trotzdem gelten, allerdings hat eine Ablehnung dann maximal Wahrscheinlichkeit α).

Zweistichproben-t-Test

Man spricht dabei von Zweistichprobentests, d.h. es werden Hypothesen über die Parameter zweier ZV mit Hilfe zweier (unabhängiger) Stichprobe (der Längen n und m) getestet.
Man bezeichnet diese Tests als Zweistichproben-t-Test bzw. Welch-Test.

Voraussetzung

Voraussetzung: X,Y normalverteilt mit EW μX=? und μY=? und Standardabweichungen σX=? und σY=?
Beachte dazu: Für eine exakte Vorgehensweise muss vorausgesetzt werden, dass X und Y normalverteilt sind. Allerdings erzielt man mit den hier vorgestellten t-Tests (für genügend große Stichprobenumfänge, Faustregel: n,m>30) auch dann gute Resultate, wenn X und Y nicht normalverteilt sind.

Hypothesenpaare
  1. H0:μXμY+d und H1:μX>μY+d (d vorgegeben)
  2. H0:μXμY+d und H1:μX<μY+d (d vorgegeben)
  3. H0:μX=μY+d und H1:μX=μY+d (d vorgegeben)

(Man beachte insbesondere den Fall d=0.)
Vorliegende Daten: Unabhängige Stichproben: x1,,xn für X und y1,,ym für Y

Teststatistik

T=xydsx2n+sy2m
Je nach Variante gilt dabei:

  1. Hohe Werte von T sprechen gegen H0.
  2. Niedrige Werte von T sprechen gegen H0.
  3. Hohe Werte von |T| sprechen gegen H0.
Zahl der Freiheitsgrade und p-Wert

Zahl der Freiheitsgrade: k=(sx2n+sy2m)21n1(sx2n)2+1m1(sy2m)2
p-Wert zu konkreter Teststatistik: (je nach Variante)

  1. 𝔭=1Tk(T)
  2. 𝔭=Tk(T)
  3. 𝔭=2(1Tk(|T|))


Dabei ist Tk die t-Verteilung mit k Freiheitsgrade. (Man beachte, dass die t-Verteilung auch für nicht-ganzzahlige Freiheitsgrade definiert werden kann.)

Beispiel Anwendung Zweistichprobentest III

In obigem Beispiel (Gewicht der Elefanten) testen wir die Nullhypothese H0:μXμY . Dies entspricht Fall (i) mit d=0. Mit den oben angegebenen Daten berechnet man
p-Wert: 𝔭=0.0662
Der kleine p-Wert spricht gegen H0 und damit für die Gegenhypothese H1, die besagt, dass Afrikanische Elefantenkühe im Schnitt schwerer sind als Indische. Ob man dies als (empirischen) Nachweis von H1 akzeptiert, hängt von der Wahl des Signifikanzniveaus ab (für α=0.1 kann H0 abgelehnt werden, nicht jedoch für α=0.05).

Beispiel Anwendung Zweistichprobentest IV

Man könnte dies variieren, indem man (z.B.) die Nullhypothese H0:μXμY+100 betrachtet, die besagt, dass Afrikanische Elefantenkühe im Schnitt nicht mehr als 100kg schwerer sind als Indische. Dies entspricht Fall (i) mit d=100. Es ergeben sich die Teststatistik T=0.847 mit dem Freiheitsgrad k=22.826. Daraus resultiert der p-Wert von 𝔭=0.2030. Damit kann H0 also (zu üblichen Signifikanzniveaus) nicht abgelehnt werden.

Hypothesentests anhand verbundener Stichproben

Verbundene Stichproben

Eine sogenannte verbundene Stichprobe für zwei ZV X und Y erhält man, wenn man die einzelnen Werte der Stichproben für X und Y einander eindeutig zuordnen kann. Dies ist meist dann der Fall, wenn man die Stichproben für X und Y an den gleichen ’Untersuchungseinheiten’ erhebt.

Datenpaare

Die Daten liegen dabei in Form von Paaren (x1,y1),(x2,y2),,(xn,yn) vor (dabei können xj und yj jeweils einander zugeordnet werden). Die beiden einzelnen Stichproben x1,,xn und y1,,yn haben die gleiche Länge n und müssen nicht unabhängig voneinander sein.

Falls X und Y außerdem ZV bezeichnen, die in derselben Einheit angegeben werden können, so kann man die Differenz Z=XY bilden. Für Z liegt dann eine Stichprobe z1,,zn vor, die sich wie folgt ergibt: z1=x1y1, z2=x2y2, , zn=xnyn

Beispiel verbundene Stichproben

  • Schadstoffkonzentrationen an n verschiedenen Orten zu zwei Zeitpunkten
  • Blutwerte von n Personen vor und nach Einnahme eines Medikaments
  • Temperaturen an zwei Orten X und Y zu n verschiedenen Zeitpunkten
  • Leistung einer Gruppe von n Schülern in Mathematik und Physik

Zusammenhang zum Einstichprobentest

Wir betrachten nun einige Hypothesenpaare, die sich auf Vergleiche der EW von X und Y beziehen. Da diese auch mit dem EW von Z formuliert werden können, können hier die Einstichproben-t-Tests auf Z angewendet werden.
Die Idee dabei ist, dass EW und empirischer Mittelwert linear sind, also:
μZ=μXμY und z=xy

Voraussetzung

Z=XY normalverteilt mit μZ=μXμY=? und σZ=?
Beachte dazu: Für eine exakte Vorgehensweise muss vorausgesetzt werden, dass Z normalverteilt ist. Allerdings erzielt man mit den hier vorgestellten t-Tests (für genügend große Stichprobenumfänge, Faustregel: n>30) auch dann gute Resultate, wenn Z nicht normalverteilt ist.

Hypothesenpaare

  1. H0:μXμY+d und H1:μX>μY+d (d vorgegeben)
    Äquivalent ist:
    H0:μZd und H1:μZ>d
  2. H0:μXμY+d und H1:μX<μY+d (d vorgegeben)
    Äquivalent ist:
    H0:μZd und H1:μZ<d
  3. H0:μX=μY+d und H1:μX=μY+d (d vorgegeben)
    Äquivalent ist:
    H0:μZ=d und H1:μZ=d

(Man beachte insbesondere den Fall d=0.)

Vorliegende Daten und p-Wert

Vorliegende Daten: Verbundene Stichproben: (x1,y1),,(xn,yn) für X und Y
Daraus ergibt sich eine Stichprobe für Z: z1=x1y1, z2=x2y2, , zn=xnyn

p-Wert: (vgl. die Einstichproben-t-Tests, angewendet auf Z)

  1. 𝔭=1Tn1(nzdsz)
  2. 𝔭=Tn1(nzdsz)
  3. 𝔭=2(1Tn1(n|zd|sz))

Anmerkung

Es gilt z=xy. Die empirische Standardabweichung sz kann aber im Allgemeinen nicht aus sx und sy bestimmt werden, wenn X und Y nicht unabhängig sind.

Beispiel 1.1

Man bestimmt an 40 zufällig über mehrere Jahre verteilten Tagen die Tageshöchsttemperatur X und Y an zwei Orten und erhält folgende Werte: Tag j12345678910Temperatur xj29.920.87.520.732.715.016.024.429.323.7Temperatur yj28.917.49.522.225.516.212.020.425.924.4Differez zj=xjyj1.03.42.01.57.21.24.04.03.40.7Tag j11121314151617181920Temperatur xj1.720.713.84.728.515.613.31.432.322.7Temperatur yj3.612.711.25.930.312.116.02.033.117.4Differenz zj=xjyj5.38.02.61.21.83.52.70.60.85.3Tag j21222324252627282930Temperatur xj4.912.814.71.14.12.010.812.95.27.9Temperatur yj2.212.810.74.72.71.97.713.87.50.0Differenz zj=xjyj2.70.04.03.66.83.93.10.92.37.9Tag 31323334353637383940Temperatur xj11.127.615.511.717.521.517.013.524.60.8Temperatur yj10.325.314.25.810.317.517.84.220.51.0Differenz zj=xjyj0.82.31.35.97.24.00.89.34.11.8

Beispiel 1.2

Zum Testen der Nullhypothese H0:μXμY+4 ("Die erwarteten Tageshöchsttemperaturen X am ersten Ort sind um mindestens 4 Grad höher als die erwarteten Tageshöchsttemperaturen Y am zweiten Ort.") kann man nun einfach die Differenz Z=XY betrachten und die äquivalente Nullhypothese H0:μZ+4 mit einem t-Test untersuchen.
Dieses Vorgehen ist wegen n>30 näherunsgweise gerechtfertigt, für kleine n müsste man zunächst prüfen, ob die Temperaturdifferenzen Z normalverteilt sind.

Beispiel 1.3

Mit dem arithmetischen Mittel und der Standardabweichung erhält man mit 𝔭=0.00555 einen sehr geringen p-Wert und kann daher die Nullhypothese ablehnen. Also ist davon auszugehen, dass es am ersten Ort (im zu erwartenden Mittel) weniger als 4 Grad wärmer ist als am zweiten Ort.

Aufgabe 1.1

Stellen Sie in den folgenden Situationen eine passende Nullhypothese auf, berechnen Sie mit einem geeigneten Test den p-Wert und interpretieren Sie das Ergebnis:

Aufgabe 1.2.1

Ein Dünger soll getestet werden. Die Ernteerträge werden bei einer Reihe von ungedüngten (Test-)Feldern und einer Reihe gedüngter Felder bestimmt. Man erhält die Daten (in Tonnen/Hektar), die in den Vektoren ohne (Erträge der Felder ohne Dünger) und mit (Erträge der Felder mit Dünger) gespeichert sind (siehe Datei DatenUEB8.r auf GitHub).

Aufgabe 1.2.2

Kann dadurch (zum Signifikanzniveau α=0.05) empirisch belegt werden, dass

  • der Dünger eine Zunahme des (erwarteten) Ertrags bewirkt?

  • der Dünger eine Zunahme des (erwarteten) Ertrags um mindestens eine halbe Tonne pro Hektar bewirkt?

  • der Dünger dazu führt, dass die gedüngten Felder einen (erwarteten) Ertrag von mehr als 9.6t / h erzielen?

Aufgabe 1.3.1

Die Mitglieder eines Sportvereins machen zusammen ein Ausdauertraining über mehrere Wochen. Vor und nach dem Training machen alle jeweils einen 1000m Testlauf. Die Zeiten werden festgehalten. Die Daten (in Sekunden) sind in den Vektoren vor (vor dem Training) und nach (nach dem Training) gespeichert. (Dabei sind gleiche Stellen der beiden Vektoren jeweils derselben Person zuzuordnen.)

Aufgabe 1.3.2

Kann dadurch (zum Signifikanzniveau

α=0.05

) empirisch belegt werden, dass

  • durch das Training eine Verbesserung beim 1000m-Lauf zu erwarten ist?

  • durch das Training eine durchschnittliche Verbesserung von mindestens 5 Sekunden beim 1000m-Lauf zu erwarten ist?

Seiteninformation

Diese Lernresource können Sie als Wiki2Reveal-Foliensatz darstellen.

Wiki2Reveal

Dieser Wiki2Reveal Foliensatz wurde für den Lerneinheit Kurs:Statistik für Anwender' erstellt der Link für die Wiki2Reveal-Folien wurde mit dem Wiki2Reveal-Linkgenerator erstellt.