Kurs:Statistik für Anwender/Darstellung und Korrelation für mehrere Merkmale

Aus testwiki
Zur Navigation springen Zur Suche springen

Darstellung und Korrelation für (zwei) mehrere Merkmale

In diesem Abschnitt betrachten wir stets zwei Merkmale X:ΩA und Y:ΩB auf derselben Grundgesamtheit Ω (man spricht dann von verbundenen Merkmalen). Oft stellt sich die Frage, ob die Merkmale voneinander abhängig sind, das heißt, ob gewisse Werte für X(ω) mit gewissen anderen Werte für Y(ω) mehr bzw. weniger gehäuft auftreten. Wir wollen nun einige (gemeinsame) Darstellungsformen für zwei verbundene Merkmale angeben und Methoden behandeln, mit denen man ihre Abhängigkeit untersuchen kann.

Verbundene Merkmale

Ist Ω={ω1, ,ωn} eine Grundgesamtheit und sind X:ΩA und Y:ΩB verbundene Merkmale, so bezeichnet man die Abbildung (X,Y):ΩA×B, ω(X(ω),Y(ω))
als zweidimensionales Merkmal. Ein Wertepaar (X(ωi),Y(ωi)) (i=1,,n) heißt Beobachtungswert.

Beispiel verbundene Merkmale

  • Gibt X die Größe und Y das Gewicht einer Person an, so wird man erwarten, dass bei einem hohen Wert X(ω) auch eher ein hoher Wert für Y(ω) auftritt.
  • Ist X die Regenmenge (für bestimmte Tage im Sommer) und Y die Durchschnittstemperatur, so lässt sich (vermutlich) ein umgekehrter Zusammenhang erwarten (eine hohe Regenmenge entspricht eher einer niedrigen Temperatur).
  • Falls X die Größe einer Person und Y die Punktzahl in einer Mathematik-Klausur beschreibt, so erwartet man, dass die Beobachtungswerte unabhängig voneinander sind (von Zufälligigkeiten abgesehen).


Urliste

Als Urliste bezeichnet man die Tabelle

ωiω1ωnX(ωi)X(ω1)X(ωn)Y(ωi)Y(ω1)Y(ωn)

beziehungsweise die Auflistung aller Paare von Beobachtungswerten (X(ω1),Y(ω1)), (X(ω2),Y(ω2)), , (X(ωn),Y(ωn)).
als Urliste.

Wir schreiben im Folgenden auch kurz xi=X(ωi) und yi=Y(ωi).

Beispiel Urliste bei verbundenem Merkmal

Auf einem Bauernhof werden Hühnereier in Güteklassen (A,B und C) und Gewichtsklassen (S,M,L,XL) eingeteilt. Eine Serie von 500 Eiern wird diesbezüglich statistisch erfasst. Auf der Grundgesamtheit Ω={ω1,ω2,,ω500} haben wir also die Merkmale X:Ω{A,B,C} (Güte)undY:Ω{S,M,L,XL} (Gewicht) Die Urliste könnte nun wie folgt aussehen:

ωω1ω2ω3ω4ω5ω499ω500X(ω)AACBCBAY(ω)XLLLSMML

Kontingenztabellen

Gemeinsame absolute und relative Häufigkeit

Sind X,Y:Ω verbundene Merkmale auf einer Grundgesamtheit Ω mit den Merkmalsräumen A={a1,,am} (für X) und B={b1,,b} (für Y), so kann man wie zuvor auch die absoluten und relativen Häufigkeiten der beiden einzelnen Merkmale erfassen. An ihnen kann man aber keine Abhängigkeiten der beiden Merkmale feststellen. Man betrachtet daher die gemeinsamen absoluten bzw. relativen Häufigkeiten. Für i=1,,m und j=1,,l bezeichnet man
hi,j=h(ai,bj)=|{ωΩ; (X(ω),Y(ω))=(ai,bj)}|
als absolute Häufigkeit von (ai,bj) und
ri,j=r(ai,bj)=hi,j|Ω|
als relative Häufigkeit von (ai,bj).

Kontingenztabelle

Die Tabellen mit diesen Werten
Yb1b2blXHLINE TBDa1h(a1,b1)h(a1,b2)h(a1,b)a2h(a2,b1)h(a2,b2)h(a2,b)amh(am,b1)h(am,b2)h(am,b)Yb1b2bXHLINE TBDa1r(a1,b1)r(a1,b2)r(a1,b)a2r(a2,b1)r(a2,b2)r(a2,b)amr(am,b1)r(am,b2)r(am,b) heißen Kontingenztabellen (oder Kreuztabellen).

Beispiel Kontingenztabelle

Im Beispiel Urliste bei verbundenem Merkmal könnten diese Tabellen beispielsweise so aussehen:
GewichtSMLXLgesamtGüteHLINE TBDAh(A,S)=6h(A,M)=12h(A,L)=63h(A,XL)=280h(A)=361Bh(B,S)=10h(B,M)=19h(B,L)=43h(B,XL)=12h(B)=84Ch(C,S)=15h(C,M)=17h(C,L)=20h(C,XL)=3h(C)=55HLINE TBDgesamth(S)=31h(M)=48h(L)=126h(XL)=295n=500
GewichtSMLXLgesamtGüteHLINE TBDAr(A,S)=0.012r(A,M)=0.024r(A,L)=0.126r(A,XL)=0.560r(A)=0.722Br(B,S)=0.020r(B,M)=0.038r(B,L)=0.086r(B,XL)=0.024r(B)=0.168Cr(C,S)=0.030r(C,M)=0.034r(C,L)=0.040r(C,XL)=0.006r(C)=0.110HLINE TBDgesamtr(S)=0.062r(M)=0.096r(L)=0.252r(XL)=0.5901

Anmerkungen Kontingenztabelle I

  • Summiert man zu einem festen j{1,,l} die absoluten/relativen Häufigkeiten h1,j,,hm,j, so erhält man die absolute/relative Häufigkeit der Merkmalsausprägung bj für das Merkmal Y, es gilt also
    i=1mh(ai,bj)=h(bj)undi=1mr(ai,bj)=r(bj).
    Analog gilt
    j=1lh(ai,bj)=h(ai)undj=1lr(ai,bj)=r(ai).

Anmerkungen Kontingenztabelle II

  • Es gilt
    i=1mj=1lhi,j=|Ω|undi=1mj=1lri,j=1.
  • Kontinenztabellen eignen sich besonders für qualitative Merkmale. Gibt es viele mögliche Merkmalsausprägungen, so kann man diese in Klassen einteilen und dann eine Kontingenztabelle mit den Klassenhäufigkeiten erstellen.

Bedingte relative Häufigkeiten und Unabhängigkeit

Bedingte relative Häufigkeiten

Sind X,Y:Ω verbundene Merkmale auf einer Grundgesamtheit Ω mit den Merkmalsräumen A und B, so heißt
r(a|b)=h(a,b)h(b)(aA, bB)
bedingte relative Häufigkeit von a unter der Bedingung b. Analog heißt
r(b|a)=h(a,b)h(a)(aA, bB)
bedingte relative Häufigkeit von b unter der Bedingung a

Beispiel bedingte relative Häufigkeiten

Im Beispiel Urliste bei verbundenem Merkmal ist:

  • r(S|A)=0.017<0.062=r(S)
    Der Anteil der Eier vom Gewicht S ist unter den Eiern der Güte A kleiner (als insgesamt).
  • r(C|L)=0.159>0.110=r(C)
    Der Anteil der Eier der Güte C ist unter den Eiern vom Gewicht L größer (als insgesamt).
  • r(A|XL)=0.949>0.722=r(A)
    Der Anteil der Eier der Güte A ist unter den Eiern vom Gewicht XL größer (als insgesamt).

Unabhängigkeit

Man nennt nun zwei Merkmale X,Y unabhängig voneinander, falls für alle Merkmalsausprägungen aA und bB die folgenden äquivalenten Bedingungen erfüllt sind: r(b|a)=r(b)r(a,b)=r(a)r(b)r(a|b)=r(a)

Anmerkung Unabhängigkeit

  • Die Bedingung r(b|a)=r(b) besagt, dass die Merkmalsausprägung b "unter der Bedingung a" (d.h. wenn man nur die Untersuchungseinheiten ω betrachtet, bei denen X(ω)=a ist) die gleiche relative Häufigkeit hat, die sie auch insgesamt hat. Man könnte sagen: Das Auftreten von a hat keinen Einfluss auf das Auftreten von b.

  • Dieses Konzept der Unabhängigkeit ist allerdings für die Praxis nicht zu gebrauchen. Die Bedingung r(a,b)=r(a)r(b) wird im Allgemeinen nicht erfüllt sein, selbst wenn die beiden Merkmale offensichtlich unabhängig voneinander sind.

Beispiel Unabhängigkeit

Ein Würfel und eine Münze werden 100-mal geworfen (jeweils gleichzeitig). Das Merkmal X gibt die Zahl des Würfels an, das Merkmal Y das Ergebnis des Münzwurfs. Es ergibt sich die folgende Kontingenztabelle: X123456gesamtYHLINE TBDKopf (K)h(K,1)=10h(K,2)=11h(K,3)=6h(K,4)=5h(K,5)=6h(K,6)=7h(K)=45Zahl (Z)h(Z,1)=5h(Z,2)=9h(Z,3)=15h(Z,4)=7h(Z,5)=12h(Z,6)=7h(Z)=55HLINE TBDgesamth(1)=15h(2)=20h(3)=21h(4)=12h(5)=18h(6)=14n=100

Beispiel Unabhängigkeit II

Daraus erhält man beispielsweise:

  • r(K)=0.45 sowie r(K|3)=621=0.286 und r(K|6)=714=0.5

  • r(1)=0.15 sowie r(1|K)=1045=0.222 und r(1|Z)=555=0.091

Die Merkmale X und Y sind also nicht unabhängig.

Beispiel Unabhängigkeit III

Aber:

Man kann hier sicher davon ausgehen, dass sich der Würfel- und der Münzwurf gegenseitig nicht beeinflussen und daher als unabhängig anzusehen sind. Die beobachteten Unterschiede zwischen den relativen Häufigkeiten und den bedingten relativen Häufigkeiten, können hier nur als zufällige Abweichungen erklärt werden.

Frage:
Wie kann man man in einem realen Fall (zum Beispiel in 1.2) entscheiden, ob die berechnete Abhängigkeit zwischen zwei Merkmalen auf Zufall oder auf einen tatsächlich vorhandenen Zusammenhang zurückzuführen ist?

Beispiel Unabhängigkeit III

Innerhalb der schließenden Statistik gibt es Methoden, mit denen man die Unabhängigkeit zweier Größen untersuchen kann. Dabei betrachtet man die Unterschiede zwischen den relativen Häufigkeiten und den bedingten relativen Häufigkeiten auch quantitativ. Außerdem spielt die Zahl n der vorhandenen Daten eine wichtige Rolle — bei großem n werden die Abweichungen mit höherer Wahrscheinlichkeit klein ausfallen, daher müssen sie dann stärker gewichtet werden. Diese Fragen werden in der Vorlesung ’Statistik für Anwender II’ behandelt.

Punktwolke

Für verbundene quantitative Merkmale X,Y:Ω nennt man ein Koordinatensystem mit den Punkten (X(ω),Y(ω)) für ωΩ Punktewolke zu 𝐗 und 𝐘.

Beispiel Punktwolke

Urliste

Wir betrachten die Merkmale Größe (cm) X:Ω und Gewicht (kg) Y:Ω auf einer Menge von Personen Ω={ω1, ,ω20} mit der folgenden Urliste: ωiω1ω2ω3ω4ω5ω6ω7ω8ω9ω10ω11ω12ω13ω14ω15ω16ω17ω18ω19ω20X(ωi)176181183194165168177171182185174181180166174177195174176159Y(ωi)80858998586686737589808285727381101887352

Punktwolke

Dabei ergibt sich die folgende Punktewolke (mit verschiedenen Skalierungen der Achsen):

image image


Um eine von der Skalierung der Achsen unabhängige Darstellung zu erhalten, kann man die Merkmale standardisieren (vergleiche [Merkmale]). Die Punktewolke zu X^ und Y^ nennt man dann die standardisierte Punktewolke zu 𝐗 und 𝐘.

Urliste für standardisiertes Merkmal

In obigem Beispiel ergibt sich für die standardisierten Merkmale X^ und Y^:

ωiω1ω2ω3ω4ω5ω6ω7ω8ω9ω10X^(ωi)0.100.470.701.971.371.020.010.680.590.93Y^(ωi)0.060.480.821.591.811.130.570.540.370.82
ωiω11ω12ω13ω14ω15ω16ω17ω18ω19ω20X^(ωi)0.330.470.361.250.330.012.080.330.102.06Y^(ωi)0.060.230.480.620.540.141.840.740.542.32
Standardisierte Punktewolke

Damit erhält man die standardisierte Punktewolke:

image

Punktwolke: Anforderung an Skala

Punktewolken sind nur für quantitative Merkmale sinnvoll, da die Skalierungen der Achsen bestimmte Abstände zwischen den verschiedenen Merkmalsausprägungen suggerieren.

Punktwolke: Erstellung in R

In R: Man erstellt Vektoren x und y mit den Daten von X und Y und kann dann mit plot(x,y) eine Punktewolke zu (X,Y) erzeugen.

Pearsonscher Korrelationskoeffizient

Linearer Zusammenhang zwischen zwei Merkmalen

Gesucht ist eine Methode zur Feststellung, ob zwei verbundene quantitative Merkmale X,Y:Ω auf eine der beiden folgenden Arten zusammenhängen:

  • Y(ω)aX(ω)+b mit a>0 (X,Y sind positiv korreliert)
    Dabei gilt: Je größer X(ω) ist, desto größer ist Y(ω).
  • Y(ω)aX(ω)+b mit a<0 (X,Y sind negativ korreliert)
    Dabei gilt: Je größer X(ω) ist, desto kleiner ist Y(ω).

Linearer Zusammenhang und Punktwolke

Betrachten wir die standardisierte Punktewolke zu X und Y.

  • Liegen entsprechende Werte für X und Y gleichviele Standardabweichungen über bzw. unter dem Mittelwert, so erhält man einen Punkt auf der ersten Winkelhalbierenden.
  • Liegt ein Wert für X gleichviele Standardabweichungen über bzw. unter dem Mittelwert wie der entsprechenden Wert von Y darunter (und umgekehrt), so erhält man einen Punkt auf der zweiten Winkelhalbierenden.

Produkt der standardisierten Beobachtungswerte

Im Allgemeinen liegen die Punkte natürlich nicht genau auf einer der Winkelhalbierenden. Man betrachtet das Produkt der standardisierten Beobachtungswerte X^(ω)Y^(ω) zum selben Merkmalsträger ω. Dieses ist

  • positiv, wenn überdurchschnittliche Werte von X und Y zusammenfallen und wenn unterdurchschnittliche Werte von X und Y zusammenfallen.
  • negativ, wenn überdurchschnittliche Werte von X mit unterdurchschnittlichen Werten von Y zusammenfallen oder umgekehrt.

Bestimmung des Pearsonschen Korrelationskoeffizient

Man summiert für alle vorhandenen Merkmalsträger ωΩ und teilt das Ergebnis durch die Anzahl n der Punkte (man bildet also das arithmetische Mittel der Produkte der standardisierten Beobachtungswerte). Man definiert:

Für zwei verbundene quantitative Merkmale X,Y:Ω={ω1,,ωn} heißt rX,Y=1ni=1n(X^(ωi)Y^(ωi))
Pearsonscher Korrelationskoeffizienten von 𝐗 und 𝐘.

Zusammenhnag Korrelationskoeffizient und Kovarianz

Es gilt: rX,Y=(X^Y^)=(XXsXYYsY)=XYXYsXsY
Man nennt den Zähler auf der rechten Seite auch Kovarianz von 𝐗 und 𝐘: sX,Y=XYXY=(XX)(YY)=1ni=1n(X(ωi)X)(Y(ωi)Y) Offenbar gilt sX,X=sX2.

Beispiel Pearsonscher Korrelationskoeffizient

Für die beiden Merkmale X=^ ’Größe’ und Y=^ ’Gewicht’ aus [wolke] gilt:
rX,Y=0.905

Pearsonscher Korrelationskoeffizient und Art des linearen Zusammenhangs

Es gilt stets 1rX,Y1, wobei: rX,Y=1es existieren a,b mit a>0, so dass Y=aX+brX,Y=1es existieren a,b mit a<0, so dass Y=aX+b

Ein Korrelationskoeffizient nahe bei

1

deutet also an, dass ein positiver linearer Zusammenhang zwischen den beiden Merkmalen besteht.

(In obigem Beispiel zeigt der Korrelationskoeffizienten rX,Y=0.905 also einen positiven linearen Zusammenhang zwischen X und Y.)

Umgekehrt deutet ein Korrelationskoeffizient nahe bei

1

an, dass ein negativer linearer Zusammenhang zwischen den beiden Merkmalen besteht.

Beispiel 1

Korrelationskoeffizient: rX,Y=0.724

image

Beispiel 2

Korrelationskoeffizient: rX,Y=0.07

image

Beispiel 3

Korrelationskoeffizient: rX,Y=0.932

image

Beispiel 4

Korrelationskoeffizient: rX,Y=0.604

image

Beispiel 5

Korrelationskoeffizient: rX,Y=0.590

image

Beispiel 6

Korrelationskoeffizient: rX,Y=1

image

Korrelation und Ursache-Wirkungs-Prinzip

Auch wenn

rX,Y1

oder

rX,Y1

ist, lässt sich keine Aussage über ein "Ursache-Wirkungs-Prinzip" zwischen den beiden Größen machen. Es ist denkbar, dass eine direkt auf die Andere einwirkt. Beide Größen könnten aber auch von weiteren Umständen in gleicher (oder entgegengesetzter) Weise beeinflusst werden, oder es könnte sogar ein kompliziertes Netz von Ursachen und Wirkungen zwischen vielen verschiedenen Faktoren bestehen. Zusätzlich ist es möglich, dass der aufgrund des Korrelationskoeffizienten vermutete Zusammenhang lediglich auf Zufall zurückzuführen ist. Der Korrelationskoeffizient beschreibt (wie alles in der beschreibenden Statistik) nur die vorhandenen Daten. Diese hängen von der zufällig ausgewählten Grundgesamtheit

Ω

ab.

Korrelationskoeffizient nahe 0

Ein Korrelationskoeffizient nahe 0 kann bedeuten, dass die Merkmale unabhängig voneinander sind. Genauer bedeutet es aber, dass kein linearer Zusammenhang zwischen beiden Merkmalen festgestellt wurde:

Nimmt ein Merkmal X die Werte k,k+1,k1,k an und ist Y=X2, so ergibt sich rX,Y=0, obwohl X und Y ganz und gar nicht unabhängig sind (Y lässt sich ja aus X berechnen).

Berechnung des Korrelationskoeffizienten in R

In R: Man erstellt Vektoren x und y mit den Daten von X und Y und kann dann mit cor(x,y) den Korrelationskoeffizienten rX,Y berechnen.

Rangkorrelationskoeffizient von Spearman

Um einen monotonen Zusammenhang zwischen zwei Merkmalen X,Y:Ω nachzuweisen, kann der Rangkorreltaionskoeffizient von Spearman verwendet werden. Hierfür muss zunächst der Rang ri, also die Stelle festgestellt werden, an welcher die Beobachtung xi in der geordneten Urliste steht. Wenn die Beobachtung xi mehrfach auftritt, wird der Durchschittsrang verwendet.


Beispiel Bestimmung des Ranges

Gegeben seien die Merkmale x1=40,x2=40,x3=31,x4=23,x5=31,x6=40 Daraus ergeben sich die Rangsummen r1=5,r2=5,r3=2.5,r4=1,r5=2.5,r6=5

Definition Rangkorreltaionskoeffizient

Der Rangkorreltaionskoeffizient rs ergibt sich aus den den Rängen ri des Merkmals X und den Rängen si des Merkmals Y mit einer Stichprobengröße n: rs=i=1n(rir¯)(sis¯)i=1n(rir¯)2i=1n(sis¯)2
Wenn keine Bindungen (Mehrfachauftreten von Werten) vorliegen, kann der Rangkorrelationskoeffizient auch bestimmt werden durch:
rs=16i=1n(risi)2n(n21)

Rangkorrelationskoeffizient und Art des Zusammenhangs

Besteht ein perfekt monoton wachsender Zusammenhang zwischen den beiden Merkmalen, so ist rs=1. Ist hingegen rs=1, so liegt ein perfekt fallender monotoner Zusammenhang vor.

Beispiel Bestimmung des Rangkorrelationskoeffizient

Es werden die Noten im Abitur und vom Bachelor von n=6 Studierenden betrachtet und es soll ermittelt werden, ob ein monotoner Zusammenhang vorliegt:

Studix1x2x3x4x5x6Abitur-Note1.72.42.01.12.93.1Bachelor-Note2.22.42.11.82.72.6

Daraus ergeben sich die folgenden Ränge:

Studix1x2x3x4x5x6Abitur-Note243156Bachelor-Note342165

und daraus resultierend ein Rangkorrelationskoeffizient rs=0.89

Rangkorrelationskoeffizient und Ursache-Wirkungs-Prinzip

Ebenso wie beim Pearsonschen Korrelationskoeffizient bedeutet eine perfekt monoton fallender oder wachsender Zusammenhang nicht direkt ein Ursache-Wirkungs-Prinzip.

Berechnung Rangkorrelationskoeffizient in R

In R: Um den Rangkorrelationskoeffizient nach Spearman zu bestimmen, geht man vor wie beim Pearsonschen Korrelationskoeffizient und nutzt das zusätzlichen Argument method = spearman : Man erstellt also Vektoren x und x mit den Daten von X und Y und erhält mit cor(x,y,method="spearman") den Rangkorrelationskoeffizienten rs nach Spearman.

Lineare Regression

Seien X,Y:Ω quantitative Merkmale mit einem Korrelationskoeffizienten rX,Y±1. Dann kann man von einem ungefähren linearen Zusammenhang zwischen X und Y ausgehen. Es existieren also a,b (mit a=0) mit YaX+b.

Bestimmung der Regressionsgeraden

Wir wollen nun a,b so bestimmen, dass diese Approximation möglichst gut ist. Eine Möglichkeit besteht darin, die Summe der Quadrate der Abweichungen
SQA=i=1n(aX(ωi)+b  Y(ωi))2
durch geeignete Wahl von a und b zu minimieren. Dies gelingt mit
a=a0=sX,YsX2undb=b0=Ya0X
Die Gerade mit der Gleichung
y=a0x+b0
heißt Gerade der linearen Regression von Y auf X (Regressionsgerade), ihre Steigung a0 Regressionskoeffizient.

Beispiel Bestimmung der Regressionsgeraden

Für die beiden Merkmale X=^ ’Größe’ und Y=^ ’Gewicht’ aus [wolke] gilt:
a0=1.225undb0=137.40
Die Gerade mit der Gleichung y=1.225x137.40 in der Punktewolke von X und Y:

image

Regressionsgerade und Ursache-Wirkungs-Prinzip

Die Berechnung der Regressionsgeraden von

Y

auf

X

ist nur dann sinnvoll, wenn man begründet davon ausgehen kann, dass

Y

(in linearer Weise) von

X

abhängt (

X

ist also Ursache und

Y

Wirkung).

Trendgröße und Realgröße

Aus dem Prädiktor X lässt sich die Trendgröße Y~=a0X+b0 berechnen. Sie gibt an, welchen Wert man für Y erwarten kann, wenn man den entsprechenden Wert von X zugrundelegt. Da aber neben X noch weitere Umstände auf Y einwirken, gibt es einen Unterschied zwischen Trendgröße Y~ und der Realgröße Y. Die Trendgröße kann aber eine sinnvolle Annäherung an die Realgröße sein, insbesondere bei einem Korrelationskoeffizienten nahe ±1 (bzw. wenn eine lineare Abhängigkeit plausibel ist). Man sollte auch überlegen, für welche Werte von X eine Berechnung von Y~ Sinn überhaupt macht.

Beispiel Trendgröße und Realgröße

In obigem Beispiel ist Y~=1.225X137.40.
Damit berechnet man:

Größe X80150160170180190300erwartetes Gewicht Y~39.4046.3558.6070.8583.1095.35230.10nicht sinnvollnicht sinnvoll

Vergleich Regression X auf Y und Y auf X

Es ist natürlich auch möglich Y als Prädiktor (Ursache) anzusehen und die Regressionsgerade von X auf Y zu bestimmen. Ein Vergleich der beiden Regressionsgeraden ergibt:

X ist Prädiktor

Gerade der linearen Regression von Y auf X:
y=sX,YsX2x+(YsX,YsX2X) x=sX2sX,Yy+(XsX2sX,YY)

Y ist Prädiktor

Gerade der linearen Regression von X auf Y:

x=sX,YsY2y+(XsX,YsY2Y) y=sY2sX,Yx+(YsY2sX,YX)

Auswahl des Prädiktor

Beide Geraden stimmen nur dann überein, wenn

rX,Y=±1

ist.

Es macht also einen Unterschied, welche der beiden Größen man als Ursache und welche als Wirkung ansieht. Vor der Berechnung einer Regressionsgeraden sollte man dazu Überlegungen anstellen.

Beispiel Vergleich Regression X auf Y und Y auf X

In obigem Beispiel ist a=0.669 und b=123.85.
Also ergibt die Regression von X auf Y: x=0.669y+123.85 bzw. äquivalent y=1.495x185.13. Das folgende Diagramm zeigt die Punktewolke mit beiden Regressionsgeraden:

image

Hierbei scheint die Regression des Gewichts Y auf die Größe X mehr Sinn zu machen, da die Größe Auswirkungen auf das Gewicht hat, aber nicht umgekehrt.

Aufgabe I

In einer Studie zur Untersuchung von Herzkreislauferkrankungen wurde bei 6 Männern der Body-Maß-Index (BMI = Gewicht in kg/(Körpergröße in cm) 2) ermittelt und der (systolische) Blutdruck gemessen. Es wurden folgende Daten ermittelt: BMI X272327282425Blutdruck Y170150160185155150

  1. Stellen Sie die Gleichung der Regressionsgerade von Y auf X auf und zeichnen Sie die Gerade in die Punktewolke ein.
  2. Aufgabe I Fortsetzung

  3. Stellen Sie auch die Gleichung der Regressionsgerade von X auf Y auf und zeichnen Sie die Gerade in die Punktwolke ein.
  4. Vergleichen sie die beiden Regressionsgeraden.
  5. Welchen Blutdruck erwartet man (gemäß dieser Geraden), bei einem BMI von 26 bzw. von 19. Begründen Sie, welchen dieser beiden Werte Sie eher als zuverlässige Schätzung ansehen würden?
  6. Beurteilen Sie die Anwendbarkeit der Modelle.
  7. Bestimmen Sie beide Korrelationskoeffizienten (Pearson und Spearman) von X und Y.
  8. Welche Gemeinsamkeiten/Unterschiede gibt es zwischen Spearman’s Rho und dem Korrelationskoeffizient nach Pearson?

Aufgabe II

Bearbeiten Sie zur Wiederholung von Kapitel 1 die Aufgabe im R-Skript im Materialordner. Rechnen Sie die Aufgaben sowohl mit R als auch "zu Fuß".

Seiteninformation

Diese Lernresource können Sie als Wiki2Reveal-Foliensatz darstellen.

Wiki2Reveal

Dieser Wiki2Reveal Foliensatz wurde für den Lerneinheit Kurs:Statistik für Anwender' erstellt der Link für die Wiki2Reveal-Folien wurde mit dem Wiki2Reveal-Linkgenerator erstellt.