Kurs:Statistik für Anwender/Streumaße

Aus testwiki
Version vom 18. Januar 2024, 07:23 Uhr von 139.14.36.111 (Diskussion)
(Unterschied) ← Nächstältere Version | Aktuelle Version (Unterschied) | Nächstjüngere Version → (Unterschied)
Zur Navigation springen Zur Suche springen

Streumaße

Ein Streumaß eines Merkmals gibt an, wie stark die Beobachtungswerte ’verteilt’ sind. Manche Streumaße berechnen sich aus der Abweichung der Beobachtungswerte vom Mittelwert.

Spannweite

Ist X:Ω ein quantitatives Merkmal mit der Grundgesamtheit Ω, so nennt man S(X)=max\limits ωΩX(ω)min\limits ωΩX(ω)
die Spannweite von X.

Beispiel Spannweite

(vergleiche Beispiele Modalwert)

  • Beispiel I (Verkehrsmittel): Bildung der Spannweite macht hier keinen Sinn
  • Beispiel II (Versuchspflanzen): S(X)=22
  • Beispiel III (Daphnien): S(X)=11

Anmerkung zur Spannweite

Die Spannweite hängt nur von den beiden extremen Merkmalsausprägungen ab und nutzt daher nur einen sehr kleinen Teil der vorhandenen Informationen.

Berechnung der Spannweite in R

In R: Man erstellt einen Vektor daten mit den Daten der Urliste und kann dann mit max(daten)-min(daten) die Spannweite berechnen.

p-Quantile

Definition p-Quantile I

Ist X:ΩA ein mindestens nach einer Ordinalskala verteiltes Merkmal mit dem Merkmalsraum A und ist p[0,1] eine Zahl, so heißt eine Merkmalsausprägung aA p-Quantil, falls:
|{ωΩ; X(ω)<a}|np|{ωΩ; X(ω)a}|n
(Man schreibt Xp für ein p-Quantil des Merkmals X.)

Definition p-Quantile II

  • Der Anteil der Beobachtungswerte,die <Xp sind, ist höchstens p.
  • Der Anteil der Beobachtungswerte, die Xp sind, ist mindestens p.

Das heißt: Durch die Hinzunahme der einen Merkmalsausprägung Xp (zu denen, die kleiner sind) erreicht oder überschreitet der Anteil der Beobachtungswerte den Wert p. (Der Median ist ein 0.5-Quantil.)

Berechnung p-Quantile

Ist x1x2xn die geordnete Datenreihe zu X, so gilt

  • Ist pn, so ist x[pn]+1 das einzige p-Quantil. (Dabei bezeichnet [r] (zu r) die größte ganze Zahl, die r ist.)
  • Ist pn, so sind xpn und xpn+1 die einzigen p-Quantile. (Für quantitative Merkmale bezeichnet man in diesem Fall oft auch Xp=xpn+xpn+12 als das p-Quantil.)

Beispiele p-Quantile

(vergleiche Beispiele Modalwert)

Beispiel Versuchspflanzen I

Bei einer Gruppe von Versuchspflanzen der selben Art wird das Wachstum der Sprossachse (in cm) gemessen, man erhält folgende Urliste:
110,124,120,118,111,124,128,115,119,122,106,114,108,117,124,117,115,
109,114,114,123,112,116
Bei 23 Werten ist

  • das 0.3-Quantil der ([0.323]+1)=7-te, Beobachtungswert, also X0.3=114
  • das 0.6-Quantil der ([0.623]+1)=14-te, Beobachtungswert, also X0.6=117
Beispiel Versuchspflanzen II
  • das 0.99-Quantil der ([0.9923]+1)=23-te, Beobachtungswert, also X0.99=128
Beispiel Daphnien

Bei 50 Daphnien wird die Anzahl der Nachkommen erhoben. Man erhält die folgenden absoluten Häufigkeiten:

Zahl der Nachkommen a012345811absolute Häufigkeit h(a)10131175211

Bei 50 Werten ist X0.2=0.5,X0.3=1,X0.9=4.5

Berechnung p-Quantile in R

In R: Man erstellt einen Vektor daten mit den Daten der Urliste und kann dann mit quantile(daten,p,type=2) das p-Quantil berechnen.

Quartil und Perzentil

Man nennt die Quantile X0.25, X0.5, X0.75 auch 1., 2. und 3. Quartil von X. Zusätzlich bezeichnet man die Extremwerte min\limits ωΩX(ω) und max\limits ωΩX(ω) als 0. und 4. Quartil von X. Außerdem bezeichnet man ein (das) i100-Quantil (für i=0,,100) auch als i-tes Perzentil. Für quantitative Merkmale bezeichnet man die Differenz X1pXp (für p[0,12]) als p-Quantilsabstand, insbesondere heißt X0.75X0.25 Quartilsabstand.

Boxplots

Mit Hilfe der Quantile lassen sich verschiedene informative grafische Darstellungen für Merkmale erstellen, die insbesondere zum Vergleich von Merkmalen gut geeignet sind. Eine verbreitetes Beispiel dafür sind die sogenannten Boxplots, die in verschiedenen Varianten auftreten.

Erstellung von Boxplots I

Für ein quantitativ verteiltes Merkmal X:Ω geht man dabei beispielsweise wie folgt vor:

  • Die Skala nach der das Merkmal X verteilt ist, wird eingezeichnet.
  • Eine Box wird eingetragen, die vom 1. bis zum 3.Quartil reicht. Auf Höhe des 2. Quartils wird die Box durch einen Trennstrich in 2 Teile geteilt. (Variante: Der Trennstrich wird auf Höhe des arithmetischen Mittelwerts eingetragen.)

Erstellung von Boxplots II

  • An beiden Enden der Box werden die sogenannten Whiskers (Fühler, Antennen) angetragen. Sie reichen (von der Box) bis zum 0-ten bzw. 4-ten Quartil, also bis zu dem minimalen bzw. maximalen Beobachtungswert. (Variante: Die Länge der Whiskers wird durch die 1,5-fache Länge des Quartilsabstand X0.75X0.25 beschränkt. Werte außerhalb der Whiskers werden noch durch einzelne Punkte dargestellt. Damit verhindert man, das einzelne ’Ausreißer’ die Whiskers massiv beeinflussen.)

Vorraussetzung an Skala

Boxplots eignen sich nicht für Merkmale, die nur nach einer Ordinalskala verteilt sind. In dem Fall lassen sich zwar die Quartile sinnvoll definieren, aber die Einzeichnung der Skala suggeriert bestimmte Abstände zwischen den Beobachtungswerten (dies ist erst bei einer Intervallskala sinnvoll). Bei zu kleiner Datenmenge ist zu beachten, dass einzelne Beobachtungswerte einen Boxplot sehr stark beeinflussen.

Beispiele Boxplot

(vergleiche Beispiele Modalwert)

Beispiel Versuchspflanzen

Es ist:

Xmin=106,X0.25=112,X0.5=116,X0.75=122,Xmax=128

image

Beispiel Daphnien

Es ist: Xmin=0,X0.25=1,X0.5=2,X0.75=3,Xmax=11

image

Erstellung Boxplot in R

In R: Man erstellt einen Datenvektor daten und erhält dann mit boxplot(daten,range=0) (für eine unbeschränkte Länge der Whiskers) bzw. boxplot(daten,range=1.5) (für Whiskers, die auf die 1.5-fache Länge der Box beschränkt sind) einen Boxplot.

Histogramm und Boxplot

Interaktive Shiny-App zum Vergleich Histogramm und Boxplot:
Download und Link

Perzentilbänder

Eine weitere Darstellungsart sind die sogenannten Perzentilbänder. Wie bei Boxplots kann man darin bestimmte Quantile (Perzentile) ablesen. Perzentilbänder können auf vielfältige Art und Weise gestaltet werden.

Beispiel Perzentilband

Die unteren 5% der Schüler erreichen weniger als 300 Punkte,die oberen 5% mehr als 650 Punkte.Die mittleren 50% der Schüler (25-75%) liegen zwischen 420 und 580 Punkten.Im Mittel wird ein Leistungsniveau von 500 Punkten erreicht.


image

Varianz und Standardabweichung

Definition Varianz und Standardabweichung

Ist X:Ω ein quantitatives Merkmal, so heißt
Var(X)=1ni=1n(X(ωi)X)2
(empirische) Varianz von X und sX=Var(X) (empirische) Standardabweichung von X.
(Man schreibt häufig sX2 für die Varianz von X.)

Sind a1,,am die Merkmalsausprägungen von X, so gilt
sx2=1ni=1mh(ai)(aiX)2=i=1mr(ai)(aiX)2.

Beispiele Varianz und Standardabweichung I

(vergleiche Beispiele Modalwert)

  • Beispiel II (Versuchspflanzen): Es ist X=116.52 und sX2=32.60 und folglich sX=5.71.
  • Beispiel III (Daphnien): Es ist X=2.1 und sx2=4.29 und folglich sX=2.07.

Weitere Formel zur Berechnung von s x

Zur Berechnung von sX eignet sich die Formel:

sX2=1ni=1nxi2X2=X2X2

Beispiele Varianz und Standardabweichung II

In obigem Beispiel II (Versuchspflanzen) ist sX2=123(1102+1242+1202+1182+1112+1242+1282+1152+1192+1222+1062+1142+1082+1172+1242+1172+1152+1092+1142+1142+1232+1122+1162)116.522=32.60

Varianz und lineare Verknüpfung

Für ein quantitatives Merkmal

X

und

a,b

gilt:

s(aX+b)=|a|sX

Beispiel Varianz und lineare Verknüpfung

Wir betrachten das Beispiel der Temperaturangaben aus Beispiel Linearität des Mittelwerts. Dabei war

Y=95X+32

. Man berechnet:

sX=4.807undsY=8.652=|95|sX

  • Die empirische Standardabweichung eines Merkmals ist die Wurzel aus der mittleren quadratischen Abweichung vom Mittellwert. Die Betrachtung der quadratischen Abweichung hat zur Folge, dass Ausreißer (Beobachtungswerte, die weit entfernt vom Mittlwert liegen) besonders stark gewichtet werden.

    Berechnung in R I

    In R: Man erstellt einen Vektor daten mit den Daten der Urliste und kann dann mit mean(daten^2)-mean(daten)^2 die Varianz sx2 beziehungsweise mit sqrt(mean(daten^2)-mean(daten)^2) die Standardabweichung sX berechnen.

    Berechnung in R II

    Alternativ kann man mit var(daten) die sogenannte korrigierte Stichprobenvarianz
    1n1i=1n(X(ωi)X)2=nn1sX2
    und mit sd(daten) die Wurzel daraus, also
    1n1i=1n(X(ωi)X)2=nn1sX
    berechnen. (Die Berechnung dieses Ausdrucks macht in der schließenden Statistik Sinn, siehe Vorlesung ’Statistik für Anwender II’.)

    Aufgabe I

    Gegeben Sei die Grundgesamtheit aller Kinder von Ehepaaren (n=50):
    Zahl der Nachkommen a012345811absolute Häufigkeit h(a)10131175211


    • Berechnen Sie für das Merkmal "Zahl der Geschwister" den Modalwert, den Median, den arithmetischen Mittelwert.
      Hinweis: Bestimmen Sie zunächst die möglichen Merkmalsausprägungen und ihre absoluten Häufigkeiten.
    • Bestimmen Sie die Spannweite, Varianz und Standardabweichung sowohl für die Anzahl der Kinder als auch für die Anzahl der Geschwister.

    Aufgabe II

    In einem Versuch zum Wachstum der Sprossachse einer bestimmten Art werden die folgenden Werte in mm ermittelt:
    8, 2, 15, 16, 7, 11, 4, 19, 11, 12, 13, 9, 5, 6, 8, 13, 6, 14, 17, 8

    • Bestimmen Sie Median, Modalwert und arithmetisches Mittel.
    • Bestimmen Sie die Spannweite, Varianz und Standardabweichung.
    • Berechnen Sie die absoluten und relative Häufigkeit zur Klassierung mit den folgenden Grenzen: k0=0,k1=5,k2=10,k3=15,k4=20
      Berechnen Sie dann auch die Häufigkeitsdichten und erstellen Sie ein Histogramm.

    Standardisierte Merkmale

    Definition standardisiertes Merkmal

    Ein (quantitatives) Merkmal X heißt standardisiert, falls X=0 und sX=1 ist.

    Normalerweise treten bei Beobachtungen praktisch nie standardisierte Merkmale auf. Man kann aber jedes Merkmal mit einer einfachen Transformation standadisieren. Es gilt: Ist X:Ω ein quantitatives Merkmal, so ist X^=XXsX:Ω, X^(ω)=X(ω)XsX
    ein standardisiertes Merkmal. Man nennt X^ standardisiertes Merkmal zu X.

    Anmerkung standardisiertes Merkmal I

    Für einen Merkmalsträger ωΩ entspricht X^(ω) dem Unterschied von X(ω) und dem Mittelwert von X gemessen in Standardabweichungen. Man beachte: X^(ω)=X(ω)XsXX(ω)=X+X^(ω)sX


    Beispiel standardisiertes Merkmal 1

    (vergleiche Beispiele Modalwert)

    • Beispiel II (Versuchspflanzen):
      • Es ist X=116.52 und sX=5.71.
      • Ist ω1 ein Spross mit X(ω1)=128, so ist X^(ω1)=2.01. Damit ist der Spross um 2.01 Standardabweichungen größer als das arithmetische Mittel aller Sprossen aus der untersuchten Grundgesamtheit.
      • Ist ω2 ein Spross mit X(ω2)=112, so ist X^(ω2)=0.79. Damit ist der Spross um 0.79 Standardabweichungen kleiner als das arithmetische Mittel aller Sprossen aus der untersuchten Grundgesamtheit.

    Beispiel standardisiertes Merkmal 2

      • Ist ω3 ein Spross mit X(ω3)=117, so ist X^(ω3)=0.08. Damit ist der Spross um 0.08 Standardabweichungen größer als das arithmetische Mittel aller Sprossen aus der untersuchten Grundgesamtheit.
    • Beispiel III (Daphnien):
      • Es ist X=2.1 und sX=2.07. Für eine Daphnie ω mit X(ω)=11 gilt X^(ω)=112.12.07=4.30. Die Kinderzahl der Familie ist also um 4.3 Standardabweichungen größer als der Durchschnitt (arithmetisches Mittel) aller Familien aus der untersuchten Grundgesamtheit.


    Anmerkung standardisiertes Merkmal II

    Für a,b mit a=0 gilt (aX+b)^={X^,falls a>0X^,falls a<0.

    Aufgabe 1.1

    Zwei Speerwerfer X und Y absolvieren jeweils eine Trainingsserie und erzielen dabei die folgenden Weiten:

    X(n=15)
    46.247.551.554.637.537.344.344.935.350.148.249.159.344.655.9

    Y(n=12)
    38.748.144.249.738.641.340.943.045.140.343.149.9

    • Berechnen Sie jeweils den Median und den arithmetischen Mittelwert.
    • Berechnen Sie jeweils die Spannweite, die empirische Varianz und die empirische Standardabweichung.

    Aufgabe 1.2

    • Beide waren der Meinung, dass ihr letzter Wurf besonders gut war. Benutzen Sie die standardisierten Merkmale X^ und Y^, um dies zu beurteilen.

    Aufgabe 2

    Diskutieren Sie: Wie wirkt sich das Vergrößern des Datensatzes auf die die verschiedenen Lage- und Streuungsmaße aus?

    Seiteninformation

    Diese Lernresource können Sie als Wiki2Reveal-Foliensatz darstellen.

    Wiki2Reveal

    Dieser Wiki2Reveal Foliensatz wurde für den Lerneinheit Kurs:Statistik für Anwender' erstellt der Link für die Wiki2Reveal-Folien wurde mit dem Wiki2Reveal-Linkgenerator erstellt.