Kurs:Statistik für Anwender/Darstellung eindimensionaler Merkmale

Aus testwiki
Version vom 4. Oktober 2023, 21:38 Uhr von imported>Arin Tasoglu
(Unterschied) ← Nächstältere Version | Aktuelle Version (Unterschied) | Nächstjüngere Version → (Unterschied)
Zur Navigation springen Zur Suche springen

Darstellung eindimensionaler Merkmale

Urliste

Für ein Merkmal X:ΩA mit einer Grundgesamtheit Ω={ω1,,ωn} bezeichnet man die tabellarische Darstellung
ω1ω2ωnX(ω1)X(ω2)X(ωn)
als Urliste des Merkmals. Die Urliste enthält alle Informationen des Merkmals, diese sind allerdings nicht geordnet. Auch die Auflistung der Beobachtungswerte X(ω1), X(ω2), , X(ωn)
bezeichnet man als Urliste (Kurzform).

x1x2xn
der Beobachtungswerte die geordnete Datenreihe.


Beispiel Urliste und geordnete Datenreihe

In einer Klassenarbeit erhielten die Schüler einer Klasse folgende Noten (Urliste): ω1ω2ω3ω4ω5ω6ω7ω8ω9ω10ω11ω12236422145332HLINE TBDω13ω14ω15ω16ω17ω18ω19ω20ω21ω22ω23ω24335124345213 Daraus ergibt sich die geordnete Datenreihe: 1,1,1,2,2,2,2,2,2,3,3,3,3,3,3,3,4,4,4,4,5,5,5,6

Absolute und relative Häufigkeiten

Für ein Merkmal X:ΩA mit einer Grundgesamtheit Ω={ω1,,ωn} bezeichnet man zu einer Merkmalsausprägung aA

  • die natürliche Zahl
    h(a)=|{ωΩ; X(ω)=a}|
    als absolute Häufigkeit der Merkmalsausprägung a.
  • den Quotienten
    r(a)=h(a)n
    als relative Häufigkeit der Merkmalsausprägung a.

Ist A={a1, ,am}, so gilt i=1mh(ai)=nundi=1mr(ai)=1

Beispiel absolute und relative Häufigkeiten

In obigem Beispiel der Noten der Schüler ist
a123456gesh(a)36743124r(a)3246247244243241241

Verschiedene einfache Diagramme

Die folgenden Darstellungen sind schon bei nominalskalierten Merkmalen geeignet:

  • Säulen- bzw. Balkendiagramm: Absolute oder relative Häufigkeiten werden als Höhe von Säulen bzw. Balken dargestellt.
  • Kreisdiagramm: Relative Häufigkeiten werden als Anteile eines Kreises (in Form eines Sektors dargestellt). Der Winkel des Sektors zu einer Merkmalsausprägung a beträgt dabei r(a)360=h(a)360n.
  • Stapeldiagramm: Relative Häufigkeiten werden als Flächen in einer Rechtecksäule dargestellt.

Beispiel Kreisdiagramm

In obigem Beispiel ergeben sich das folgende Kreisdiagramm:

image

Beispiel Säulendiagramm

Und das folgende Säulendiagramm

image

Erstellung Kreis- und Säulendiagramm in R

In R: Man trage die möglichen Merkmalsausprägungen und die zugehörigen absoluten Häufigkeiten in Vektoren ein, z.B.

note <c(”1” , ”2” , ”3” , ”4” , ”5” ,”6”)

und

anzahl < c(3,6,7,4,3,1) und kann dann mit pie(anzahl,note) ein Kreisdiagramm und barplot(anzahl,names.arg=note) ein Säulendiagramm erstellen.

Klassierung von Daten

Um Ergebnisse übersichtlich darzustellen und um bestimmte Sachverhalte hervorzuheben, ist es oft notwendig/sinnvoll die Merkmalsausprägungen in bestimmten Gruppen (Klassen) zusammenzufassen. Damit können die Daten weniger fein aber hinreichend informativ dargestellt werden. (Was hinreichend ist, hängt vom Verwendungszweck und der Darstellung der Daten ab.)

Klasseneinteilung

Für ein Merkmal X mit einer Grundgesamtheit Ω={ω1,,ωn} kann man auch eine Klassierung (oder Klasseneinteilung) vornehmen. Dazu unterteilt man die Menge der möglichen Ausprägungen in verschiedene (überschneidungsfreie) Klassen. Jede Merkmalsausprägung ist damit in genau einer Klasse enthalten.

Klassenhäufigkeit

Zu jeder Klasse K betrachtet man nun ihre absolute und ihre relative Häufigkeit: h(K)=|{ωΩ; X(ω)K}|undr(K)=hjn
Sind K1,,Km die verschiedenen Klassen, so gilt: j=1mh(Kj)=nundj=1mr(Kj)=1.
Da dabei Informationen verloren gehen, sollte man bei der Einteilung der verschiedenen Klassen im Hinblick auf Verwendungszweck und Informationsgehalt sehr sorgfältig sein bzw. klassierte Daten mit Bedacht zur Kenntnis nehmen.

Beispiel Klassierung I

Das folgende Säulendiagramm stellt die relativen Häufigkeiten der Zweitstimmenanteile der Parteien bei der Bundestagswahl 2009 dar:



Hierbei wurden CDU und CSU (eine Fraktion) zu einer Klasse zusammengefasst (aber noch farblich getrennt) und alle Parteien, die weniger als 5% der Stimmen erreicht haben, zu der Klasse ’Sonstige’ zusammengefasst.

Beispiel Klassierung II

Der Hamburger Sportverein (HSV) erzielte in der Fußball-Bundesliga in 20 aufeienanderfolgenden Spielzeiten die folgenden Platzierungen (Urliste): 5,12,11,12,13,5,13,9,7,3,13,11,4,8,8,3,7,4,5,7 Säulendiagramme zu zwei (mit besonderer Absicht gewählten) Klassierungen:

Beispiel Klassierung IIa

Klassen mit Plätze 1-5, Plätze 6-9, Plätze 10-13, Plätze 14-18:

image

Beispiel Klassierung IIb

Klassen mit Plätze 1-2, Plätze 3-6, Plätze 7-10, Plätze 11-18

image

Auswahl von Klassen I

Für die Auswahl von Klassen gibt es viele Möglichkeiten. Je nach Auswahl der Klassen kann das präsentierte Ergebnis (obgleich es stets der Wahrheit entspricht) sehr unterschiedliche Wirkung haben.

  • Um eine gewisse Objektivität zu gewährleisten, sollte die Einteilung in die verschiedenen Klassen vor der Datenerhebung geschehen. Will man nachträglich noch eine Veränderung der Klassen vornehmen, sollte man dies inhaltlich begründen können.
  • Eine Fautsregel besagt, dass bei n untersuchten Merkmalsträgern, die Zahl der Klassen etwa n sein sollte. Dies ist sicher nicht in allen Fällen sinnvoll, kann aber ein Anhaltspunkt sein.

Auswahl von Klassen II

  • Bei quantitativen Merkmalen ist die Entscheidung, ob man Intervalle gleicher oder verschiedener Länge als Klassen verwenden will, zu treffen und nach Möglichkeit inhaltlich zu begründen.

Die Frage nach der Einteilung der Klassen lässt sich in allgemeinem Rahmen nicht mathematisch ableiten. Man muss sie daher im Einzelfall ’mit gesundem Menschenverstand’ angehen.

Histogramm

Bildung von Klassen

Wir betrachten nun ein quantitatives (d.h. mindestens nach einer Intervallskala verteiltes) Merkmal X:Ω mit Grundgesamtheit Ω={ω1,,ωn}. Nimmt man dabei Klassierungen vor, so ist es (meist) sinnvoll die Klassen als (halboffene) Intervalle zu wählen. Man wählt dazu zunächst m+1 Intervallgrenzen
k0<k1<k2<<km1<km,
derart dass alle möglichen Merkmalsausprägungen X(ωi)]k0,km] liegen (dabei kann auch k0= und/oder km= gewählt werden) und betrachtet dann die m Klassen: K1=]k0,k1],K2=]k1,k2],,Km=]km1,km]

Klassenhäufigkeit

Dann gehört jede Merkmalsausprägung zu genau einer der Klassen Kj und man kann jeder Klasse eine absolute Häufigkeit hj=h(Kj) und eine relative Häufigkeit rj=r(Kj)=hjn zuordnen.

Klassenhäufigkeitsdichte

Weiterhin betrachtet man zu jeder Klasse Kj=]kj1,kj] die jeweilige Klassenbreite bj=kjkj1 (Intervalllänge) und ermittelt daraus die Häufigkeitsdichte fj=rjbj innerhalb von Kj. Die Funktion f^X(k0,,km):,x{fj,falls xKj für ein j0,sonst. heißt Häufigkeitsdichtefunktion von X bezüglich der Klassierung Kj (j=1,,m). Ihren Graphen bezeichnet man als Histogramm.

Beispiel Histogramm

Gegeben sei folgende Urliste eines Merkmals X (mit n=20): 46.5, 45.3, 65.4, 48.0, 51.2, 29.0, 51.5, 42.1, 66.5, 49.6, 39.2, 32.7, 45.5, 61.4, 24.9, 58.2, 7.3, 36.3, 51.4, 43.8
Wir betrachten die folgenden durch Intervallgrenzen gegebenen Klassierungen:

Beispiel Klassierung I
k0=0, k1=10, k2=20, k3=30, k4=40, k5=50, k6=60, k7=70

Kj=]kj1,kj]]0,10]]10,20]]20,30]]30,40]]40,50]]50,60]]60,70]hj=h(Kj)1023743rj=r(Kj)0.0500.10.150.350.20.15bj=kjkj110101010101010fj=rjbj0.00500.010.0150.0350.020.015

image

Beispiel Klassierung II

k0=0, k1=30, k2=50, k3=60, k4=80

Kj=]kj1,kj]]0,30]]30,50]]50,60]]60,80]hj=h(Kj)31043rj=r(Kj)0.150.50.20.15bj=kjkj130201020fj=rjbj0.0050.0250.020.0075

image

Anmerkungen Histogramm I

  • Anstatt ]kj1,kj] hätte man auch Intervalle der Form [kj1,kj[ betrachten können.
  • Die Fläche des j-ten Rechtecks im Histogramm beträgt BreiteHöhe=bjfj=rj.
    Da sich die relativen Häufigkeiten zu 1 summieren, beträgt die Summe der Flächeninhalte aller Rechtecke eines Histogramms stets 1. Anders formuliert:
    f^X(k0,,km)(t)dt=1

Anmerkungen Histogramm II

  • Die Auswahl der Klassen als Intervalle macht bereits Sinn, wenn ein Merkmal nach einer Ordinalskala verteilt ist. Die Betrachtung von Klassenbreiten (und damit auch das Erstellen von Histogrammen) ist jedoch erst bei Merkmalen sinnvoll, die mindestens nach einer Intervallskala verteilt sind.

Histogramm in R

In R: Man erstellt einen Vektor X mit den Daten der Urliste, also z.B.
X<c(46.5,45.3,65.4,48.0,51.2,29.0,51.5,42.1,66.5,49.6,39.2,32.7, 45.5,61.4,24.9,58.2,7.3,36.3,51.4,43.8)
sowie einen Vektor mit den Intervallgrenzen, also z.B.
grenzen<c(0,30,50,60,80)
und kann dann mit
hist(x,breaks=grenzen,freq=FALSE)
ein Histogramm erstellen.

Aufgabe Histogramm

Zur Bestimmung des Reproduktionsverhaltens unter Stress werden die Nachkommen einer Daphnienzucht gewogen. Man erhält folgende Urliste (in mg):
4.56,5.01,3.94,4.67,6.74,4.73,4.97,4.73,6.95,3.74,6.94,
4.32,3.97,4.91,5.22,4.16,5.26,3.19,3.78,2.61,4.43,4.63,
6.22,2.69,5.57,4.07,6.16,5.46,5.61,4.12,4.42,4.86,5.43,
6.56,4.47,5.24,7.73,7.16,2.32,6.56,6.63,6.24,2.94,5.43,
5.19,4.41,4.27,6.86,4.96,6.54

Aufgabe Histogramm Fortsetzung

  1. Berechnen Sie die absoluten und relativen Häufigkeiten zu der durch die folgenden Grenzen ergebenden Klassierung: k0=0,k1=1,k2=2,,k10=10(in mg) Berechnen Sie dann auch die Häufigkeitsdichten und erstellen Sie ein Histogramm.
  2. Verfahren Sie analog für die (gröbere) Klasseneinteilung mit den Grenzen k0=0,k1=4,k2=5,k3=7,k4=10

.

Seiteninformation

Diese Lernresource können Sie als Wiki2Reveal-Foliensatz darstellen.

Wiki2Reveal

Dieser Wiki2Reveal Foliensatz wurde für den Lerneinheit Kurs:Statistik für Anwender' erstellt der Link für die Wiki2Reveal-Folien wurde mit dem Wiki2Reveal-Linkgenerator erstellt.