Grenzwertsätze

Aus testwiki
Zur Navigation springen Zur Suche springen

Gesetz der großen Zahlen

Vorbemerkung

Gesetze der großen Zahlen haben die Konvergenz von 1n((X1μ1)+...+(Xnμn)) gegen 0 zum Inhalt, wenn X1,X2,... eine Folge von Zufallsvariablen ist und μi=E(Xi).

Beispiel

Sind X1,X2,... unabhängige, B(n,p)-verteilte Zufallsvariablen, so vermutet man eine Konvergenz von 1ni=1nXi ('relative Häufigkeit') gegen p ('Auftrittswahrscheinlichkeit'). Dabei müssen Konvergenzbegriffe der Stochastik eingeführt werden.

Definition

Wir sagen, dass eine Folge Y1,Y2,...(X1,X2,...) von Zufallsvariablen (auf einem Wahrscheinlichkeitsraum (Ω,𝒮,P))
a) stochastisch gegen eine Zufallsvariable Y konvergiert, falls

ϵ>0:P(|YnY|E)0,(n)

gilt. Man schreibt dafür YnPY.

b) mit existierendem Erwartungswert μi=E(Xi) das schwache Gesetz der großen Zahlen erfüllt, falls eine Folge

Yn=1n[(X1μ1)+...+(Xnμn)],n=1,2,...

von Zufallsvariablen stochastsich gegen 0 konvergiert.

Ynp0

Schwaches Gesetz der großen Zahlen (Satz)

Sind X1,X2 paarweise unkorrelierte Zufallsvariablen (auf dem Wahrscheinlichkeitsraum (Ω,𝒮,P)) mit Xi2 und mit 1n2i=1nVar(Xi)0, (n), so erfüllt diese Folge X1,X2,... das schwache Gesetz der großen Zahlen.

Beweis

Für die Zufallsvariablen Yn=1n(Xi,μi) gilt EYn=0 und Var(Yn)=1n2i=1nVar(Xi)0, (n) liefert die Tschebyscheff-Ungleichung

P(|Yn=E(Yn)|ϵ)Var(Yn)ϵ20, (n)

Korollar

Sind X1 und X2 unabhängige Zufallsvariablen aus 2 mit gleichmäßig beschränkten Varianzen (d.h. Var(Xi)M< i=1,2,...), dann erfüllt dies Folge das schwache Gesetz der großen Zahlen.

Beispiel

Ist Xn=X1+...+Xn B(n,p)-verteilt (X1,X2,... unabhängig B(1,p)-verteilt), so gilt:

1nXnPp

Umgangssprachlich: die relativen Häufigkeiten des Ereignisses '1' konvergieren stochastisch gegen w.

Bemerkung

Die stochstische Konvergenz stellt einen relativ schwachen Konvergenzbegriff dar. So braucht für kein wΩ gewöhnliche Konvergenz Yn(w)Y(w), (n), stattzufinden, wie das folgende Beispiel zeigt.

Beispiel (1)

Sei (Ω,𝒰,P)=([0,1],[0,1]1,Gleichverteilung). Man definiere die Folge Yn=1An,n1, durch
An={w[0,1]:mmitw+m[an1,an]},

wobei A0=0 und an=1+12+...+1n, (w[an1,an]mod1).

Beispiel (2)

Es gilt

1. YnP0, denn für ϵ(0,1) ist P(|Yn0|>ϵ)=P(Yn=1)=P(An)=1n0.

2. Die Folge Yn(w) konvergiert für kein w[0,1], wegen der Konvergenz der harmonischen Reihe.

Der Konvergenzberiff Yn(w)=Y(w) wΩ ist für die Stochastik unbrauchbar. So ist für Yn=1nXn, Xn B(n,p)-verteilt:

Yn(w) nicht konvergent für viele w.

Wir nehmen die Sprechweise wieder auf: Eine Aussage gilt 'P fast überal' oder 'P fast sicher' (synonym), wenn die Menge A aller w für die die Aussage richtig ist, die Wahrscheinlichkeit 1 hat: P(A)=1.

Definition

a) Eine Folge Y1,Y2,... von Zufallsvariablen (auf einem Wahrscheinlichkeitsraum (Ω,𝒮,P)) konvergiert fast sicher gegen die Zufallsvariable Y, falls

P{w:limnYn(w)=Y(w)}=1.

Man schreibt kürzer: P(limnYn=Y)=1 bzw. YnY P fast sicher.

b) Man sagt, dass eine Folge X1,X2,...von Zufallsvariablen auf (Ω,𝒮,P) mit existierenden Erwartungswerten μiE(Xi) das starke Gesetz der großen Zahlen erfüllt, falls die Folge Yn=1n[(X1μ1)+...+(Xnμn)], n=1,2,..., P-f.s. gegen 0 konvergiert: Yn0 P-f.s.

Bemerkung

Aus YnY P-f.s. folgt YmPY (ohne Beweis). Das obige Beispiel zeigt, dass die Umkehrung nicht (vereinfachtes Beispiel siehe später) gilt. Das wichtigste Hilfsmittel zum Beweis eines starken Gesetzes der großen Zahlen ist das folgende Lemma von Borel-Cantelli, das auch sonst wichtig ist.

Lemma (von Borel-Cantelli)

Sei (Ω,𝒰,P) ein Wahrscheinlichkeitsraum und A1,A2,... eine Folge von Ereignissen aus 𝒰. Sei A* das Ereignis, dass unendlich viele der A's eintreten:

A*={wΩ:wAi;für unendlich vielei}

a) Gilt i=1P(Ai), dann ist P(A*)=0.

b) Sind die A1,A2,... unabhängig und ist i=1, dann ist P(A*)=1.

Beweis (1)

a) Es ist wA* genau dann, wenn es n ein in gibt, wAi. D.h.

A*=n=1inAi.

Da A*inAi für jedes n ist, gilt:

P(A*)=P(inAiinP(Ai)0

für n.

Beweis (2)

b) Wir benutzen die Ungleichung 1xex,x und die Unabhängigkeit der A¯1,A¯2,.... Es gilt für alle n und Nn:

P(i=1A¯i)P(i=nNA¯i)=Πi=nN(1P(Ai)Πi=nNeP(Ai)=exp(i=nNP(Ai))0

für N, wegen der Divergenz der Reihe. Also P(A¯i)=0 für jedes n:

P(A¯i*)=P(n=1inA¯i)n=1P(A¯i)=0

d.h. P(A*)=1.

Bemerkungen (1)

1. Teil b) rechtfertigt den populären Ausdruck: "Ein Ereignis, das (mit positiver Wahrscheinlichkeit) eintreten kann, tritt mit (P)- Sicherheit einmal ein (sogar beliebig oft), wenn nur genügend (unabhängige) Versuche durchgeführt werden".

2. Teil b) lässt sich als weiteres Beispiel einer Folge Yn,n1 angeben, die stochastisch konvergiert, aber nicht fast sicher. Seien Y1,Y2,... unabhängige B(1,1n)-verteilte Zufallsvariablen. Dann gilt YnP0, denn für ein 0<ϵ<1 ist P(|Yn|>ϵ)=P(Yn=1)=1n0, (n).

Bemerkungen (2)

3. Anderseits konvergiert die Folge für P fast alle w2 nicht! Denn wegen nP(Yn=1)=n1n folgt

P(limsupYn=1)=mp(A*)=1

und wegen nmp(Yn=0)=n(11n)= folgt

P(liminfYn=0)=mp(B*)=1.

Starkes Gesetz der großen Zahlen (Satz)

Bilden X1,X2,... eine Folge paarweise unkorrelierter Zufallsvariablen auf einem Wahrscheinlichkeitsraum (Ω,𝒰,P), aus 2 mit beschränkter Varianz (d.h. Var(Xi)M< für alle i), so erfüllt die Folge das starke Gesetz der großen Zahlen.

Beweis (1)

Definiere Yn=1ni=1nX'i, X'i=XiE(Xi).

Wir zeigen zunächst, dass Yn2=1n2i=1n2X'i0 P-f.s.

Gemäß der Formel von Bienaymé ist

Var(Yn2)=1n4i=kn2Var(Xi)1n2M

so dass Tschebyschoff für alle ϵ>0 und für die Menge Akϵ={w:|Yn2(w)|ϵ} gilt:

P(Akϵ)1ϵVar(Yn2)Mn2ϵ2

sowie

n=1P(Anϵ)<.

Beweis (2)

Borel-Cantelli-Lemma Teil a) liefert für A*ϵ={w:|Yn2(w)|ϵ, für viele n}:

P(A*ϵ)=0

Es folgt:

P(k=1A*1k)k=1P(A*1k=0 bzw.
P(k=1A*1k)=1,

denn für wk=1A*1k gilt Yn2(w)1k nur für endliche viele n (für alle k), d.h. für P fast sicher (für alle w) gilt: ϵ>0m0=m0(w,ϵ), so dass

(*) |Yn2(w)|ϵn2m0.

Beweis (3)

Für beliebige m sei n=n(m) diejenige natürliche Zahl, für welche n2m<(n+1)2 ist. Mit analogen Methoden wie in (1) zeigt man für die Menge

B*ϵ={w:|mn2>m(w)Yn2(w)|ϵ für vielem}

dass

P(n=1B*ϵ)=1

Folglich gilt für P fast sicher: ϵ>0m0m0(w,ϵ) mit

(**) |mn2Ym(w)Yn2(w)|ϵ für alle mm0.

Beweis (4)

Die beiden Gleichungen (*) und (**) liefern für P fast sicher: ϵ>0m0m=(w,ϵ) mit

|Ym(w)|mn2|Ym(w)||mn2Ym(w)Yn2(w)|+|Yn2(w)|2ϵ

für alle mm0. Das heißt aber Yn0 P fast sicher.

Bemerkung

Entsprechend der starken Aussage benötigt der Satz auch eine stärkere Voraussetzung als der Satz zum schwachen Gesetz der großen Zahlen.

Beispiel

Ist Xn B(n,p)-verteilt, so gilt 1nXnp P fast sicher. Hierdurch wird die Aussage des Beispiels zum schwachen Gesetz der großen Zahlen verbessert. Dieses Ergebnis bestätigt die Brauchbarkeit unseres wahrscheinlichkeitstheoretischen Konzeptes. Es präzisiert die Intuition, dass sich für große n annähert.

1n(Xn) beobachte relative Häufigkeit eines Ereignisses an p (axiomatisch eingeführte Wahrscheinlichkeit der Ereignisse).

Zentrale Grenzwertsätze

In diesem Abschnitt Verallgemeinerung (und Beweis) des Grenzwertsatzes von DeMoivre-Laplace auf Summen unabhängiger, identisch verteilter Zufallsvariablen (anstatt nur unabhängige Bernoullivariablen). Der Beweis zum zentralen Grenzwertsatz von Lindberg-Lexy (später) benutzt einen Stetigkeitssatz für charakteristische Funktionen und einen dritten Konvergenzbegriff ('Verteilungskonvergenz').

Definition

Seien X1,X2,... Zufallsvariablen aus 2. Man sagt, dass diese Folge den zentralen Grenzwertsatz erfüllt, falls für die Standardisierten der Partialsummen Sn=X1+...+Xn mit

Sn*=SnE(Sn)Var(Sn) ( Standardisieren) gilt:
limnP(a<Snb)Φ(b)Φ(a)a<b;a,b

Dabei ist Φ(x),x, die Verteilungsfunktion der N(0,1)-Verteilung. Es reicht, limnP(Sn*x)=Φ(x)x zu zeigen.

Bemerkungen (1)

1. Die Gültigkeit des zentralen Grenzwertsatzes eröffnet die Möglichkeit, unter Umständen nicht (oder nur schwer) berechenbare Wahrscheinlichkeiten P(a<S*b) durch die Werte der N(0,1)-Verteilung zu approximieren.

2. Sind X1,X2,... unabhängig, mit identischen Erwartungswerten μ=E(Xi) und identischen Varianzen σ2=Var(Xi), so wird aus der Standardisierten oben

Snz=Snnμnσ=1ni=1n(Xiμσ)=nX¯nμσX¯m=1ni=1nXi.

Bemerkungen (2)

3. Um einen zentralen Grenzwertsatz zu beweisen, müssen wir zeigen:

Fn*(x)Φ(x),x,n

wenn Fn*(x) die Verteilungsfunktion von Sn*(x) ist.

Diese Aussage stellt einen dritten Konvergenzbegriff dar (Verteilungskonvergenz).

Allgemein wird Folgendes definiert:

Verteilungskonvergenz (Definition)

Eine Folge Yn,n1 von Zufallsvariablen heißt Verteilungskonvergenz gegen die Zufallsvariable Y0, falls bei n

Fn(x)F0(x)x𝒞(F0),

dabei bezeichnet Fn und F0 die Verteilungsfunktion von Yn und F0 und 𝒞(F0) die Menge alle Stetigkeitsstellen von F0. Man schreibt kurz:

Yn𝒟Y

(oder auch YnY), wobei 𝒟 hier 'Distribution' bedeutet.

Bemerkungen (1)

1. Der Begriff der Verteilungskonvergenz verlangt nicht, das alle Yn,Y0 auf demselben Wahrscheinlichkeitsraum definiert sind.

2. Für stetige Verteilungsfunktionen F0, wie zum Beispiel Φ ist 𝒞(F0)=. Die Forderung

Fn(x)F0(x)x

erweist sich als zu restriktiv.

Bemerkungen (2)

So gilt im folgenden Beispiel diese Forderung nicht, sondern lediglich jene aus der Definition. Yn,Y0 seien 'entartete' Zufallsvariablen mit P(Yn=1n)=1,P(Y00)=1.

Für Fn(x)=1[1n,[ und F0(x)=1[0,) gilt:

𝒞(F0)={0} und limFn(x)={1,x>00,x<0=F0(x)

Bei x=0 gilt: 0=limnFn(x)F0(0)=1

3. Der nächste Satz zeigt, dass aus stochastischer Konvergenz die Verteilungskonvergenz folgt. Zusammen mit der Konvergenz von Folgen von Zufallsvariablen folgt: YnY P fast sicher YnPY0Yn𝒟Y0.

Satz

Sind Yn,n1, und Y0 Zufallsvariablen (auf einem Wahrscheinlichkeitsraum (Ω,𝒰,P)), mit YnPY0, so gilt Yn𝒟Y0.

Beweis

Sei x und ϵ>0 beliebig. Dann folgt aus der Alternative "Y0YnYϵ" die Inklusion

{w:Yn(w)x}{w:Y0(w)x+ϵ}{w:Y0(w)Yn(w)>ϵ}

und damit

P(Ynx)P(Y0x+ϵ)+P(Y0Yn>ϵ).

Wegen YnY0 konvergiert der zweite Summand gegen 0, so dass

limsupnP(Ynx)P(Y0x+ϵ)F0(x+ϵ).

Analog: liminfnP(Ynx)F0(xϵ).

Ist also x𝒞(F0), so folgt mit Fn(x)=P(Ynx):

limsupnFn(x)F0(x)liminfnFn(x), d.i. limFn(x)=F0(x)

Die Umkehrung ist nicht richtig!

Beispiele

Sei Y0 B(1,12)-verteilt und Yn=1Y0 für alle n1. Dann ist jedes Yn wieder B(1,12)-verteilt und damit Yn𝒟Y0 (sogar Yn=𝒟Y0). Yn,n1 konvergiert aber nicht stochastisch gegen Y0, denn für ϵ(0,1) ist

P(|YnY0|>ϵ)=Yn=1Y0P(|12Y0|>ϵ)=1n1.

Der Stetigkeitssatz für diskrete Wahrschenlichkeitsverteilungen besagt, dass der Limes einer Folge von Wahrscheinlichkeitsfunktionen, d.h.

an=limnρkn,k=0,1,...

genau dann ist, wenn der Limes der zugehörenden erzeugenden Funktionen existiert. Zunächst stellen wir fest, das die Aussage eine Verteilungskonvergenz bedeutet.

Lemma von Schiffé

Sind Yn,n1, und Y0 +-wertige Zufallsvariablen und setzt man ρkn=P(Yn=k),k+,n=1,2,... so gilt ρk0=limnρkn genau dann, wenn

P(Yo𝒰)=limnP(Yn𝒰)

in allen A.

Bemerkung

Setzt man A=(,x], so hat man Yn𝒟Y0,n.

In der allgemeinen Wahrscheinlichkeitstheorie wird der Stetigkeitssatz mit Hilfe der zugehörigen charakteristischen Funktionen ϕ(n)=E(eitYn),t formuliert.

Stetigkeitssatz

Seien Yn,n1, eine Folge von Zufallsvariablen und ϕn die Folge der zugehörenden charakteristischen Funktionen. Yn ist verteilungskonvergent gegen eine Zufallsvariable Y0 genau dann, wenn ϕn gegen eine Funktion ϕ0 konvergiert, die an der Stelle 0 stetig ist. ϕ0 ist dann charakteristische Funktion von Y0:ϕ(0)=E(eitY0),t.

Kurzfassung

Yn𝒟Y0ϕ(t)=ϕ0(t),t. Die Stetigkeit von ϕ0 bei 0 garantiert erst, dass ϕ0 wieder charakteristiche Funktion einer Zufallsvariablen ist.

Im folgenden Beispiel ist das nicht der Fall.

Beispiel (1)

Yn sei gleichverteilt auf (n,n). Dann gilt

ϕn(t)={sin(nt)nt,t01,t=0

und

limϕn(t)={0,t01,t=0

mit bei 0 unstetigen Grenzfunktionen.

Beipiel (2)

Für die Verteilungsfunktion Fn(x) von Y0 gilt:

limFn(x)=limn{0,x<nn+x2n,x(n,n)1,x>n}=12,

was keine Verteilungsfunktion darstellt. Es gibt kein Y0 mit Yn𝒟Y0. Statt Yn𝒟Y0, Y0 N(0,1)-verteilt, schreibt man auch 'gemischt':

Yn𝒟N(0,1)

Nun zeigen wir, dass die standardisierten Partialsummen Sn* (nehmen jetzt die Rolle von Yn ein) verteilungskonvergent gegen die N(0,1)-Verteilung sind.

Zentraler Grenzwertsatz von Lindberg-Lexy (Satz)

Gegebn sei eine Folge X1,X2,... von unabhängigen, identisch verteilten Zufallsvariablen aus 2 (μE(X),σ2Var(Xi)>0). Dann gilt für die Folge

Sn*=(X1+...+Xn)nμnσ

der standardisierten Partialsummen von Xn,n1, die Verteilungskonvergenz

Sn*𝒟N(0,1)n.

Beweis (1)

Ist ϕ(t) die charakteristische Funktion von Xiμ (für alle i dieselbe), so lautet die charakteristische Funktion

ϕSn*=ϕn*=1nσi=1nXiμ
ϕn*(t)=ϕi=1nXiμ(tnσ)=Πi=1nϕ(tnσ)=(ϕ(tnσ))n

Beweis (2)

Taylorentwicklung von ϕ(t) an der Stelle t=0:

ϕ(t)=1+ϕ(0)t+12ϕ(0)t2+r2(t)

mit r2(t)t20 bei t.

Nach dem Satz zur Berechnung von Momenten ist

ϕ(0)=iE(Xiμ)=0

(*) ϕ(0)=E(Xiμ)2=σ2,

so dass

ϕ(t)=112σ2t2+r2(t).

Beweis (3)

Das ϕn* aus Teil (1) lautet mit Formel (*):

ϕn*(t)=[112t2n+r2(tnσ)]n=(1t22(1+a(t)))n

mit

a(t)=r2(tnσ)t22n0 für t.

Es folgt mit einem ϵ-Argument

ϕn*(t)nϵt22t.

Die charakteristische Funktion der N(0,1)-Verteilung ist so, dass der Stetigkeitssatz zusammen mit dem Eindeutigkeitssatz die Behauptung liefern.

Bemerkungen (1)

1. Im Spezialfall unabhängiger, N(μ,σ2)-verteilter Xi ist gemäß dem Beispiel zum Faltungssatz jede Sn* N(0,1)-verteilt, so dass hier sogar Gleichheit FSn=Φ für jedes n gilt.

2. Im zentralen Grenzwertsatz kann die unabhängig-Voraussetzung nicht ersatzlos gestrichen werden. Als Gegenbeispiel wähle man identische X1=X2=....

Bemerkungen (2)

3. Anwendungsbeispiel: Gewinnung von N(0,1)-verteilten Zufallsvariablen aus U[0,1]-verteilten Zufallsvariablen.

Sind X1,X2,... unabhängig und U[0,1] gleichverteilt, so ist wegen μ=12,σ2=112

Snn2n12

approximiert N(0,1)-verteilt (Sn)=X1+...xn).
Für n=48 ist Sn242 angenähert N(0,1)-verteilt.

Siehe auch