Allgemeine Wahrscheinlichkeitstheorie

Aus testwiki
Version vom 23. Januar 2024, 13:26 Uhr von imported>Bert Niehaus (Satz (Berechnung von Momenten))
(Unterschied) ← Nächstältere Version | Aktuelle Version (Unterschied) | Nächstjüngere Version → (Unterschied)
Zur Navigation springen Zur Suche springen

Wahrscheinlichkeitsräume (1)

Bisher beschränkten wir uns auf ein abzählbares Ω (Vermeidung technischer Schwierigkeiten). Es gibt jedoch Zufallsexperimente, für welche ein überabzählbares Ω angemessen ist.

1. Messung einer physikalischen Größe mit einer großen Genauigkeit. (Ω=)

2. Exakter Zeitpunkt des Eintretens eines Erdbebenstoßes oder eines Telefonanrufs. (Ω=+)

3. Idealisiertes "stetiges" Roulette. (Ω=[0,2π[) - Winkel statt diskrete Anzahl an Kreissektoren

4. Pseudo-Zufallszahlen. (Ω=[0,1])

Wahrscheinlichkeitsräume (2)

In Beispiel 4. verlangen wir intuitiv von einer Wahrscheinlichkeitsverteilung P auf [0,1]: P([a,b])=ba,0ab1, insbesondere

(*) P({w})=0.

Das mathematische Problem besteht nun darin, dass es keine Abbildung P:𝒮([0,1])[0,1] gibt, die normiert und σ-additiv ist und (*) erfüllt (Maßproblem).

Ausweg aus diesem Dilemma - Maßproblem

Statt auf ganz 𝒮(Ω) das Maß zu definieren, schränkt man P auf einem Teilsystem der Potenzmenge von [0,1], die dann nur bestimmte Teilmengen AΩ enthält. Das Teilsystem 𝒮𝒮(Ω). 𝒮 soll dann aber so beschaffen sein, dass die üblichen Mengenoperationen ,,... nicht aus 𝒮 herausführen.

Begründung für die Eigenschaften

Wenn man das Maß von Teilmengen A1,A2, aus der Potenzmenge von Ω kennt, möchte man auch von Vereinigungen, Schnitten und Komplemente der Mengen die Maß angeben können. Damit dies überhaupt machtbar ist, müssen diese Mengenoperationen wieder Elemente aus dem Definitionsbereich des Maßes liefern. Aus diesen Anforderungen ergibt sich die Definition der σ-Algebra.

σ-Algebra (Definition)

Ist Ω eine beliebige, nichtleere Menge, so heißt ein Mengensystem 𝒮𝒮(Ω) eine σ-Algebra über Ω, wenn gilt

a) Ω𝒮

b) A𝒮A¯𝒮

c) A1,A2,...𝒮i=1Ai𝒰

Bemerkung

1. Es ist =Ω¯𝒮

2. A1,A2,...𝒮i=1Ai=i=1A¯i𝒮

3. In c) bzw 2. können wir auch i=1 bzw. i=1 einsetzen. Setze An+1=An+2=...= bzw. An+1=An+2=...=Ω.

4. (Ω) ist eine σ-Algebra ('größte'), {,Ω} ist eine σ-Algebra ('kleinste').

5. Ist 𝒮(Ω) ein vorgegebenes Mengensystem, so existiert unter den σ-Algebraen, die umfassen, eine kleinste σ-Algebra (!). Wir nennen sie die von erzeugte σ-Algebra σ(). heißt dann Erzeugendensystem von σ().

6. Ein Paar (Ω,𝒮), 𝒮 σ-Algebra über Ω, heißt messbarer Raum.

Definition - Wahrscheinlichkeitsraum

Ein Triplet (Ω,𝒮,P) heißt (allgemeiner) Wahrscheinlichkeitsraum, falls

a) Ω nichtleere Menge

b) 𝒮 σ-Algebra über Ω

c) P:𝒮[0,1] mit

(i) P(Ω)=1
(ii) P(i=1Ai)=i=1P(Ai) für paarweise disjunkte A1,A2,...𝒮

Bemerkung

1. P heißt Wahrscheinlichkeitsverteilung auf (Ω,𝒮). Auch die übrigen Bezeichnungen vom Beginn der Vorlesung sind weiterhin gültig, wenn man 𝒮(Ω) durch die σ-Algebra 𝒮 ersetzt (A𝒮 statt AΩ (oder A𝒮(Ω))).

2. Der diskrete Wahrscheinlichkeitsraum ergibt sich als Spezialfall der Definition: Ω abzählbar, 𝒮=𝒮(Ω)=σ{{w}wΩ}.

Borelsche σ-Algebra

Konstruktion der Borelschen σ-Algebra über Ω=k,k1. Das Mengensystem k𝒮(k) bestehe aus allen k-dimensionalen Intervallen. Für a=(a1,...ak),b=(b1,...,bk)k (d.h. ai= und bi=+ sind zugelassen) mit a<b (d.h. ai<bi für i=1,...,k) definiert man das k-dimensionale Intervall (a,b]=i=1n(ai,bi]={xk:ai<xi<bi, für i=1,...,k}.
Man führt das Mengensystem k={(a,b],a<b} ein (beachte kk).
Sei k=σ(k) die kleinste σ-Algebra, die alle k-dimensionalen Intervalle auf k enthält. heißt σ-Algebra der Borelschen Mengen oder kurz Borelsche σ-Algebra.

Satz

Satz aus der Topologie/Maßtheorie:

a) Die σ-Algebra k der Borelschen Mengen enthält alle offenen und alle abgeschlossenen Mengen des k.

b) Es gibt nicht-Borelsche Mengen des k.

c) k wir auch erzeugt von jedem der drei folgenden Mengensystemen:

  • das System der offenen Intervalle (a,b) des k.
  • das System der abgeschlossenen Intervalle [a,b] des k.
  • das System der links abgeschlossenen und rechts offenen Mengen [a,b) des k.

Zur Festlegung einer Wahrscheinlichkeitsverteilung P auf k braucht man nicht alle P(B),Bk auf allen Intervallen. Es gilt nämlich folgender Satz.

Fortsetzungssatz von Caratheodory

Sei P~:k[0,1] eine Abbildung, so dass gilt:

i) P~(k)=1

ii) P~(i=1Ii)=i=1P~(Ii) für paarweise disjunkte I1,I2,...k mit i=1Iik

Dann existiert genau eine Wahrscheinlichkeitsverteilung P auf k, so dass P|k=P~ (d.h. P(I)=P~(I) für alle Ik). (P heißt Fortsetzung von P~ auf ganz k.)

Bemerkung

Öfter ist nun eine Teilmenge von k als Ergebnisraum Ω von Interesse (z.B.: Ω=[0,1]k ). Dann werden alls Größen auf Ωk eingeschränkt: Ωk={ΩI,Ik} statt k; Ωk={Ωk,Bk} statt k('Borelsche Mengen in Ω'); P|Ωk statt P ('Restriktion von P auf Ωk'). (Ω,Ωk,P|Ωk) bilden einen Wahrscheinlichkeitsraum.

Idealisiertes Roulette (Beispiel)

Ω=[0,2π),Ω1={(a,b],0a<b2π}.

Durch P~(a,b]=ba2π wird auf Ω1 eine Abbildung in [0,1] definiert, welche die Eigenschaften i) und ii) des Fortsetzungssatzes erfüllt.

P~ legt eine Wahrscheinlichkeitsverteilung P auf Ω1 fest ('Gleichverteilung auf [0,2π)').

Beispiel

Zeitpunkt des Auftretens eines Ereignisses Ω=[0,); durch P~(a,b]=eλaeλb,0ab (λ>0 fest) wird eine Wahrscheinlichkeitsverteilung P auf [0,)1+1 festgelegt ('Exponentialverteilung mit Paramter λ ').

Bemerkung

Zukünftig schreiben wir statt P~ ebenfalls P.

Unabhängigkeit

Die Unabhängigkeit von Ereignissen A1,...,An𝒮 in einem Wahrscheinlichkeitsraum (Ω,𝒮,P) definiert man wie bereits geschehen durch die Eigenschaft: P(Aj1...Ajk)=P(Aj1)...P(Ajk) für alle {j1,...,jk}{1,...,n}. Sind P1,...Pk Wahrscheinlichkeitsverteilungene auf (,1), so heißt die Wahrscheinlichkeitsverteilung P auf (k,jk) Produkt der P1,...,Pk, kurz P=P1×...×Pk, falls P(B1×...×Bk)=P1(B1)...Pk(Bk) für alle B1,...,Bk1.

Bemerkung

Der Begriff des Produktes von (allgemeinen) Wahrscheinlichkeitsräumen (Ωi,𝒮i,Pi), i=1,...,n verlangt den Begriff der Produkt-σ-Algebra 𝒰=𝒮1×...×𝒮k. Wir beschränken uns auf den Spezialfall 𝒮i=1,𝒰=k, für den wir diesen Begriff nicht benötigen.

(Elementare) bedingte Wahrscheinlichkeit

Der Begriff P(B|A), falls P(A)>0, der (elementaren) bedingten Wahrscheinlichkeit, und die Formel von der totalen Wahrscheinlichkeit, Bayessche Formel, Produkt gelten auf die Wahrscheinlichkeitsräume (Ω,𝒮,P), falls alle auftretenden Ereignisse A,B,A1,...,Am aus 𝒮 genommen werden. Der allgemeine Begriff der bedingten Wahrscheinlichkeitsverteilung und des bedingten Erwartungswertes werden hier nicht gebraucht.

Verteilungsfunktion, Dichte

Zunächst Beschränkung auf den Wahrscheinlichkeitsraum (,1,P). Zur Festlegung von Wahrscheinlichkeitsverteilungen auf (,1) (bzw. auf (Ω,1Ω)) reicht es aus, wegen (a,b]=(,b](,a] und P(a,b]=P(,b]P(,a], alleine die Funktion F(t)=P(,t],t zu betrachten.

(kumulative) Verteilungsfunktion (Definition)

Sei P eine Wahrscheinlichkeitsverteilung auf (,1). Dann heißt die Funktion FP:[0,1],FP(t)=P(,t],t, (kumulative) Verteilungsfunktion von P.

(Im Folgenden sei F(t+)=limstF(s),F(t)=limstF(s) , (falls existiert).)

Satz

Sei F(t)FP(t),t, Verteilungsfunktion von P. Dann gilt:

i) F(t) ist (nicht notwendig streng) monoton wachsend, 0F(t)1.

ii) F(t+)=F(t) ("rechtsseitig stetig")

iii) F(t)=F(t)P({w})

iv) limtF(t)=0,limtF(t)=1

Beweis (1)

i) Monotonieeigenschaft von P.

ii) Sei tnt(tn>t). Zerlege (t,tn]=i=n(ti+1,ti]. Dann ist

F(t+)=limnF(tn)=limn[F(t)+P(t,tn]]
=limn[F(t)+i=nP(ti+1,ti]]=F(t)+0

da die Reihe i=1P(ti+1,ti]=P(t,t1]< konvergiert.

Beweis (2)

iii) Sei tnt(tn<t). Zerlege (t1,tn=i=1n1(ti,ti+1]. Dann ist

F(t)=limnF(tn)=limn[F(t1)+P(t1,tn]]
=limn[F(t11)+i=1n1P(ti,ti+1]]
=F(t1)+P(i=1(ti,ti+1])=F(t1)+P(t1,t)
=P(,t)=F(t)P({w})

iv) Analog zu ii) und iii).

Bemerkung

Die Limiten in ii), iii), iv) existieren wegen i).

Notation

Im Folgenden bezeichne a,b für a<b eines der Intervalle [a,b],(a,b),[a,b),(a,b]. Wobei im Fall a= nur (,b und im Fall b= nur a,) zugelassen wird.

Formeln für P⟨a,b⟩ </math>

Sei F Verteilungsfunktion von P.

  • P(a,b]=F(b)F(a), inbesondere P(,b)=F(b).
  • P(a,b)=F(b)F(a), inbesondere P(a,)=1F(a).
  • P[a,b]=P(b)P(a).
  • [a,b)=F(b)F(a).

Bemerkungen

1. Falls F bei a stetig und F auf dem Intervall [a,b] konstant ist, so ist P[a,b]=0.

2. Zusammen mit dem Fortsetzungssatz folgt, dass P durch Vorgabe einer Verteilungsfunktion (d.i. eine Funktion F(t),t, mit den Eigenschaften i), ii), iv)) eindeutig festgelegt wird, wenn man setzt P(a,b]=F(b)F(a).

Im Fall der Exponentialverteilung aus dem Beispiel 1.5.3, bei der F(t)={0,t<0λeλt,t0 ist, stellt man fest, dass F=f bzw. F(t)=tf(x)dx, mit f(x)={0,x<0λeλt,x0.

Wahrscheinlichkeitsdichte (Definition)

Sei FP(t),t, Verteilungsfunktion von P. Existiert dann eine messbare Funktion fP:[0,) mit FP(t)=fP(x)dx für alle t, so heißt fP(x),x, Wahrscheinlichkeitsdichte oder kurz Dichte von P.

Bemerkung

1. Das Integral lässt sich als uneigentliches Riemann-Integral oder als Lebesgue-Integral auffassen. Der Begriff 'messbar' wird später erläutert.

2. Ist die stetige Verteilungsfunktion F auf D (D leer oder endlich) stetig differenzierbar, so besitzt F die Dichte f(x)=F(x),xD, (f(x) auf D beliebig festgelegt).

3. Besitzt F eine Dichte, so ist F(t),t stetig (d.h. F(t)=F(t+)=F(t)) und die Formeln für Pa,b liefert für alle vier Intervalltypen die Formel Pa,b=F(b)F(a).

Satz

Besitzt eine Wahrscheinlichkeitsverteilung P auf (,) eine Dichte f=fP, so gilt:

Pa,b=abf(x)dx

Insbesondere gilt:

f(x)dx=1

Beweis

Folgt direkt aus Bemerkung 3.

Bemerkung

1. Wir können also eine Dichte f durch die Eigenschaft f:[0,), f integrierbar mit f(x)dx=1 festlegen.

2. Durch Vorgabe einer Dichte f ist eine Wahrscheinlichkeitsverteilung P auf (,) eindeutig festgelegt.

3. Der Begriff der Dichte spielt im Fall Ω= die gleiche Rolle wie der Begriff der Wahrscheinlichkeitsfunktion im Falle eines abzählbaren Ω (nur: eine Dichte braucht nicht notwendigerweise zu existieren!).

Gleichverteilung (Beispiel)

Gleichverteilung auf dem Intervall Ω=[A,B],A<B.

Dichte:

f(x)={0,x[A,B]1BA,x[A,B]

Verteilungsfunktion:

F(x)={0,x<AxABA,AxB1,x>B

Exponentialverteilung (Beispiel)

Exponentialverteilung mit dem Parameter λ>0:

Dichte:

f(x)={0,x<0λeλx,x0

Verteilungsfunktion:

F(x)={0,x<01eλe,x0

Verwendung:

Wartezeit (bis zum Eintreten eines Ereignisses).

Diskrete Verteilung (Beispiel)

Diskrete Verteilung auf {x1,x2,...} (oder {x1,...,xn} ) mit vorgegebener Wahrscheinlichkeitsfunktion P{xi}. Setze für A1

P(A)=i,xixP({xi})

P bildet ein Wahrscheinlichkeitsmaß auf (,), mit der Verteilungsfunktion:

F(x)=i:xixP({xi})

Es existiert jedoch keine Dichte!

Normalverteilung (Beispiel)

Normalverteilung mit Parametern μ und σ2,μ,σ2>0:

Dichte:

ϕμ,σ2(x)=12πσe12(xμσ)2

Verteilungsfunktion:

Φμ,σ2(x)=xϕμ,σ2(t)dt

Abkürzung: N(μ,σ2)

Verwendung: Symmetrisch um einen 'wahren' Wert μ streuende Messgröße.

Spezialfall: N(0,1) 'Standard-Normalverteilung', man schreibt ϕ=ϕ0,1,Φ=Φ0,1.

Umrechnung (1)

ϕμ,σ2(x)=1σϕ(xμσ),Φμ,σ2(x)=Φ(xμσ) (Substitutionsregel)

Aus dieser Beziehung folgt:

ϕμ,σ2(x)dx=Φμ,σ2()=Φ()=ϕ(x)dx=1,

so dass ϕμ,σ2 eine Dichte ist.

Umrechnung (2)

Das Konzept der Dichte lässt sich auch im Fall Ω=k verwirklichen. Eine Dichte im k ist eine nicht negative (aber messbare) Funktion f(x)=f(x1,...,xk),x mit (Integrierbarkeit vorausgesetzt):

kf(x1,...,xk)dkx=1

Für ein Bk definiert man

Bf(x1,...,xk)dkx=kf(x)dkx=k1B(x)f(x)dkx.

Wir benötigen den folgenden Satz der Integrationstheorie.

Satz

Ist f0 eine integrierbare Funktion auf dem k, so wird durch BBf(x)dkx,bk eine σ-additive Abbildung von k in [0,) definiert. D.h. für paarweise disjunkte B1,...,Bkk gilt:

Bif(x)dkx=i=1Bif(x)dkx

Beweis

Über den Satz der monotonen Konvergenz.

Satz

Sei f(x),xk eine Dichte und (a,b] ein n-dimensionales Intervall (a,b]=i=1k(ai,bi].

a) Setzt man

(*)P(a,b]=(a,b]f(x)dkx

so wird eine Wahrscheinlichkeitsverteilung P auf (k,k) eindeutig festgelegt. (Anstelle von (a,b] lässt sich auch jeder andere Intervalltyp a,b=i=1kai,bi einsetzen.)

b) Für die Wahrscheinlichkeitsverteilung P aus a) gilt, allgemeiner als (*):

P(B)=Bf(x)dkx(Bk)

Beweis

a) Durch (*) wird eine Abbildung P:Fk[0,1] definiert, die wegen kf(x)dkx=1 normiert ist und aufgrund des vorangegangenen Satzes σ-additiv auf Fk ist. Nach dem Fortsetzungssatz hat sie eine eindeutige Fortsetzung auf k.

b) Folgt dann aus dem vorangegangenen Satz und der Eindeutigkeitsaussage von a).

Beispiel

k-dimensionale Normalenverteilung mit Paramter μk und Σ (symmetrische k×k-Matrix, positiv definit), kurz N(μ,Σ)-Verteilung.

Dichte:

f(x)=1(sπ)kdet(Σ)e12(xμ)TΣ1(xμ) mit xk.

Abkürzung:

(Nk(μ,Σ)).

Spezialfall

Nk(0,Ik) (k-dimensionale Standard-Normalenverteilung).

Im Fall μ=0k und Σ=Ik (k-dimensionale Einheitsmatrix) reduziert sich die Gleichung der Dichte aus dem obigen Beispiel auf

f(x)=1(sπ)ke12(x12+...+xk2)=Πi=1ke12x(sπ) mit x=(x1,...,xk)k.

f(x) hat die Normierungseigenschaft.

Zufallsvariablen, Zufallsvekoren

Zu Beginn der Vorlesung hatten wir jede Abbildung: ΩΩ als Zufallsgröße bezeichnet: (Ω,𝒮,P)(Ω,𝒮,PX). Jetzt müssen wir sicherstellen, dass die Urbilder X1(A),A𝒮 auch Element von 𝒮 sind.

Zufallsgröße (Definition)

a) Sind (Ω,𝒮),(Ω,𝒮) messbare Räume, so heißt eine Abbildung X:ΩΩ Zufallsgröße (auf (Ω,𝒮), mit Werten in Ω ), falls

X1(A)𝒮A𝒮

b) Ist X:ΩΩ Zufallsgröße und P eine Wahrscheinlichkeitsverteilung auf (Ω,𝒮), so heißt PX:𝒮[0,1] mit

PX(A)=P(X1(A)),A𝒮

Verteilung von X.

Bemerkung

1. Man zeige genau wie zu Beginn der Vorlesung, dass PX eine Wahrscheinlichkeitsverteilung auf (Ω,𝒮) ist.

2. In der Maßtheorie nennt man eine Abbildung X mit der Eigenschaft a) messbar bezüglich 𝒮,𝒮. (Eine messbare Funktion f:k ist also messbar bezüglich k,1.)

3. Im Fall Ω=k,𝒮=k spricht man von einem k-dimensionalen Zufallsvektor, im Fall k=1 von einer Zufallsvariablen.

4. Es gibt nichtmessbare Funktionen F:. Ist nämlich C1 nicht borelsch, so ist f=1C nicht messbar.

Satz

Seien (Ω,𝒮),(Ω,𝒮) messbare Räume, F𝒮 sei Erzeugendensystem von 𝒮 (d.h. σ(F)=𝒮). Die Abbildung X:ΩΩ ist genau dann Zufallsgröße, wenn

X1(A)𝒮,AF.

Beweis

Aus 1) folgt 3) (trivial). Sei nun 3) erfüllt. Setze

ϕ={A𝒮:X1(A)𝒮},

man zeigt, dass ϕ eine σ-Algebra ist. Aus Fϕ𝒮 folgt

𝒮=σ(F)σ(ϕ)=ϕσ(𝒮)=𝒮ϕ=𝒮.

Korollar

Sei (Ω,𝒮) ein messbarer Raum, X:Ω ist Zufallsvariable genau dann, wenn

{X<b}X1(,b]𝒮,b

(äquivalent: ,,> statt <)
Insbesondere ist jede stetige (stückweise stetige) Abbildung X:k Zufallsvariable auf (k,k).

Beweis

Setze F={(,b]:b}. Man zeigt, dass σ(F)=1, so dass der vorangegangene Satz anwendbar ist. Für ein stetiges X:k ist X1(,b) offene Menge, ist in k, also aus k.

Satz

Sei X=(X1,...,X,k) eine Abbildung: Ωk, und (Ω,𝒮) messbarer Raum. Dann ist X ein Zufallsvektor genau dann, wenn jedes Xi eine Zufallsvariable ist (i=1,...,k).

Beweis

Es gilt:

Xi1(a,b]=X1(×...××(a,b]××...×)

mit (a,b] an der i-ten Stelle, woraus die Behauptung folgt.

Satz

Sind (Ω,𝒮),(Ω,𝒮),(Ω,𝒮) messbare Räume und X:ΩΩ,Y:ΩΩ Zufallsgrößen, so ist auch YX:ΩΩ eine Zufallsgröße (Beweis klar).

Sprechweise

Die eingeführte Notaion "F ist eine Verteilungsfunktion von P" und "f ist Dichte von P" wird durch die Verteilung PX von X angewandt:

Man sagt dann "F ist Verteilungsfunktion von X"(d.h. FX(x)=P(xX)=PX(,x] für eine Zufallsvariable von X) und fX ist Dichte von X (aber X hat Dichte f).

Beispiel

Ist die Zufallsvariable X eine Wartezeit und PX eine Exponentialverteilung (mit λ>0), so hat X die

Verteilungsfunktion:

FX(x)={0,x<01eλx,x0

bzw. die Dichte:

fX(x)={0,x<0λeλx,x0

Hat der Zufallsvektor X=(X1,...,Xk) die Dichte f(x)=fX(x),xk, so gilt für ein k-dimensionales Intervall (a,b]=i=1k(ai,bi]:

PX(a,b]=akbk...a1b1f(x1,...,xk)dx1...dxk

Hat X die Dichte f(x),xk , so hat die Komponente Xi die Randdichte

fXi(xi)=k1f(x1,...,xk)dx1...dxi1dxi+1...dxk.

Der folgende Satz gibt die Dichte von ϕX an, wenn die Dichte von X gegeben ist.

Transformationssatz für Dichten

Der k-dimensionale Zufallsvektor X besitzt die Dichte f(x),xk, wobei für eine offene Menge Uk gilt: f(x)=0 für xU. Sei ϕ:UV,Vk eine bijektive Abbildung mit ϕ,ϕ1 stetig differenzierbar.

Dann hat der k-dimensionale Zufallsvektor Y=ϕX eine Dichte und es gilt

g(y)=0,yV
g(y)=f(ϕ1(y))|det(dϕ1dy(y))|,yV

wobei (dϕ1dy(y))=(dϕi1dyj(y)),(i,j=1,...,k) die k×k Funktionsmatrix von ϕ1 ist.

Bemerkung

Zur Festlegung der Verteilung (und damit der Dichte) von Y=ϕX genügt es, ϕ alleine auf U festzulegen. Sind nämlich ϕ und ϕ~:kk mit ϕ|U=ϕ~|U, so gilt Pϕ~X=PϕX.

In der Tat, sei Bk, dann

Pϕ~X(B)=P(Xϕ~1(B))=P(Xϕ~1(B)U)
=P(Xϕ1(B)U)=P(Xϕ1(B))=PϕX(B)

die zweite Gleichheit gilt wegen

P(XU¯)=U¯f(x)dx=0,

da f(x)=0 für xU.

Beweis

Sei Ak offen, dann gilt wegen der zweiten Gleichheit (P(XU¯)=0):

PϕX(A)=P(Xϕ1(A))=P(Xϕ1(A)U)
=ϕ1(A)Uf(x)dx=ϕ1(aV)f(x)dx
=(AV)f(ϕ1(x))|detdϕ1dy(y)|dyAg(y)dy

wobei wir den Transformationssatz für Integrale angewandt haben. Speziell gilt für offenes A=i=kk(ai,bi):

PϕX(A)=akbk...a1b1g(y)dy

d.h. g(y) ist Dichte von ϕX.

Korollar

Besitzt der k-dimensionale Zufallsvektor X die Dichte f(x),xk, so lautet die Dichte g(y),yk von Y=AX+b, (A invertierbare k×k-Matrix, bk)

g(y)=1|detA|f(A1(yb)),yk.

Beweis

ϕ(X)=AX+b ist auf U=k bijektiv, mit ϕ1(y)=A1(yb) und
det(dϕ1(y)dy)=det(A1)=1det(A).

Beispiel

k-dimensionale Normalenverteilung.

1. Ist X N(0,Ik)-verteilt (d.h. f(x)=(12π)ke12xTx,x=(x1,...,xk)T), so besitzt Y=AX+μ (A invertierbare k×k-Matrix, μk) die Dichte

g(y)=1|det(A)|(12π)ke12(yμ)T(A1)TA1(yμ)
=1(2π)kdet(Σ)e12(yμ)TΣ1(yμ)

mit Σ=AAT. (Dann ist Σ1=(AAT)1=(A1)A1, Σ symmetrisch, positiv definit, det(Σ)=(det(A))2). Y ist also Nk(μ,Σ)-verteilt.

2. Ist umgekehrt YNk(μ,Σ)-verteilt (Σ symmetrisch, positiv definit), so ist X=(Σ12)T(yμ)Nk(0,Ik)-verteilt. Dabei ist Σ12 eine intvertierbare k×k-Matrix mit Σ1=(Σ12)(Σ12)T ((Σ12)T=A aus 1.).

Bemerkung

Für symmetrische, positiv definite B existieren verschiedene "Wurzeln" B12 von B mit (+) B=B12(B12)T (oben mit B=Σ1,B12=A1):

1. symmetrische Wurzel, B12 symmetrisch, positiv definit

2. Cholesky Wurzel, B12 obere Dreiecksmatrix

In jedem Fall ist det(B12)=detB und (+).

Unabhängige Zufallsvariablen

Definition

a) Die auf (Ω,𝒮,P) definierten Zufallsvariablen X1,...,Xn heißen unabhängig, falls für alle B1,...,Bn1 gilt:

P(X1B1,...,XnBn)=P(X1B1)...P(XnBn)

b) Abzählbar viele Zufallsvariablen X1,X2,... heißen unabhängig, wenn je endlich viele Xi1,...,Xin unabhängig sind.

Satz

Die auf (Ω,𝒮,P) definierten Zufallsvariablen X1,...,Xn sind unabhängig genau dann, wenn

P(X1,...,Xn)=PX1×...×PXn.

Beweis

  • Es gelte P(X1,...,Xn)=PX1×...×PXn:

Seien B1,..,Bn1, dann gilt:

P(X1B1,...,XnBn)=P(X1,...,Xn)(B1×...×Bn)
=PX1×...×PXn(B1×...×Bn)=PX1(B1)...PXn(Bn)
=P(X1B1)...P(XnBn)
  • Es gelte X1,...,Xn unabhängig:
P(X1,...,Xn)(B1×...×Bn)=P(X1B1)...P(XnBn)
=P(X1B1)...P(XnBn)=PX1(B1)...PXn(Bn)

Bemerkung

Da die σ-Algebra n von dem System der Intervalle (a,b]=1n(ai,bi] erzeugt werden, genügt es, statt a) der Definition für alle a,bn,a<b zu finden:

P(a1X1b1,...,anXnbn)=P(a1X1b1)...P(anXnbn)

Auch Intervalltypen [),[],() können anstelle von (] verwendet werden.

Satz

Die Zufallsvariablen X1,...,Xn mögen die Dichten f1,...,fn besitzen.

Dann gilt:

X1,...,Xn unabhängig
(X1,...,Xn) hat Dichte f(x1,...,xn)=f(x1)...f(xn)

Beweis

"" Sind X1,...,Xn unabhängig, dann folgt:

P(x1,...,xn)((a1,b1]×...×(an,bn])=PX1(a1,b1]...PXn(an,bn]
=a1b1f1(x1)dx1...anbnfn(xn)dxn
=a1b1...anbnf1(x1)...fn(xn)dx1...dxn
(X1,...,Xn) hat Dichte f(x1,...,xn),(x1,...,xn)n.

"" Analog.

Beispiel

X=(X1,...,Xn) ist 𝒩(0,Ik)-verteilt genau dann, wenn die X1,...,Xn unabhängig und 𝒩(0,1)-verteilt sind.

Beweis

Sind X1,...,Xn unabhängig mit den Dichten fXi(x)=fi(x)=12πex22,x so hat (X1,...,Xn) gemäß des Satzes die Dichte

f(x1,...,xn)=Πi=1nfi(xi)=12π2e12(x12+...+xn2)=12πne12(xTx)

mit x=(x1,...,xn). Umgekehrt folgt: X hat die Dichte

f(x1,...,xn)=12πne12(xTx)=Πi=1n12πne12(xi2)

Man stellt fest, durch Integration über die Komponenten x1,...,xi1,xi+1,...,xn, dass fi(xi) die Dichte von Xi sein muss, so dass die Unabhängigkeit und 𝒩(0,1)-Verteilung der Xi folgt.

Faltungsformel

Für unabhängige X1,X2 gilt:

PX1+X2({x1})=kPX1({x1})PX2({xx1})

Satz

Sind X1,X2 unabhängige Zufallsvariabeln mit Dichten f1,f2, dann besitzt die Zufallsvariable X1+X2 die Dichte

f(x)=f1(x1)f2(xx1)dx.

Beweis (1)

Für die Verteilungsfunktion F(y):P(X1+X2y) weisen wir F(y)=yf(x)dx nach. Es ist

P(X1+X2y)=P(X1,X2)({(x1,x2):x1+x2y})
={(x1,x2):x1+x2y}f1(x1)f2(x2)dx2dx1
=yx1f1(x1)f2(x2)dx2dx1

Beweis (2)

=yf1(x1)f2(x2x1)dx2dx1
=yf1(x1)f2(x2x)dx1dx2
=yf1(x1)f2(xx1)dx1dx2

mit der Dichte p(x)=f1(x1)f2(xx1)dx1.

Definition

Sind X1,...,Xn unabhängige Zufallsvariablen, so heißt die Wahrscheinlichkeitsverteilung

PX1+...+XnPX1*...*PXn

Faltung von PX1+...+Xn(mit "*" ist Faltungssymbol).

Unabhängige Wartezeiten (Beispiel) (1)

Sei Sn die Wartezeit zwischen dem n1-ten und n-ten Ereignis. Die Zufallsvariable Tn=S1+...+Sn stellt die Wartezeit des n-ten Ereignisses dar. Unter den Voraussetzungen

1. Die Zufallsvariablen S1,S2,... sind unabhängig

2. Jedes Si ist exponentialverteilt mit dem Paramter λ ("ϵ(λ)-verteilt")

wollen wir die Dichte der Zufallsvariable Tn berechnen. Es gilt:

fn(x)=λnxn1(n1)!eλx,x0(fn(x)=0 falls x<0)

Unabhängige Wartezeiten (Beispiel) (2)

Die Wahrscheinlichkeitsverteilung mit der Dichte fn heißt Gammaverteilung mit Parametern n und λ, kurz Γ(n,λ) (In heißt dann Γ(n,λ)-verteilt).

Γ(n,λ)=ϵ(λ)*...*ϵ(λ) (n-mal gefaltet)

Zerlegt man einen Satz von Zufallsvariablen in disjunkte Gruppen und setzt auf die Gruppen Funktionen an, so erhalten wir unabhängige Zufallsvariablen.

Satz

X1,...,Xn seien unabhängige Zufallsvariablen, für mn sei {1,...,n}=I1...Im eine Zerlegung der Indexmenge und ϕj Zufallsvariable auf (kj,𝒷kj), kj=|Ij|, j=1,...,m (j=1mkj=n). Bezeichnet Yj den kj-dimensionalen Zufallsvektor (Xi,iI), dann sind

ϕ1Y1,...,ϕmYm

unabhängige Zufallsvariablen.

Beweis

Ohne Einschränkung sei

I1={1,...,k1},I2={k1+1,...,k1+k2},...
Teil 1

Zunächst zeigen wir, dass die m Zufallsvektoren Y1,...,Ym unabhängig sind, im Sinne von

(*) P(Y1,...,Ym)(C1×...×Cm)=PY1(C1)...PYm(Cm)

für alle Cjkj,j=1,...,m.

Für die speziellen Cj der Form Cj=B1j×...×Bkj,Blj1 gilt wegen (Y1,...,Ym)=(X1,...,Xn),(C1,...,Cm)=(B1j,...,Bkmj):

P(Y1,...,Ym)(C1×...×Cm)=P(X1,...,Xn)(B11×...×Bkmm)
=PX1(B11)...PXn(Bkmm)
Teil 2
=iI1PXi(B11×...×Bk11)...iImPXi(B1m×...×Bkmm)
=PY1(C1)...PYm(Cm)

Nach dem Fortsetzungssatz gilt dann (*) auch für alle Cjkj.

Nun wird die Unabhängigkeit der ϕ1Y1,...,ϕmYm gezeigt. Es gilt:

Pϕ1Y1,...,ϕmYm)(B1×...×Bm)=...=Pϕ1Y1(B1)...PϕmYm(Bm)

Momente von Zufallsvariablen

Wir führen den Begriff des Erwartungswert E(X) einer Zufallsvariable X ein, indem wir uns a den entsprechenden Begriff für den diskreten Fall durch eine Approximation von X (durch eine Folge diskreter Zufallsvariablen Xn) anhängen.

Definition (1)

Für eine beliebige Zufallsvariable X auf (Ω,𝒮) definiert man jedes n die Zufallsvariable (n-te Approximierte):

Xn(w)=i=kn1Ak,n(w)
Ak,n={w:knX(w)<k+1n}
d.h. {Xn(w)kn,wAk,n0,sonst

Definition (2)

Es ist Ak,n𝒮, so dass Xn eine Zufallsvariable ist, und zwar mit höchstens abzählbar vielen Werten (±kn,k). Gemäß der Definition für den Erwartungswert diskreter Zufallsvariablen setzen wir für die diskrete Zufallsvariable Xn:

E(Xn)=i=P(Ak,n)

(mit P(Ak,n)=PXn{kn}), sofern

i=|k|nP(Ak,n)E(|Xn|)<.

Eigenschaften von Xn, E(Xn)

a) XnXXn+1n, insbesondere |XXn|1n

b) |XnXm|1n+1m, denn |XnXm|XnX|+|XXm| und a)

c) E|XnXm|1n+1m, aus b) und Eigenschaften von E

d) Existiert E(Xn) für n, so existiert auch E(Xm) für alle mn, denn

E(Xm)E|XmXn|+E(Xm)<

e) Existiert E(Xn) für (mindestens) ein n, so bildet E(Xn),nn0 eine Cauchyfolge, denn

|E(Xn)E(Xm)|=|E(XnXm)|E|XnXm|=1n+1m0,n,m

Definition

Falls für (mindestens) ein n der Erwartungswert E(Xn) der n-ten Approximation für X existiert, so setzt man E(X)=limnE(Xn) (Existenz nach e) gesichert) und sagt: E(X) existiert oder X besitzt einen Erwartungswert. Man schreibt auch: E(X)=aX(w)P(dw).

Bemerkung

Dieses "P-Integral von X" ist von Typ "Lebesgue-Stieltjes" (Intervalleinteilung auf der y-Achse), im Unterschied zum Riemann-Integral (Einteilung auf der x-Achse).

Eigenschaften von E(X)

a) E(X) existiert genau dann, wenn E|X| existiert (d.h. E|X|<).

b) Ist X(Ω) abzählbar, so ist E(X)=xX(Ω)xPX{w}, falls die Reihe absolut kovergiert.

Beweis (1)

a) Mehrfache Anwendung der Eigenschaften von E(Xn) a) liefert |Xn||X|+|XXn||X|+1n|X|n+2n und |X|n...|Xn|+1n, woraus a) folgt.

Beweis (2)

b) Setze Ik,n=(kn,k+1n]. Wegen P(Xn=kn)=xIk,nP(X=x) ist

(*) {E(Xn)=k=knxIk,nP(X=x)k=xIk,nxP(X=x)=xX(Ω)xP(X=x)k=k+1nxTk,nP(X=x)=E(Xn)+1n

Falls die Reihe xP(X=x) absolut konvergiert, so wegen E(Xn)|x|P(X=x)+1n< (ähnliche Abschätzung wie (*)) auch die Reihe E(Xn), so dass limn in (*) die Behauptung liefert.

Im speziellen Fall, dass X eine Dichte besitzt, berechnet sich E(X) wie folgt.

Satz

Besitzt die Zufallsvariable X eine Dichte f(x),x, so ist

E(X)=xf(x)dx,

sofern |x|f(x)dx<.

Beweis

Wegen P(Xn=kn)=P(knXk+1n)=knk+1nf(x)dx ist:

(*) E(Xn)=k=knknk+1nf(x)dxk=xf(x)dx
=xf(x)dxk=k+1nknk+1nxf(x)dx=E(Xn)+1n

(Ähnliche Überlegung zur absoluten Konvergenz E(Xn)limn in (*) liefert die Behauptung.

Allgemeiner gilt der folgende Satz (k-dimensionaler Zufallsvektor X, Komposition ϕX).

Satz

Besitzt ein k-dimensionaler Zufallsvektor X die Dichte f(x),x, und ist ϕ eine (messbare) Funktion von k, gilt:

E(ϕX)=kϕ(x)f(x)dkx,

sofern k|ϕ|fdkx<.

Beweis

Gemäß dem Satz über Verkettung von Zufallsvariablen ist ϕX eine Zufallsvariable. Ähnlich wie oben gilt:

E(ϕX)n=......=kϕ(x)f(x)dkx...=E(ϕX)n+1n

Wie bei diskreten Zufallsvariablen haben wir auch hier die Monotonie und die Linearität des Erwartungswertes.

Satz

Sind X und Y Zufallsvariablen mit Erwartungswerten E(X) und E(Y), so gilt:

a) E(aX+bY) existiert und E(aX+bY)=aE(X)+bE(Y) für alle a,b

b) E(X)E(Y), falls XY.

c) E(1)=1

Beweis

Folgt aus den entsprechenden Eigenschaften für diskrete Zufallsvariablen. Für die Existenz des Erwartungswertes ist das sogenannte Majorantenkriterium nützlich.

Satz

Sind X,Y Zufallsvariablen mit |X|Y und E(Y) existiert (d.h. E(Y)<), so existiert auch E(X) (und es ist E(X)E(Y) nach b)).

Beweis

Für die approximierten Zufallsvariablen |X|n und Yn gilt |X|nYn und deshalb:

E(|X|n)E(Yn)<

(Letzteres für nn0 nach Voraussetzung). Also existiert auch E|X| und - nach den Eigenschaften von E(X), a) - auch E(X).

Satz

Existieren für unabhängige Zufallsvariablen X und Y die Erwartungswerte E(X) und E(Y), so existiert auch der Erwartungswert für XY und es gilt

E(XY)=E(X)E(Y).

Beweis

Man kann die Approximation Xn,Yn in der Form Xn=ϕ(X),Yn=ϕ(Y) schreiben, mit einer geeigneten messbaren Funktion ϕϕn. Somit sind dann auch Xn,Yn unabhängige Zufallsvariablen und XnYn hat einen Erwartungswert und es gilt

E(XnYn)=E(Xn)E(Yn).

Wir haben die Ungleichung

|(XY)nXnYn|
|(XY)n|XY|+|XY||XnY|+|XnY|XnYn|
1n+1n|Y|+1n|Xn|1n(2+|X|+|Y|)1nZ

Folgerung

  • E(XY)n existiert, also auch E(XY)
  • E(XnYn)E(XY)nn0 so dass (*) die Behauptung liefert.

Für das nun folgende ('höhere Momente') wird wiederholt folgende Ungleichung benutzt:

|a±b|mCm(|a|m+|b|m)

für alle a,b,m, mit Cm=2m1.

Diese Ungleichung folgt aus der Jensenschen Ungleichung in der Form (r,m,ai>0):

1rm(a1+...+ar)m1r(a1m+...+arm)

(im Beweis ist r=2.)

Definition (1)

Sei (Ω,𝒮,P) ein Wahrscheinlichkeitsraum.

a) Für m bezeichnet mm(P) die Menge aller Zufallsvariablen auf (Ω,𝒮) mit E|X|m<. Für Xm heißt E|X|m das absolute m-te Moment (E(Xm) das m-te).

b) Für Xm führt man noch ein: das m-te zentrierte Moment E((XEX)m) und das absolute m-te zentrierte Moment E(|XEX|m).

Definition (2)

c) Speziell für X2 heißt Var(X)=E(XEX)2 Varianz von X und σ(X)=Var(X) Standardabweichung von X. Wie bereits bei diskreten Zufallsvariablen gilt auch hier Var(aX+b)=a2Var(X) und Var(X)=E(X2(EX)2).

Ferner gilt:

  • Var(X)=0 genau dann, wenn P(X=const)=1 ('X=const., P fast überall').
  • EX2=0 genau dann, wenn P(X=0)=1 ('X=0, P fast überall')

Beispiel 1

X gleichverteilt auf [a,b], a<b. Dann ist X*=Xaba gleichverteilt auf [0,1] und

EX*=01x1dx=12X=a+(ba)X*EX=a12(ba)=12(a+b)
E(X*)=01x1dx=13
Var(X*)=13+14=112,

also Var(X)=112(ba)2.

Beispiel 2

X exponentialverteilt mit Parameter λ>0

EX=0xλeλxdx=x=λx1λ0sexds=1λ
EX2=0x2λeλx=s=λx1λ20s2esds=2λ2
Var(X)=2λ21λ2=1λ2

Beispiel 3 (1)

Normalverteilung N(μ,σ2)

Ist X N(μ,σ)-verteilt, dann ist X*=Xμσ N(0,1)-verteilt. Es gilt:

EX*=|x>e12x2dx=0

wegen ϕ(x)=ϕ(x) und wegen |x>e12x2dx<.

Beispiel 3 (2)

Ferner:

Var(X*)=E(X*)2=xxϕ(x)dx=ϕ(x)dx=1

Es folgt für X=μ+σX*: EX=μ, Var(X)=σ2.

Die N(μ,σ2)-Verteilung kann also als Normalenverteilung mit Erwartungswert μ und Varianz σ2 charakterisiert werden.

Den Anschluss an die Lineare Algebra/Funktionalanalysis liefert der folgende Satz.

Satz

Seien (Ω,𝒮,P) und m vorgegeben.

a) m ist ein linearer Raum.

b) nm für alle nm. D.h. aus E|X|n< für ein n folgt E|X|m< für mn, insbesondere ist E|X|<.

Beweis

a) Majorantenkriterium und die Ungleichung des letzten Satzes liefern für a,b:

|aX+bY|mCm(|a|m|X|m+|b|m|Y|m)

b) Sei E|X|n<. Dann gilt für mn wegen |X|m11{|X|1}+|X|1{|X|1}1+|X|n auch E|X|m<.

Wichtig sind die folgenden stochastischen Ungleichungen.

Ungleichungen

Markov-Ungleichung:

Ist Xm für ein m, so gilt für jedes ϵ<0:

P(|X|ϵ)E|X|mϵm

Tschebyschoff-Ungleichung:

Insbesondere für X2:

P(|XEX|ϵ)Var(X)ϵ2

Beweis

Wiederholte Anwendung der Monotonieeigenschaften von E:

E|X|mE(|X|m1{|X|1})ϵmE(1{|X|1})=ϵP(|X|ϵ)

setzt man in die Markov-Ungleichung speziell XEX statt X ein, sowie m=2, so erhält man die Tschebyschoff-Ungleichung.

Satz

Für Zufallsvariablen X,Y2 gilt XY1 und [E(XY)]2E(X)2E(Y)2. Das '='-Zeichen gilt genau dann, wenn aX+bY=0, P fast überall für a,b,a2+b2>0.

Bemerkungen

Im linearen Raum 2 können wir ein 'Fast-Skalarprodukt' einführen:

Für X,Y1 setze X,Y=E(X,Y). , ist dann eine bilineare, symmetrische, positiv semidefinite ( X,X0) Form. Aus X,X=0 folgt aber nur X=0 fast überall (und nicht X=0) .

Definition

Sind X,Y2, dann heißen

a) Cov(X,Y)=E((XEX)(YEY))=E(XY)E(X)E(Y) die Kovarianz von X und Y.

b) X,Y unkorreliert, falls Cov(X,Y)=0.

c) ρ(X,Y)=Cov(X,Y)σ(X)σ(Y) Korrelation (oder Korrelationskoeffizient) von X und Y, sofern σ(X),σ(Y)>0.

Die Folgerungen für diskrete Zufallsvariablen bezüglich der Kovarianz gelten weiterhin sowie die Eigenschaften von der Varianz und der Kovarianz. Im Hinblick auf die obige Bemerkung gilt: X,Y unkorreliert, falls XEXYEY (bezüglich ,).

Beispiel

Momente der k-dimensionalen Normalverteilung.

Ist X=(X1,...,Xk) Nk(μ,Σ)-verteilt, μ=(μ1,...,μk)Tk,Σ=(σi,j) symmetrische, positiv definite k×k-Matrix.

Behauptung:

EXi=μi,Cov(Xi,Xj)=σi,j

Bemerkung

Die Parameter μ,Σ der Nk(μ,Σ)-Verteilung bilden also den Erwartungswert-Vektor bzw. die Matrix der Kovarianz (Cov-Matrix) des Nk(μ,Σ)-verteilten Zufallvektors X.

Charakteristische Funktion

Für diskrete Zufallsvariablen X mit Werten + erwies sich die erzeugende Funktion

G(s)=EsX=k=0skPX{k} als nützlich, und zwar bei der Berechnung von Momenten, Faltungen und Grenzverteilungen.

Eine vergleichbare Funktion hat die charakteristische Funktion in der allgemeinen Wahrscheinlichkeitstheorie, in der X eine beliebige Zufallsvariable ist. Anstelle des Erwartungswertes sX (der nicht notwendigerweise existiert) bildet man den Erwartungswert der komplexwertigen Variablen "eiX".

Erinnerung: Komplexe Zahlen

Für eine komplexe Zahl z=a+bi,a=Re(z),b=Im(z) setze man |z|=a2+b2=zz¯. Es ist z=reiϕ mit r=|z|,eiϕ=cos(ϕ)+isin(ϕ). Es gilt |zw|=|z||w|.

Definition

Sei (Ω,𝒮,P) ein Wahrscheinlichkeitsraum.

a) Sind z1,z2 Zufallsvariablen auf (Ω,𝒮), (zi:Ω) so bildet z=z1+iz2 eine komplexwertige Zufallsgröße auf (Ω,𝒮), (z:Ω).

b) Existieren E(z1),E(z2), so heißt die komplexe Zahl E(z):=E(z1)+iE(z2) Erwartungswert von z.

Hilfssatz

a) Sind z,z¯ komplexe Zufallsgrößen und existieren E(z),E(z¯), so gilt:

E(z+z¯)=E(z)+E(z¯)
E(vz)=vE(z),v

b) |E(z)|E(|z|)<.

Charakteristische Funktion (Definition)

Sei X eine Zufallsvariable auf (Ω,𝒮), so heißt die komplexwertige Funktion ϕX::

ϕX(t)ϕ(t)=eitx=E(cos(tx))+iE(sin(tx))

charakteristische Funktion von X.

Bemerkungen (1)

  • Aus eitx=cos(tx)+isin(tx) folgt wegen |cos(tx)|1, |sin(tx)|1 die Existenz von E(cos(tx)) und E(sin(tx)), also von (eixt).
  • Beispiele für charakteristische Funktionen:
    • ϕX(t)=1
    • ϕX(t)=cos(t)
    • ϕX(t)=et22
    • ϕX(t)=eeit1
    • ϕX(t)=11+it
    • ϕX(t)=1it(eit1),(ϕX(0)=1
    • ϕX(t)=e|t|
    • ϕX(t)=(1|t|)1[1,1](t)

Bemerkungen (2)

  • Keine charakteristischen Funktionen sind:
    • ϕ(t)=sin(t)
    • ϕ(t)=1t2
    • ϕ(t)=1[1,1](t)
    • ϕ(t)=e|t|2
  • Wegen |eitx|=1 gilt |ϕ(t)|=|E(eitx)|E(|eixt|)=E(1)=1, ϕ(0)=E(1)=1.
  • ϕX ist gleichmäßig stetig. (ohne Beweis)
  • ϕaX+b(t)=E(eit(aX+b))=eitbE(eitaX)=itbϕX(ta),a,b.

Bemerkungen (3)

  • Ist X eine Zufallsvariable mit Werten in +, so ist
ϕX(t)=E(eitx)=E(cos(tx))+iE(sin(tx))
=k=0cos(tk)P(X=k)+ik=0sin(tk)P(X=k)
=k=0(eit)kP({k})

(vgl. mit gx(s)=E(sx)=k=kskPx({k}),s[0,1]) Also (!) lautet die charakteristische Gleichung von X:

  • X B(n,p)-verteilt: ϕX(t)=(1p+peit)n,t
  • X P(λ)-verteilt: ϕX(t)=eλeit1,t

Beispiel 1

X exponentialverteilt mit Paramter λ>0:

ϕX(t)=λλit,t

Beispiel 2 (1)

X sei N(0,1)-verteilt:

ϕX(t)=E(eitx)=E(cos(tx))+iE(sin(tx))
=(cos(tx))12πex22dx+i(sin(tx))12πex22dx
ϕ'X(t)=(sin(tx))12π(x)ex22dx
=[(sin(tx))12π(x)ex22]

Beispiel 2 (2)

=tcos(tx)12πex22dx
=tϕX(t)ddt(ϕX(t)ex22)
=ϕ'X(t)ex22+ϕX(t)tex22
=ex22[ϕ'X(t)+tϕX(t)]=0

Beispiel 2 (3)

ϕX(t)ex22=c=const.
{ϕX(t)=cex22ϕX(0)=1c=1}
ϕX(t)=ex22

Beispiel 3

X sei N(0,1)-verteilt ϕX(t)=?

X=σΓ+μ,Γ N(0,1)-verteilt.

ϕX(t)eitμϕY(σt)=eitμe12σ2t2.

Eindeutigkeitssatz

Seien X,Y Zufallsvariablen. Dann gilt:

ϕX=ϕYPX=PY

Faltungssatz

Sind X,Y unabhängige Zufallsvariablen, so gilt ϕX+Y=ϕX+ϕy.

Beweis

ϕX+Y=E(eit(x+y))=E(eitxeity)=E(eitx)E(eity)=ϕX+ϕY

Hilfssatz

Für den obigen Beweis wurde der folgende Hilfssatz genutzt.

Seien X,Y unabhängige Zufallsvariablen, f=f1+f2, g=g1+g2 komplexwertige Funktionen, so gilt, falls E(f(x)),E(g(x)) existieren:

E(f(x)g(y))=E(f(x))E((y))

Beispiel

Es gilt N(μ1,σ12)×N(μ2,σ22)=N(μ1+μ2,σ12+σ22).

Beweis

Sei X1 N(μ1,σ12)-verteilt und X2 N(μ2,σ2)-verteilt, mit X1,X2 unabhängig.

ϕX1+X2(t)=ϕX1ϕX2(t)=eitμ1e12σ12t2eitμ2e12σ22t2
=eit(μ1+μ2)e12(σ12+σ22)t2
Behauptung.

Satz (Berechnung von Momenten)

Für die Zufallsvariable X existieren E(Xm) für ein . Dann ist die charakteristische Funktion ϕX m-mal stetig differenzierbar mit

ϕX(m)(0)=imE(Xm)

(für m gerade gilt auch die Umkehrung).

Siehe auch