Rechteck-Verteilung

Werbung
LI
L
ETH Zürich
Institut für Mess- und Regeltechnik
Wissenschaft und Technik des Messens
Kontakt mit dem Autor
© Copyright
Mitarbeit
d0000408; rev00
Modul (Vollversion, Expertenwissen (Zusatz → Kurzversion))
Rechteck-Verteilung
Karl H. Ruhm
Inhalt
Einleitung
1
Modell in der Stochastik
2
Wahrscheinlichkeiten
3
Modell in der Statistik
4
Vorkommen
Zusammenfassung und Ausblick
1
1
4
4
5
6
Schlüsselwörter
Rechteck-Verteilung, Gleichverteilung, Wahrscheinlichkeit, Hypothese, Parameteridentifikation, Hypothesetest
Kurzbeschreibung
Die bekannte Rechteck-Verteilung beruht auf der mathematischen Rechteck-Impulsfunktion und wird für die
Zwecke der Stochastik und Statistik speziell skaliert. Sie spielt allerdings nur eine beschränkte praktische
Rolle.
Einleitung
Die Rechteck-Verteilung (Gleichverteilung; uniform distribution, rectangular distribution) ist eine Verteilung,
sowohl für wertdiskrete als auch für wertkontinuierliche Zufallsvariable (Zusatz → Modul "Verteilungen"). Im
vorliegenden Zusammenhang interessiert primär die zweite Variante. Man nennt solche Zufallsvariablen
reckeckverteilt oder gleichverteilt. Hier folgen die Definitionsgleichungen und wichtigsten Eigenschaften.
Gelegentlich wird die Rechteck-Verteilung als Verlegenheitshypothese angenommen, nur weil sie einfacher
handhabbar als andere ist. Dies ist aber kein objektives Argument für ihre Wahl. Man überlege sich vor jeder
Wahl dieser Hypothese, ob in der Realität wirklich keinerlei Ereignisse außerhalb der Rechteckgrenzen zu
liegen kommen können und dass tatsächlich konstante Wahrscheinlichkeiten beziehungsweise Wahrscheinlichkeitsdichten typisch sind. Diese Kriterien muss man hoher Sicherheit bestätigen können, sonst sollte man
die Finger von der Rechteck-Verteilung lassen [1].
1
Modell in der Stochastik
Die Rechteck-Verteilung wird grundsätzlich aus der Theorie begründet, zum Beispiel aus der Spieltheorie.
Die Argumente für eine Rechteck-Verteilung sind immer ähnlich. Mathematisch handelt es sich um eine
Rechteck-Impulsfunktion y = rect(x). Verschiedene Parametersätze p lassen sich aus den beidseitigen Grenzen des Intervalls eindeutig festlegen. Die Fläche A unter dem Impuls ist definitionsgemäß gleich eins. Die
Form ist symmetrisch um eine Hochachse, die sich an der Stelle des arithmetischen Mittelungswertes μx der
Verteilung befindet.
Modellierung der Gleichungsstruktur
Der qualitative Ansatz hat die Form pd(x) = f(x, p) [{x −1}] , mit p als einem Parametervektor. Wir suchen die
quantitative mathematische Struktur. Unsere Hypothese sagt, dass die Verteilung eine Konstante innerhalb
gegebener Grenzen der unabhängigen Variablen x ist. Wir bezeichnen die Grenzen des Intervalls mit x1 und
x2. Damit ist die Wahrscheinlichkeit p, dass ein Wert in den Bereich zwischen x1 und x2 fällt, gleich eins, also
sicher: p(x1 ≤ x ≤ x2) = 1 100% Die Wahrscheinlichkeit p, dass ein Wert außerhalb dieser Grenzen liegt, ist
gleich Null.
2
pd
[{x
–1
}]
p d (x)
1
x 2 – x1
x1
B0879
p = A pd = 1 [-]
x2
x
Annahme
y(x) = rect(x) = konstant
Präzisierend stellen wir fest, dass wir diese kontinuierliche, aber nichtstetige Funktion in drei Bereichen beschreiben müssen:
⎧0
⎪
y(x) = ⎨konstant
⎪0
⎩
für x < x1
für x1 ≤ x ≤ x 2
für x > x 2
Damit diese mathematische Funktion y(x) auch als Wahrscheinlichkeitsdichtefunktion pd(x) gelten kann,
muss ihre allgemeine Struktur aber noch drei wichtigen Bedingungen entsprechen:
1. Die Fläche (Wahrscheinlichkeit) A unter der Wahrscheinlichkeitsdichtefunktion pd(x) muss immer eins
sein. Sie darf keine Einheit besitzen.
2. Die Wahrscheinlichkeitsdichtefunktion pd(x) muss der Forderung nach kohärenten physikalischen Einheiten genügen. Sie muss immer die Einheit {x–1} besitzen.
3. Die Position und Ausdehnung der Verteilungsdichtefunktion pd(x) auf der Achse der unabhängigen Variablen x verlangt zwei Parameter, ein Positionsmaß und ein Streuungsmaß. Bei den so genannten Einheitsverteilungen ist das Positionsmaß grundsätzlich gleich Null und das Streuungsmaß gleich Eins.
Wenn die Fläche A unter der Funktion gleich eins sein soll und die "Grundseite" des Rechtecks durch die
Grenzen x1 und x2 gegeben ist, dann muss die "Höhe" die Inverse der Grundseite sein.
Form 1
Die beiden ersten Bedingungen sind erfüllt. Die Bedingung für den Bereich des konstanten Werts "Höhe"
legt die Lage der Wahrscheinlichkeitsdichtefunktion fest. Dies liefert die einfachste Beschreibungsart (Zusatz
→ Animation "Rechteck-Verteilung").
Definition: Rechteck-Verteilungsdichtefunktion
für x < x1
⎧0
⎪
1
für x1 ≤ x ≤ x 2
pd(x) = ⎨⎪
⎪ x 2 − x1
⎪⎩0
für x > x 2
[{x −1}]
Form 2
In der Mathematik ist eine zweite Schreibweise üblich, bei der die Werte an den Sprungstellen als halbe
Sprunghöhe gewertet werden. Dies kann bei anspruchsvollen theoretischen Aufgaben wie Transformationen
hilfreich oder notwendig sein. Damit besteht die nichtstetige Rechteck-Impulsfunktion aus fünf Bestandteilen,
die man jedoch in drei Zeilen anschreiben kann. Wir werden diese Schreibweise allerdings nicht weiter verfolgen.
Definition: Rechteck-Verteilungsdichtefunktion
⎧ 1
⎪x − x
1
⎪ 2
d
p (x) = ⎨ 1
1
⎪2 x − x
2
1
⎪
⎩0
für x1 < x < x 2
für x = x1 und x = x 2
[{x −1}]
sonst
Form 3
Bei Verteilungsdichtefunktionen möchte man normalerweise nicht die allgemeinen geometrischen Parameter, sondern die gängigen Kennwerte (arithmetischer Mittelungswert μx; Standardabweichung σx) der Stochastik beziehungsweise Statistik verwenden. Also müssen wir diese für den interessierenden Verteilungstyp finden. Die Stochastik liefert folgende Werte (Zusatz → Modul "Kennwerte der Rechteck-Verteilung"):
3
Definition: Mittelungswert der Rechteck-Verteilung
1
2
μ x = (x1 + x 2 ) [{x}]
Definition: Standardabweichung der Rechteck-Verteilung
σx =
1
(x − x ) [{x}]
2 3 2 1
Daraus folgt für den Zusammenhang beider Parametersätze
⎡ 1
(x + x 2 ) ⎤⎥
⎡μ x ⎤ ⎢ 2 1
⎥
und p2 = ⎢ ⎥ = ⎢
⎣ σx ⎦ ⎢ 1 (x − x )⎥
1⎥
⎢2 3 2
⎣
⎦
⎡ x ⎤ ⎡μ − 3 σ x ⎤
p1 = ⎢ 1 ⎥ = ⎢ x
⎥
⎣ x 2 ⎦ ⎣⎢μ x + 3 σx ⎦⎥
Damit kann man wie bei vielen Verteilungen allgemein schreiben:
pd(x) = f(x, μ x , σx ) = rect(x, μ x , σx ) [{x −1}]
Dies müssen wir noch qualitativ fassen. Der Funktionswert x der Rechteck-Verteilung hängt wegen der definierten konstanten Höhe des Rechtecks nur vom Streuungsmaß "Standardabweichung" σx und nicht vom
Positionsmaß "arithmetischer Mittelungswert" μx ab. Es gilt wie immer: Je größer die Standardabweichung
σx, desto breiter und flacher die Verteilung. Hingegen gehen beide Parameter in die Funktionsgrenzen ein.
Damit erhalten wir als Form 3 die Beschreibungsart mit den stochastischen Kennwerten μx und σx.
Definition: Rechteck-Verteilungsdichtefunktion
⎧0
⎪
1
1
d
p (x) = ⎪⎨ 3
σx
⎪6
⎪0
⎩
für x < μ x − 3 σx
für μ x − 3 σ x ≤ x ≤ μ x + 3 σ x
[{x −1}]
für x > μ x + 3 σ x
p d [{x –1 }]
p d (x)
2σx
1 31
σx
6
μ x– 3 σx
μx
B1196
A 2σ = 57.7%
!
μ x+ 3 σ x
x
Einheitsrechteckverteilung
Form 4
Bei allgemeinen Untersuchungen in der Stochastik arbeitet man gern mit Einheitsverteilungen, bei denen der
arithmetische Mittelungswert μx = 0 und die Standardabweichung σx = 1 ist (Parametervektor p4(0; 1)). Diese
Schreibweise ist auch hier möglich:
pd(x) = f(x, 0,1) = rect(x, 0,1) [{x −1}]
Definition: Einheitsrechteckverteilung
⎧0
⎪
pd(x) = ⎪⎨ 1 3
⎪6
⎪⎩0
für x < − 3
[{x −1}]
für − 3 ≤ x ≤ + 3
für x > + 3
p d [{x –1 }]
– 3 –1
2σx
A 2σ = 57.7%
μ x= 0
p d (x)
B1197
1 3
6
1 + 3
x
Bemerkung
Ergebnisse aus der Stochastik sind (mit Ausnahme der numerischen Rundungsfehler) immer sicher!
4
2
Wahrscheinlichkeiten
Zwei häufige Fragen etwa in der Messfehlertheorie lauten:
•
Wie groß ist die Wahrscheinlichkeit p, dass ein Wert zum Beispiel in den Bereich μx – σx und μx + σx einer gegebenen symmetrischen Verteilung zu liegen kommt? Die Antwort lautet bei der RechteckVerteilung:
p(xμ
x −σ x
≤ x ≤ xμ
x +σ x
) = Aμ
x ±σ x
=2
1
1
1
(x 2 − x1)
=
≈ 0.577 57.7%
x 2 − x1
2 3
3
Bei der Normalverteilung beträgt dieser Wert p ≈ 0.683 68.3% . Aus solchen Werten werden dann Angaben zur Messunsicherheit u abgeleitet.
•
In welchen Bereich einer gegebenen symmetrischen Verteilung fallen zum Beispiel 95% aller Werte?
Dies ist die Umkehrung der ersten Frage. Die Antwort fällt bei der Rechteck-Verteilung leicht:
xμ x − t95%σx ≤ x ≤ xμ x + t95%σx = μ x − 0.95 3 σ x ≤ x ≤ μ x + 0.95 3 σ x = μ x − 1.645 σ x ≤ x ≤ μ x + 1.645 σ x
mit dem Vertrauenswert
t95% = 0.95 3 ≈ 1.645
Bei der Normalverteilung beträgt der entsprechende Vertrauenswert t95% ≈ 1.96 .
Bei der Rechteck-Verteilung können wir den Vertrauenswert t für verschiedene Wahrscheinlichkeiten p einfach definieren:
tp% = 3 p
Damit lässt sich jeder Vertrauenswert t für jede gewünschte Wahrscheinlichkeit p sofort angeben.
Man beachte an dieser Stelle, dass der Vertrauenswert t bei der Normalverteilung sehr große Werte annahmen kann, da die Verteilung unbegrenzt ist. Bei der begrenzten Rechteck-Verteilung ist der Vertrauenswert t
hingegen begrenzt, er liegt bei tmax = 3 ≈ 1.732 . Diese Aussagen gelten für alle Formen der RechteckVerteilung.
3
Modell in der Statistik
Hypothese – Annahme der Verteilungsart
Die Statistik geht von erhobenen beziehungsweise gemessenen Daten aus. Wir nehmen hier an, dass ein
solcher Datensatz x vorliegt. Der wichtigste Punkt bei der empirischen Modellbildung (schließende Statistik)
beziehungsweise Parameteridentifikation ist die Wahl einer Hypothese der Verteilungsart, die dem gewonnenen Datensatz x zu Grunde liegen könnte. Tatsächlich ist sie in den meisten Fällen unbekannt. Es wird
hier nun angenommen, dass es gute Gründe für die Annahme einer Rechteck-Verteilung gibt. Im Verlauf der
Modellbildung sollte man versuchen, weitere Indizien für oder gegen die gewählte Hypothese zu finden.
Parameteridentifikation – Bestimmung der fehlenden Parameter
Sobald das Modell Wahrscheinlichkeitsdichtefunktion pd(x) mit Struktur und Parametern als Hypothese qualitativ festgelegt wurde, müssen wir die Zahlenwerte des Parametervektors p für einen ganz konkreten, interessierenden Prozess bestimmen, der den Datensatz x geliefert hat. Diesen Vorgang nennt man Parameteridentifikationsprozess (Regressionsprozess, Kalibrierprozess, Curve-Fit-Prozess). Er legt die Verteilung nun
auch quantitativ fest.
Es ist nicht sehr sinnvoll, den Parametervektor p1(x1; x2) zum Beispiel aus dem größten und kleinsten Merkmalswert des Datensatzes x zu bestimmen. Diese hängen zu sehr vom Zufall ab. Alle Werte des Datensatzes sollten beteiligt sein.
Im vorliegenden Fall bestimmen wir den Parametervektor pˆ 2 (μˆ x ; σˆ x ) = [μˆ x σˆ x ]T mit dem arithmetischen Mittelungswert μx und der Varianz σx2 beziehungsweise der Standardabweichung σx. Aus dem Datensatz x erhalten wir (Zusatz → Modul "Mittelung an einer Variablen"):
⎡ μˆ ⎤ ⎡
pˆ 2 (μˆ x ; σˆ x ) = ⎢ x ⎥ = ⎢
⎣ σˆ x ⎦ ⎢⎣
⎡
⎤
1 H
xh
⎢
⎥
∑
H h=1
M{x}
⎤ ⎢
⎥
⎥=⎢
⎥
M{(x − μˆ x )2 } ⎥⎦ ⎢ 1 H
2⎥
⎢
∑ (xh − μˆ x ) ⎥
H h=1
⎣⎢
⎦⎥
Damit ist die Verteilung auch quantitativ festgelegt, wenn auch nur als Schätzfunktion p̂d (x) wegen des endlichen Aufwandes (H < ∞) bei der Erhebung beziehungsweise Messung.
5
T
Jetzt können wir auch noch den Parametervektor pˆ 1(xˆ 1; xˆ 2 ) = [xˆ 1 xˆ 2 ] und damit die Höhe des Rechtecks
bestimmen.
⎡ x̂ ⎤ ⎡μˆ − 3 σˆ x ⎤
pˆ (xˆ 1; xˆ 2 ) = ⎢ 1 ⎥ = ⎢ x
⎥
1
⎣ x̂ 2 ⎦ ⎢⎣μˆ x + 3 σˆ x ⎥⎦
und die Höhe
1
1
1
=
p̂d =
3
[{x −1}]
σˆ x
xˆ 2 − xˆ 1 6
Hypothesetest – Verifikation
Die Anpassung von Daten an hypothetische Funktionen ist generell gefährlich, wenn nicht sorgfältig vorgegangen wird. Das Verfahren liefert immer irgendwelche Parameterwerte, selbst wenn die Hypothese völlig
falsch war. Es gibt nun einmal in Programmen keine eingebauten Sicherungen gegen falsche Hypothesen.
Ein Test, ob die Daten der Hypothese entsprechen könnten, sollte deswegen immer durchgeführt werden.
Der einfachste Hypothesetest ist eine grafische Darstellung der Daten, meisten in einer Form, dass eine Gerade entsteht. Im vorliegenden Fall empfiehlt sich das Histogramm selbst. Dort ist sofort erkennbar, ob die
Hypothese näherungsweise gerechtfertigt war. Im Idealfall sind alle Balken gleich hoch.
p d [{x –1 }]
d
p d (x)
p (l)
B1198
1 31
σx
6
μ x– 3 σx
μx
μ x+ 3 σ x
x
Bei einer Rechteck-Verteilung ist die Beurteilung sowieso ziemlich sicher, weil es keine ähnlichen Verteilungen gibt, die auch in Frage kämen.
Generell liegt das Problem des Hypothesetests darin, dass grafische Darstellungen von Verteilungen sehr
viele Daten benötigen, damit die Aussage des Tests einigermaßen sicher wird.
Wegen des Aufwandes wird auf den Hypothesetest häufig verzichtet, oft ohne die Konsequenzen für die
Verwendung einer allenfalls falschen Verteilung genügend abgeschätzt zu haben.
Bemerkung
Ergebnisse aus der Statistik sind wegen des begrenzten Aufwandes bei den Erhebungen beziehungsweise
Messungen immer Schätzungen!
4
Vorkommen
Es gibt einige wenige Anwendungen der Rechteck-Verteilung:
•
Spiel mit einem Würfel (diskrete Zufallsvariable) (Zusatz → Modul "Einzelwürfel")
•
Glücksräder aller Art (drehbare Zeiger), deren Kreisskala zwischen 0 und 1 oder als Winkel zwischen 0
und 2π skaliert ist (wertdiskret oder wertkontinuierlich, je nach Skalierung; im Prinzip unendlicher Wertevorrat)
•
Ausgangsdaten eines Zufallsgenerators für die Monte-Carlo-Simulation sind normalerweise gleichverteilt
•
Quantisierungsprozess im Analog-Digital-Wandler
uq [V]
Δu q
eq
ped
B0444
u [V]
e q [V]
u [V]
6
Beim Quantisierungsprozess treten gleichverteilte zufällige Quantisierungsfehler eq auf (Zusatz → Modul "Quantisierungsfehler")
•
Gleichverteilte, zufällige Messfehler (äußerst selten [1])
•
Muster einer Dreieck- oder Sägezahnschwingung, Betrachtung längs des Musters
•
Modell eines harmonischen Signals x(t) = x0 cos(2πfPt + ϕ0) mit ϕ0 als kontinuierliche, gleichverteilte Zufallsvariable mit dem Wertebereich zwischen 0 und 2π (p(0 ≤ x ≤ 2π) = 1 100%).
Zusammenfassung und Ausblick
Die Rechteck-Verteilung ist insbesondere aus didaktischen Gründen eine beliebte Verteilung, weil viele der
mathematischen Operationen einfach und die Ergebnisse nachvollziehbar bleiben. Die abgeleiteten Ergebnisse und Aussagen der Stochastik sind sicher, die Ergebnisse auf Grund von Daten sind immer Schätzungen und damit unsicher.
Die Rechteck-Verteilung wird gern als Verteilung zufälliger Messfehler ey verwendet, obwohl dies in den
meisten Fällen nicht gerechtfertigt ist. Die Einfachheit der Verteilung verleitet zu einer solchen Annahme, da
man bei einem Rechteck ohne größeren Aufwand Angaben über die Unsicherheit u des Messergebnisses
machen kann.
Falls eine gleichverteilte Zufallsvariable durch eine lineares nichtdynamisches System hindurchgeht (lineare
Transformation), wird die Ausgangszufallsvariable wieder gleichverteilt sein (Zusatz → Modul "Lineare Übertragung einer Rechteck-Verteilung").
Die lineare Überlagerung zweier gleichverteilter Zufallsvariablen ergibt keine gleichverteilte Zufallsvariable.
Durch die notwendige Faltungsoperation entstehen dreieck- oder rhombusförmige Verteilungen (Zusatz →
Modul "Faltung zweier Rechteckverteilungen").
Es gibt bivariable Gleichverteilungen (Verbundverteilung), die ebenso übersichtlich wie die monovariablen
Rechteckverteilungen sind und gern bei der Einführung in multivariable Verteilungen als Anschauungsbeispiele verwendet werden.
Referenzen
[1] Castrup, H., Distributions for Uncertainty Analysis
http://www.isgmax.com/Articles_Papers/Distributions%20for%20Uncertainty%20Analysis.pdf
Zitieren
Beziehen Sie sich auf dieses Dokument durch folgenden Zitiermodus:
Ruhm, K.H.; Rechteck-Verteilung;
Internet-Portal "Wissenschaft und Technik des Messens"; http://www.mmm.ethz.ch/bil_dok_de; Dokument: d0000408
Änderungen
Rev. Datum
Änderung
00
Erstausgabe
05.01.2005
Herunterladen