LI L ETH Zürich Institut für Mess- und Regeltechnik Wissenschaft und Technik des Messens Kontakt mit dem Autor © Copyright Mitarbeit d0000408; rev00 Modul (Vollversion, Expertenwissen (Zusatz → Kurzversion)) Rechteck-Verteilung Karl H. Ruhm Inhalt Einleitung 1 Modell in der Stochastik 2 Wahrscheinlichkeiten 3 Modell in der Statistik 4 Vorkommen Zusammenfassung und Ausblick 1 1 4 4 5 6 Schlüsselwörter Rechteck-Verteilung, Gleichverteilung, Wahrscheinlichkeit, Hypothese, Parameteridentifikation, Hypothesetest Kurzbeschreibung Die bekannte Rechteck-Verteilung beruht auf der mathematischen Rechteck-Impulsfunktion und wird für die Zwecke der Stochastik und Statistik speziell skaliert. Sie spielt allerdings nur eine beschränkte praktische Rolle. Einleitung Die Rechteck-Verteilung (Gleichverteilung; uniform distribution, rectangular distribution) ist eine Verteilung, sowohl für wertdiskrete als auch für wertkontinuierliche Zufallsvariable (Zusatz → Modul "Verteilungen"). Im vorliegenden Zusammenhang interessiert primär die zweite Variante. Man nennt solche Zufallsvariablen reckeckverteilt oder gleichverteilt. Hier folgen die Definitionsgleichungen und wichtigsten Eigenschaften. Gelegentlich wird die Rechteck-Verteilung als Verlegenheitshypothese angenommen, nur weil sie einfacher handhabbar als andere ist. Dies ist aber kein objektives Argument für ihre Wahl. Man überlege sich vor jeder Wahl dieser Hypothese, ob in der Realität wirklich keinerlei Ereignisse außerhalb der Rechteckgrenzen zu liegen kommen können und dass tatsächlich konstante Wahrscheinlichkeiten beziehungsweise Wahrscheinlichkeitsdichten typisch sind. Diese Kriterien muss man hoher Sicherheit bestätigen können, sonst sollte man die Finger von der Rechteck-Verteilung lassen [1]. 1 Modell in der Stochastik Die Rechteck-Verteilung wird grundsätzlich aus der Theorie begründet, zum Beispiel aus der Spieltheorie. Die Argumente für eine Rechteck-Verteilung sind immer ähnlich. Mathematisch handelt es sich um eine Rechteck-Impulsfunktion y = rect(x). Verschiedene Parametersätze p lassen sich aus den beidseitigen Grenzen des Intervalls eindeutig festlegen. Die Fläche A unter dem Impuls ist definitionsgemäß gleich eins. Die Form ist symmetrisch um eine Hochachse, die sich an der Stelle des arithmetischen Mittelungswertes μx der Verteilung befindet. Modellierung der Gleichungsstruktur Der qualitative Ansatz hat die Form pd(x) = f(x, p) [{x −1}] , mit p als einem Parametervektor. Wir suchen die quantitative mathematische Struktur. Unsere Hypothese sagt, dass die Verteilung eine Konstante innerhalb gegebener Grenzen der unabhängigen Variablen x ist. Wir bezeichnen die Grenzen des Intervalls mit x1 und x2. Damit ist die Wahrscheinlichkeit p, dass ein Wert in den Bereich zwischen x1 und x2 fällt, gleich eins, also sicher: p(x1 ≤ x ≤ x2) = 1 100% Die Wahrscheinlichkeit p, dass ein Wert außerhalb dieser Grenzen liegt, ist gleich Null. 2 pd [{x –1 }] p d (x) 1 x 2 – x1 x1 B0879 p = A pd = 1 [-] x2 x Annahme y(x) = rect(x) = konstant Präzisierend stellen wir fest, dass wir diese kontinuierliche, aber nichtstetige Funktion in drei Bereichen beschreiben müssen: ⎧0 ⎪ y(x) = ⎨konstant ⎪0 ⎩ für x < x1 für x1 ≤ x ≤ x 2 für x > x 2 Damit diese mathematische Funktion y(x) auch als Wahrscheinlichkeitsdichtefunktion pd(x) gelten kann, muss ihre allgemeine Struktur aber noch drei wichtigen Bedingungen entsprechen: 1. Die Fläche (Wahrscheinlichkeit) A unter der Wahrscheinlichkeitsdichtefunktion pd(x) muss immer eins sein. Sie darf keine Einheit besitzen. 2. Die Wahrscheinlichkeitsdichtefunktion pd(x) muss der Forderung nach kohärenten physikalischen Einheiten genügen. Sie muss immer die Einheit {x–1} besitzen. 3. Die Position und Ausdehnung der Verteilungsdichtefunktion pd(x) auf der Achse der unabhängigen Variablen x verlangt zwei Parameter, ein Positionsmaß und ein Streuungsmaß. Bei den so genannten Einheitsverteilungen ist das Positionsmaß grundsätzlich gleich Null und das Streuungsmaß gleich Eins. Wenn die Fläche A unter der Funktion gleich eins sein soll und die "Grundseite" des Rechtecks durch die Grenzen x1 und x2 gegeben ist, dann muss die "Höhe" die Inverse der Grundseite sein. Form 1 Die beiden ersten Bedingungen sind erfüllt. Die Bedingung für den Bereich des konstanten Werts "Höhe" legt die Lage der Wahrscheinlichkeitsdichtefunktion fest. Dies liefert die einfachste Beschreibungsart (Zusatz → Animation "Rechteck-Verteilung"). Definition: Rechteck-Verteilungsdichtefunktion für x < x1 ⎧0 ⎪ 1 für x1 ≤ x ≤ x 2 pd(x) = ⎨⎪ ⎪ x 2 − x1 ⎪⎩0 für x > x 2 [{x −1}] Form 2 In der Mathematik ist eine zweite Schreibweise üblich, bei der die Werte an den Sprungstellen als halbe Sprunghöhe gewertet werden. Dies kann bei anspruchsvollen theoretischen Aufgaben wie Transformationen hilfreich oder notwendig sein. Damit besteht die nichtstetige Rechteck-Impulsfunktion aus fünf Bestandteilen, die man jedoch in drei Zeilen anschreiben kann. Wir werden diese Schreibweise allerdings nicht weiter verfolgen. Definition: Rechteck-Verteilungsdichtefunktion ⎧ 1 ⎪x − x 1 ⎪ 2 d p (x) = ⎨ 1 1 ⎪2 x − x 2 1 ⎪ ⎩0 für x1 < x < x 2 für x = x1 und x = x 2 [{x −1}] sonst Form 3 Bei Verteilungsdichtefunktionen möchte man normalerweise nicht die allgemeinen geometrischen Parameter, sondern die gängigen Kennwerte (arithmetischer Mittelungswert μx; Standardabweichung σx) der Stochastik beziehungsweise Statistik verwenden. Also müssen wir diese für den interessierenden Verteilungstyp finden. Die Stochastik liefert folgende Werte (Zusatz → Modul "Kennwerte der Rechteck-Verteilung"): 3 Definition: Mittelungswert der Rechteck-Verteilung 1 2 μ x = (x1 + x 2 ) [{x}] Definition: Standardabweichung der Rechteck-Verteilung σx = 1 (x − x ) [{x}] 2 3 2 1 Daraus folgt für den Zusammenhang beider Parametersätze ⎡ 1 (x + x 2 ) ⎤⎥ ⎡μ x ⎤ ⎢ 2 1 ⎥ und p2 = ⎢ ⎥ = ⎢ ⎣ σx ⎦ ⎢ 1 (x − x )⎥ 1⎥ ⎢2 3 2 ⎣ ⎦ ⎡ x ⎤ ⎡μ − 3 σ x ⎤ p1 = ⎢ 1 ⎥ = ⎢ x ⎥ ⎣ x 2 ⎦ ⎣⎢μ x + 3 σx ⎦⎥ Damit kann man wie bei vielen Verteilungen allgemein schreiben: pd(x) = f(x, μ x , σx ) = rect(x, μ x , σx ) [{x −1}] Dies müssen wir noch qualitativ fassen. Der Funktionswert x der Rechteck-Verteilung hängt wegen der definierten konstanten Höhe des Rechtecks nur vom Streuungsmaß "Standardabweichung" σx und nicht vom Positionsmaß "arithmetischer Mittelungswert" μx ab. Es gilt wie immer: Je größer die Standardabweichung σx, desto breiter und flacher die Verteilung. Hingegen gehen beide Parameter in die Funktionsgrenzen ein. Damit erhalten wir als Form 3 die Beschreibungsart mit den stochastischen Kennwerten μx und σx. Definition: Rechteck-Verteilungsdichtefunktion ⎧0 ⎪ 1 1 d p (x) = ⎪⎨ 3 σx ⎪6 ⎪0 ⎩ für x < μ x − 3 σx für μ x − 3 σ x ≤ x ≤ μ x + 3 σ x [{x −1}] für x > μ x + 3 σ x p d [{x –1 }] p d (x) 2σx 1 31 σx 6 μ x– 3 σx μx B1196 A 2σ = 57.7% ! μ x+ 3 σ x x Einheitsrechteckverteilung Form 4 Bei allgemeinen Untersuchungen in der Stochastik arbeitet man gern mit Einheitsverteilungen, bei denen der arithmetische Mittelungswert μx = 0 und die Standardabweichung σx = 1 ist (Parametervektor p4(0; 1)). Diese Schreibweise ist auch hier möglich: pd(x) = f(x, 0,1) = rect(x, 0,1) [{x −1}] Definition: Einheitsrechteckverteilung ⎧0 ⎪ pd(x) = ⎪⎨ 1 3 ⎪6 ⎪⎩0 für x < − 3 [{x −1}] für − 3 ≤ x ≤ + 3 für x > + 3 p d [{x –1 }] – 3 –1 2σx A 2σ = 57.7% μ x= 0 p d (x) B1197 1 3 6 1 + 3 x Bemerkung Ergebnisse aus der Stochastik sind (mit Ausnahme der numerischen Rundungsfehler) immer sicher! 4 2 Wahrscheinlichkeiten Zwei häufige Fragen etwa in der Messfehlertheorie lauten: • Wie groß ist die Wahrscheinlichkeit p, dass ein Wert zum Beispiel in den Bereich μx – σx und μx + σx einer gegebenen symmetrischen Verteilung zu liegen kommt? Die Antwort lautet bei der RechteckVerteilung: p(xμ x −σ x ≤ x ≤ xμ x +σ x ) = Aμ x ±σ x =2 1 1 1 (x 2 − x1) = ≈ 0.577 57.7% x 2 − x1 2 3 3 Bei der Normalverteilung beträgt dieser Wert p ≈ 0.683 68.3% . Aus solchen Werten werden dann Angaben zur Messunsicherheit u abgeleitet. • In welchen Bereich einer gegebenen symmetrischen Verteilung fallen zum Beispiel 95% aller Werte? Dies ist die Umkehrung der ersten Frage. Die Antwort fällt bei der Rechteck-Verteilung leicht: xμ x − t95%σx ≤ x ≤ xμ x + t95%σx = μ x − 0.95 3 σ x ≤ x ≤ μ x + 0.95 3 σ x = μ x − 1.645 σ x ≤ x ≤ μ x + 1.645 σ x mit dem Vertrauenswert t95% = 0.95 3 ≈ 1.645 Bei der Normalverteilung beträgt der entsprechende Vertrauenswert t95% ≈ 1.96 . Bei der Rechteck-Verteilung können wir den Vertrauenswert t für verschiedene Wahrscheinlichkeiten p einfach definieren: tp% = 3 p Damit lässt sich jeder Vertrauenswert t für jede gewünschte Wahrscheinlichkeit p sofort angeben. Man beachte an dieser Stelle, dass der Vertrauenswert t bei der Normalverteilung sehr große Werte annahmen kann, da die Verteilung unbegrenzt ist. Bei der begrenzten Rechteck-Verteilung ist der Vertrauenswert t hingegen begrenzt, er liegt bei tmax = 3 ≈ 1.732 . Diese Aussagen gelten für alle Formen der RechteckVerteilung. 3 Modell in der Statistik Hypothese – Annahme der Verteilungsart Die Statistik geht von erhobenen beziehungsweise gemessenen Daten aus. Wir nehmen hier an, dass ein solcher Datensatz x vorliegt. Der wichtigste Punkt bei der empirischen Modellbildung (schließende Statistik) beziehungsweise Parameteridentifikation ist die Wahl einer Hypothese der Verteilungsart, die dem gewonnenen Datensatz x zu Grunde liegen könnte. Tatsächlich ist sie in den meisten Fällen unbekannt. Es wird hier nun angenommen, dass es gute Gründe für die Annahme einer Rechteck-Verteilung gibt. Im Verlauf der Modellbildung sollte man versuchen, weitere Indizien für oder gegen die gewählte Hypothese zu finden. Parameteridentifikation – Bestimmung der fehlenden Parameter Sobald das Modell Wahrscheinlichkeitsdichtefunktion pd(x) mit Struktur und Parametern als Hypothese qualitativ festgelegt wurde, müssen wir die Zahlenwerte des Parametervektors p für einen ganz konkreten, interessierenden Prozess bestimmen, der den Datensatz x geliefert hat. Diesen Vorgang nennt man Parameteridentifikationsprozess (Regressionsprozess, Kalibrierprozess, Curve-Fit-Prozess). Er legt die Verteilung nun auch quantitativ fest. Es ist nicht sehr sinnvoll, den Parametervektor p1(x1; x2) zum Beispiel aus dem größten und kleinsten Merkmalswert des Datensatzes x zu bestimmen. Diese hängen zu sehr vom Zufall ab. Alle Werte des Datensatzes sollten beteiligt sein. Im vorliegenden Fall bestimmen wir den Parametervektor pˆ 2 (μˆ x ; σˆ x ) = [μˆ x σˆ x ]T mit dem arithmetischen Mittelungswert μx und der Varianz σx2 beziehungsweise der Standardabweichung σx. Aus dem Datensatz x erhalten wir (Zusatz → Modul "Mittelung an einer Variablen"): ⎡ μˆ ⎤ ⎡ pˆ 2 (μˆ x ; σˆ x ) = ⎢ x ⎥ = ⎢ ⎣ σˆ x ⎦ ⎢⎣ ⎡ ⎤ 1 H xh ⎢ ⎥ ∑ H h=1 M{x} ⎤ ⎢ ⎥ ⎥=⎢ ⎥ M{(x − μˆ x )2 } ⎥⎦ ⎢ 1 H 2⎥ ⎢ ∑ (xh − μˆ x ) ⎥ H h=1 ⎣⎢ ⎦⎥ Damit ist die Verteilung auch quantitativ festgelegt, wenn auch nur als Schätzfunktion p̂d (x) wegen des endlichen Aufwandes (H < ∞) bei der Erhebung beziehungsweise Messung. 5 T Jetzt können wir auch noch den Parametervektor pˆ 1(xˆ 1; xˆ 2 ) = [xˆ 1 xˆ 2 ] und damit die Höhe des Rechtecks bestimmen. ⎡ x̂ ⎤ ⎡μˆ − 3 σˆ x ⎤ pˆ (xˆ 1; xˆ 2 ) = ⎢ 1 ⎥ = ⎢ x ⎥ 1 ⎣ x̂ 2 ⎦ ⎢⎣μˆ x + 3 σˆ x ⎥⎦ und die Höhe 1 1 1 = p̂d = 3 [{x −1}] σˆ x xˆ 2 − xˆ 1 6 Hypothesetest – Verifikation Die Anpassung von Daten an hypothetische Funktionen ist generell gefährlich, wenn nicht sorgfältig vorgegangen wird. Das Verfahren liefert immer irgendwelche Parameterwerte, selbst wenn die Hypothese völlig falsch war. Es gibt nun einmal in Programmen keine eingebauten Sicherungen gegen falsche Hypothesen. Ein Test, ob die Daten der Hypothese entsprechen könnten, sollte deswegen immer durchgeführt werden. Der einfachste Hypothesetest ist eine grafische Darstellung der Daten, meisten in einer Form, dass eine Gerade entsteht. Im vorliegenden Fall empfiehlt sich das Histogramm selbst. Dort ist sofort erkennbar, ob die Hypothese näherungsweise gerechtfertigt war. Im Idealfall sind alle Balken gleich hoch. p d [{x –1 }] d p d (x) p (l) B1198 1 31 σx 6 μ x– 3 σx μx μ x+ 3 σ x x Bei einer Rechteck-Verteilung ist die Beurteilung sowieso ziemlich sicher, weil es keine ähnlichen Verteilungen gibt, die auch in Frage kämen. Generell liegt das Problem des Hypothesetests darin, dass grafische Darstellungen von Verteilungen sehr viele Daten benötigen, damit die Aussage des Tests einigermaßen sicher wird. Wegen des Aufwandes wird auf den Hypothesetest häufig verzichtet, oft ohne die Konsequenzen für die Verwendung einer allenfalls falschen Verteilung genügend abgeschätzt zu haben. Bemerkung Ergebnisse aus der Statistik sind wegen des begrenzten Aufwandes bei den Erhebungen beziehungsweise Messungen immer Schätzungen! 4 Vorkommen Es gibt einige wenige Anwendungen der Rechteck-Verteilung: • Spiel mit einem Würfel (diskrete Zufallsvariable) (Zusatz → Modul "Einzelwürfel") • Glücksräder aller Art (drehbare Zeiger), deren Kreisskala zwischen 0 und 1 oder als Winkel zwischen 0 und 2π skaliert ist (wertdiskret oder wertkontinuierlich, je nach Skalierung; im Prinzip unendlicher Wertevorrat) • Ausgangsdaten eines Zufallsgenerators für die Monte-Carlo-Simulation sind normalerweise gleichverteilt • Quantisierungsprozess im Analog-Digital-Wandler uq [V] Δu q eq ped B0444 u [V] e q [V] u [V] 6 Beim Quantisierungsprozess treten gleichverteilte zufällige Quantisierungsfehler eq auf (Zusatz → Modul "Quantisierungsfehler") • Gleichverteilte, zufällige Messfehler (äußerst selten [1]) • Muster einer Dreieck- oder Sägezahnschwingung, Betrachtung längs des Musters • Modell eines harmonischen Signals x(t) = x0 cos(2πfPt + ϕ0) mit ϕ0 als kontinuierliche, gleichverteilte Zufallsvariable mit dem Wertebereich zwischen 0 und 2π (p(0 ≤ x ≤ 2π) = 1 100%). Zusammenfassung und Ausblick Die Rechteck-Verteilung ist insbesondere aus didaktischen Gründen eine beliebte Verteilung, weil viele der mathematischen Operationen einfach und die Ergebnisse nachvollziehbar bleiben. Die abgeleiteten Ergebnisse und Aussagen der Stochastik sind sicher, die Ergebnisse auf Grund von Daten sind immer Schätzungen und damit unsicher. Die Rechteck-Verteilung wird gern als Verteilung zufälliger Messfehler ey verwendet, obwohl dies in den meisten Fällen nicht gerechtfertigt ist. Die Einfachheit der Verteilung verleitet zu einer solchen Annahme, da man bei einem Rechteck ohne größeren Aufwand Angaben über die Unsicherheit u des Messergebnisses machen kann. Falls eine gleichverteilte Zufallsvariable durch eine lineares nichtdynamisches System hindurchgeht (lineare Transformation), wird die Ausgangszufallsvariable wieder gleichverteilt sein (Zusatz → Modul "Lineare Übertragung einer Rechteck-Verteilung"). Die lineare Überlagerung zweier gleichverteilter Zufallsvariablen ergibt keine gleichverteilte Zufallsvariable. Durch die notwendige Faltungsoperation entstehen dreieck- oder rhombusförmige Verteilungen (Zusatz → Modul "Faltung zweier Rechteckverteilungen"). Es gibt bivariable Gleichverteilungen (Verbundverteilung), die ebenso übersichtlich wie die monovariablen Rechteckverteilungen sind und gern bei der Einführung in multivariable Verteilungen als Anschauungsbeispiele verwendet werden. Referenzen [1] Castrup, H., Distributions for Uncertainty Analysis http://www.isgmax.com/Articles_Papers/Distributions%20for%20Uncertainty%20Analysis.pdf Zitieren Beziehen Sie sich auf dieses Dokument durch folgenden Zitiermodus: Ruhm, K.H.; Rechteck-Verteilung; Internet-Portal "Wissenschaft und Technik des Messens"; http://www.mmm.ethz.ch/bil_dok_de; Dokument: d0000408 Änderungen Rev. Datum Änderung 00 Erstausgabe 05.01.2005