Bert-Uwe Köhler Konzepte der statistischen Signalverarbeitung Bert-Uwe Köhler Konzepte der statistischen Signalverarbeitung Mit 61 Abbildungen 13 Dr. Bert-Uwe Köhler Siemens AG Communications WM RD SW 2 13623 Berlin [email protected] Bibliografische Information der Deutschen Bibliothek Die deutsche Bibliothek verzeichnet diese Publikation in der deutschen Nationalbibliografie; detaillierte bibliografische Daten sind im Internet über <http://dnb.ddb.de> abrufbar. ISBN 3-540-23491-8 Springer Berlin Heidelberg New York Dieses Werk ist urheberrechtlich geschützt. Die dadurch begründeten Rechte, insbesondere die der Übersetzung, des Nachdrucks, des Vortrags, der Entnahme von Abbildungen und Tabellen, der Funksendung, der Mikroverfilmung oder Verviefältigung auf anderen Wegen und der Speicherung in Datenverarbeitungsanlagen, bleiben, auch bei nur auszugsweiser Verwertung, vorbehalten. Eine Vervielfältigung dieses Werkes oder von Teilen dieses Werkes ist auch im Einzelfall nur in den Grenzen der gesetzlichen Bestimmungen des Urheberrechtsgesetzes der Bundesrepublik Deutschland vom 9. September 1965 in der jeweils geltenden Fassung zulässig. Sie ist grundsätzlich vergütungspflichtig. Zuwiderhandlungen unterliegen den Strafbestimmungen des Urheberrechtsgesetzes. Springer ist ein Unternehmen von Springer Science+Business Media springer.de © Springer-Verlag Berlin Heidelberg 2005 Printed in The Netherlands Die Wiedergabe von Gebrauchsnamen, Handelsnamen, Warenbezeichnungen usw. in diesem Buch berechtigt auch ohne besondere Kennzeichnung nicht zu der Annahme, dass solche Namen im Sinne der Warenzeichen- und Markenschutz-Gesetzgebung als frei zu betrachten wären und daher von jedermann benutzt werden dürften. Sollte in diesem Werk direkt oder indirekt auf Gesetze, Vorschriften oder Richtlinien (z.B. DIN, VDI, VDE) Bezug genommen oder aus ihnen zitiert worden sein, so kann der Verlag keine Gewähr für die Richtigkeit, Vollständigkeit oder Aktualität übernehmen. Es empfiehlt sich, gegebenenfalls für die eigenen Arbeiten die vollständigen Vorschriften oder Richtlinien in der jeweils gültigen Fassung hinzuzuziehen. Einbandgestaltung: medionet AG, Berlin Satz: Digitale Druckvorlage des Autors Herstellung: medionet AG, Berlin Gedruckt auf säurefreiem Papier 68/3020 5 4 3 2 1 0 Inhaltsverzeichnis 1 Einführung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 2 Mathematische Grundlagen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 2.1 Grundbegriffe der statistischen Signalverarbeitung . . . . . . . . . . . 3 2.1.1 Zufallsexperiment . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 2.1.2 Absolute und relative Häufigkeit . . . . . . . . . . . . . . . . . . . . 3 2.1.3 Wahrscheinlichkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 2.1.4 Zufallsvariablen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 2.1.5 Verteilungs- und Verteilungsdichtefunktion . . . . . . . . . . . 5 2.1.6 Erwartungswerte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 2.1.7 Verbunderwartungswerte . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 2.1.8 Erwartungswerte von Vektoren und Matrizen . . . . . . . . . 11 2.1.9 Momente und Kumulanten . . . . . . . . . . . . . . . . . . . . . . . . . 12 2.1.10 Stochastische Prozesse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 2.1.11 Stationarität . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 2.1.12 Transformation stochastischer Prozesse durch Nichtlinearitäten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 2.1.13 Transformation stochastischer Prozesse durch LTI-Systeme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 2.2 Matrizen und Vektoren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 2.2.1 Definition der verwendeten Matrix- und Vektorschreibweise . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 VI Inhaltsverzeichnis 2.2.2 Besondere Matrix- und Vektorstrukturen . . . . . . . . . . . . . 22 2.2.3 Grundlegende Rechenregeln für Matrizen und Vektoren 25 2.2.4 Eigenschaften von Matrizen und Vektoren . . . . . . . . . . . . 27 2.2.5 Weitere Rechenregeln und abgeleitete Größen . . . . . . . . . 28 2.2.6 Matrix- und Vektor-Normen . . . . . . . . . . . . . . . . . . . . . . . . 33 3 Optimierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 3.1 Überblick . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 3.2 Minimierung einer Funktion einer Variablen . . . . . . . . . . . . . . . . . 38 3.2.1 Problemstellung und Optimalitätsbedingungen . . . . . . . . 38 3.2.2 Nummerische Optimierungsverfahren . . . . . . . . . . . . . . . . 39 3.3 Minimierung einer Funktion mehrerer Variablen ohne Nebenbedingungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41 3.3.1 Problemstellung und Optimalitätsbedingungen . . . . . . . . 41 3.3.2 Nummerische Optimierungsverfahren . . . . . . . . . . . . . . . . 43 3.3.3 Schrittweitenbestimmung . . . . . . . . . . . . . . . . . . . . . . . . . . . 49 3.3.4 Abbruch und Re-Start . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52 3.4 Skalierungsfragen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53 3.5 Minimierung unter Gleichungsnebenbedingungen . . . . . . . . . . . . 54 3.5.1 Problemstellung und Optimalitätsbedingungen . . . . . . . . 54 3.5.2 Optimierungsalgorithmen . . . . . . . . . . . . . . . . . . . . . . . . . . . 58 3.6 Minimierung unter Gleichungs- und Ungleichungsnebenbedingungen . . . . . . . . . . . . . . . . . . . . . . . . . . . 59 3.6.1 Problemstellung und Optimalitätsbedingungen . . . . . . . . 59 3.6.2 Weitere Lösungsansätze . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60 3.7 Weitere Bemerkungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61 4 Bayes-Schätzung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63 4.1 Überblick . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63 4.2 Schätztheorie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64 4.2.1 Zielstellung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64 Inhaltsverzeichnis VII 4.2.2 Bewertungskriterien für Schätzer . . . . . . . . . . . . . . . . . . . . 65 4.2.3 Die Cramér-Rao-Schranke . . . . . . . . . . . . . . . . . . . . . . . . . . 66 4.3 Verfahren der Bayes-Schätzung . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68 4.3.1 Die Berechnung der A-posteriori-Verteilungsdichte . . . . . 68 4.3.2 Klassische Schätzverfahren im Kontext der Bayes-Schätzung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70 4.4 Die Maximum-Likelihood-Schätzung . . . . . . . . . . . . . . . . . . . . . . . 74 4.5 Der Expectation-Maximization-Algorithmus . . . . . . . . . . . . . . . . 77 4.5.1 Überblick . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77 4.5.2 Maximum-Likelihood-Schätzung mit unvollständigen Daten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77 4.5.3 Die mathematischen Grundlagen des EM-Algorithmus . 79 4.5.4 Der EM-Algorithmus am Beispiel von MOG-Modellen . . 81 5 Blinde Quellentrennung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89 5.1 Überblick . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89 5.2 Informationstheorie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90 5.3 Independent Component Analysis . . . . . . . . . . . . . . . . . . . . . . . . . 94 5.4 Kontrastfunktionen und ihre Optimierung . . . . . . . . . . . . . . . . . . 96 5.4.1 Definition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96 5.4.2 Informationstheoretische Kontrastfunktionen . . . . . . . . . . 96 5.4.3 Statistik höherer Ordnung . . . . . . . . . . . . . . . . . . . . . . . . . . 104 5.5 Der natürliche Gradient . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105 5.6 Hauptkomponentenanalyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108 5.6.1 Überlick . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108 5.6.2 Berechnung der Transformationsmatrix . . . . . . . . . . . . . . 109 5.6.3 Variablenreduktion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112 5.6.4 Pre-Whitening . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113 5.7 Blinde Quellentrennung mit Statistik zweiter Ordnung . . . . . . . 114 5.7.1 Blinde Quellentrennung mit Zeitverzögerungsverfahren . 114 5.7.2 Blinde Quellentrennung mit linearen Operatoren . . . . . . 116 5.7.3 Blinde Quellentrennung mit FIR-Filtern . . . . . . . . . . . . . . 118 5.8 Die Verbunddiagonalisierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120 VIII 6 Inhaltsverzeichnis Wiener-Filter . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125 6.1 Überblick . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125 6.2 Algorithmus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125 6.3 Orthogonalitätsprinzip . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128 6.4 Wiener-Filter im Frequenzbereich . . . . . . . . . . . . . . . . . . . . . . . . . . 131 6.5 Weitere Bemerkungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132 7 Kalman-Filter . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133 7.1 Überblick . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133 7.2 Rekursive Filterung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137 7.3 Kalman-Filter in Zustandsraum-Darstellung . . . . . . . . . . . . . . . . 141 7.3.1 Zustandsraum-Darstellung . . . . . . . . . . . . . . . . . . . . . . . . . . 141 7.3.2 Algorithmus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142 7.4 Erweiterte Kalman-Filter . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146 7.5 Implementierungsfragen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147 7.5.1 Überblick . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147 7.5.2 QR- und Cholesky-Faktorisierung . . . . . . . . . . . . . . . . . . . 148 7.5.3 Quadratwurzel-Kalman-Filterung . . . . . . . . . . . . . . . . . . . . 149 7.5.4 Householder-Reflexionen und Givens-Rotationen . . . . . . 151 8 Adaptive Filter . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157 8.1 Überblick . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157 8.2 Kostenfunktion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 160 8.3 Algorithmen mit adaptivem Gradienten . . . . . . . . . . . . . . . . . . . . 162 8.4 Konvergenzverhalten des Gradientenverfahrens . . . . . . . . . . . . . . 164 8.5 Recursive-Least-Squares-Filter . . . . . . . . . . . . . . . . . . . . . . . . . . . . 167 8.6 Blockadaptive Filter . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 170 8.6.1 Überblick . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 170 8.6.2 Block-LMS-Algorithmus . . . . . . . . . . . . . . . . . . . . . . . . . . . . 170 8.6.3 Exakter Block-LMS-Algorithmus . . . . . . . . . . . . . . . . . . . . 171 8.6.4 Blockadaptive Verfahren im Vergleich . . . . . . . . . . . . . . . . 176 Inhaltsverzeichnis 9 IX Blinde Entfaltung und Entzerrung . . . . . . . . . . . . . . . . . . . . . . . . . 177 9.1 Überblick . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 177 9.2 Bussgang-Verfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 179 9.2.1 Bussgang-Entzerrung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 179 9.2.2 Bussgang-Entfaltung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 181 9.2.3 Der gedächtnislose Schätzer als Nichtlinearität . . . . . . . . 181 9.2.4 Konvergenz von Bussgang-Entzerrern . . . . . . . . . . . . . . . . 184 9.3 Kumulantenbasierte Entfaltungsalgorithmen . . . . . . . . . . . . . . . . 184 9.3.1 Kostenfunktion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 184 9.3.2 Optimierung der Kostenfunktion . . . . . . . . . . . . . . . . . . . . 186 10 Nichtlineare Filterung mit künstlichen neuronalen Netzen . 189 10.1 Nichtlineare Filterung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 189 10.2 Das Multilagen-Perzeptron . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 190 10.2.1 Aufbau . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 190 10.2.2 Training der Verbindungsgewichte . . . . . . . . . . . . . . . . . . . 192 10.2.3 Netzwerk-Komplexität . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 195 10.3 Filteranwendungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 196 10.4 Weitere Bemerkungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 197 11 Sprachverbesserungssysteme mit spektraler Subtraktion . . . 199 11.1 Überblick . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 199 11.2 Prinzip der spektralen Subtraktion . . . . . . . . . . . . . . . . . . . . . . . . 200 11.3 Transformation in den Frequenzbereich . . . . . . . . . . . . . . . . . . . . . 202 11.4 Algorithmen der spektralen Subtraktion . . . . . . . . . . . . . . . . . . . . 203 11.4.1 Amplituden- und Spektralsubtraktion . . . . . . . . . . . . . . . . 203 11.4.2 Wiener-Filter . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 205 11.4.3 Maximum-Likelihood-Spektralsubtraktion . . . . . . . . . . . . 205 11.4.4 Ephraim-Malah-Filter . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 207 11.5 Algorithmische Erweiterungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 207 11.5.1 Probleme der spektralen Subtraktion . . . . . . . . . . . . . . . . 207 X Inhaltsverzeichnis 11.5.2 Schätzung des Rauschspektrums . . . . . . . . . . . . . . . . . . . . 208 11.5.3 Spektrogramm-Filterung . . . . . . . . . . . . . . . . . . . . . . . . . . . 209 11.5.4 Nachverarbeitung zur Entfernung des Musical Noise . . . 209 11.6 Sprachpausenerkennung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 210 11.7 Das Ephraim-Malah-Filter . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 211 11.7.1 Überblick . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 211 11.7.2 Algorithmus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 211 11.7.3 Interpretation der Funktionsweise . . . . . . . . . . . . . . . . . . . 214 Literaturverzeichnis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 217 Index . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 225 1 Einführung Das Gebiet der Signalverarbeitung umfasst eine breite Vielfalt von Verfahren zur Bearbeitung und Manipulation analoger und digitaler Signale. Zu den Aufgaben der Signalverarbeitung zählt unter anderem die anwendungsspezifische Umkodierung der im Signal enthaltenen Information sowie deren Extraktion, die Unterdrückung von störenden oder irrelvanten Signalanteilen, die Signalgenerierung und die Ereigniserkennung. Statistische Signalverarbeitung zeichnet sich in diesem Kontext durch die verstärkte Nutzung statistischer Methoden aus. Die Beispiele möglicher Anwendungsgebiete zeigen, welchen Stellenwert die Signalverarbeitung besitzt und wie weit der Alltag inzwischen von ihr durchdrungen ist [83]: • Luft- und Raumfahrt: Erdfernerkundung, Wettervorhersage, Satellitenphotographie, Datenkompression, Datenanalyse • Telekommunikation: Sprach- und Videokompression, Echoreduktion, Filterung, Entzerrung, Kodierung • Medizintechnik: Computertomographie, Magnetresonanztomographie, Ultraschall, computerassistierte Chirurgie, Datenanalyse • Multimedia: Spracherkennung, Videokonferenzen, Musik- und Videoerzeugung und -bearbeitung • Militärtechnik: Radar, Sonar, Abhörtechnik, Data Mining • Industrielle Anwendungen: CAD, zerstörungsfreies Testen • Verkehrstechnik: Navigation, Regelungen, Steuerungen • Geologie und Seismologie: Rohstofferkundung (Öl, Erze), Erdbebenvorhersage, Simulation, Modellierung 2 1 Einführung Die Signalverarbeitung kann aufgrund der Vielfalt möglicher Anwendungen nicht als einzeln stehendes Fachgebiet betrachtet werden. Vielmehr stellt sie Werkzeuge zur Verfügung, mit denen anwendungsspezifische Problemstellungen bearbeitet werden können. Dabei gibt es große Überschneidungen mit Methoden anderer Forschungsbereiche wie unter anderem der nummerischen Mathematik, der Statistik und Wahrscheinlichkeitsrechnung, der Entscheidungstheorie oder dem Maschinenlernen. Die Verarbeitung analoger und digitaler Signale verfügt über eine lange Geschichte. Die breite Einführung der Signalverarbeitung in die Technik begann jedoch vor allem mit der Entwicklung von Radar1 und Sonar2 in der Mitte des zwanzigsten Jahrhunderts. Seit dieser Zeit wurden in den Ingenieurwissenschaften immer weitere Einsatzgebiete für die Signalverarbeitung erobert. Die Entdeckung schneller Algorithmen zur Fourieranalyse 1965 und die Entwicklung der Mikroelektronik ebneten den Weg für die Erschließung bis dahin ungeahnter Anwendungsmöglichkeiten. Deren schnelles Entstehen beflügelte im Gegenzug die Entwicklung der Signalverarbeitung selbst, so dass viele neue Algorithmen und Verfahren und sogar neue Forschungsgebiete hervorgebracht wurden. Das vorliegende Buch beschäftigt sich vorrangig mit zwei Teilgebieten der statistischen Signalverarbeitung: der Datenanalyse und der digitalen Filterung. Die Datenanalyse beinhaltet die Suche nach interessanten Strukturen innerhalb der Daten sowie die Erfassung und den Vergleich ihrer Eigenschaften. Die digitale Filterung dient der Veränderung von Signalen mit dem Ziel einer anderen Darstellung der im Signal enthaltenen Information beispielsweise durch die Entfernung bestimmter Frequenzanteile oder Signalkomponenten. Obwohl die Methoden im vorliegenden Buch getrennt voneinander erläutert werden, sind sie doch eng miteinander verflochten. Oftmals ist es nur eine Frage der Interpretation, in welches Teilgebiet der Signalverarbeitung eine Methode einzuordnen ist. Die Zielsetzung dieses Buches besteht in der Vermittlung der konzeptionellen Ideen für die Funktionsweise der beschriebenen Signalverarbeitungsverfahren. Aus diesem Grunde wird auf mathematische Rigorosität häufig verzichtet, nicht jedoch auf für das Verstehen notwendige Herleitungen und Rechenschritte. Bewusst wird neben der Rechnung auch Wert auf die Interpretation der Vorgehensweise gelegt. Die Bearbeitung der verschiedenen Kapitel kann mit Ausnahme der Kapitel zwei bis vier, die die Grundlagen für alle weiteren Kapitel zur Verfügung stellen, unabhängig von der im Buch gewählten Reihenfolge vorgenommen werden. 1 2 RADAR: RAdio Detection And Ranging SONAR: SOund NAvigation and Ranging 2 Mathematische Grundlagen 2.1 Grundbegriffe der statistischen Signalverarbeitung 2.1.1 Zufallsexperiment Ein Zufallsexperiment ist ein Experiment, das folgenden drei Bedingungen genügt [33]: • Alle möglichen Ergebnisse1 des Experimentes sind im Voraus bekannt. • Das Ergebnis eines konkreten Versuches ist im Voraus nicht bekannt. • Das Experiment kann unter identischen Bedingungen wiederholt werden. Der Begriff des Zufallsexperiments bildet die Grundlage aller in den weiteren Abschnitten folgenden Definitionen. 2.1.2 Absolute und relative Häufigkeit Bei N -maliger Durchführung des Zufallsexperimentes tritt das Ereignis A ∈ Ω insgesamt N (A) mal auf. N (A) wird auch als absolute Häufigkeit bezeichnet, also die absolute Anzahl des Auftretens des jeweiligen Ereignisses. Die relative Häufigkeit gibt die absolute Häufigkeit bezogen auf die Gesamtanzahl aller aufgetretenen Ereignisse an N (A) . (2.1) N Die Darstellung der absoluten bzw. der relativen Häufigkeiten in Abhängigkeit von den Ereignissen wird als absolute bzw. relative Häufigkeitsverteilung bezeichnet. P̂ (A) = 1 Ein Ergebnis wird auch als Ereignis bezeichnet. Die Gesamtheit aller Ergebnisse bildet den Ergebnisraum Ω. 4 2 Mathematische Grundlagen 2.1.3 Wahrscheinlichkeit Aus der relativen Häufigkeit ergibt sich mit N → ∞ die Wahrscheinlichkeit des Ereignisses A N (A) . (2.2) P (A) = lim N →∞ N Aus Gleichung 2.2 wird unmittelbar klar, dass die Summe der Ereigniswahrscheinlichkeiten eines Zufallsexperimentes den Wert 1 ergibt. Die Darstellung der Ereigniswahrscheinlichkeiten eines Zufallsexperimentes erfolgt mit der diskreten Wahrscheinlichkeitsverteilung, die mit wachsendem N aus der relativen Häufigkeitsverteilung hervorgeht. Die Wahrscheinlichkeit des gemeinsamen Auftretens mehrerer beobachteter Ereignisse A, B, C, . . . wird durch die Verbundwahrscheinlichkeit P (A, B, C, . . .) erfasst. Sind die Ereignisse voneinander unabhängig, ist die Verbundwahrscheinlichkeit das Produkt der Einzelwahrscheinlichkeiten. Zum Beispiel erhält man für zwei unabhängige Ereignisse A und B P (A, B) = P (A) · P (B). (2.3) Verbundwahrscheinlichkeiten, die dem gemeinsamen Aufreten von Ereignissen zugeordnet sind, können zusammen in einer diskreten Verbundwahrscheinlichkeitsverteilung dargestellt werden. 2.1.4 Zufallsvariablen Eine Zufallsvariable x ist eine Funktion, die den Ergebnisraum des Zufallsexperimentes Ω auf den Bereich der rellen Zahlen R abbildet2 x : Ω → R. (2.4) Diese Abbildung ist äußerst sinnvoll, da durch die Abbildung der Ereignisse auf Zahlenwerte die Nutzung vieler mathematischer Methoden erst ermöglicht wird. Zufallsvariablen können diskret3 oder kontinuierlich4 sein. Von vektoriellen Zufallsvariablen spricht man, wenn die Elemente eines Vektors Zufallsvariablen sind. So können zum Beispiel die Zufallsvariablen x1 , x2 , . . . , xN zu dem Zufallsvektor x = [x1 , x2 , . . . , xN ]T zusammengestellt werden. 2 3 4 Sowohl Zufallsvariablen als auch ihr Wert werden bevorzugt mit kleinen lateinischen Buchstaben notiert. In einigen Fällen ist jedoch eine Unterscheidung zwischen der Zufallsvariable selbst und ihrem Wert notwendig. Dann wird die Zufallsvariable mit einem Großbuchstaben, z.B. X, und der Wert der Zufallsvariable mit einem Kleinbuchstaben, z.B. x, gekennzeichnet. Die Werte der Zufallsvariablen sind diskrete Punkte in R. Die Werte der Zufallsvariablen stammen aus einem Intervall oder mehreren Intervallen in R. 2.1 Grundbegriffe der statistischen Signalverarbeitung 5 2.1.5 Verteilungs- und Verteilungsdichtefunktion Die Verteilungsfunktion FX (x) gibt die Wahrscheinlichkeit P an, mit der die Zufallsvariable X kleiner oder gleich dem konkreten Wert x ist FX (x) = P (X ≤ x). (2.5) Die Wahrscheinlichkeit, dass die Zufallsvariable X Werte aus dem Intervall (x, x + x] annimmt, ist somit P (x < X ≤ x + x) = FX (x + x) − FX (x). (2.6) Der Zusammenhang zwischen der Verteilungsfunktion und der Verteilungsdichtefunktion einer kontinuierlichen Zufallsvariable ergibt sich aus der Normierung von Gleichung 2.6 auf die Länge des Intervalls x, d.h. x 1 x x 1 FX x + = <X ≤x+ P x− 2 x 2 2 x x . (2.7) −FX x − 2 Geht die Intervalllänge x gegen Null, erhält man die Verteilungsdichtefunktion als Ableitung der Verteilungsfunktion5 x x 1 − FX x − FX x + x→0 x 2 2 (2.8) dFX (x) . dx (2.9) fX (x) = lim = Die Aufenthaltswahrscheinlichkeit Pi der Zufallsvariable X im Intervall (xi , xi + x] ist analog zu Gleichung 2.66 x i +x fX (x)dx ≈ fX (xi )· x. Pi = (2.10) xi Erweitert man den Integrationsbereich auf den gesamten Definitionsbereich von x bzw. allgemein (−∞, ∞), erhält man ∞ fX (x)dx = 1. −∞ 5 6 bei vorausgesetzter Differenzierbarkeit für genügend kleine x und gutartige Verteilungsdichten fX (x) (2.11) 6 2 Mathematische Grundlagen In der statistischen Signalverarbeitung findet eine große Anzahl von Verteilungsdichten Verwendung. Wichtige Verteilungsdichten sind: • eindimensionale Gaußverteilungsdichte fX (x) = √ • 1 (x − µx )2 1 exp − σx2 2 2πσx multivariate Gaußverteilungsdichte 1 1 T −1 exp − (x − µx ) R (x − µx ) fX (x) = 2 (2π)N/2 det(R)1/2 (2.12) (2.13) mit µx = E[x] als vektorieller Mittelwert, N als Dimension von x und R = E[(x − µx )(x − µx )T ] als Kovarianzmatrix (siehe Abschnitt 2.1.7) • Exponential-Verteilungsdichte 0 für x < 0 fX (x) = λ exp[−λx] für x ≥ 0 (2.14) mit λ > 0 • Gleichverteilungsdichte fX (x) = • 1/(b − a) x ∈ [a, b] 0 sonst (2.15) |x − α| 1 exp − β 2β (2.16) Laplace-Verteilungsdichte fX (x) = mit β > 0 • Gamma-Verteilungsdichte ⎧ ⎨0 für x ≤ 0 αr r−1 fX (x) = x exp[−αx] für x > 0 ⎩ Γ (r) (2.17) mit Γ (·) als Gamma-Funktion, α > 0 und r > 0 • Rayleigh-Verteilungsdichte ⎧ für x < 0 ⎪ ⎨0 2 x 1 x fX (x) = für x ≥ 0 ⎪ ⎩ β 2 exp − 2 β mit β > 0. (2.18) 2.1 Grundbegriffe der statistischen Signalverarbeitung 7 Abb. 2.1. Beispiele für Verteilungsdichtefunktionen (qualitative Darstellung): Eindimensionale Gaußverteilungsdichte (oben links), multivariate Gaußverteilungsdichte (oben rechts), Exponentialverteilungsdichte (mitte links), LaplaceVerteilungsdichte (mitte rechts), Gamma-Verteilungsdichte (unten links) und Rayleigh-Verteilungsdichte (unten rechts) Eine Auswahl der beschriebenen Verteilungsdichten ist in Abbildung 2.1 dargestellt. Analog zum diskreten Fall7 beschreiben Verbundverteilungsdichten die gemeinsame Statistik mehrerer kontinuierlicher Zufallsvariablen. Die Verbundverteilungsdichte zweier Zufallsvariablen X und Y wird beispielsweise mit fXY (x, y) notiert. Ist man an der Verteilungsdichte nur einer oder eines Teils der beteiligten Zufallsvariablen interessiert, kann man diese per Integration 7 siehe Abschnitt 2.1.3 8 2 Mathematische Grundlagen berechnen8 ; z.B. für die Zufallsvariable X mit ∞ fX (x) = fXY (x, y)dy. (2.19) −∞ Die Verbundverteilungsdichte statistisch unabhängiger Zufallsvariablen ergibt sich aus dem Produkt der zugehörigen Randdichten. Zum Beispiel gilt für die Verteilungsdichten der statistisch unabhängigen Zufallsvariablen X und Y fXY (x, y) = fX (x) · fY (y). (2.20) 2.1.6 Erwartungswerte Die Definition des Erwartungswertes lehnt sich an den im Alltag üblichen Begriff des Durchschnitts an. Dazu zunächst ein einfaches Beispiel. Beispiel 2.1. Bekanntermaßen wird der Notendurchschnitt bei einer Klausur mit der Summe aller Einzelnoten geteilt durch die Anzahl der Klausurteilnehmer gebildet. Die fünf Teilnehmer einer Klausur haben die Noten 1, 2, 1, 3 und 5 erhalten. Der Durchschnitt ergibt sich dementsprechend mit µ̂ = 12 (1 + 2 + 1 + 3 + 5) = 2, 4. = 5 5 (2.21) Die absoluten und relativen Häufigkeiten sind in Tabelle 2.1 aufgeführt. Die entsprechenden Häufigkeitsverteilungen zeigt Abbildung 2.2. Note xi absolute Häufigkeit N (A) relative Häufigkeit P̂i 1 2 3 4 5 2 1 1 0 1 0,4 0,2 0,2 0,0 0,2 Tabelle 2.1. Absolute und relative Häufigkeiten in Beispiel 2.1 Für den Durchschnitt bzw. Mittelwert ergibt sich unter Verwendung von absoluten und relativen Häufigkeiten 8 Die berechnete Verteilungsdichte wird in diesem Zusammenhang als Randdichteverteilung bezeichnet. 2.1 Grundbegriffe der statistischen Signalverarbeitung 9 Abb. 2.2. Absolute Häufigkeitsverteilung (links) und relative Häufigkeitsverteilung (rechts) für Beispiel 2.1 (2 · 1 + 1 · 2 + 1 · 3 + 0 · 4 + 1 · 5) 5 1 0 1 1 2 = ·1+ ·2+ ·3+ ·4+ ·5 5 5 5 5 5 = P̂ (1) · 1 + P̂ (2) · 2 + P̂ (3) · 3 + P̂ (4) · 4 + P̂ (5) · 5. µ̂ = (2.22) Eine verallgemeinerte Darstellung von Gleichung 2.22 erhält man mit µ̂ = 5 P̂ (xi ) · xi , (2.23) i=1 wobei P̂ (xi ) die relative Häufigkeit des Wertes xi der Zufallsvariable X (Abbildung des Ergebnisraumes Ω = {1, 2, 3, 4, 5} des Zufallsexperimentes auf die Realachse R) symbolisiert. Für eine große Anzahl von Wiederholungen des Zufallsexperimentes9,10 geht die relative Häufigkeit P̂ (xi ) in die Auftretenswahrscheinlichkeit P (xi ) über. Damit wird für diskrete Zufallsvariablen der Erwartungswert definiert P (xi ) · xi . (2.24) E[x] = µ = ∀i Erwartungswerte von Funktionen g(·), die von einer diskreten Zufallsvariable x abhängen, werden mit P (xi ) · g(xi ) (2.25) E[g(x)] = ∀i berechnet. Den Erwartungswert einer kontinuierlichen Zufallsvariablen erhält man ausgehend von den Berechnungen für diskrete Zufallsvariablen und infinitesimal kleine x mit 9 10 genauer: für N → ∞ Im Beispiel 2.1 entspricht dies einer hohen Teilnehmerzahl N . 10 2 Mathematische Grundlagen µ≈ ∀i ∞ xi fX (xi )· x −−−−→ x→0 xfX (x)dx = E[x] = µ. (2.26) −∞ Analog zum diskreten Fall ist der Erwartungswert für Funktionen g(x) gegeben mit ∞ E[g(x)] = g(x)fX (x)dx. (2.27) −∞ 2.1.7 Verbunderwartungswerte Verbunderwartungswerte werden auf der Basis von diskreten Verbundverteilungen bzw. Verbundverteilungsdichten gebildet. Für den diskreten zweidimensionalen Fall erhält man zum Beispiel g(xi , yj )P (xi , yj ), (2.28) E[g(x, y)] = i j mit g(·) als Funktion von x und y. Für kontinuierliche Zufallsvariablen gilt ∞ ∞ E[g(x, y)] = g(x, y)fXY (x, y)dxdy. (2.29) −∞ −∞ Die Autokorrelationsfunktion Rxx (t, τ ) ist ein Spezialfall von Gleichung 2.29. Sie ist mit11 ∞ ∞ Rxx (t, τ ) = x(t)x(t + τ )f [x(t), x(t + τ )]dxt dxt+τ (2.30) −∞ −∞ = E[x(t)x(t + τ )] (2.31) definiert und liefert ein Maß für die Selbstähnlichkeit von x(t), d.h. die statistischen Gemeinsamkeiten zwischen dem Signal x zum Zeitpunkt t und dem gleichen Signal x zu einem anderen Zeitpunkt t + τ . Beispiel 2.2. Im Falle der statistischen Unabhängigkeit zwischen x(t) und x(t + τ ) ergibt sich für die Autokorrelationsfunktion ∞ ∞ Rxx (t, τ ) = x(t)x(t + τ )f [x(t), x(t + τ )]dxt dxt+τ (2.32) −∞ −∞ ∞ ∞ x(t)x(t + τ )f [x(t)]f [x(t + τ )]dxt dxt+τ = (2.33) −∞ −∞ = E[x(t)]E[x(t + τ )]. 11 (2.34) Aus Übersichtlichkeitsgründen wird im Folgenden bei den Verteilungsdichten auf den Index verzichtet, d.h. f [x(t), x(t + τ )] = fX(t)X(t+τ ) [x(t), x(t + τ )]. 2.1 Grundbegriffe der statistischen Signalverarbeitung 11 Bei Mittelwertfreiheit, d.h. E[x(t)] = 0 und/oder E[x(t+τ )] = 0, verschwindet die Autokorrelationsfunktion in Gleichung 2.34. Sind jedoch x(t) und x(t + τ ) vollständig voneinander abhängig, d.h. x(t) = x(t + τ ), dann bekommt man ∞ ∞ Rxx (t, τ ) = −∞ −∞ ∞ ∞ = x(t)x(t + τ )f [x(t), x(t + τ )]dxt dxt+τ (2.35) x2 (t)f [x(t), x(t + τ )]dxt dxt+τ (2.36) −∞ −∞ ∞ x2 (t)dxt = E[x2 (t)]. = (2.37) −∞ In diesem Fall entspricht der Wert der Autokorrelationsfunktion der Signalleistung von x. Im Gegensatz zur Autokorrelationsfunktion quantifiziert die Kovarianzfunktion die Gemeinsamkeiten zweier Zufallsvariablen x(t) und y(t) mit CXY (t, τ ) = E [{x(t) − µx (t)} · {y(t + τ ) − µy (t + τ )}] , (2.38) wobei µx und µy die Erwartungswerte von x bzw. y bezeichnen. Im Falle ergodischer Prozesse (siehe Abschnitt 2.1.10) können Autokorrelations- und Kovarianzfunktion mit ∞ Rxx (τ ) = x(t)x(t + τ )dt = x(τ ) ∗ x(−τ ) bzw. (2.39) [x(t) − µx ][y(t + τ ) − µy ]dt (2.40) −∞ ∞ CXY (τ ) = −∞ berechnet werden. 2.1.8 Erwartungswerte von Vektoren und Matrizen Der Erwartungswert einer vektoriellen Zufallsvariable x = [x1 , x2 , . . . , xN ]T ist definiert mit ⎛ ⎞ E[x1 ] ⎜ E[x2 ] ⎟ ⎜ ⎟ (2.41) E[x] = µx = ⎜ . ⎟ . ⎝ .. ⎠ E[xN ]