6 Inhalt 2 Teil I: Theoretische Grundlagen Inhalt 3 Inhalt Teil I: Theoretische Grundlagen............................................................................ 2 Inhalt........................................................................................................................ 3 2 Vorbemerkungen......................................................................................... 5 3 3.1 3.2 3.3 3.4 3.5 3.6 Grundlegende Begriffe und Zusammenhänge ......................................... 9 Statistik als Entscheidungshilfe .................................................................... 9 Statistische Einheiten.................................................................................... 9 Merkmale, Merkmalsausprägungen und ihre Skalierung ........................... 10 Empirische Verteilungen............................................................................. 13 Häufigkeiten ............................................................................................... 14 Statistische Analysemethoden..................................................................... 17 4 Beschreibung und Analyse von Daten..................................................... 19 4.1 Mittelwerte: Wohin tendiert eine Verteilung? ............................................. 20 4.2 Streuungsmaße: Wie variabel ist eine Verteilung?...................................... 25 4.3 Konzentrationsmaße: Auf wieviele Merkmalsträger konzentriert sich eine Verteilung?.............................................................................................................. 32 4.4 Korrelationsmaße: Wie gleichgerichtet sind zwei verschiedene Verteilungen? .......................................................................................................... 38 5 5.1 5.2 5.3 5.4 5.5 5.6 5.7 5.8 Grundlagen der Wahrscheinlichkeitstheorie.......................................... 43 Ereignisse und ihre Verknüpfungen ............................................................ 43 Zufallsexperimente, Ergebnis- und Ereignisräume..................................... 45 Die verschiedenen Wahrscheinlichkeitskonzeptionen ................................ 48 Bedingte Wahrscheinlichkeiten................................................................... 56 Regeln für das Rechnen mit Wahrscheinlichkeiten .................................... 60 Wichtige Spezialfälle: Unabhängigkeit und Disjunktheit von Ereignissen 63 Der Satz von der totalen Wahrscheinlichkeit .............................................. 64 Der Satz von Bayes..................................................................................... 65 4 5.9 Inhalt Kombinatorik.............................................................................................. 68 TEIL II: Statistikanwendungenmit Excel........................................................... 79 1 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 Grundlagen von Excel .............................................................................. 81 Einführung .................................................................................................. 81 Grundelemente............................................................................................ 82 Eingabe und Bearbeitung von Daten .......................................................... 83 Aufbereitung von Daten.............................................................................. 88 Integrierte Funktionen................................................................................. 89 Online-Hilfesysteme ................................................................................... 91 Aufgaben zu Kapitel 1 ................................................................................ 95 Lösungsvorschläge zu Kapitel 1.7 .............................................................. 96 2 2.1 2.2 2.3 2.4 2.5 2.6 2.7 2.8 Beschreibung und Analyse von Daten..................................................... 99 Einführung .................................................................................................. 99 Häufigkeiten ............................................................................................. 101 Mittelwerte................................................................................................ 107 Streuungsmaße.......................................................................................... 110 Konzentrationsmaße ................................................................................. 114 Korrelationsmaße...................................................................................... 117 Aufgaben zu Kapitel 2 .............................................................................. 119 Lösungsvorschläge zu Kapitel 2.7 ............................................................ 123 Wahrscheinlichkeitsrechnung............................................................................ 129 3.1 Einführung ................................................................................................ 129 3.2 Zufallsexperimente ................................................................................... 129 3.3 Kombinatorik............................................................................................ 130 3.4 Aufgaben zu Kapitel 3 .............................................................................. 132 3.5 Lösungsvorschläge zu Kapitel 3.4 ............................................................ 133 4 4.1 4.2 4.3 4.4 4.5 Grafische Präsentation von Daten......................................................... 135 Einführung ................................................................................................ 135 Diagrammerstellung ................................................................................. 138 Statistische Anwendungen ........................................................................ 140 Aufgaben zu Kapitel 4 .............................................................................. 154 Lösungsvorschläge zu Kapitel 4.4 ............................................................ 155 5 Literatur .................................................................................................. 161 1 Vorbemerkungen Der vorliegende erste Band der insgesamt zweibändigen „anwendungsorientierten Statistik mit Excel“ wendet sich vor allem an Studierende der Hochschulen mit Statistik im Haupt- oder Nebenfach. Aufgrund seiner stark inhaltlichen Ausrichtung ist es darüberhinaus aber auch für einen Leserkreis geeignet, der sich – sei es aus beruflicher Notwendigkeit, sei es „nur“ um sich weiterzubilden – die grundlegenden statistischen Konzepte im Selbststudium erarbeiten möchte. Leser, welche sich einen weitgehend formalen Stoff aneignen wollen (oder müssen), benötigen in der Regel eine Hilfestellung, um sich die Inhalte erarbeiten zu können. Aus diesem Grund haben wir uns entschlossen, unser Werk so zu gestalten, daß die Arbeit mit ihm zugleich eine sinnvolle Übung am Tabellenkalkulationsprogramm MS-Excel sein kann. Die statistischen Funktionen dieses Programmes sind mittlerweile so ausgefeilt, daß auch anspruchsvolle Analysen möglich sind. Spezielle Statistikprogramme, die noch vor ein paar Jahren unverzichtbar waren, erübrigen sich daher weitgehend. Die Excel-Anwendungen sind jeweils in einem separaten Teil II zusammengefaßt. Auf diese Weise bleibt der Charakter von Teil I als eine überschaubare Darstellung der wichtigsten statistischen Grundlagen erhalten. Teil I gliedert sich in insgesamt drei Abschnitte. Im ersten werden grundlegende statistische Begriffe vorgestellt, wogegen im zweiten Abschnitt die wichtigsten Bestandteile dessen behandelt werden, was man üblicherweise als deskriptive Statistik bezeichnet. Spätestens in diesem Abschnitt wird der Leser ein entscheidendes Charakteristikum unseres Buches bemerken, nämlich die konsequente Konzentration auf grundlegende statistische Konzeptionen und ihre ausführliche Darstellung. Nach unserer Erfahrung ist es gerade für das inhaltliche Verständnis von großer Bedeutung, die Grundlagenkonzepte – auch wenn sie dem Kenner trivial erscheinen mögen – in aller Ausführlichkeit und vor allem anhand einer Vielzahl von Beispielen zu erläutern. Abschnitt 3, welcher den theoretischen Teil abschließt, befaßt sich mit der Wahrscheinlichkeitstheorie. Auch hier war es unser Ziel, das Buch so zu gestalten, daß vor allem das Verständnis für die manchmal auch gegen die Intuition gehenden wahrscheinlichkeitstheoretischen Konzepte gefördert wird. Die konsequente Ausrichtung eines Buches an der Vermittlung von inhaltlichem Verständnis führt nur dann zum Ziel, wenn es lesbar geschrieben ist. Dies wieder- 6 6 1 Vorbemerkungen um erfordert es, den statistischen Formalismus möglichst gering zu halten. Wenngleich wir alles andere als Gegner formaler Darstellungen sind, haben wir uns bei der Verfassung des vorliegenden Werkes doch sehr zurückgehalten. Wann immer wir uns zwischen formal-exakter Darstellung und besserer Lesbarkeit entscheiden mußten, haben wir letzterem den Vorrang gegeben. Leser, welche vorliegendes Werk mit anderen Statistik-Lehrbüchern vergleichen, werden bemerken, daß unser Buch mit sehr viel Mut zur Lücke verfaßt wurde. Wir sind der Überzeugung, daß es im Rahmen eines einführenden Lehrbuches nicht erforderlich ist, sämtliche Aspekte der an den Hochschulen gelehrten Statistik darzustellen. Wichtiger als ein inhaltlich umfassender Statistik-Wälzer erschien uns eine Darstellung, die nicht zu viele Inhalte transportiert, diese dafür aber ausführlich. Um das Buch nicht zu umfangreich werden zu lassen, mußten wir daher zwangsläufig den bereits erwähnten sprichwörtlichen Mut zur Lücke unter Beweis stellen. Anschließend erscheint uns ein Wort zur „Formeldichte“ in unserem Lehrbuch angebracht. Obgleich es durchaus möglich ist, auch ein Statistikbuch völlig ohne Formeln zu schreiben, halten wir dies nicht für sinnvoll. So schwer nachvollziehbar dies gerade für den Anfänger sein mag: Formeln sind keine Schikane, sondern sie erleichtern das Verständnis eines statistischen Zusammenhanges! Dies allerdings nur, wenn man sich ihnen wie folgt nähert: • Zunächst muß sichergestellt werden, daß über die Bedeutung jedes einzelnen Symboles einer Formel vollständige Klarheit herrscht. • Erst wenn dies geleistet ist, kann man sich an die eigentliche Aussage der Formel heranwagen. Machen Sie sich hierbei klar, was die Formel inhaltlich bedeutet. Entscheidend ist: Sie müssen in der Lage sein, ein eigenes Beispiel zu konstruieren, das den durch die Formel beschriebenen Zusammenhang illustriert. Nur wenn diese beiden Voraussetzungen erfüllt sind, können Sie davon ausgehen, einen formalen Ausdruck wirklich verstanden zu haben. Strenggenommen dürften Sie erst dann weiterlesen. Wenn statistische Formeln in der beschriebenen Weise gehandhabt werden, liefern sie eine wertvolle Möglichkeit der Verständniskontrolle, die ein rein verbaler Text nicht ohne weiteres gewährleistet. Abschließend eine letzte Bemerkung zu Excel: Die Funktionalität dieses Tabellenkalkulationsprogrammes erlaubt es, Berechungen und grafische Darstellungen statistischer Probleme vergleichsweise einfach und – auch bei großen Datenmengen – schnell erstellen zu können. Der Leser sei jedoch davor gewarnt, die Ergebnisse kritiklos zu akzeptieren, denn eine fehlerhafte Eingabe oder die Auswahl einer unzutreffenden Funktion kann sehr leicht zu fehlerhaften und unsinnigen Resultaten führen. Grundsätzlich sollte jedes Ergebnis daraufhin überprüft werden, ob es logisch überhaupt möglich und vor allem, ob es sinnvoll ist. Dies setzt natürlich über die rein rechentechnischen Fertigkeiten hinaus ein inhaltliches Verständnis der 1 Vorbemerkungen 7 verwendeten statistischen Konzepte voraus. Dieses Verständnis zu vermitteln, ist das Hauptanliegen des vorliegenden Werkes. 2 Grundlegende Begriffe und Zusammenhänge 2.1 Statistik als Entscheidungshilfe Der Hauptzweck statistischer Arbeit besteht in der Entscheidungsunterstützung in einem durch Unsicherheit geprägten Umfeld. Die Unsicherheit wird durch die Statistik nicht aus der Welt geschafft, zumindest jedoch in einem begrenzten Umfang kalkulierbar gemacht. Es gibt zwei Arten von Unsicherheiten, welche mittels statistischer Methoden bewältigt werden können, die Datenunsicherheit und die Entscheidungsunsicherheit. Erstere wird durch den schönen Satz deutlich, wonach das Meer der Daten stumm sei. Eine Aufgabe der Statistik besteht demnach darin, in einem Wust von unstrukturierten und verwirrenden Daten Ordnung zu schaffen und Strukturen sichtbar werden zu lassen. Dies geschieht im Rahmen der deskriptiven Statistik. Bei der Bewältigung der zweiten Art von Unsicherheit, der Entscheidungsunsicherheit, geht es darum, mittels statistischer Verfahren die wahrscheinlichen Konsequenzen alternativer Entscheidungen herauszuarbeiten und zu quantifizieren. Auf diese Weise erhält man eine rationale und nachvollziehbare Grundlage für die zu treffende Entscheidung. Dies geschieht im Rahmen der induktiven Statistik. 2.2 Statistische Einheiten Der Gegenstand einer statistischen Erhebung ist niemals ein einzelnes Objekt, sondern immer eine Menge von Objekten, die sogenannte Grundgesamtheit (statistische Masse, statistische Gesamtheiten, im Englischen auch häufig: „universe“ und „population“). Aus welchen statistischen Elementen eine bestimmte Grundgesamtheit letztlich besteht, kann nicht allgemeingültig angegeben werden, sondern wird immer durch das vorliegende Entscheidungsproblem festgelegt. 6 2 Grundlegende Begriffe und Zusammenhänge 10 Beispiel 1.1 Der Manager eines deutschen Aktienfonds hat die Aufgabe, seinen Fond zu „bereinigen“, d.h. er hat sämtliche Aktien, die in den letzten zwei Jahren die Renditeerwartungen nicht erfüllt haben, zu verkaufen. Die Grundgesamtheit besteht hier aus allen Aktien, die sich zu einem bestimmten Stichtag (z.B. dem 31.12 1996) in seinem Fond befinden. Beispiel 1.2 Der Marketing-Chef eines Versicherungsunternehmens will wissen, ob die von Ihm initiierte Direct-Mailing-Aktion, durch die der Verkauf der speziellen Kapitallebensversicherung „Rendite-Pro“ angeregt werden sollte, erfolgreich war. Die Grundgesamtheit besteht hier aus allen Verträgen von „Rendite-Pro“, welche im Zeitraum der Mailing-Aktion abgeschlossen wurden. Statistische Elemente können Bestandsgrößen (Zeitpunkt- bzw. Stichtagsbezogen), oder aber Stromgrößen (Zeitraum-bezogen) sein. Zwischen beiden Arten von statistischen Elementen besteht folgende Beziehung: Anfangsbestand+ Zugänge (Bestandsgröße) – Abgänge = (Stromgrößen) Endbestand (Bestandsgröße) Beispiel 1.3 Anfangsbestand: Anzahl der in der BRD ansässigen Unternehmen am 31.12.1995 (Bestandsgröße) Zugänge: Anzahl der Unternehmensneugründungen im Jahr 1996 (Stromgröße) Abgänge: Anzahl der Unternehmensinsolvenzen im Jahr 1996 (Stromgröße) Endbestand: Anzahl der in der BRD ansässigen Unternehmen am 31.12.1996 (Bestandsgröße) Läßt man die Abwanderung von Unternehmen ins Ausland unberücksichtigt, so gilt der obenstehende Zusammenhang. 2.3 Merkmale, Merkmalsausprägungen und ihre Skalierung Das Interesse einer statistischen Erhebung ist letztlich nicht auf die Grundgesamtheit als solche gerichtet, sondern auf bestimmte Merkmale bzw. Merkmalsausprägungen ihrer Elemente. Beispiel 1.4 Grundgesamtheit: Alle erwerbstätigen Personen in der BRD am 31.12.1995 Mögliche Merkmale, die für bestimmte Fragestellungen von Interesse sein könnten, sind: Jahreseinkommen, Familienstand, Geschlecht, Alter, Intelligenzquotient usw. Entsprechen- 2.3 Merkmale, Merkmalsausprägungen und ihre Skalierung 11 de Merkmalsausprägungen sind beispielsweise 100 TDM, ledig, weiblich, 35 Jahre und IQ=100. Werden die Ausprägungen bestimmter Merkmale nicht durch Zahlen, sondern durch verbale Angaben beschrieben, so spricht man von qualitativen Merkmalen. Erfolgt die Messung dagegen durch Zahlen, so handelt es sich um quantitative Merkmale. Beispiel 1.5 Die in Beispiel (4) genannten Merkmale „Jahreseinkommen“ , „Alter“ und „IQ“ sind quantitativ, wogegen die Merkmale „Familienstand“ und „Geschlecht“ qualitativen Charakter haben. Abhängig davon, um welches Merkmal es sich im einzelnen handelt, werden Merkmalsausprägungen anhand unterschiedlicher Skalierungen gemessen. Man unterscheidet: Nominalskalierung Unterschiedliche Ausprägungen eines bestimmten Merkmals stehen gleichberechtigt nebeneinander. Beispiel 1.6 Die Ausprägungen des Merkmals „Familienstand“ werden wie folgt verschlüsselt: ledig=1, verheiratet=2, verwitwet=3 geschieden=4. Obgleich dann in der weiteren statistischen Analyse mit der Merkmalsausprägungsmenge {1; 2; 3; 4} gearbeitet wird, dürfen mit diesen Zahlen keinerlei Berechnungen durchgeführt werden. Sie dienen ausschließlich der Identifikation einzelner Gruppen, z.B. der Gruppe aller Ledigen, mit einem Jahreseinkommen über 100 TDM. Ordinalskalierung Zwischen unterschiedlichen Ausprägungen eines bestimmten Merkmals besteht eine natürliche Rangordnung, so daß sich zwischen Ihnen eine „größer alsBeziehung“ herstellen läßt. Aber: Die Abstände (Differenzen) zwischen den einzelnen Merkmalsausprägungen dürfen nicht interpretiert werden. Beispiel 1.7 Gemäß einer Rahmenprüfungsordnung für Hochschulen in Bayern (RAPO) werden unterschiedliche Prüfungsleistungen wie folgt verschlüsselt: 1=hervorragende Leistung. 2=Leistung, die erheblich über den durchschnittlichen Anforderungen liegt. 3=Leistung, die durchschnittlichen Anforderungen genügt. 4=Leistung, die trotz ihrer Mängel noch den Anforderungen genügt. 5=Leístung, die wegen erheblicher Mängel den Anforderungen nicht genügt. Zwar besteht beispielsweise zwischen den Merkmalsausprägungen „2“ und „4“ eine „4 größer als 2“-Beziehung derart, daß die 4 auf eine schlechtere Prüfungsleistung hinweist als die 2. Aber: Keinesfalls dürfen Differenzen oder gar Quotienten gebildet werden und aus 12 2 Grundlegende Begriffe und Zusammenhänge ihnen beispielsweise der Schluß gezogen werden: „Eine mit 2 bewertete Leistung ist doppelt so gut wie eine mit 4 bewertete“. Intervallskalierung Wie bei der Ordinalskalierung besteht auch auf Intervallskalen zwischen unterschiedlichen Ausprägungen eines bestimmten Merkmals eine natürliche Rangordnung, so daß sich auch hier eine „größer als“-Beziehung herstellen läßt. Darüberhinaus lassen sich auch die Differenzen zwischen den einzelnen Ausprägungen interpretieren. Aber: Eine Quotientenbildung sowie daraus abgeleitete Schlüsse sind unzulässig. Beispiel 1.8 Die Differenzen zwischen unterschiedlichen Ausprägungen des Merkmals „Temperatur“ können sinnvoll interpretiert werden. So ist beispielsweise die Aussage zulässig, in einer bestimmten Fabrikhalle mit einer Temperatur von 30 °C, sei es um 15 °C heißer als in einer anderen Halle, in der die Temperatur lediglich 15 °C beträgt. Unzulässig ist allerdings die Aussage, in der ersten Halle sei es doppelt so heiß wie in der zweiten. Beispiel 1.9 Das Merkmal Intelligenz wird üblicherweise (und nicht unumstritten!) durch den sogenannten Intelligenzquotienten gemessen. Über zwei Personen, A und B, von denen der A einen IQ von 140 aufweist, während B nur 70 erreicht, können zulässigerweise folgende beiden Aussagen gemacht werden: A ist intelligenter als B (ordinale Interpretation) A hat einen um 70 höheren Intelligenzquotienten als B (Differenzinterpretation) Nicht zulässig ist jedoch die aus einer Quotientenbildung resultierende Aussage „A ist doppelt so intelligent wie B“. Verhältnisskalierung (metrische Skalierung) Die Verhältnisskalierung kann behandelt werden wie die Intervallskalierung, zusätzlich ist es jedoch auch möglich, Quotienten zu bilden und sinnvoll zu interpretieren. Beispiel 1.10 Die Ausprägungen der Merkmale „Jahreseinkommen“ und „Alter“ werden metrisch skaliert und interpretiert; insbesondere ist die Quotientenbildung zulässig. So ist beispielsweise die Aussage: „Person A ist nur halb so alt wie Person B, verdient aber das dreifache“ durchaus sinnvoll. An obenstehenden Beispielen sollte deutlich geworden sein, daß der Abfolge von Nominal-, Ordinal-, Intervall- und metrischer Skalierung eine zunehmende Informationsdichte entspricht: Hinter metrisch skalierten Merkmalsausprägungen stecken mehr Informationen, als hinter Intervall-skalierten. Diese beinhalten mehr Informationen als ordinal-skalierte, welche wiederum die Nominalskalierung an 2.4 Empirische Verteilungen 13 Informationsgehalt übertrifft. Man spricht daher in diesem Zusammenhang auch von einem ansteigenden Skalierungsniveau. Stetige versus diskrete Merkmalsausprägungen Liegt ein bestimmtes Merkmal vor, so kann es sich um ein diskretes oder ein stetiges Merkmal handeln. Diskret ist es dann, wenn ihm innerhalb eines bestimmten Bereiches aus den reellen Zahlen nur ganz bestimmte Werte entsprechen, stetig dagegen, wenn es grundsätzlich jeden beliebigen Wert innerhalb dieses Bereichs annehmen kann. Beispiel 1.11 Betrachten wir den einmaligen Wurf zweier Würfel und interpretieren die geworfene Augensumme als Merkmal des Ereignisses „einmaliger Wurf zweier Würfel“. Die Ausprägungen diese Merkmals können nur ganz bestimmte Werte des Intervalls [2;12] reeller Zahlen annehmen, nämlich die natürlichen Zahlen (2; 3; 4; ...;12). Gemäß unserer Definition handelt es sich somit um ein Merkmal mit diskreten Ausprägungen. Beispiel 1.12 diskrete Merkmale: Ø Anzahl der in einem Haushalt zur Verfügung stehenden Wohnräume Ø Beschäftigte eines Betriebs Ø Jahreseinkommen in DM Stetige Merkmale: Ø Zeitdauer für einen bestimmten Arbeitsgang Ø Länge eines Werkstücks Aufgrund der Grenzen der Meßgenauigkeit lassen sich auch stetige Merkmale in der Praxis nur diskret erfassen. Andererseits werden aus rechentechnischen Gründen auch viele offensichtlich diskrete Merkmale mittels stetiger Verteilungsfunktionen analysiert. Davon jedoch später mehr. 2.4 Empirische Verteilungen Man betrachte die folgenden Prüfungsergebnisse einer Gruppe von 15 Studenten in den beiden Fächern „Statistik“ und „BWL“: Student Statistiknote BWL-Note A 3 3 B 4 5 C 5 5 D 1 3 E 3 4 F 4 1 G 3 5 H 5 1 I 4 3 J 2 4 K 5 2 L 5 2 M 5 1 N 4 4 O 5 2 Diese sogenannte Urliste ist eine völlig unsystematische und unstrukturierte Ansammlung von Daten, der nur sehr schwer sinnvolle Informationen zu entnehmen 2 Grundlegende Begriffe und Zusammenhänge 14 sind. Trotzdem aber – und dies ist entscheidend – sind in dieser Urliste sämtliche relevanten Informationen über die Grundgesamtheit (den fünfzehn Studenten) enthalten. Um gezielt Informationen entnehmen zu können, müssen die Daten „nur“ noch aufbereitet und strukturiert werden. Eine sinnvolle Struktur wird beispielsweise hergestellt, wenn man die Daten wie folgt anordnet: Benotung Anzahl der Statistikarbeiten Anzahl der BWL-Arbeiten 1 1 3 2 1 3 3 3 3 4 4 3 5 6 3 Man beachte, daß mit obenstehender Strukturierung der Daten zugleich eine Datenverdichtung einhergeht, in dem Sinne, daß bestimmte Informationen verlorengehen, die in der Urliste noch enthalten sind. So ist beispielsweise der zweiten Tabelle nicht mehr zu entnehmen, welcher der Studenten eine bestimmte Benotung erreicht hat. Dafür sieht man nun sehr deutlich, daß die Anzahl der unterschiedlichen Merkmalsausprägungen in beiden Fächern dieselbe ist, nämlich die Noten 15. Zudem sind die Prüfungsergebnisse von Fach zu Fach sehr unterschiedlich auf die diversen Noten verteilt. So ist die Anzahl der BWL-Arbeiten auf die verschiedenen Noten gleichverteilt, wogegen es in Statistik eher eine Konzentration auf die schlechteren Noten gibt. Statistik- und BWL-Noten sind somit unterschiedlich verteilt. In diesem Sinne wird im Rahmen der Statistik von empirischen Verteilungen gesprochen. Ist die empirische Verteilung einer Reihe von Merkmalsausprägungen bekannt, so ist man damit im Besitz sämtlicher relevanter Informationen, die in dieser Reihe enthalten sind. Die empirische Verteilung liefert somit eine vollständige Beschreibung der Merkmalsausprägungen einer Grundgesamtheit. Neben den empirischen gibt es auch eine Reihe von theoretischen Verteilungen, von denen wir in Abschnitt 4 die wichtigsten kennenlernen werden. 2.5 Häufigkeiten Gegeben seien insgesamt N Merkmalsausprägungen x1; ...; xN, wovon K=N unterschiedlich sind. Die Merkmalsausprägungen seien zudem der Größe nach geordnet, d.h. x1≤ x2≤ x3≤ ..... ≤xN. Dann gelten folgende Definitionen: 2.5 Häufigkeiten 15 Absolute Häufigkeit Die absolute Häufigkeit hi einer Merkmalsausprägung xi (i=1;...:N) ist die Anzahl der Elemente in der Grundgesamtheit mit genau dieser Merkmalsausprägung. Relative Häufigkeit Die relative Häufigkeit fi einer Merkmalsausprägung xi (i=1;...;N) entspricht der absoluten Häufigkeit hi, dividiert durch die Gesamtzahl N aller Elemente der Grundgesamtheit. Sie mißt den prozentualen Anteil der Elemente mit der Merkmalsausprägung xi an der Gesamtzahl aller Elemente. fi = hi N Für absolute bzw. relative Häufigkeiten gilt: (i) 0 ≤ hi ≤ N (ii) 0 ≤ fi ≤ 1 K (iii) ∑ fi = 1 i =1 Beispiel 1.13 In einem Hörsaal befinden sich insgesamt 120 Studenten. Die Hälfte davon ist 19 Jahre alt, dreißig Studenten sind 20 Jahre, zehn 18 Jahre, zwölf 22 Jahre und acht Studenten schließlich sind 25 Jahre alt. Die Anzahl aller Ausprägungen des Merkmals „Lebensalter“ beträgt 120 (N=120), die Anzahl unterschiedlicher Ausprägungen dagegen nur 5 (K=5). Die absoluten und relativen Häufigkeiten der verschiedenen Merkmalsausprägungen sind in folgender Tabelle zusammengefaßt: x1=18 h1=10 f1=1/12 x2=19 h2=60 f2=1/2 x3=20 h3=30 f3=1/4 x4=22 h4=12 f4==1/10 x5=25 h5=8 f5=1/15 Liegt eine bestimmte Merkmalsausprägung xi vor, so geben die absolute bzw. die relative Häufigkeit die Anzahl bzw. den Anteil der Elemente in der Grundgesamtheit an, die genau die Merkmalsausprägung xi aufweisen. Für eine Reihe von Fragestellungen ist es jedoch interessant zu wissen, wieviel Merkmalsträger bzw. welcher Anteil höchstens eine bestimmte Merkmalsausprägung xi aufweisen. Fragen dieser Art werden mit Hilfe der absoluten und relativen Summenhäufigkeit beantwortet. 2 Grundlegende Begriffe und Zusammenhänge 16 Absolute Summenhäufigkeit Die absolute Summenhäufigkeit Hi einer (vorgegebenen) Merkmalsausprägung xi gibt die Anzahl der Elemente an, die höchstens diese Merkmalsausprägung aufweisen: i Hi = ∑ hj j =1 Relative Summenhäufigkeit Die relative Summenhäufigkeit Fi einer (vorgegebenen) Merkmalsausprägung xi gibt den prozentualen Anteil der Elemente an allen Merkmalsträgern an, die höchstens diese Merkmalsausprägung aufweisen: i Fi = ∑ fj j =1 = Hi N Für das Verständnis obenstehener Formeln ist es entscheidend, sich daran zu erinnern, daß die Merkmalsausprägungen x1;...;xN und damit auch die entsprechenden absoluten und relativen Häufigkeiten der Größe nach geordnet sind und daß der Index j nur über die unterschiedlichen absoluten und relativen Häufigkeiten summiert. Beispiel 1.14 Die Tabelle aus Beispiel (13) läßt sich noch um die Information der absoluten und relativen Summenhäufigkeiten erweitern: x1=18 h1=10 f1=1/12 H1=10 F1=1/12 x2=19 h2=60 f2=1/2 H2=70 F2=7/12 x3=20 h3=30 f3=1/4 H3=100 F3=10/12 x4=22 h4=12 f4=1/10 H4=112 F4=112/120 x5=25 h5=8 f5=1/15 H5=120 F5=120/120 H4=112 bedeutet beispielsweise, daß von insgesamt 120 Studenten (Merkmalsträgern) 112 höchstens 22 Jahre alt sind (die Merkmalsausprägung 22 aufweisen). F2=7/12 dagegen bedeutet, daß ein Anteil von 7/12 aller Studenten höchstens 19 Jahre alt ist. Einen Überblick über die relativen Summenhäufigkeiten aller Merkmalsausprägungen liefert die Summenhäufigkeitsfunktion F(x). Sie gibt für jede (denkbare) Merkmalsausprägung x den Anteil der Merkmaslsträger an, die höchstens die Ausprägung x aufweisen. 2.6 Statistische Analysemethoden 17 Summenhäufigkeitsfunktion Gegeben seien die unterschiedlichen Merkmalsausprägungen xj (j=1.....K) sowie die entsprechenden relativen Summenhäufigkeiten Fj (j=1.....K). Die Summenhäufigkeitsfunktion F(x) ist dann definiert als: R 0 für: x ≤ ( ≠ ) x | F ( x) = S F für: x ≤ x ≤ ( ≠) x |T1 für: x ≥ x 1 j j j +1 ( j = 1;.....;( K − 1) K Die auf den ersten Blick vielleicht etwas verwirrende Konstruktion der Summenhäufigkeitsfunktion wird klarer, wenn man sich folgende Zusammenhänge vor Augen hält: Da F(x) eine Funktion im mathematischen Sinne ist, muß sie jedem Wert x genau einen Funktionwert F(x) zuordnen. Wenn durch F(x) also jeder Wert von x abgedeckt sein muß, sind folgende Fälle zu betrachten: (a) x< x1, d.h. der Wert, dem ein Funktionswert zugeordnet werden muß, ist kleiner als die geringste Merkmalsausprägung der Grundgesamtheit. Dies bedeutet aber, daß F(x), d.h. der Grundgesamtheitsanteil der höchstens diesen Wert x aufweist, Null sein muß. Darum gilt für diesen Fall: F(x) = 0. (b) xj≤ x< xj+1, d.h. der Wert, dem ein Funktionswert zugeordnet werden muß, liegt zwischen der konkreten (aber beliebigen) Merkmalsausprägung xj und der nächstgrößeren Ausprägung xj+1, wobei in diesem Intervall xj noch enthalten ist, nicht aber xj+1. Allen Werten von x, die in dieses Intervall fallen, wird von der Summenhäufigkeitsfunktion die relative Summenhäufigkeit Fj zugeordnet, d.h. F(x) = Fj. (c) x≥ xK, , d.h. der Wert, dem ein Funktionswert zugeordnet werden muß, liegt über der größten Merkmalsausprägung xK. Dies bedeutet aber, daß F(x), d.h. der Grundgesamtheitsanteil der höchstens diesen Wert x aufweist, Eins sein muß. Darum gilt für diesen Fall: F(x) = 1. Die Summenhäufigkeitsfunktion beinhaltet alle Informationen darüber, wie die Gesamtzahl der Merkmalsausprägungen auf die unterschiedlichen Ausprägungen verteilt sind. Sie wird daher auch als empirische Verteilungsfunktion bezeichnet. 2.6 Statistische Analysemethoden Häufig ist es prinzipiell oder aus Kostengründen nicht möglich, von sämtlichen Elementen einer interessierenden Grundgesamtheit die jeweiligen Merkmalsausprägungen zu analysieren. In diesen Fällen behilft man sich mit sogenannten Stichprobenerhebungen: Aus der Grundgesamtheit wird unter Beachtung ganz bestimmter Prinzipien eine Teilgesamtheit (Stichprobe) entnommen. Unter bestimmten Voraussetzungen (und mit Einschränkungen) kann dann von den Charakteristika der Teilgesamtheit auf die entsprechenden Charakteristika der Grundgesamtheit 18 2 Grundlegende Begriffe und Zusammenhänge geschlossen werden. Die Gesetzmäßigkeiten und Prinzipien, die hierbei gelten, sind Gegenstand der schließenden bzw. induktiven Statistik. Demgegenüber beschäftigt man sich im Rahmen der deskriptiven (beschreibenden) Statistik ausschließlich mit der Beschreibung und Darstellung von Grundgesamtheiten, wobei die Merkmalsausprägungen für sämtliche Elemente der Grundgesamtheit vorliegen müssen (Totalerhebung). Wichtig ist jedoch, daß eine Aussage darüber, ob eine bestimmte Menge von Merkmalsträgern eine Grundgesamtheit oder aber eine Stichprobe darstellt, nicht absolut, sondern nur relativ zum Problem getroffen werden kann. So können die Einwohner einer Großstadt durchaus als Grundgesamtheit angesehen werden – nämlich dann, wenn man beispielsweise am Wahlverhalten in genau dieser Stadt interessiert ist. Liegt aber eine andere Fragestellung vor – z.B. das zu erwartende Wahlverhalten in der Bundesrepublik – so kann dieselbe Großstadt als eine (wahrscheinlich unzulängliche) Stichprobe aufgefaßt werden. 3 Beschreibung und Analyse von Daten „Das Meer der Daten ist stumm.“ Dieser schöne Satz verweist auf ein Problem, dem man sich gegenübersieht, wenn aus einer Fülle von Informationen und Daten Schlußfolgerungen gezogen werden müssen. Um zu verdeutlichen, wie weitreichend diese Problematik ist, stelle sich der Leser folgende Situation vor: Sie stehen einer Gruppe von 500 Personen gegenüber und wollen wissen, wie es um das Jahreseinkommen in dieser Gruppe bestellt ist. Zu diesem Zweck erhalten Sie eine Liste, auf der ohne jede Systematik das Jahreseinkommen jeder einzelnen der 500 Personen vermerkt ist. Obgleich diese Liste sämtliche relevanten Informationen beinhaltet, hat sie zunächst fast keine Aussagekraft. Würde man Ihnen beispielsweise die Frage stellen, ob wohlhabende Gruppenmitgleider überwiegen, wüßten Sie darauf vermutlich keine Antwort. Auch die Frage nach dem Unterschied zwischen dem reichsten und dem ärmsten Gruppenmitglied könnten Sie vermutlich nicht ohne weiteres beantworten. Um auf Fragen der genannten Art eine Antwort geben zu können, müssen vorliegende Daten zunächst unter dem Blickwinkel der Fragestellung strukturiert und analysiert werden. Erst im Anschluß daran können die interessierenden Informationen geliefert werden. Dies geschieht in erster Linie mit Hilfe spezifischer Kennziffern. Für ein korrektes Verständnis dieser Kennziffern ist es entscheidend, sich klarzumachen, daß sie vor allem dazu dienen, eine in der Regel unüberschaubare oder sogar unbekannte Grundgesamtheit mittels einer einzigen oder einiger weniger Kennziffern zu beschreiben. Dies bedeutet im Extremfall den Versuch, eine gesamte Datenflut mit nur einer einzigen Zahl zu charakterisieren. Vor diesem Hintergrund wird es nachvollziehbar, daß im Rahmen einer solchen Datenverdichtung nicht alle Facetten der Grundgesamtheit berücksichtigt werden können. Oder anders ausgedrückt, letztlich muß man sich entscheiden, welcher Aspekt der Grundgesamtheit durch die entsprechende Kennziffer herausgearbeitet werden soll. Handlungsleitend ist hierbei sinnvollerweise die konkrete Fragestellung, mit welcher der Statistiker an die Grundgesamtheit herangeht. 6 3 Beschreibung und Analyse von Daten 20 Entsprechend der Vielfalt möglicher Fragestellungen gibt es zur Beschreibung einer Grundgesamtheit eine umfangreiche Anzahl von Kennziffern. Im wesentlichen versuchen sie jedoch alle, vier unterschiedliche Arten von Fragen zu beantworten, für die im folgenden ein jeweils typisches Beispiel genannt wird: • Wie hoch ist das mittlere Jahreseinkommen innerhalb einer bestimmten Gruppe von Personen? • Wie groß ist der Einkommensunterschied zwischen dem ärmsten und dem reichsten Gruppenmitglied? • Auf wieviel Prozent der Gruppenmitglieder entfallen 50 % des gesamten Einkommens der Gruppe? • Inwieweit gibt es innerhalb der Gruppe eine Zusammenhang zwischen dem Merkmal „Jahreseinkommen“ und dem anderen Merkmal „Alter“? Fragen dieser Art werden im Rahmen der deskriptiven Statistik mit den speziellen Kennziffern Mittelwerte, Streuungsmaße, Konzentrationsmaße und Korrelationsmaße beantwortet. 3.1 Mittelwerte: Wohin tendiert eine Verteilung? Angesichts einer Vielzahl unterschiedlicher Merkmalsausprägungen ist eine der ersten Fragen die nach der „mittleren“ Merkmalsausprägung. Wie wir im folgenden noch sehen werden, kann man diese Frage durchaus unterschiedlich beantworten. Arithmetisches Mittel Der wohl bekannteste Mittelwert ist das sogenannte arithmetische Mittel. Dies ist die Kennzahl, welche auch der Laie vor Augen hat, wenn von „dem“ Mittelwert oder vom Durchschnitt die Rede ist. Arithmetisches Mittel Gegeben seien insgesamt N Merkmalsausprägungen x1;...;xN , wovon K≤N unterschiedlich sind. Weiter seien mit fj (j=1;...;K) die relativen Häufigkeiten der verschiedenen Merkmalsausprägungen xj (j=1;...;K) bezeichnet. Das arithmetische Mittel x der Merkmalsausprägungen x1;...;xN läßt sich dann auf zwei Arten berechnen: (a) x= 1 N N ∑ xi i =1 K (b) x =∑ f jxj j =1 In Formel (a) wird mit dem Laufindex i über alle Merkmalsausprägungen summiert, wogegen in (b) mit dem Laufindex j nur die unterschiedlichen Merkmalsausprägungen addiert werden, vorher allerdings noch multipliziert („gewich- 3.1 Mittelwerte: Wohin tendiert eine Verteilung? 21 tet“) mit ihrer relativen Häufigkeit. Den Ausdruck (b) bezeichnet man daher auch als gewichtetes arithmetisches Mittel. Beispiel 2.1 Stellen wir uns in Anlehnung an Beispiel (13) vor, daß von insgesamt zehn Studenten vier 18 Jahre, drei 19 Jahre und zwei 20 Jahre alt sind. Einer schließlich sei 21 Jahre alt. Während die Anzahl aller Ausprägungen des Merkmals „Lebensalter“ zehn beträgt (N=10), gibt es lediglich vier unterschiedliche Ausprägungen (K=4). Es ergeben sich daher folgende absolute und relative Häufigkeiten: x1=18 h1=4 f1=2/5 x2=19 h2=3 f2=3/10 x3=20 h3=2 f3=1/5 x4=21 h4=1 f4=1/10 Gemäß obenstehender Definition läßt sich das arithmetische Mittel der unterschiedlichen Lebensalter wie folgt alternativ berechnen: 1 10 18 + 18 + 18 + 18 + 19 + 19 + 19 + 20 + 20 + 21 190 x = ∑ xi = = = 19 (a) 10 i =1 10 10 4 (b) x = ∑ f jxj = j =1 4 3 2 1 18 + 19 + 20 + 21 = 19 10 10 10 10 Beispiel 2.2 Ein LKW fährt die Autobahnstrecke von Frankfurt nach Würzburg mit der konstanten Geschwindigkeit von 120 km/h. Den Rückweg von Würzburg nach Frankfurt dagegen legt er auf der Landstraße mit einer konstanten Geschwindigkeit von 60 km/h zurück. Wie groß ist die durchschnittliche Geschwindigkeit des LKW auf der gesamten Tour? Spontan werden hier vermutlich die meisten Leser das arithmetische Mittel wie folgt berechnen: 120km / h + 60km / h 180km / h = = 90 km/h. Obgleich dieser Wert durchaus plausibel 2 2 erscheint, ist er trotzdem falsch. Die richtige Lösung ergibt sich als gewichtetes arithmetisches Mittel: 1h * 120km / h + 2h * 60km / h 240km = = 80km / h 3h 3h Diesem Ergebnis liegt die folgende, einfache Überlegung zugrunde: Die Entfernung zwischen Frankfurt und Würzburg beträgt 120 km. Daher dauert die Fahrt nach Würzburg bei einer Geschwindigkeit von 120 km/h genau eine Stunde. Für die Rückfahrt dagegen benötigt der LKW die doppelte Zeit, also zwei Stunden. Um die gesamte Strecke von 240 km zurückzulegen braucht der LKW somit drei Stunden. Dies ergibt eine durchschnittliche Geschwindigkeit von 240 km/3h=240/3 km/h = 80 km/h. 3 Beschreibung und Analyse von Daten 22 Geometrisches Mittel Das arithmetische Mittel ist trotz seines großen Bekanntheitsgrades eine ungeeignete Kennziffer, wenn es sich bei den Größen, aus denen der Durchschnitt gebildet werden soll, um prozentuale Veränderungsraten handelt. Beispiele hierfür sind die Inflation (als Veränderung des Preisniveaus in % pro Zeiteinheit, meistens ein Jahr) oder die Ausbreitungsrate einer Infektionskrankheit (als Zunahme der Zahl der Infizierten in % pro Zeiteinheit). Grundsätzlich gilt: Immer wenn ein Merkmal Auskunft darüber gibt, wie stark sich eine bestimmte Größe innerhalb eines Zeitraumes prozentual verändert, darf aus den verschiedenen Merkmalsausprägungen nicht das arithmetische Mittel gebildet werden, sondern man muß auf das geometrische Mittel zurückgreifen. Geometrisches Mittel Gegeben seien insgesamt N in Prozent gemessenen Veränderungsraten x1;...;xN , wovon K≤N unterschiedlich sind. Weiter seien mit hj (j=1;...;K) die absoluten Häufigkeiten der unterschiedlichen Veränderungsraten xj (j=1;...;K) bezeichnet. Seien yi:=1+xi (i=1;...;N) die entsprechenden Wachstumsfaktoren. Das geometrische Mittel GM(y) der Wachstumsfaktoren y1;...;yN läßt sich dann auf zwei Arten berechnen: (a) GM(y) = N y1 * y2 *.....* y N (b) GM(y)= N y h 1 * y h 2 *.....* y h K Das geometrische Mittel GM(x) der Merkmalsausprägungen x1;...;xN ergibt sich durch GM(x)= GM(y)-1. 1 2 K Beträgt eine Wachstumsrate beispielsweise 3% und eine andere -2% („negatives Wachstum“), so ergeben sich die entsprechenden Wachstumsfaktoren als 1+3% = 1+ 3 2 = 1+0,03 = 1,03 und 1+ (-2%) = 1+() =1-0,02 = 0,98. 100 100 Beispiel 2.3 Dem Vermögensverwalter einer Großbank werden von einem Kunden DM 100.000,- mit dem Auftrag anvertraut, dieses Geld innerhalb von zwei Jahren möglichst zu vermehren. Im ersten Jahr erwirtschaftet der Verwalter einen Vermögenszuwachs um 50 % auf DM 150.000,-, im zweiten Jahr dagegen einen Verlust um 50 %, d.h. das Vermögen halbiert sich im zweiten Jahr von DM 150.000,- auf DM 75.000,-. Würde der Vermögensverwalter die durchschnittliche Wertentwicklung des ihm anvertrauten Vermögens mit Hilfe des arithmetischen Mittels berechnen, so ergäbe sich für die beiden Jahre ein Wert von 0,5 + ( −0,5) = 0 %. Der Kunde würde es jedoch vermutlich nicht akzeptieren, wenn ange2 sichts eines absoluten Verlustes von DM 25.000,- nach zwei Jahren von einer durchschnittlichen Wertentwicklung von 0 % die Rede wäre. Offensichtlich ist das arithmetische Mittel im vorliegenden Fall ungeeignet. Dem Sachverhalt gerecht wird man dagegen mit dem 3.1 Mittelwerte: Wohin tendiert eine Verteilung? 23 geometrischen Mittel. Hierzu transferieren wir die prozentualen Veränderungen zunächst in die entsprechenden Wachstumsfaktoren: Jahr 1 2 Veränderungsrate x + 50 % = 0,5 - 50 % = – 0,5 Wachstumsfaktor y 1+0,5 = 1,5 1+(-0,5) = 0,5 Das geometrische Mittel der Wachstumsfaktoren errechnet sich dann als: GM(y) = 1,5 * 0,5 = 0,75 = 0,866025.... . Das geometrische Mittel der Veränderungsrate dagegen beträgt: GM(x) = 0,866025 – 1 = – 0,133975 = – 13,3975 %. Dieser Wert stimmt mit dem tatsächlichen Sachverhalt überein: Wenn ein Anfangsvermögen von DM 100.000,über zwei Jahre hinweg jedes Jahr um 13,4 % an Wert verliert, so beträgt es nach zwei Jahren nur noch DM 75.000,-. Spötter behaupten, der Durchschnittswert sei der Wert, welcher tatsächlich noch niemals beobachtet worden sei. Damit ist gemeint, daß sich bei der Berechnung von Mittelwerten häufig Werte ergeben, die als konkrete Merkmalsausprägungen in gewisser Weise unsinnig sind. So beträgt beispielsweise die durchschnittliche Anzahl von Kindern in deutschen Familien, die mindestens ein Kind haben, 1,64 Kinder. Berücksichtigt man auch Familien ohne Kinder, so ergibt sich eine durchschnittliche Kinderzahl pro Familie von 0,99 Kindern. Es wird sich aber nur sehr schwer eine Familie finden lassen, die tatsächlich 1,64 bzw. 0,99 Kinder hat. M.a.W., die durchschnittliche Anzahl von Kindern entspricht einem Wert, der als tatsächliche Ausprägung des Merkmals „Kinderanzahl“ gar nicht „zulässig“ ist. Nicht zuletzt aus diesem Grund weicht man häufig auf die alternativen Mittelwerte Modus und Median aus. Modus Modus Der Modus einer Reihe von Merkmalsausprägungen ist der Wert, der in dieser Reihe am häufigsten vorkommt. Beachte, daß es in einer Reihe von Merkmalsausprägungen mehrere Modi geben kann. Beispiel 2.4 Der Gast eines Spiel-Casinos glaubt durch sorgfältige Beobachtung der rollenden Kugeln Gesetzmäßigkeiten im Spielverlauf entdecken zu können, um auf diese Weise gegen die Bank zu gewinnen. Hierzu notiert er das Ergebnis von insgesamt 1.000.000 Drehungen der Roulette-Scheibe und stellt fest, daß die Kugel sowohl bei der Zahl „16“ als auch bei der „5“ am häufigsten zum Stillstand kommt. Hieraus zieht er den Schluß, daß er mit der „16“ und der „5“ höhere Gewinnchancen als mit den anderen Zahlen hat. (Wie wir in Abschnitt 3 sehen werden, macht unser Spieler hierbei einen Denkfehler!) 3 Beschreibung und Analyse von Daten 24 Median Häufig ist es sehr hilfreich, für eine Reihe von Merkmalsausprägungen als zusätzliche Information den Wert zu kennen, der „im Zentrum“ dieser Datenmenge liegt. Diese Information wird durch den sogenannten Median oder auch Zentralwert geliefert. Als Median wird daher der Wert gewählt, der in einer Reihe von der Größe nach geordneten Merkmalsausprägungen genau in der Mitte liegt. Alternativ formuliert: „Links“ und „rechts“ vom Median liegen jeweils 50 % der kleinsten und 50 % der größten Merkmalsausprägungen. Median Gegeben seien insgesamt N Merkmalsausprägungen x1;...;xN. Diese seien der Größe nach geordnet, d.h. x1≤ x2≤ x3≤ ..... ≤xN. Der Median -Me(x)- errechnet sich dann wie folgt: (a) N ist eine ungerade Zahl (b) N ist eine gerade Zahl Me(x) = Me(x) = x N +1 2 L M M N 1 xN + xN +1 2 2 2 O P P Q Bei einer ungeraden Anzahl von Ausprägungen entspricht der Median einer konkreten Merkmalsausprägung. Ist die Anzahl der Ausprägungen dagegen gerade, so wird er als das einfache arithmetische Mittel aus den beiden in der Mitte liegenden Merkmalsausprägungen gebildet. Was den Median als Mittelwertkennziffer u.a. interessant macht, ist die Eigenschaft, daß er – im Gegensatz beispielsweise zum arithmetischen oder geometrischen Mittel – von sogenannten „Ausreißern“, d.h. von ungewöhnlich großen (oder kleinen) Merkmalsausprägungen nicht beeinflußt wird. Beispiel 2.15 Eine neu gegründete Privatuniversität wirbt damit, daß ihre mittlerweile 15 Absolventen mit einem durchschnittlichen Anfangsgehalt von DM 75.333,- ins Berufsleben starten. Je nachdem, wie dieser Durchschnitt berechnet wird, kann diese Information die tatsächlichen Verhältnisse widerspiegeln, sie kann aber auch einen falschen Tatbestand suggerieren. Nehmen wir an, die Anfangsgehälter der fünfzehn Absolventen sind wie folgt verteilt: xj hj fj DM 60.000,3 3/15 DM 70.000,4 4/15 DM 80.000,4 4/15 DM 85.000,2 2/15 DM 90.000,2 2/15 In diesem Fall werden die tatsächlichen Gehälter mehr oder weniger gut durch das arithmetische Mittel von DM 75.333,- repräsentiert; die Universitätswerbung spiegelt die tatsächlichen Verhältnisse wider. Etwas anders liegt der Sachverhalt bei folgender Verteilung der Anfangsgehälter: 3.2 Streuungsmaße: Wie variabel ist eine Verteilung? xj hj fj DM 30.000,3 3/15 DM 35.000,4 4/15 DM 40.000,4 4/15 DM 42.500,3 3/15 25 DM 612.495,1 1/15 Nun verdienen von den insgesamt 15 Absolventen immerhin 14 einen Betrag zwischen DM 30.000,- und DM 42.500,- und lediglich einer hat ein exorbitant hohes Einkommen. Dieses wiederum ist sicherlich nicht auf den Abschluß an der Privatuniversität zurückzuführen, sondern kann vermutlich aufgrund anderer Besonderheiten erzielt werden. Trotzdem ergibt sich – wie man leicht nachprüfen kann – als arithmetisches Mittel auch hier ein Durchschnittsgehalt von DM 75.333,-. Offensichtlich spiegelt das arithmetische Mittel nicht den tatsächlichen Sachverhalt wider. Anders verhält es sich mit dem Median: Er beträgt für die erste Tabelle DM 80.000,-, für die zweite dagegen DM 40.000,-. Der Median ( und übrigens auch der Modus) berücksichtigt somit die sich verändernden Konstellationen beim Übergang von der ersten zur zweiten Tabelle. Sowohl arithmetisches und geometrisches Mittel als auch Modus und Median sind Kennziffern, welche die Frage beantworten, wo „die Mitte“ einer bestimmten Verteilung von Merkmalsausprägungen liegt bzw. wohin sie tendiert. Wie wir gesehen haben, wird diese Frage von den bisher vorgestellten Kennziffern – die man auch als Lageparameter bezeichnet – auf durchaus unterschiedliche Art und Weise beantwortet. Jede hat sowohl Vor- als auch Nachteile: Vorteile, weil sie ganz bestimmte Aspekte der Verteilung gezielt in den Vordergrund rückt; Nachteile, weil andere Aspekte dadurch unterdrückt werden müssen. Für einen sinnvollen Einsatz ist die genaue Kenntnis dieser Zusammenhänge entscheidend; nur so können Lageparameter problemadäquat angewendet werden. Selbst der reflektierteste Umgang kann allerdings nicht verhindern, daß mit einem Lageparameter – welchem auch immer – ein wichtiger Aspekt ausgeklammert bleibt, nämlich die Frage, wie variabel, bzw. wie breit gestreut eine bestimmte Verteilung ist. 3.2 Streuungsmaße: Wie variabel ist eine Verteilung? Nachdem die Frage geklärt ist, wohin eine bestimmte Verteilung tendiert, rückt eine weitere Frage in den Vordergrund: Wie divers ist die Verteilung, d.h. wie breit sind die Merkmalsausprägungen um das – wie auch immer errechnete – „Zentrum“ der Verteilung gestreut? Man spricht hier auch von der Variabilität einer Verteilung. Wie schon bei den Mittelwerten gibt es auch bei den Streuungsmaßen auf diese Frage unterschiedliche Antworten. 26 3 Beschreibung und Analyse von Daten Spannweite Die einfachste Antwort auf die Frage nach der Streuungsbreite einer Verteilung liefert die Spannweite. Sie entspricht der Differenz aus der größten und kleinsten Merkmalsausprägung. Spannweite Gegeben seien insgesamt N Merkmalsausprägungen x1;...;xN. Diese seien der Größe nach geordnet, d.h. es gilt x1≤ x2≤ x3≤ ..... ≤xN. Die Spannweite -SW(x)- errechnet sich dann als: SW(x) = xN – x1 Interquartilsspanne Häufig tritt bei der Analyse von Verteilungen das Problem auf, daß es – aus unterschiedlichen Gründen, meistens ist die Ursache aber ein Datenfehler – mehr oder weniger große „Ausreißer“, d.h. aus dem üblichen Rahmen fallende Merkmalsausprägungen gibt. In solchen Fällen bietet sich die Interquartilsspanne als Streuungsmaß an, denn mit ihrer Hilfe wird zwar ebenfalls eine Art Spannweite bestimmt, allerdings erst nachdem die 25 % geringsten und die 25 % größten Merkmalsausprägungen ausgeschlossen wurden. Bei der konkreten Berechnung geht man daher wie folgt vor: (a) Zunächst werden sämtliche Merkmalsausprägungen in eine der Größe nach geordnete Reihenfolge gebracht. (b) Anschließend werden die Ausprägungen in zwei Gruppen eingeteilt – eine Gruppe der geringen und eine Gruppe der großen Ausprägungen. Zwischen diesen beiden Gruppen liegt der Median, bzw. wenn der Median selbst eine Merkmalsausprägung ist, wird er jeder Gruppe zugerechnet. (c) Nun wird von beiden Gruppen der Median gebildet. Den Median der ersten Gruppe nennt man erstes Quartil Q1, den der zweiten Gruppe drittes Quartil Q3. Das zweite Quartil Q2 entspricht hierbei dem Median aller Merkmalsausprägungen: Q2 = Me(x) (d) Die Interquartilsspanne ist nun nichts anderes als die Differenz aus dem dritten und ersten Quartil: IQS(x) = Q3-Q1 Die exakte Definition der Interquartilsspanne lautet: Interquartilsspanne Gegeben seien die der Größe nach geordneten Merkmalsausprägungen x1;...;xN, sowie deren Median Me(x). Weiter liege vor das erste Quartil Q1 sowie das dritte Quartil Q3. Dann gilt für die Interquartilsspanne IQS(x): IQS(x) = Q3 – Q1 3.2 Streuungsmaße: Wie variabel ist eine Verteilung? 27 Die Interquartilsspanne ist somit nichts anderes als die Spannweit der „in der Mitte“ liegenden Merkmalsausprägungen. Varianz und Standardabweichung Das bei weitem bekannteste und in den verschiedensten Anwendungen bedeutsamste Streungsmaß ist die Varianz, bzw. die daraus abgeleitete Standardabweichung. Die Grundidee der Varianz ist es, eine Art durchschnittlicher Abweichung vom Mittelwert zu bestimmen. Es ist daher naheliegend hierfür den folgenden Ausdruck zu berechnen: 1 N N ∑ ( xi − x ) i =1 Der Ausdruck in der Klammer gibt die Abweichung der Merkmalsausprägung xi vom Mittelwert (d.h. vom arithmetischen Mittel) an. Der Rest der Formel macht nicht anderes, als den Durchschnitt (wieder im Sinne des arithmetischen Mittels) all dieser Abweichungen zu bestimmen. Mit obenstehender Formel hätte man somit eine durchaus akzeptables Streuungsmaß, wenn damit nicht ein kleines Problem verbunden wäre: Um welche Merkmalsausprägungen immer es sich handeln mag, und wie auch immer diese verteilt sind: Die durchschnittliche Abweichung vom Mittelwert gemäß der obenstenstehenden Formel ist definitiongemäß immer Null! Der Grund für dieses unerfreuliche Ergebnis liegt in der Konstruktion des Mittelwertes. Ein Mittelwert ist ja nichts anderes als die durchschnitttliche Merkmalsausprägung aller Merkmalsausprägungen. Vor diesem Hintergrund sollte es eigentlich nicht überraschen, wenn sich positive und negative Abweichungen im Durchschnitt aufheben, so daß die durchschnittliche Abweichung vom Durchschnitt wiederum Null ergibt. Dieser Zusammenhang läßt sich auch mathematisch „beweisen“, was im folgenden Beispiel geschieht. Der Leser ist aufgefordert, dieses Beispiel nachzurechnen, insbesondere um eine größere Vertrautheit mit dem Durchschnittsbegriff zu erlangen. Beispiel 2.6 Sei (x1;...;xN ) eine beliebige Reihe von Merkmalsausprägungen und sei x das arithmeti1 N sche Mittel daraus, d.h. x = ∑ xi . Dann gilt: N i =1 1 N 1 N 1 N ( x − x ) = x − ∑ i ∑ i N ∑x N i =1 N i =1 i =1 = 1 N N 1 ∑ xi − N N * x i =1 = x – x = 0. 3 Beschreibung und Analyse von Daten 28 Da die durchschnittliche Abweichung vom Mittelwert somit als Streuungsmaß aus „technischen“ Gründen ausscheidet, geht es nun darum, ein Streuungsmaß zu finden, das zum einen keine technischen Probleme bereitet, zum anderen aber die Grundidee einer Art „mittleren“ Abweichung vom Mittelwert weiter beinhaltet. Eine Möglichkeit besteht darin, hierfür das arithmetische Mittel der betragsmäßigen Abweichungen vom Mittelwert zu verwenden, d.h., folgenden Ausdruck zu bilden: 1 N N ∑ xi − x i =1 Der offensichtliche Vorteil liegt darin, daß durch die Betragsbildung vermieden wird, daß sich negative und positive Abweichungen aufheben. In der Tat ist dieses Maß der sogenannten mittleren absoluten Abweichung durchaus geläufig. Letztlich durchgesetzt hat es sich jedoch aus einer Reihe von Gründen nicht. Stattdessen wird dem Problem, daß sich negative und positive Abweichung gegenseitig aufheben, üblicherweise durch Quadrierung ausgewichen. Konkret geschieht dies durch die Verwendung der empirischen Varianz als Streuungsmaß. Diese ist daher als arithmetisches Mittel der Abweichungsquadrate konstruiert. Empirische Varianz Gegeben seien die Ausprägungen x1;...;xN eines beliebigen Merkmals sowie der entsprechende Mittelwert x . Die empirische Varianz VAR(x) ergibt sich dann als: 1 N VAR(x) = N ∑ ( xi − x ) 2 i =1 Wie wir noch sehen werden, ist es aus einer Reihe von Gründen sinnvoll, zwischen einer empirischen und einer „theoretischen“ Varianz zu unterscheiden. Erstere dient ausschließlich der Beschreibung eines vorliegenden („empirischen“) Datenmaterials, wogegen letztere v.a. im Rahmen der induktiven Statistik eingesetzt wird, womit wir uns noch ausführlich beschäftigen werden. Der durch obenstehende Definition gelieferte Ausdruck für die Varianz läßt sich in folgender Weise umformen: N 1 N ∑ ( xi − x ) 2 = 1 N ∑ (x = 1 N L ∑x M N VAR(x) = i =1 2 i N i =1 2 i − 2 xi x + x 2 ) N N i =1 i =1 − 2 x ∑ xi + ∑ x O P Q 3.2 Streuungsmaße: Wie variabel ist eine Verteilung? = = = N 1 N ∑ xi 2 − 2 * x * x + N N * x 2 1 N ∑ xi 2 − 2 * x 2 + x 2 1 N 29 1 i =1 N i =1 N ∑ xi 2 − x 2 . i =1 Die obenstehende Umformung hat vor allem praktische Konsequenzen. Denn damit ist gezeigt, daß die Varianz in zwei Varianten ausgedrückt werden kann. 1. Variante: 2. Variante: VAR(x)= VAR(x) = N 1 N ∑ ( xi − x ) 2 1 N ∑ xi 2 − x 2 i =1 N i =1 Variante 1 entspricht unserer Definition der Varianz. Dies ist die Form, in der sie inhaltlich sinnvoll interpretiert werden kann. Demnach ist sie das arithmetische Mittel der quadrierten Abweichungen. Variante 2 hat sich durch eine Reihe von relativ simplen mathematischen Umformungen ergeben. Die Bedeutung von Variante 2 liegt vor allem in der Anwendung: Wie man bereits an der Formel erkennen kann, ist die Berechnung einer konkreten Varianz einfacher, wenn man Variante 2 zugrundelegt. Variante 2 dient daher ausschließlich der Vereinfachung von konkreten Berechnungen. Im Zeitalter der EDV wird dieser Vorteil jedoch immer unbedeutender. Beispiel 2.7 Folgende Tabelle enthält die Bevölkerungsanzahl aller Länder der Europäischen Gemeinschaft. 3 Beschreibung und Analyse von Daten 30 Land Deutschland Belgien Dänemark Finnland Frankreich Griechenland Großbritannien u. Nordirland Irland Italien Luxemburg Niederlande Österreich Portugal Schweden Spanien Bevölkerungsanzahl in Millionen 81,54 10,13 5,22 5,10 57,22 10,28 57,90 3,53 57,14 0,41 15,42 8,04 9,89 8,82 39,06 Dies ergibt eine europäische Geamtbevölkerung von 369,70 Mio Personen und einen Durchschnitt pro Land von 369,70 Mio /15 = 24,65 Mio Personen. Der Leser ist aufgefordert, zur Übung die Varianz der Bevölkerungsanzahl mit beiden Formeln zu ermitteln. Als Ergebnis sollte er den Wert von 647, 09 Mio (Personen)2 errechnen. Durch die Quadrierung der Mittelwertabweichungen ergibt sich der unangenehme Nebeneffekt, daß die Dimension der Varianz, d.h. die Einheit, in der sie gemessen wird, nicht mehr der Dimension des Mittelwertes entspricht. Dies wird auch anhand obenstehenden Beispiels deutlich, in dem der Mittelwert in der Einheit „Personenanzahl“ gemessen wird, die Varianz dagegen in der Einheit „Personenanzahl zum Quadrat“. Um diese unschöne Eigenheit der Varianz als Streuungsmaß zu beheben und um damit zugleich eine direkte Vergleichbarkeit mit dem Mittelwert herzustellen, bildet man aus der Varianz durch einfaches Radizieren („Wurzelziehen“) die Standardabweichung. Standardabweichung Gegeben seien die Ausprägungen x1;...;xN eines beliebigen Merkmals, der entsprechende Mittelwert x sowie die Varianz VAR(x). Dann ergibt sich die Standardabweichung SAW(x) als: SAW(x) = VAR ( x ) = 1 N N ∑ (x i =1 i − x)2 3.2 Streuungsmaße: Wie variabel ist eine Verteilung? 31 Der entscheidende Vorteil der Standardabweichung liegt darin, daß sie in exakt derselben Einheit gemessen wird wie die entsprechenden Lageparameter. Dies erleichtert insbesondere die Interpretation von konkreten Auswertungen, in denen diese Kennziffer angewendet wird. In diesem Zusammenhang ist es von besonderer Bedeutung, sich über eine spezielle Interpretation der Standardabweichung klarzuwerden, die zwar formal gesehen nicht ganz korrekt ist, trotzdem aber sehr hilfreich sein kann. Es geht hierbei um folgendes: Die Quadrierung der Abweichungen im Rahmen der Varianzberechnung geschieht ja im wesentlichen deshalb, um das Problem zu umgehen, daß sich die (unquadrierten) Abweichungen im Durchschnitt zu Null addieren. Zugleich handelt man sich durch den Quadrierungsprozeß den Nachteil ein, daß nun „die Dimension nicht mehr stimmt“. Dies wird nun durch die Verwendung der Standardabweichung als Streuungsmaß rückgängig gemacht, da diese ja die Quadratwurzel aus der Varianz darstellt. Diese Radizierung wird jedoch auf die gesamte Summe der quadrierten Abweichungen angewendet und nicht auf jeden einzelnen Summanden. Da aber im allgemeinen der Zusammenhang a1 + a2 +...+an < 2 2 2 a1 + a2 +...+ a n 2 2 2 gilt (und nicht die Gleichheit!), ist es formal auch nicht korrekt, zu behaupten, daß die Standardabweichung einer Merkmalsausprägung der durchschnittlichen Abweichung von ihrem Mittelwert entspricht. In gewisser Weise – nämlich von der Konstruktion und der inneren Logik der Standardabweichung her – gilt dieser Zusammenhang inhaltlich aber doch – wenn auch nur in „nichtsauberer“ Weise. Für eine etwas laxe Umschreibung der inhaltlichen Aussage einer Standardabweichungskennziffer ist diese Formulierung daher sinnvoll. In der Tat hat sie sich auch und gerade in stark praxisorientierten Erklärungen weitgehend durchgesetzt. Beispiel 2.8 In Beispiel 2.7 ergab sich für die Anzahl der innerhalb der Europäischen Gemeinschaft lebenden Personen eine Gesamtzahl 369,70 Mio Personen, ein Durchschnitt pro Land von 24,65 Mio Personen sowie eine empirische Varianz von 647,09 Mio (Personen)2. Der Bezug dieser (quadrierten) Zahl zu den Bevölkerungszahlen der einzelnen Ländern (den Merkmalsausprägungen) sowie zum arithmetischen Mittel wird erst deutlich, wenn wir daraus die Quadratwurzel, d.h. die Standardabweichung bilden: SAW(x)= 647,09 Mio( Personen) 2 = 24,65 Mio Personen Die (nicht ganz saubere) Interpretation dieser Zahl lautet: Die durchschnittliche Abweichung der Bevölkerungszahl innerhalb der Europäischen Gemeinschaft vom Mittelwert beträgt 24,65 Mio Personen. Variationskoeffizient Varianz und Standardabweichung sind sogenannte absolute Streuungsmaße. Dies bedeutet, daß konkrete Werte dieser Kennziffern von der Größenordnung abhängig sind, in der sich die entsprechenden Merkmalsausprägungen selbst bewegen. So ist beispielsweise die Standardabweichung der Umsätze eines Milliardenkonzerns 3 Beschreibung und Analyse von Daten 32 sicherlich höher als die Standardabweichung der Umsätze eines kleinen Familienunternehmens. Dies hat nun die unangenehme Konsequenz, daß ein Standardabweichungsvergleich zwischen diesen beiden Unternehmen wenig aussagekräftig ist. Um in solchen und ähnlich gelagerten Fällen Vergleichbarkeit herzustellen, wird ein relatives Streuungsmaß, nämlich der Variationskoeffizient, verwendet. Variationskoeffizient Gegeben seien die Ausprägungen x1;...;xN eines beliebigen Merkmals, das entsprechende arithmetischeMittel x sowie die Standardabweichung SAW(x). Der Variationskoeffizient – VK(x) – ergibt sich als Quotient aus Standardabweichung und arithmetischem Mittel: VK(x) = = SAW ( x ) x 1 N N ∑ ( xi − x ) 2 i =1 1 N N ∑ xi i =1 Durch die Quotientenbildung bei der Berechnung des Variationkoeffizienten kürzt sich die Einheit, in der sowohl SAW(x) als auch AM(x) gemessen wird, einfach weg; der Variantionskoeffizient wird dadurch zu einer dimensionslosen Zahl (zu einem „Koeffizienten“). 3.3 Konzentrationsmaße: Auf wieviele Merkmalsträger konzentriert sich eine Verteilung? Neben den Fragen, wo der Mittelwert einer Verteilung liegt und wie stark diese Verteilung um den Mittelwert „streut“, steht in vielen Auswertungen von Daten eine andere Frage im Vordergrund: Man ist an einer Kennzahl interessiert, die Auskunft darüber gibt, ob die Merkmalsausprägungen auf einige (wenige) Merkmalsträger konzentriert sind, oder ob sie sich relativ gleichmäßig auf alle Merkmalsträger verteilen. In diesem Zusammenhang haben sich die folgenden Konzentrationsmaße bewährt. Konzentrationsrate Mit Hilfe der Konzentrationsrate wird die Frage beantwortet, wieviel Prozent der gesamten Merkmalsausprägungssumme auf eine bestimmte vorgegebene Anzahl von Merkmalsträgern entfällt. So läßt sich z.B. fragen, wieviel Prozent des insgesamt in der Industrie erzielten Gesamtumsatzes von den fünf größten Unternehmen 3.3 Konzentrationsmaße: Auf wieviele Merkmalsträger konzentriert sich eine Verteilung? 33 erwirtschaftet wurde. Fragen dieser Art werden mit der Konzentrationsrate beantwortet. Konzentrationsrate Gegeben seien insgesamt N Merkmalsausprägungen x1;...;xN. Diese seien der Größe nach geordnet, d.h. x1≤ x2≤ x3≤ ..... ≤xN. Gegeben seien weiter die Anteile der einzelnen Merkmalsausprägungen ander Summe aller Merkmalsausprägungen, d.h. q1;q2;.....;qN mit qi = xi ∀ i sowie eine beliebige vorgegebene Anzahl z von N ∑x i =1 i Merkmalsträgern. Die Konzentrationsrate KR(x;z) gibt an, wieviel Prozent der gesamten Merkmalssumme auf die z „größten“ Merkmalsträger entfallen: N KR(x;z) = ∑x i i = N − z +1 N ∑x i =1 N = ∑ qi i = N − z +1 i Der Anteil qi darf nicht mit der relativen Häufigkeit fi verwechselt werden. Während die relative Häufigkeit fi für eine vorgegebene Merkmalsausprägung xi angibt, wie hoch der Anteil der Merkmalsträger mit genau dieser Ausprägung ist, wird mit qi eine andere Frage beantwortet: Nun ist der Merkmalsträger vorgegeben und qi gibt an, wieviel Prozent der gesamten Ausprägungssumme auf diesen Merkmalsträger entfällt. Herfindahl-Index Die Konzentrationsrate ist aufgrund ihrer Einfachheit und leichten Interpretierbarkeit eine sehr häufig verwendete Kennzahl. Ein Nachteil dieser Kennziffer ist, daß sie nicht sämtliche Informationen verwertet, die in einer vorliegenden Verteilung enthalten sind. So ist beispielsweise ein konkreter Wert der Konzentrationsrate davon abhängig, welche Vorgabe man bezüglich der Anzahl der größten Unternehmen macht, d.h., welches z gewählt wird. Hier liegt ein gewisser Spielraum für Willkür und Datenmanipulation, denn es werden nicht sämtliche, sondern nur Teile der verfügbaren Informationen ausgewertet. Dieses Manko wird durch den sogenannten Herfindahl-Index behoben, einer Kennzahl der Konzentration, die sich zudem durch besondere Übersichtlichkeit und leichte Berechenbarkeit auszeichnet. 3 Beschreibung und Analyse von Daten 34 Herfindahl-Index Gegeben seien insgesamt N Merkmalsausprägungen x1;...;xN sowie die entsprechenden Anteile q1;...;qN mit qi = xi N ∑ xi (i=1;...;N). Der Herfindahl-Index HI(x) berechnet sich dann als: i =1 N ∑ qi 2 HI(x) = i =1 Bei völliger Gleichverteilung der Merkmalsausprägungen auf die N verschiedenen Merkmalsträger gilt: q1=q2=.....=qN. Dies bedeutet insbesondere, daß es nur ein Merkmalsausprägungsniveau gibt (K=1), d.h. es gilt auch x1=x2=.....=xN. Für diesen Fall läßt sich ein beliebiges qi ausdrücken als: xi qi = = N ∑x i =1 xi 1 = Nxi N (i=1;...;N) i Damit gilt aber für den Herfindahl-Index in einem Zustand ohne jede Konzentration der folgende Zusammenhang: N N i =1 i =1 HI ( x ) = ∑ qi 2 = ∑ 1I F F1 IJ = 1 G HN JK= N G HN K N 2 2 Herrscht dagegen die größtmögliche Konzentration, so bedeutet dies, daß sich die gesamte Ausprägungssumme auf nur einen Merkmalsträger konzentriert. Ohne hierbei die Allgemeinheit der folgenden Aussagen einzuschränken, unterstellen wir der Übersichtlichkeit halber, daß dies der „letzte“ Merkmalsträger N ist. Dann gilt: q1=0; q2=0;....; qN-1=0; qN=1. Der Herfindahl-Index nimmt dann folgenden Wert an: N HI ( x ) = ∑ qi = q N = 12 = 1 2 2 i =1 Im Falle maximaler Konzentration beträgt der Herfindahl-Index somit Eins. Wir können somit zusammenfassen: Bei minimaler Konzentration gilt HI(x)=1/N, bei maximaler Konzentration gilt HI(x)=1. Wie groß auch immer und wie verteilt auch immer die Grundgesamtheit sein mag, der Herfindahl-Index bewegt sich im Intervall: 1/N≤HI(x)≤1. Der Nachteil des Herfindahl-Indexes liegt darin, daß die jeweils kleinste Ausprägung des Indexes, d.h. 1/N von der Anzahl der Merkmalsträger N abhängig ist. So ist der geringstmögliche Wert (d.h. der Wert bei absoluter Gleichverteilung) des Herfindahl-Indexes bei nur zwei Merkmalsträgern ½, wogegen sich bei 100 Merkmalsträgern ein minimaler Wert von 1/100 ergibt. Diese Abhängigkeit vom Umfang der vorliegenden Grundgesamtheit schränkt die Anwendungsmöglichkeiten 3.3 Konzentrationsmaße: Auf wieviele Merkmalsträger konzentriert sich eine Verteilung? 35 des Herfindahl-Indexes stark ein, da Konzentrationsvergleiche zwischen Grundgesamtheiten unterschiedlichen Umfanges fast nicht möglich sind. In diesem Sinne ist auch der Herfindahl-Index – neben der Konzentrationsrate – ein absolutes Konzentrationsmaß. Lorenz-Kurve Die Lorenz-Kurve bietet eine besonders anschauliche Möglichkeit, die in einer Verteilung liegende Konzentration graphisch zu verdeutlichen. Sie ist definiert als die Funktion, welche jedem kumulierten Anteil an Merkmalsträgern den entsprechenden kumulierten Anteil an der Gesamtsumme der Merkmalsausprägungen zuordnet. Lorenz-Kurve Gegeben seien die der Größe nach geordneten Merkmalsausprägungen x1;...;xN, die entsprechenden Merkmalsausprägungsanteile q1;...;qN mit qi = xi (i=1;...;N) sowie die Merkmalsträgeranteile w1;...;wN mit N ∑ xi i =1 wi = i/N (i=1;...;N). Die Lorenzkurve L:{wi:i=1;...;N}→[0;1] derart daß gilt: ist dann eine Funktion i L( wi ) = ∑ q ν (i=1.....N) ν =1 Um sich Konstruktion und inhaltliche Bedeutung der Lorenz-Kurve klarzumachen, betrachten wir noch einmal Beispiel 2.5 aus Abschnitt 2.1 In diesem Beispiel hatten wir die beiden folgenden (fiktiven) Verteilungen der Startgehälter von Hochschulabsolventen in TDM (Tausend DM) gegeben: Hochschule I: Anfangsgehälter der ersten 15 Absolventen in TDM xj hj fj 60 3 3/15 70 4 4/15 80 4 4/15 85 2 2/15 90 2 2/15 Hochschule II: Anfangsgehälter der ersten 15 Absolventen in TDM xj hj fj 30 3 3/15 35 4 4/15 40 4 4/15 42 3 3/15 612,495 1 1/15 Zur Ermittlung der Lorenzkurve benötigen wir die Merkmalsträgeranteile wi (i=1;.....;N) sowie die Merkmalsausprägungsanteile qi (i=1;.....;N) für sämtliche 3 Beschreibung und Analyse von Daten 36 Merkmalsausprägungen (d.h. nicht nur der verschiedenen!), um mit diesen Anteilen die Funktionswerte L(wi) der Lorenzkurve ermitteln zu können. Es ergeben sich daher folgende Tabellen: Hochschule I: xi qi wi L(wi) x1-3=60 q1-3=0,053 w3=0,20 L(w3)=0,159 x4-7=70 q4-7=0,062 w7=0,467 L(w7)=0,407 x8-11=80 q8-11=0,071 w11=0,733 L(w11)=0,690 x12-13=85 q12-13=0,075 w13=0,867 L(W13)=0,841 x14-15=90 q14-15=0,08 w15=1 L(W15)=1 Hochschule II: xi qi wi L(wi) x1-3=30 q1-3=0,027 w3=0,20 L(w3)=0,08 x4-7=35 q4-7=0,031 w7=0,467 L(w7)=0,204 x8-11=40 q8-11=0,035 w11=0,733 L(w11)=0,345 x12-14=42 q12-14=0,037 w14=0,933 L(w14)=0,458 x15=612,495 q15=0,542 w15=1 L(W15)=1 Um den Graph der Lorenzkurve zu erhalten, müssen lediglich die diversen Werte der wi gegen die entsprechenden Werte der L(wi) abgetragen werden. Wie man anhand der Definition der Lorenzkurve feststellen kann und wie auch an obenstehenden Beispielen deutlich wird, äußert sich eine starke Ungleichverteilung in einer extrem nach unten gewölbten Lorenzkurve, wogegen sie sich bei zunehmender Gleichverteilung immer mehr einer Diagonalen annähert. Eine bauchige Gestalt der Lorenzkurve ist somit ein Indikator für eine mehr oder weniger starke Ungleichverteilung. Damit sind wir aber mit der Lorenzkurve im Vergleich zu den anderen Kennzahlen etwas ins Hintertreffen geraten: Bisher war es möglich, den uns interessierenden Sachverhalt (z.B. die Streuung einer Verteilung) durch eine einzige Zahl (z.B. durch die Standardabweichung) auszudrücken. Dies scheint im Falle der Konzentration nun nicht mehr in befriedigender Weise zu gelingen, da das verwendete Konzentrationsmaß entweder Unzulänglichkeiten aufweist (Konzentrationsrate, Herfindahl-Index) oder aber, wie im Falle der Lorenzkurve, kein einzelner Wert, sondern ein ganzer Kurvenzug ist. Aus diesem Dilemma verhilft uns der sogenannte Gini-Koeffizient. 3.3 Konzentrationsmaße: Auf wieviele Merkmalsträger konzentriert sich eine Verteilung? 37 Gini-Koeffizient L(wi) 1 50% B 10% 50 % 1 wi Betrachten wir obenstehende fiktive Lorenzkurve und stellen uns vor, daß mit ihr gemessen wird, welches Ausmaß an Konzentration der „Wohlstand der Nationen“ aufweist. Der Argumentwert wi = 50 % bezeichnet den Anteil von 50 % der ärmsten Länder an der Gesamtzahl aller Länder und der Funktionswert L(wi) = 10 % bedeutet, daß diese 50 % ärmsten Länder nur 10 % des Gesamtwohlstands auf sich vereinen. Im Falle völliger Gleichverteilung müßte dieser Wohlstandsanteil dem Anteil der Merkmalsträger entsprechen, d.h. er müßte ebenfalls 50 % betragen. Hieraus wird deutlich, daß die Lorenzkurve im Falle völliger Gleichverteilung der Diagonalen entspricht, wogegen sie sich mit zunehmender Konzentration immer mehr dem Verlauf des Koordinatenkreuzes annähert. Dies wiederum bedeutet, daß die Fläche B zwischen der Diagonalen und der Lorenzkurve umso größer wird, je stärker die Konzentration ist, d.h. je stärker die Ausprägungen auf einige (wenige) Merkmalsträger konzentriert sind. Aufgrund dieses Zusammenhanges bietet es sich an, die Fläche B zwischen Diagonallinie und Lorenzkurve als Basis eines formalen Konzentrationsmaßes zu verwenden. Genau diese Überlegung liegt dem GiniKoeffizienten zugrunde: Der Gini-Koeffizient entspricht dem Quotienten aus der Fläche zwischen Diagonaler und Lorenzkurve und der gesamten Dreiecksfläche. 38 3 Beschreibung und Analyse von Daten Gini-Koeffizient Gegeben sei eine Lorenz-Kurve. Die Fläche zwischen der Diagonalen und der Lorenzkurve sei mit B bezeichnet. Dann ergibt sich der Gini-Koeffizient – GK – durch: B GK = Dreiecksgesamtfläche Der Gini-Koeffizient ist bewußt in einer Weise konstruiert, die an der bereits erwähnten Eigenschaft der Lorenz-Kurve anknüpft: Ist das Ausmaß der Konzentration extrem gering, so entspricht die Lorenzkurve nahezu der Diagonalen; die Fläche zwischen Lorenz-Kurve und Diagonalen ist fast Null; der Gini Koeffizient strebt ebenfalls gegen Null. Ist das Ausmaß der Konzentration dagegen extrem hoch, so verläuft die Lorenzkurve fast entlang dem Koordinatenkreuz; die Fläche zwischen Lorenz-Kurve und Diagonalen entspricht fast der Gesamtfläche des Dreiecks; der Gini-Koeffizient strebt gegen Eins. Der Gini-Koeffizient bewegt sich somit im (rechtsoffenen) Intervall zwischen Null und Eins, wobei hohe Werte ein hohes und niedrige Werte ein geringes Ausmaß an Konzentration anzeigen: GK∈[0; 1) 3.4 Korrelationsmaße: Wie gleichgerichtet sind zwei verschiedene Verteilungen? Im Rahmen statistischer Auswertungen spielt manchmal das Verhalten zweier Merkmalsausprägungen relativ zueinander eine überragende Rolle. So gibt es Ausprägungspaare, die sich mehr oder weniger gleichlaufend verhalten: wenn sich eine Ausprägung erhöht, steigt die andere ebenfalls und umgekehrt. Andererseits gibt es jedoch auch Paare, die sich gegenlaufend verhalten: nimmt eine Ausprägung zu, fällt die andere und umgekehrt. Kovarianz Die Kovarianz quantifiziert das Ausmaß des "Gleichlaufens" zweier Merkmale. Sie ist definiert als das arithmetische Mittel des Produktes der Abweichungen beider Merkmale von ihrem jeweiligen (arithmetischen) Mittelwert: 3.4 Korrelationsmaße: Wie gleichgerichtet sind zwei verschiedene Verteilungen? 39 Kovarianz Gegeben seien die Ausprägungen (x1;.....;xN) der Merkmals X sowie die Ausprägungen ( y1;.....;yN) des Merkmals Y. Gegeben seien weiter die arithmetischen Mittel x und y . Die Kovarianz – KOV(x;y) – der beiden Merkmale X und Y errechnet sich dann als: KOV(x;y) = 1 N N ∑ [ xi − x ][ yi − y ] i =1 Ähnlich der Varianz ist auch die Kovarianz eine unter Beteiligung aller Merkmalsausprägungen gebildete Summe. Allerdings ist jeder einzelne Summand das Produkt der beiden Faktoren [xi- x ] und [yi- y ]. Der erste Faktor ist die Abweichung der Merkmalsausprägung xi vom Mittelwert x und der zweite Faktor ist die Abweichung der Merkmalsausprägung yi vom Mittelwert y . Für jeden einzelnen dieser Summanden sind folgende drei Fälle denkbar: • [xi- x ][yi- y ] < 0; einer positiven oder negativen Abweichung der Merkmalsausprägung xi entspricht eine entgegengesetzte Abweichung der Ausprägung yi. • [xi- x ][yi- y ] = 0; mindestens eine der beiden Merkmalsausprägungen weist keine Abweichung von ihrem Mittelwert auf. • [xi- x ][yi- y ] > 0; einer positiven oder negativen Abweichung xi entspricht eine gleichgerichtete Abweichung yi. Die Summation all dieser Abweichungsprodukte bewirkt nun, daß die Kovarianz selbst drei Arten von Ausprägungen haben kann: • Sie ist negativ, wenn die negativen, d.h. entgegengesetzt verlaufenden Abweichungsprodukte überwiegen. • Sie ist Null, wenn sich entgegengesetzte und gleichgerichtete Abweichungen die Waage halten. • Sie ist positiv, wenn die positiven, d.h. gleichgerichtet verlaufenden Abweichungsprodukte überwiegen. Korrelationskoeffizient Die Spanne der Werte, welche Kovarianzen annehmen können, ist im Prinzip unbegrenzt. Es ist jedoch völlig ausreichend, das Ausmaß der Gleichläufigkeit zweier Merkmale durch die Zahlen des realwertigen Intervalls [-1;+1] auszudrücken. Eine solche Normierung wird erreicht, wenn man die Kovarianz zweier Merkmale durch das Produkt ihrer jeweiligen Standardabweichungen teilt. Das Ergebnis ist der sogenannte Korrelationskoeffizient 3 Beschreibung und Analyse von Daten 40 Korrelationskoeffizient Gegeben seien die Ausprägungen (x1;.....;xN) des Merkmals X und die Ausprägungen ( y1;.....;yN) des Merkmals Y. Gegeben seien weiter die entsprechenden arithmetischen Mittel x und y sowie die Standardabweichungen SAW(X) und SAW(Y). Der Korrelationskoeffizient δ(x;y) der beiden Merkmale X und Y errechnet sich dann als: δ(x;y) = KOV ( x; y ) SAW ( x ) * SAW ( y ) Ein Korrelationskoeffizient von +1 drückt eine perfekte Gleichläufigkeit, ein Wert von -1 dagegen eine perfekte Gegenläufigkeit zweier Merkmale aus. Zum Abschluß wollen wir uns noch einmal vor Augen führen, bei welchem Skalierungsniveau (vgl. Abschnitt 1.3) die verschiedenen Kennziffern, die wir bisher erarbeitet haben, sinnvoll angewendet werden können. Folgende Tabelle gibt daher für alle vier Skalierungsniveaus an, ob die Verwendung der jeweiligen Kennziffer zu interpretierbaren Ergebnissen führt („Ja“) oder besser unterbleiben sollte („Nein“). Nominal- Ordinal- Intervall- Verhältnis- skalierung skalierung skalierung skalierung Modus Ja Ja Ja Ja Median Nein Ja Ja Ja arithmetisches Nein Nein Ja Ja Nein Nein Nein Ja Spannweite Nein Nein Ja Ja Interquartils- Nein Nein Ja Ja Varianz Nein Nein Ja Ja Standardab- Nein Nein Ja Ja Nein Nein Nein Ja Mittel geometrisches Mittel spanne weichung Variationskoeffizient 3.4 Korrelationsmaße: Wie gleichgerichtet sind zwei verschiedene Verteilungen? 41 Nein Nein Nein Ja Nein Nein Nein Ja Lorenzkurve Nein Nein Nein Ja GiniKoeffizient Nein Nein Nein Ja Kovarianz Nein Nein Ja Ja Korrelations- Nein Nein Nein Ja Konzentrationsgrad HerfindahlIndex koeffizient 4 Grundlagen der Wahrscheinlichkeitstheorie Vor allem aus zwei Gründen ist es notwendig und sinnvoll, sich im Rahmen statistischer Grundlagen mit wahrscheinlichkeitstheoretischen Fragen zu befassen. Zum einen ist die Wahrscheinlichkeitstheorie ein eigenständiges Teilgebiet der Statistik mit einer Fülle von Anwendungsmöglichkeiten. Zum anderen aber – und dies ist der vielleicht wichtigere Grund – bildet die Wahrscheinlichkeitstheorie die Basis der induktiven Statistik: Die Gesetzmäßigkeiten, welche den Prozeß des Schließens von einer Stichprobe auf die unbekannte Grundgesamtheit beherrschen, sind die Gesetze der Wahrscheinlichkeitstheorie. So kann man beispielsweise aus einer vorliegenden Stichprobe die empirische Varianz ermitteln und die Frage stellen, ob die (unbekannte) Varianz der Grundgesamtheit einen Wert hat, der „in der Nähe“ der empirischen Varianz liegt und wie hoch die Wahrscheinlichkeit hierfür ist. Fragen dieser und ähnlicher Art, wie sie für die induktive Statistik charakteristisch sind, sind wahrscheinlichkeitstheoretischer Natur. Der gesamte Prozeß des induktiven statistischen Schließens beruht auf den Gesetzen der Wahrscheinlichkeitstheorie. 4.1 Ereignisse und ihre Verknüpfungen Die Basis wahrscheinlichkeitstheoretischer Analyse ist der Begriff des zufälligen Ereignisses. Unter einem Ereignis kann grundsätzlich jeder interessierende Sachverhalt oder Vorgang u.ä. verstanden werden. Aus Gründen besserer Übersichtlichkeit werden Ereignisse mit Hilfe von Symbolen beschrieben; sie werden formalisiert. Wenn wir Ereignisse formalisieren (d.h. statt durch Worte mit Hilfe von Symbolen beschreiben), bietet sich hierfür die allgemeinste mathematische Einheit an, nämlich die Menge. Ist im folgenden daher von einem beliebigen Ereignis X (oder auch 6 44 4 Grundlagen der Wahrscheinlichkeitstheorie von den Ereignissen A, B, C, usw.) die Rede, so kann damit im Grunde jedes beliebige Geschehen oder jede beliebige Ausage bezeichnet sein.1 Sind Ereignisse als Mengen formalisiert, so lassen sich durch mengentheoretische Verknüpfungen neue Ereignisse bilden. Damit ist ein fundamentales Prinzip angesprochen: Ereignisse sind darstellbar als logische Verknüpfung von zwei oder mehreren anderen Ereignissen. Einer logischen Verknüpfung entspricht hierbei eine ganz bestimmte mengentheoretische Operation. Folgende Verknüpfungsarten stehen zur Verfügung: zwei Ereignisse werden mit „und“ verknüpft; die entspre• Konjunktion: chende mengentheoretische Operation ist die Durchschnittsbildung, die symbolisch als „ ∩ “ dargestellt wird. • Disjunktion: zwei Ereignisse werden mit „oder“ verknüpft; die entsprechende mengentheoretische Operation ist die Vereinigung, die symbolisch als „ ∪ “ dargestellt wird. • Negation: ein Ereignis wird durch den Zusatz „nicht“ in sein Gegenteil verkehrt; die entsprechende mengentheoretische Operation ist die Komplementbildung, die symbolisch als „ ¬ “ dargestellt wird. Konjunktion Werden zwei Ereignisse mit „und“ verknüpft, so entsteht ein neues Ereignis, das genau dann eintritt, wenn jedes der beiden Ereignisse, aus denen es zusammengesetzt ist, eintritt. Beispiel 3.1 Gegeben seien folgende Ereignisse: A: Bei einmaligem Würfeln ergibt sich die Zahl 4 B: Bei einmaligem Würfeln ergibt sich eine Zahl, die größer als 3 ist. C: Bei einmaligem Würfeln ergibt sich eine Zahl, die kleiner als 5 ist. Offensichtlich gilt A=B ∩ C, da sich „die Zahl 4“ (Ereignis A) dann und nur dann ergibt, wenn „eine Zahl größer 3“ (Ereignis B) und „eine Zahl kleiner 5“ (Ereignis C) gewürfelt wird. _________________ 1 ) Die einzige Beschränkung, der wir hierbei unterworfen sind, ist, daß die entsprechenden Mengen bzw. Aussagen widerspruchsfrei konstruiert sein müssen. Ein Beispiel für eine nicht widerspruchsfrei konstruierte Menge ist „die Menge aller Mengen, die sich nicht selbst als Element enthalten“. Grund: Für eine so definierte Menge – nennen wir sie A – kann letztlich nicht entschieden werden, ob sie sich selbst als Element enthält (ob sie zu A gehört) oder nicht. Ein Beispiel für eine nicht widerspruchsfreie Aussage ist: „Der Professor behauptet, daß alle Professoren (immer) lügen.“ Grund: Es kann nicht zweifelsfrei entschieden werden, ob diese Aussage falsch oder richtig ist. Für eine anschauliche Darstellung dieser und ähnlicher Probleme vgl. Hofstädter (1985). 4.2 Zufallsexperimente, Ergebnis- und Ereignisräume 45 Disjunktion Werden zwei Ereignisse mit „oder“ verknüpft, so entsteht ein neues Ereignis, das genau dann eintritt, wenn mindestens eines der beiden Ereignisse, aus denen es zusammengesetzt ist, eintritt. Beispiel 3.2 Gegeben seien folgende Ereignisse: A: Bei einmaligem Würfeln ergibt sich die Zahl 6. B: Bei einmaligem Würfeln ergibt sich die Zahl 5. C: Bei einmaligem Würfeln ergibt eine Zahl, die größer als 4 ist. Offensichtlich gilt C=A ∪ B, da sich „eine Zahl größer 4“ (Ereignis C) dann und nur dann ergibt, wenn „die Zahl 6“ (Ereignis A) oder “die Zahl 5“ (Ereignis B) gewürfelt wird. Negation Wird ein Ereignis A mit dem Wörtchen „nicht“ versehen, so entsteht ein neues Ereignis, das genau dann eintritt, wenn das Ereignis A nicht eintritt. Beispiel 3.3 Gegeben sei folgendes Ereignis: A: Bei einmaligem Würfeln ergibt sich eine Zahl, die mindestens so groß ist wie die 4. Der Negation von A entspricht das Ereignis: ¬ A: Bei einmaligem Würfeln ergibt sich eine Zahl die kleiner als 4 ist. Eine alternative Formulierung für ¬ A lautet: ¬ A: Bei einmaligem Würfeln ergibt sich die Zahl 1 oder die Zahl 2 oder die Zahl 3. 4.2 Zufallsexperimente, Ergebnis- und Ereignisräume Häufig ist es nötig, begrifflich zwischen einem Ereignis und einem Ergebnis zu unterscheiden. Hierbei ist „Ereignis“ der allgemeinere Begriff, d.h. jedes Ergebnis ist zugleich auch eine Ereignis, wogegen ein Ereignis nicht notwendigerweise auch ein Ergebnis sein muß. Diese Zusammenhänge sind von so großer Bedeutung, daß es sinnvoll ist, die entsprechenden Begriffe und Hintergründe systematisch sauber und exakt einzuführen. Hierzu sind folgende Definitionen erforderlich: Zufallsexperiment Unter einem Zufallsexperiment versteht man die Beobachtung und Dokumentation des Ausgangs eines beliebigen zufälligen Vorganges oder Geschehens. 46 4 Grundlagen der Wahrscheinlichkeitstheorie Klassische Beispiele für Zufallsexperimente sind Glücksspiele. So ist der Wurf eines Würfels eindeutig ein zufallsbehafteter Vorgang. Ein mögliches Zufallsexperiment besteht beispielsweise in der Beobachtung des Ausganges eines fünfmaligen Wurfes. Ereignis Ein Ereignis ist ein konkreter Ausgang eines Zufallsexperiments. Beispiel 3.4 Betrachten wir den einmaligen Wurf eines Würfels. Mit diesem Wurf zusammenhängende mögliche Ereignisse sind beispielsweise: A: Es ergibt sich eine Zahl, die größer als 4 ist. Ei: Es ergibt sich die Zahl i (i=1,2,3,4,5,6) Beachte, daß sich das Ereignis A als „oder-Verknüpfung“ der Ereignisse E5 und E6 darstellen läßt: A=E5 ∪ E6. Ergebnis Ein Ergebnis ist ein konkreter Ausgang eines Zufallsexperiments, der nicht als „oder-Verknüpfung“ anderer Ereignisse dargestellt werden kann. Beispiel 3.5 Mögliche Ereignisse aus dem einmaligen Wurf zweier Münzen sind: A: Mit mindestens einer der beiden Münzen Wurf eines „Kopfes“ B: Mit zweiter Münze Wurf einer „Zahl“ C: Mit erster Münze Wurf eines „Kopfes“ D: Mit zweiter Münze Wurf eines „Kopfes“ Offensichtlich ist keines der Ereignisse zugleich auch ein Ergebnis, da sich jedes einzelne als „oder“ Verknüpfung anderer Ereignisse darstellen läßt. So gilt beispielsweise für das Ereignis A: A=C ∪ D. Die Ergebnisse dieses Zufallsexperiments sind: E1: Mit beiden Münzen Wurf eines „Kopfes“. E2: Mit erster Münze Wurf einer „Zahl“ und mit zweiter Münze Wurf eines „Kopfes“. E3: Mit erster Münze Wurf eines „Kopfes“ und mit zweiter Münze Wurf einer „Zahl“. E4: Mit beiden Münzen Wurf einer „Zahl“. Nun wird auch deutlich, durch welche „oder“-Verknüpfungen sich die Ereignisse B, C, und D darstellen lassen: B=E3 ∪ E4; C=E1 ∪ E3; D=E1 ∪ E2. Ergebnisraum Ein Ergebnisraum – häufig mit dem Symbol Ω bezeichnet – ist die Menge von Ergebnissen eines Zufallsexperiments, von denen genau eines eintreten muß und die sich als Ausgang eines Zufallsexperiments gegenseitig ausschließen. 4.2 Zufallsexperimente, Ergebnis- und Ereignisräume 47 Beispiel 3.6 Beim einmaligen Wurf einer Münze muß offensichtlich entweder Kopf (K) oder Zahl (Z) geworfen werden. Damit erfüllt die Menge mit den Elementen Z und K die Bedingung des Ergebnisraumes Ω , d.h. es gilt: Ω = {Z, K}. Beispiel 3.7 Für den Ergebnisraum des einmaligen Wurfes von zwei Münzen (alternativ: zweimaliger Wurf einer Münze) gilt: Ω = {(Z, Z); (K, Z); (Z, K); (K, K)}. Beispiel 3.8 Gegeben seien die folgenden Ereignisse, die aus dem einmaligen Wurf eines Würfels resultieren können: A: Es ergibt sich eine Zahl, die größer als 4 ist. B: Es ergibt sich eine ungerade Zahl C: Es ergibt sich eine Zahl, die größer 2, aber kleiner 5 ist. D: Es ergibt sich eine Zahl zwischen 1 und 6 Ei: Es ergibt sich die Zahl i (i=1, 2,3,4,5,6) Diese Liste möglicher Ereignisse könnte noch um einiges verlängert werden, ein wichtiger Zusammenhang läßt sich jedoch bereits der Liste A bis Ei (i=1,2,3,4,5,6) entnehmen: Obgleich es sich bei A bis Ei (i=1,2,3,4,5,6) um Ereignisse handelt, sind nur die sechs Ereignisse Ei (i=1,2,3,4,5,6) zugleich auch Ergebnisse und bilden gemeinsam den Ergebnisraum: Ω = {E1, E2, E3,E4, E5, E6}. Grund: Genau ein Ei muß eintreten und keines der Ei läßt sich als „oder-Verknüpfung“ anderer Ereignisse darstellen. Die Ereignisse A-D dagegen können durch „oder-Verknüpfungen“ der Ergebnisse Ei (i=1,2,3,4,5,6) ausgedrückt werden: A=E5 ∪ E6; B=E1 ∪ E3 ∪ E5; C= E3 ∪ E4; D= E2 ∪ E3 ∪ E4 ∪ E5. Ereignisse A bis D sind daher keine Ergebnisse. Ereignisraum Ein Ereignisraum ist die Menge aller Ereignisse, die mit einem Zufallsexperiment in Zusammenhang gebracht werden können. Mengentheoretisch ist der Ereignisraum die Potenzmenge P(Ω) des Ergebnisraumes: Beispiel 3.9 Betrachten wir wieder die möglichen Resultate des einmaligen Wurfes einer Münze. Für den Ergebnisraum Ω gilt: Ω={Z, K}. Die Potenzmenge von Ω ergibt sich nach den Regeln der Mengenlehre als: P(Ω)={∅; {Z}; {K}; {Z, K}}. Die einzelnen Elemente der Potenzmenge sind wie folgt zu interpretieren: ∅ Weder Zahl noch Kopf wird geworfen (die alternative Formulierung lautet „Kopf und Zahl wird geworfen“, woraus ersichtlich wird daß es sich um ein unmögliches Ereignis handelt). {Z} Zahl wird geworfen. {K} Kopf wird geworfen. {Z, K} Kopf oder Zahl wird geworfen. Unter diesen Ereignissen repräsentiert die leere Menge ∅ das unmögliche und die Menge {Z, K} das sichere Ereignis. 4 Grundlagen der Wahrscheinlichkeitstheorie 48 Beispiel 3.10 Gegeben seien die möglichen Ergebnisse eines Fußballspieles Ω={EA, EB, EU} mit der inhaltlichen Bedeutung: EA: Mannschaft A gewinnt. EB: Mannschaft B gewinnt. E U: Unentschieden. Die Potenzmenge von Ω ergibt sich nach den Regeln der Mengenlehre als: P(Ω)={∅; {EA}; {EB}; {EU}; {EA, EB}; {EA, EU}; {EB, EU}; {EA, EB, EU}}. Die einzelnen Elemente der Potenzmenge sind wie folgt zu interpretieren: ∅ Das Spiel hat kein Ergebnis (alternativ: Das Spiel gewinnt Mannschaft A und Mannschaft B und endet unentschieden). {EA} Mannschaft A gewinnt. {EB} Mannschaft B gewinnt. {EU} Unentschieden. {EA, EB} Das Spiel endet nicht unentschieden (alternativ: Mannschaft A oder Mannschaft B gewinnt). {EA, EU}: Mannschaft B gewinnt nicht (alternativ: Mannschaft A gewinnt oder das Spiel endet unentschieden). {EB, EU}: Mannschaft A gewinnt nicht (alternativ: Mannschaft B gewinnt oder das Spiel endet unentschieden). {EA, EB, EU}: Das Spiel wird von Mannschaft A oder von Mannschaft B gewonnen oder es endet unentschieden. Wie man sich leicht überzeugen kann, ist durch den Ereignisraum [der Potenzmenge P(Ω) des Ergebnisraumes Ω ] tatsächlich jedes Ereignis erfaßt, das mit einem Zufallsexperiment, dessen Ergebnisraum Ω ist, in Zusammenhang gebracht werden kann. Um den Leser mit den grundlegenden Begriffen vertraut zu machen, wurden bisher die Beispiele so gewählt, daß der jeweils adäquate Ergebnisraum ohne Probleme ersichtlich war. Dies ist jedoch häufig nicht der Fall: Im Zentrum vieler statistischer Anwendungen stehen Ereignisse, denen nicht unmittelbar entnommen werden kann, aus welchen Ergebnissen sie im einzelnen zusammengesetzt sind. Wie wir im nächsten Abschnitt sehen werden, ist jedoch vor allem zur Ermittlung korrekter Wahrscheinlichkeiten eine klare Vorstellung hinsichtlich des (zugrundeliegenden) Ergebnisraumes erforderlich. 4.3 Die verschiedenen Wahrscheinlichkeitskonzeptionen Was bedeutet es eigentlich, wenn von „Wahrscheinlichkeit“ die Rede ist? So häufig dieser Begriff – auch umgangssprachlich – gebraucht wird, wenn man etwas tiefer bohrt, so wird man feststellen, daß er alles andere als „wohldefiniert“ ist. Aller- 4.3 Die verschiedenen Wahrscheinlichkeitskonzeptionen 49 dings kann man festhalten: Der Begriff wird immer im Zusammenhang mit der „Wahrscheinlichkeit, daß ein bestimmtes Ereignis eintritt“ verwendet. Es geht also offensichtlich darum, die Wahrscheinlichkeit dafür zu ermitteln, ob etwas Bestimmtes geschieht oder nicht geschieht. Die Vielfalt dessen, was damit in der Anwendung gemeint sein kann, wird üblicherweise in das unscheinbare Wort „Ereignis“ gepreßt. Dies werden wir – wie bereits im letzten Abschnitt – auch weiterhin so handhaben. Wie bisher werden wir ein Ereignis, von dessen Wahrscheinlichkeit die Rede sein soll, mit einem beliebigen Symbol – beispielsweise mit A, B, C oder auch X – belegen. Die Notation W(X) (in Worten: „W von X“) bezeichnet dann „die Wahrscheinlichkeit, daß genau das Ereignis X eintritt“. Obgleich wir im vorliegenden Abschnitt die einzelnen konkreten Bedeutungen der behandelten Ereignisse bewußt ausklammern werden, heißt dies nicht, daß diese inhaltlichen Belegungen keine Rolle spielen. Ganz im Gegenteil: Gerade bei der Anwendung und Interpretation von wahrscheinlichkeitstheoretischen Aussagen kommt es entscheidend auf die konkreten Inhalte an. Nur: Das Thema dieses Abschnittes – der Wahrscheinlichkeitsbegriff sowie die entsprechenden Gesetzmäßigkeiten – sind davon unabhängig. Man unterscheidet insgesamt vier verschiedene Wahrscheinlichkeitsbegriffe: • klassische Wahrscheinlichkeit • statistische Wahrscheinlichkeit • subjektive Wahrscheinlichkeit • axiomatische Wahrscheinlichkeit Jeder dieser vier Begriffe repräsentiert eine ganz bestimmte Vorstellung dessen, was man unter Wahrscheinlichkeit verstehen kann; jeder repräsentiert somit eine besondere Wahrscheinlichkeitskonzeption. Diese stehen jedoch nicht isoliert nebeneinander, sondern es bestehen Gemeinsamkeiten und gewisse Zusammenhänge. Allerdings beleuchten sie jeweils ganz spezielle Bereiche der umfassenden Bedeutung des Begriffes „Wahrscheinlichkeit“. Die klassische Wahrscheinlichkeit Die Essenz der klassischen, auf Pierre Simon Laplace (1774) zurückgehende, Vorstellung über das Wesen der Wahrscheinlichkeit ist relativ simpel: Zwei Ereignisse haben dann als gleichwahrscheinlich zu gelten, wenn es keinen vernünftigen Grund dafür gibt, etwas anderes anzunehmen. Dies bedeutet nicht, daß vor dem Hintergrund des klassischen Wahrscheinlichkeitsbegriffes alle Ereignisse als gleichwahrscheinlich anzusehen sind. Selbstverständlich gibt es eine Vielfalt von vernünftigen Gründen, die es angezeigt erscheinen lassen, vom Prinzip der Gleichwahrscheinlichkeit abzuweichen. Dies ist regelmäßig dann der Fall, wenn ein bestimmtes Ereignis aus mehreren anderen „elementaren“ Ereignissen zusammengesetzt ist. 4 Grundlagen der Wahrscheinlichkeitstheorie 50 Damit können wir an die im letzten Abschnitt eingeführte Unterscheidung in „Ergebnis“ und „Ereignis“ anknüpfen: Der klassische Wahrscheinlichkeitsbegriff setzt voraus, daß alle Ergebnisse eines Zufallsexperiments gleichwahrscheinlich sind. Voraussetzungen des klassischen Wahrscheinlichkeitsbegriffes Gegeben sei der Ereignisraum P(Ω) eines Zufallsexperiment sowie der zugehörige Ergebnisraum Ω. Klassische (Laplace’sche) Wahrscheinlichkeiten lassen sich ermitteln, wenn folgende Bedingungen erfüllt sind: (a) Die Anzahl der Elemente des Ergebnisraumes Ω ist endlich. (b) Die Ergebnisse sind gleichwahrscheinlich. Unter diesen Voraussetzungen reduziert sich die Ermittlung der Wahrscheinlichkeit eines beliebigen Ereignisses auf ein reines Abzählproblem, wie anhand folgender Defintion deutlich wird: Klassische Wahrscheinlichkeit (Laplace-Wahrscheinlichkeit) Gegeben sei der Ereignisraum P(Ω) eines Zufallsexperiment sowie der zugehörige Ergebnisraum Ω. Gegeben sei weiter ein beliebiges Ereignis A des Zufallsexperiment. [Erinnerung: Dieses Ereignis ist eine Teilmenge des Ergebnisraumes Ω und zugleich ein Element des Ereignisraumes P(Ω), d.h. es gilt A⊆Ω und A∈P(Ω)]. Die (klassische) Wahrscheinlichkeit des Ereignisses A ergibt sich dann durch: Anzahl der Elemente der Menge A W(A) = Anzahl der Elemente der Menge W Anzahl der für A günstigen Ergebnisse = Anzahl aller Ergebnisse = A Ω Beispiel 3.11 Gegeben sei der Ergebnisraum Ω={1;2;3;4;5;6} des einmaligen Wurfes eines Würfels und das Ereignis A mit der inhaltlichen Bedeutung „Wurf einer geraden Zahl“. Offensichtlich gilt A= {2;4;6}. W(A) errechnet sich durch A 3 1 W(A)= = = . Ω 6 2 Beispiel 3.12 Betrachten wir den Ergebnisraum des zweimaligen Wurfes eines Würfels Ω={(1,1);...;(1,6);(2,1);..;(2,6);(3,1);...;(3,6);(4,1);...;(4,6);(5,1);...;(5,6);(6,1);...;(6,6)} und die Ereignise A bzw. B mit den inhaltlichen Belegungen A = „Wurf der 1 im ersten und im zweiten Wurf“ und B = „Wurf der 1 im ersten oder im zweiten Wurf“. Offensichtlich gilt A = {(1,1)}. W(A) ergibt sich daher durch: 4.3 Die verschiedenen Wahrscheinlichkeitskonzeptionen W(A)= A Ω = 51 1 . 36 Etwas komplizierter ist das Ereignis B zu formalisieren, denn es gilt: B = {(1,1);(1,2);(1,3);(1,4);(1,5);(1,6);(2,1);(3,1);(4,1);(5,1);(6,1)}. W(B) ergibt sich durch: W ( B) 11 W(B)= . = Ω 36 Die statistische Wahrscheinlichkeit Die Konzeption der sogenannten statistischen Wahrscheinlichkeit, die erstmals von Richard von Mises (1936) in die Diskussion gebracht wurde, rückt den uns bereits bekannten Begriff der relativen Häufigkeit eines Ereignisses ins Blickfeld. Grundlegende Idee hierbei – und zugleich eine gewisse Abgrenzung zum klassischen Wahrscheinlichkeitsbegriff – ist die Überlegung, daß viele Zufallsexperiment wiederholbar sind und sich auf diese Weise die Wahrscheinlichkeiten für bestimmte Ereignisse ermitteln lassen sollten. Die Wahrscheinlichkeit eines Ereignisses ist im Rahmen der statistischen Wahrscheinlichkeitskonzeption definiert als der Grenzwert der relativen Häufigkeit des Ereignisses, für den Fall, daß die Anzahl der Wiederholungen des Zufallsexperiments gegen Unendlich geht. Statistische Wahrscheinlichkeit (von Mises-Wahrscheinlichkeit) Gegeben sei das Ereignis A eines beliebigen wiederholbaren Zufallsexperiments und hn(A) bzw. fn(A) seien die absoluten bzw. relativen Häufigkeiten des Auftretens von A bei n Wiederholungen des Zufallsexperiments. Die statistische Wahrscheinlichkeit von A ist definiert als: W(A) = lim n→∞ f n ( A) = lim n →∞ hn ( A) n Um diese Definition zu vedeutlichen, überlegen wir uns für das Zufallsexperiment eines zweimaligen Münzwurfes, wie groß die Wahrscheinlichkeit dafür ist, daß dabei „mindestens einmal Kopf“ geworfen wird. Da die Ergebnismenge dieses Zufallsexperiments der Menge Ω = {(Z, Z); (K, Z); (Z, K); (K, K)} entspricht und drei von insgesamt vier Ergebnissen unserer Ereignis begünstigen, gibt uns die klassische Wahrscheinlichkeit die Antwort: W(„mindestens einmal Kopf“) = 3/4. Dies allerdings nur unter der Voraussetzung, daß jedes Ergebnis des Zufallsexperiments gleichwahrscheinlich ist. Nehmen wir einmal an, daß wir aus irgendwelchen Gründen nicht mehr auf diese „Gleichwahrscheinlichkeitshypothese“ vertrauen können, z.B. weil wir den begründeten Verdacht hegen, daß die Münze irgendwie verbogen und damit nicht “perfekt“ ist. Können wir trotzdem etwas über die uns interessierende Wahrscheinlichkeit aussagen? Die Konzeption der statistischen 52 4 Grundlagen der Wahrscheinlichkeitstheorie Wahrscheinlichkeit gibt hierauf die Antwort, daß die gesuchte Wahrscheinlichkeit als Grenzwert der entsprechenden relativen Häufigkeit verstanden werden muß. Die statistische Wahrscheinlichkeit ist eine zunächst sehr überzeugende Konstruktion. Vor allem weil man die Grenzwerte meistens im Sinne der klassischen Wahrscheinlichkeit interpretiert. So wird gerne unterstellt, daß beispielsweise beim Würfeln die relative Häufigkeit einer „Sechs“ mit zunehmender Zahl der Versuche tatsächlich gegen 1/6 konvergiert – was ja der klassischen Wahrscheinlichkeit entspricht. Man sollte jedoch nie vergessen, daß dies letztlich lediglich eine Vermutung ist. Es besteht weder die Möglichkeit, zu beweisen, daß dieser vermutete Grenzwert tatsächlich existiert, noch daß er der klassischen Wahrscheinlichkeit entspricht. Wie gesagt, dies kann man nur vermuten. Allerdings gibt es hierfür starke Argumente. Das überzeugendste hierbei ist der sogenannte Stabilisierungseffekt relativer Häufigkeiten, der sich durch folgende Grafik veranschaulichen läßt: fn(A) 1 3/4 Anzahl der Doppelwürfe (n) Hierbei sei mit A wieder das Ereignis bezeichnet, daß bei einem zweimaligen Münzwurf mindestens einmal Kopf geworfen wird. Die Glieder der Folge [f1(A); f2(A); f3(A);f4(A);.....] bezeichnen für konkrete Versuche jeweils die relativen Häufigkeiten, daß dabei tatsachlich mindestens einmal Kopf geworfen wurde und zwar bei einem Doppelwurf, bei zwei Doppelwürfen, bei drei Doppelwürfen, bei vier Doppelwürfen usw. Ein mögliche konkrete Folge besteht in [f1(A)=1; f2(A)=0,5; f3(A)=1;f4(A)=0;.....], wobei f1(A)=1 besagt, daß bei einmaligen Doppelwurf mindestens einmal Kopf geworfen wurde, f2(A)=0,5 dagegen, daß in einem der beiden Doppelwürfe zweimal Zahl geworfen wurde, f3(A)=1 wiederum zeigt an, daß in jedem von drei Doppelwürfen (mindestens) einmal Kopf vorlag, wogegen f4(A)=0 bedeutet, daß in keinem von vier Doppelwürfen „Kopf“ das Ergebnis war. Man 4.3 Die verschiedenen Wahrscheinlichkeitskonzeptionen 53 beachte, daß selbstverständlich auch andere Folgen als die beschriebene resultieren können. Entscheidend ist jedoch folgendes: Während die relativen Häufigkeiten bei nur wenigen Wiederholungen des Zufallsexperiments sehr breit streuen können, scheinen sie sich mit zunehmender Anzahl um einen bestimmten Wert zu stabilisieren. Um diesen Sachverhalt zu illustrieren, betrachten wir noch einmal die oben als Beispiel angeführte Folge, bei der für n=4 gilt f4(A)=0. Dies ist ein durchaus plausibles Resultat, denn es besagt lediglich, daß bei vier Doppelwürfen nicht ein einziges Mal „Kopf“ gewürfelt wurde. Betrachten wir dasselbe Resultat bei einer Wiederholungszahl von n=500, d.h es gelte f500(A)=0. Die würde bedeuten, daß bei fünfhundert Doppelwürfen, also bei insgesamt eintausend Münzwürfen, nicht ein einziges Mal „Kopf“ erscheint. Vermutlich glauben die meisten Leser, daß dies unmöglich ist. Hier müssen wir jedoch relativieren: Unmöglich ist ein solches Ereignis nicht, es ist nur extrem unwahrscheinlich. Unmöglich ist auch nicht der Fall f500.000(A)=0. Allerdings ist er in einem so hohen Maße unwahrscheinlich, daß wir ihn für alle praktischen Zwecke ausschließen können. Halten wir also fest: Im Rahmen der Konzeption statistischer Wahrscheinlichkeiten ist der Begriff Wahrscheinlichkeit als Grenzwert relativer Häufigkeiten definiert. Hierbei ergeben sich zwei Probleme: Zunächst kann die Existenz eines solchen Grenzwertes niemals bewiesen, sondern nur vermutet bzw. postuliert werden. Genau dies geschieht im Rahmen des statistischen Wahrscheinlichkeitskonzeptes. Darüberhinaus kann ebenfalls nicht bewiesen werden, daß dieser Grenzwert – wenn er denn existiert – der klassischen Wahrscheinlichkeit entspricht. Auch dies kann nur vermutet werden. Allerdings liegt für beide Vermutungen eine überzeugende empirische Evidenz vor. Die subjektive Wahrscheinlichkeit Die von Savage (1954) vorgestellte subjektive Wahrscheinlichkeitskonzeption macht auf einen Schwachpunkt der bisher behandelten Wahrscheinlichkeiten aufmerksam: Sowohl die klassische als auch die statistische Wahrscheinlichkeit suggerieren durch ihre formal exakten Definitionen eine Präzision, die, vor allem was ihre konkrete Anwendbarkeit anbelangt, Erwartungen weckt, die sich nicht einlösen lassen. Dies gilt für viele Bereiche. Man denke beispielsweise nur an das gesamte Gebiet der Sozial- und Wirtschaftswissenschaften. Obgleich wir es in diesen Disziplinen mit Phänomenen zu tun haben, die vom Zufall (mit)bestimmt werden, ist es uns nicht möglich, für die interessierenden Ereignisse objektive Wahrscheinlichkeiten anzugeben. Dies macht es sehr schwer, bei bestimmten Vorgängen die zufälligen Einflüsse quantitativ abzuschätzen und von systematischen Einflußfaktoren – hinter denen sich Gesetzmäßigkeiten verbergen könnten – abzugrenzen. M.a.W., es ist fast unmöglich zu entscheiden, ob sie rein zufällig ausgelöst wurden, oder ob sie Ausdruck eines systematischen Zusammenhanges sind. 54 4 Grundlagen der Wahrscheinlichkeitstheorie Trotz dieser Schwierigkeiten ist es gelungen, im Rahmen dieser Disziplinen eine Vielzahl allgemeiner Gesetzmäßigkeiten abzuleiten. Dies wurde möglich durch den Kunstgriff der subjektiven Wahrscheinlichkeit: In Ermangelung objektiver Wahrscheinlichkeiten unterstellt man in diesen Disziplinen häufig, daß die handelnden Subjekte ihre Entscheidungen auf der Basis individueller, rein subjektiver Wahrscheinlichkeiten treffen. Der subjektive Wahrscheinlichkeitsbegriff stellt daher eine bewußte Abgrenzung zum objektivierenden Charakter der klassischen und der statistischen Wahrscheinlichkeit dar. Die axiomatische Wahrscheinlichkeit Es ist müßig darüber zu spekulieren, welcher der bisher vorgestellten Wahrscheinlichkeitsbegriffe der „richtige“ ist. Keine der Konzeptionen hat „die Wahrheit“ für sich alleine gepachtet, sondern jede weist Vor- und Nachteile auf. So ist es sicherlich sinnvoll, bei allen Fragestellungen und Zusammenhängen, in denen der reine Zufall dominiert, die klassische Wahrscheinlichkeit zu unterstellen. Liegen dagegen Probleme vor, bei denen sich kontrollierte Wiederholungen der Zufallsexperimente durchführen lassen, so bietet sich die Verwendung statistischer Wahrscheinlichkeiten an. Das weite Feld der Wirtschafts- und Sozialwissenschaften schließlich, das durchweg von nicht wiederholbaren Vorgängen und Begebenheiten geprägt ist, kann als das gewissermaßen natürliche Anwendungsgebiet des subjektiven Wahrscheinlichkeitsbegriffes betrachtet werden. So werden beispielsweise in soziologischen, psychologischen aber auch wirtschaftswissenschaftlichen Entscheidungsmodellen unter Unsicherheit durchgängig subjektive Wahrscheinlichkeiten vorausgesetzt. Unabhängig davon,welcher konkrete Wahrscheinlichkeitsbegriff einer konkreten Fragestellung zugrundeliegt, gibt es bestimmte Bedingungen, die jede Wahrscheinlichkeit – wie auch immer sie begründet wird – erfüllen muß, wenn mit ihr vernünftig und widerspruchsfrei gearbeitet werden soll. Diese sogenannten Konsistenzanforderungen stehen im Zentrum des von Kolmogoroff (1933) begründeten axiomatischen Wahrscheinlichkeitsbegriffes. Im Gegensatz zu den drei bisher behandelten Wahrscheinlichkeiten liefert die axiomatische Wahrscheinlichkeit daher keine neue Interpretation des Phänomens, sondern sie repräsentiert lediglich bestimmte Grundanforderungen, die im folgenden dargestellt werden sollen: 4.3 Die verschiedenen Wahrscheinlichkeitskonzeptionen 55 Kolmogoroff-Axiome 2 der Wahrscheinlichkeitstheorie Gegeben sei ein beliebiges Zufallsexperiments sowie der zugehörige Ergebnisraum Ω. Gegeben seien weiter beliebige Ereignisse A und B des Zufallsexperiments. Eine Funktion W(A), d.h. eine Vorschrift, die jedem Ereignis genau eine reelle Zahl zuordnet, ist eine Wahrscheinlichkeit, wenn sie folgenden Axiomen genügt: (A1) W(Ω)=1 (A2) 0 ≤ W(A) ≤ 1 (A3) W(A∪B) = W(A)+W(B) wenn gilt: A∩B=∅ Axiom 1 – die sogenannte Normierung – besagt, daß dem absolut sicheren Ereignis (und nur diesem!) die Wahrscheinlichkeit Eins zugeordnet wird. Eine Konsequenz dieses Axioms (plus der beiden anderen) ist, daß dem unmöglichen Ereignis die Wahrscheinlichkeit Null zugeordnet werden muß, d.h. W(∅)=0. Dies wiederum bedeutet, daß jedem Ereignis, das nicht dem absolut unmöglichen Ereignis entspricht, eine Wahrscheinlichkeit größer als Null zukommt. Auch extrem unwahrscheinliche Vorgänge haben somit gemäß den Kolmogoroff-Axiomen eine positive Wahrscheinlichkeit. Axiom 2 – die Voraussetzung der Nichtnegativität – fordert, daß die Wahrscheinlichkeit eines beliebigen Ereignisses, wie auch immer sie zustandekommt oder eingeschätzt wird, niemals negativ, aber auch niemals größer als 1 sein kann. Diese Bedingung braucht nicht weiter thematisiert zu werden, denn es ist klar, daß negative Wahrscheinlichkeiten grober Unfug sind und daß kein Ereignis eine höhere Eintrittswahrscheinlichkeit haben kann als das absolut sichere Ereignis. Axiom 3 – die Additivität – schließlich verlangt, daß die Wahrscheinlichkeit eines Ereignisses, das sich durch eine „oder-Verknüpfung“ zweier anderer sich gegenseitig ausschließender Ereignisse ergibt, der Summe der beiden Einzelwahrscheinlichkeiten entspricht. Trotz der obenstehenden Einteilung in vier unterschiedliche Wahrscheinlichkeitsbegriffe, ist es sehr hilfreich, sich vor Augen zu halten, daß es sich hierbei nicht um Konzeptionen handelt, die sich widersprechen. Jeder einzelne dieser Wahrscheinlichkeitsbegriffe beleuchtet ganz bestimmte Facetten der Gesamtheit dessen, was wir „Wahrscheinlichkeit“ nennen. So steht beim klassischen Wahrscheinlichkeitsbegriff die Idee im Vordergrund, daß vermutlich alle Ereignisse auf einer sehr elementaren Ebene gleichwahrscheinlich sind, wogegen der statistische Wahrscheinlichkeitsbegriff an die Bedeutung der relativen Häufigkeit erinnert. Beiden Wahrscheinlichkeitsbegriffen – sowohl dem klassischen als auch dem statistischen – haftet in gewisser Weise noch ihre Herkunft an, nämlich das Casino des 18. Jahrhunderts. Hier markiert der subjektive Wahrscheinlichkeitsbegriff einen vollständigen Bruch: Nun stehen Ereignisse im Vordergrund, deren Wahrscheinlichkeiten _________________ 2 Unter einem Axiom versteht man eine nicht beweisbare Voraussetzung. 56 4 Grundlagen der Wahrscheinlichkeitstheorie weder durch die Gleichverteilungsannahme der klassischen noch durch die Konvergenzvermutung der statistischen Wahrscheinlichkeit bestimmt werden können: Entscheidend ist ausschließlich die subjektive Einschätzung der Eintrittswahrscheinlichkeiten bestimmter Ereignisse. Der axiomatische Wahrscheinlichkeitsbegriff schließlich lenkt die Aufmerksamkeit auf minimale Konsistenzanforderungen, die (bei aller Subjektivität) erfüllt sein müssen, wenn mit einer wie auch immer begründeten Wahrscheinlichkeit theoretisch und praktisch gearbeitet werden soll. In diesem Zusammenhang ist eine alte, von Frank Knight (1921) in die Diskussion gebrachte Differenzierung von besonderem Interesse: Es geht um den Unterschied zwischen Risiko und Unsicherheit in den Sozial- und Wirtschaftswissenschaften. Gemäß der – mittlerweile überholten – Klassifizierung Knight’s ist eine Situation risikobehaftet, wenn den involvierten Ereignissen Wahrscheinlichkeiten zugeordnet werden können, die mehr oder weniger „objektiver“ Natur sind. Die Situation ist dagegen von Unsicherheit geprägt, wenn eine solche Wahrscheinlichkeitszuordnung nicht oder nur sehr vage möglich ist.Vor dem Hintergrund obenstehender Ausführungen zu den diversen Wahrscheinlichkeitsbegriffen sollte deutlich geworden sein, daß eine begriffliche Abgrenzung zwischen Risiko und Unsicherheit durch die Einführung subjektiver Wahrscheinlichkeiten vor allem in den Sozialund Wirtschaftswissenschaften überflüssig geworden ist. In der Tat werden die Begriffe Risiko und Unsicherheit im modernen Fachjargon dieser Disziplinen immer mehr zu Synonymen. Es wird immer klarer, daß letztlich jede Wahrscheinlichkeitszuordnung, die sich nicht aus exakten naturwissenschaftlichen Gesetzen ableiten läßt, subjektiver Natur sein muß. Unterschiede bestehen lediglich im Präzisionsgrad der Einschätzung. So beträchtlich diese im einzelnen auch sein mögen, begründen sie doch keinen qualitativen Unterschied, der es rechtfertigen würde, begrifflich zwischen „Risiko“ und „Unsicherheit“ im Sinne Knight’s (1921) zu unterscheiden. Beispielsweise beinhaltet die Sterbetafel einer Lebensversicherung erheblich präzisere Angaben zur Wahrscheinlichkeit des „Schadensfalles“ als die Risikokalkulationen des Betreibers eines Atomkraftwerkes – den Anspruch auf Objektivität ihrer Wahrscheinlichkeitskalkulation jedoch können beide nicht erheben. 4.4 Bedingte Wahrscheinlichkeiten Zu einer Vielzahl von Fragestellungen liegen Informationen vor, die Wahrscheinlichkeitszuordnungen nur in einer indirekten Form erlauben. So ist von medizinischen Tests in der Regel bekannt, wie groß die Wahrscheinlichkeit dafür ist, daß eine bestimmte Krankheit diagnostiziert wird, unter der Voraussetzung, daß der Proband die Krankheit auch tatsächlich hat. Darüber hinaus liegt meistens auch die Wahrscheinlichkeit vor, daß die Krankheit diagnostiziert wird, unter der Vorausset- 4.4 Bedingte Wahrscheinlichkeiten 57 zung, daß der Proband die entsprechende Krankheit nicht hat. Unbekannt ist jedoch zunächst die Wahrscheinlichkeit, ob der konkrete Proband die Krankheit nun tatsächlich hat oder nicht. Sie muß indirekt erschlossen werden. Ein anderes erfreulicheres Beispiel sind Schwangerschaftstests: Die Qualität der Tests ist bekannt, d.h. man weiß, wie hoch die Wahrscheinlichkeit ist, daß der Test positiv ausfällt, wenn die Frau tatsächlich schwanger ist. Man kennt auch die Wahrscheinlichkeit eines positiven Test, wenn tatsächlich keine Schwangerschaft vorliegt. Was zunächst noch unbekannt ist, ist die Wahrscheinlichkeit einer tatsächlichen Schwangerschaft. Diese und andere können aber durch die Konstruktion sogenannter bedingter Wahrscheinlichkeiten erschlossen werden. Bedingte Wahrscheinlichkeit Als bedingte Wahrscheinlichkeit eines Ereignisses A bezeichnet man die Wahrscheinlichkeit des Ereignisses A unter der Voraussetzung, daß ein anderes Ereignis (z.B. B) bereits eingetreten ist. Das Symbol hierfür lautet: W(AB). Formal ergibt sich die bedingte Wahrscheinlichkeit durch: W(AB)= W ( A ∩ B) W ( B) Beispiel 3.13 Betrachten wir folgende mit einer potentiellen Schwangerschaft verbundenen Ereignisse: A: Probandin ist schwanger ¬ A: Probandin ist nicht schwanger B: Schwangerschaftstest zeigt bei der Probandin eine Schwangerschaft an ¬B: Schwangerschaftstest zeigt bei der Probandin keine Schwangerschaft an Folgende bedingte Wahrscheinlichkeiten können sinnvollerweise gebildet werden: (a) W(BA) Wahrscheinlichkeit, daß der Test eine Schwangerschaft anzeigt, unter der Voraussetzung, daß die Probandin tatsächlich schwanger ist. (b) W(¬BA) Wahrscheinlichkeit, daß der Test keine Schwangerschaft anzeigt, unter der Voraussetzung, daß die Probandin schwanger ist. (c) W(B¬A ) Wahrscheinlichkeit, daß der Test eine Schwangerschaft anzeigt, unter der Voraussetzung, daß die Probandin tatsächlich nicht schwanger ist. (d) W(¬B¬A ) Wahrscheinlichkeit, daß der Test keine Schwanger schaft anzeigt, unter der Voraussetzung, daß die Probandin nicht schwanger ist. Offensichtlich sind (a) und (d) die Wahrscheinlichkeiten der korrekten Ergebnisse des Schwangerschaftstests, wogegen (b) und (c) die Wahrscheinlichkeiten zweier möglicher Testfehler angeben. Die Qualität eines Tests ist daher umso höher, je geringer die Fehler (b) und (c), d.h. die bedingten Wahrscheinlichkeiten W(¬BA) und W(B¬A) sind. Die Er- 4 Grundlagen der Wahrscheinlichkeitstheorie 58 eignisse (¬BA) bzw. (B¬A) werden darum häufig auch Alpha-Fehler bzw. Beta-Fehler genannt. Beispiel 3.14 Gegeben sei das Zufallsxexperiment des zweimaligen Wurfes eines Würfels sowie die Ereignisse: A „Augensumme aus beiden Würfen ist 3“ B „der erste Wurf ist eine 1“ A∩B „Augensumme ist 3 und im ersten Wurf ergibt sich 1“ (Alternativformulierung: „im ersten Wurf ergibt sich 1 und im zweiten Wurf 2“) A, B und A∩B lassen sich als Mengen wie folgt darstellen: A = {(1,2); (2,1)}; B = {(1,1); (1,2); (1,3); (1,4); (1,5); (1,6)}; A∩B = {(1,2)} Da das Zufallsexperiment insgesamt 36 Ergebnisse („Elementarereignisse“) hat, ergeben sich folgende Wahrscheinlichkeiten: W(A) = 2/36, W(B) = 6/36 und W(A∩B)=1/36. Nun stellen wir uns vor, daß das Ereignis B bereits eingetreten ist und überlegen uns, wie groß die Wahrscheinlichkeit W(AB) ist. Anhand obenstehender Regel zur Berechnung beding1 W ( A ∩ B) 36 ter Wahrscheinlichkeiten gilt: W(AB)= = = 1/6. Dieser Regel liegen fol6 W ( B) 36 gende Zusammenhänge zugrunde: Durch die Realisierung des Ereignisses B „schrumpft“ die Menge aller verbleibenden Möglichkeiten, d.h. die Ergebnismenge Ω nimmt ab. Konkret: Vor Realisierung von B läßt sich die Ergebnismenge durch folgende Matrix darstellen: 1,1 1,2 1,3 1,4 1,5 1,6 2,1 2,2 2,3 2,4 2,5 2,6 3,1 3,2 3,3 3,4 3,5 3,6 4,1 4,2 4,3 4,4 4,5 4,6 5,1 5,2 5,3 5,4 5,5 5,6 6,1 6,2 6,3 6,4 6,5 6,6 Die Ergebnisse, welche das Ereignis A („Augensumme ist 3“) begünstigen, wurden hervorgehoben. Wenn nun das Ereignis B eintritt, d.h. wenn sich im ersten Wurf eine 1 ergibt, „degeneriert“ die verbleibende Ergebnismatrix zu: 1,1 1,2 1,3 1,4 1,5 1,6 Wieder wurde das nun noch mögliche Ergebnis, welches A begünstigt, hervorgehoben. Es verbleibt von insgesamt 6 Ergebnissen nur noch eines, welches das Ereignis A begünstigt; die errechnete Wahrscheinlichkeit von 1/6 somit wird auch durch die klassische Wahrscheinlichkeitsermittlung des Abzählens gestützt. 4.4 Bedingte Wahrscheinlichkeiten 59 Interessant ist in diesem Zusammenhang, daß mit der fortschreitenden Realisierung von Ereignissen einerseits zwar die Anzahl der Möglichkeiten abnimmt, die ein bestimmtes, uns interessierendes Ereignis begünstigen, daß andererseits aber zugleich die gesamte Ergebnismenge noch deutlicher schrumpft: Die Anzahl insgesamt möglicher Ergebnisse nimmt stärker ab als die Anzahl der begünstigenden Ergebnisse. Daraus ergibt sich eine bemerkenswerte Schlußfolgerung: Solange ein bestimmtes Ereignis prinzipiell noch eintreten kann, nimmt seine Wahrscheinlichkeit mit fortschreitender Evolution (was ja nichts anderes bedeutet, als die laufende Realisierung von bis dato nur potentiellen Möglichkeiten!) permanent zu. Diese Wahrscheinlichkeitszunahme dauert an, bis das Ereignis sich entweder tatsächlich realisiert (d.h. die Wahrscheinlichkeit „springt“ auf 1) oder sein Eintreten endgültgig ausgeschlossen wird (d.h. die Wahrscheinlichkeit „springt“ auf 0). Um sich dieses Prinzip vor Augen zu führen, stellen Sie sich vor, Sie hätten an einem Lottospiel („6 aus 49“) teilgenommen und hierbei die Zahlen (1,2,3,4,5,6) getippt. Nun sitzen Sie vor Ihrem Fersehgerät und verfolgen die Ziehung der Lottozahlen. Als geübter Wahrscheinlichkeitstheoretiker wissen Sie, daß die Chance auf sechs Richtige verschwindend gering ist. Entsprechend uninteressiert verfolgen Sie den Verlauf der Ziehung. Als nun als erste Zahl die 6 gezogen wird, bleiben Sie ganz ruhig, da Ihnen bewußt ist, daß Ihre Chance auf den Hauptgewinn nun zwar zugenommen hat, aber immer noch verschwindend gering ist. Als jedoch als zweite Zahl die 5 erscheint, spitzen Sie die Ohren. Nachdem als dritte Zahl eine 4 gezogen wird, sitzen Sie kerzengerade in Ihrem Sessel, bei der vierten Zahl 3 sind Sie nicht mehr zu halten und als dann als fünfte Zahl auch noch die 2 gezogen wird, bricht Ihnen der Schweiß aus. Immerhin stehen Sie nun kurz vor sechs Richtigen. Die Wahrscheinlichkeit auf den Hauptgewinn hat sich mit jeder Ziehung erhöht und beträgt nun 1/44, da sich noch 44 Kugeln in der Trommel befinden. Wird als sechste Zahl die 1 gezogen, sind Sie der große Gewinner (d.h. die Wahrscheinlichkeit des Hauptgewinns springt auf 1), ist eine andere Zahl das Ergebnis, gehen Sie leer aus (die Wahrscheinlichkeit springt auf Null).3 Entscheidend ist, daß die Wahrscheinlichkeit des Ereignisses „sechs Richtige“ auf jeder Stufe des Spiels auf Null springen kann. Geschieht dies nicht, steigt Sie notwendigerweise an. Angenommen, es wäre nach der ersten Zahl „6“ als zweite Zahl zwar die „5“, aber als dritte die „27“ gezogen worden. Die Wahrscheinlichkeit des Hauptgewinns wäre nach der ersten und zweiten Ziehung angestiegen, nach der dritten aber auf Null zurückgefallen. Vor dem Hintergrund der soeben skizzierten Zusammenhänge sollte nachvollziehbar sein, warum Wahrscheinlichkeiten in den Wirtschafts- und Sozialwissenschaften, aber auch in den Naturwissenschaften nicht als statische, sondern als sich dy_________________ 3 Aus Vereinfachungsgründen werden die beim Lotto ja zusätzlich gegebenen Gewinnchancen bei fünf, vier und drei Richtigen vernachlässigt. 4 Grundlagen der Wahrscheinlichkeitstheorie 60 namisch entwickelnde Größen betrachtet werden: Allein die Evolution bedingt, daß sie sich permanent verändern. 4.5 Regeln für das Rechnen mit Wahrscheinlichkeiten Nachdem nun die wichtigsten wahrscheinlichkeitstheoretischen Konzepte vorgestellt wurden, kann das Ganze zu einigen sinnvollen Rechenregeln zusammengefaßt werden: Additionssatz, Multiplikationssatz und Negationssatz Additionssatz Der Additionssatz bezieht sich auf die Wahrscheinlichkeit einer oder-Verknüpfung zweier Ereignisse und damit auf die Vereinigungsmenge, die aus den beiden entsprechenden Mengen gebildet werden kann. Additionssatz Die Wahrscheinlichkeit der Vereinigung zweier Ereignisse entspricht der Wahrscheinlichkeit des ersten Ereignisses, plus der Wahrscheinlichkeit des zweiten Ereignisses, abzüglich der Wahrscheinlichkeit des Durchschnitts beider Ereignisse. Symbolisch: W(A∪B) = W(A) + W(B) – W(A∩B) Beispiel 3.15 Betrachten wir das Zufallsexperiment eines einmaligen Wurfes zweier Münzen und überlegen uns, wie hoch die Wahrscheinlichkeit ist, hierbei mindestens einmal „Kopf“ zu werfen. Nach den Regeln der klassischen Wahrscheinlichkeit ist die Lösung einfach: Offensichtlich gilt für die Ergebnismenge: Ω = {(K,K); (Z,K); (K,Z); (Z,Z)}, wobei (K,K) bedeutet, daß im ersten und im zweiten Wurf „Kopf“ das Ergebnis war; (Z,K), daß im ersten Wurf „Zahl“ und im zweiten „Kopf“ geworfen wurde, usw. Unser Ereignis – nennen wir es C -, mindestens einmal „Kopf“ zu werfen, wird daher durch die ersten drei Elemente von Ω begünstigt. Somit gilt: C = {(K,K); (Z,K); (K,Z)} und die Wahrscheinlichkeit W(C) errechnet sich durch: C {( K , K );( Z , K );( K , Z )} W(C) = =3/4. Um nun den Zusammenhang mit dem = Ω {( K , K );( Z , K ); ( K , Z ); ( Z , Z )} Additionssatz zu verdeutlichen, betrachten wir die Ereignisse A und B sowie (A ∩ B), die wie folgt definiert sind: A = „Kopf im ersten Wurf“; B = „ Kopf im zweiten Wurf“; (A ∩ B) = „Kopf im ersten und im zweiten Wurf“. Die entsprechenden klassischen Wahrscheinlichkeiten ergeben sich durch: A {( K , K );( K , Z )} W(A) = =1/2 = Ω {( K , K );( Z , K ); ( K , Z ); ( Z , Z )} W(B) = B Ω = {( K , K );( Z , K )} {( K , K );( Z , K ); ( K , Z ); ( Z , Z )} =1/2 4.5 Regeln für das Rechnen mit Wahrscheinlichkeiten W(A ∩ B) = A∩ B Ω = {( K , K )} {( K , K );( Z , K );( K , Z );( Z , Z )} 61 = 1/4 Nun überlegen wir uns, ob sich das Ereignis C („mindestens einmal Kopf“) durch eine Verknüpfung der Ereignisse A („im ersten Wurf Kopf“) und B („im zweiten Wurf Kopf“) „erzeugen“ läßt. Offensichtlich tritt C ein, wenn A oder B eintritt. Somit gilt C=A ∪ B, sowie W(C) = W(A ∪ B). Nach dem Additionssatz ergibt dies: W(A ∪ B) = W(A) + W(B) – W(A ∩ B) =1/2+1/2-1/4=3/4, was auch dem Ergebnis der klassischen Wahrscheinlichkeit entspricht. An diesem Beispiel läßt sich sehr schön erkennen, warum gemäß dem Additionssatz von der Summe der Einzelwahrscheinlichkeiten die Wahrscheinlichkeit des Durchschnitts abgezogen werden muß: Das Ereignis {(KK)} [das dem Durchschnitt aus A und B entspricht: A∩B={(KK)}] ist sowohl im Ereignis A als auch im Ereignis B enthalten. Bei einer einfachen Addition der Wahrscheinlichkeiten von A und B würde die Wahrscheinlichkeit von (A ∩ B) doppelt gezählt. Daher muß sie einmal abgezogen werden, um ein korrektes Ergebnis zu erhalten. Multiplikationssatz Der Multiplikationssatz bezieht sich auf die Wahrscheinlichkeit einer undVerknüpfung zweier Ereignisse und damit auf die Durchschnittsmenge, die aus den beiden entsprechenden Mengen gebildet werden kann. Multiplikationssatz Die Wahrscheinlichkeit des Durchschnitts zweier Ereignisse A und B entspricht der Wahrscheinlichkeit des Ereignisses A, multipliziert mit der (durch den Eintritt von A) bedingten Wahrscheinlichkeit des Ereignisses B. Symbolisch: W(A∩B) = W(A)*W(BA) Selbstverständlich gilt auch: W(A∩B) = W(B)*W(AB) Beispiel 3.16 Betrachten wir noch einmal unser Beispiel (3.14). Dort hatten wir folgende Ereignisse definiert: A „Probandin ist schwanger“ B „Schwangerschaftstest zeigt bei der Probandin eine Schwangerschaft an“ BA „Der Test zeigt eine Schwangerschaft an, unter der Voraussetzung, daß die Probandin schwanger ist“ Wir unterstellen die folgenden fiktiven Werte für die entsprechenden Wahrscheinlichkeiten: W(A) = 60 %; W(B) = 70 %; W(BA) = 98 %. Zusätzlich definieren wir das Ereignis: C „Der Test zeigt eine Schwangerschaft an und die Probandin ist schwanger“. Offensichtlich gilt C = A∩B, so daß sich die Wahrscheinlichkeit von C nach dem Multiplikationssatz wie folgt errechnet: 62 4 Grundlagen der Wahrscheinlichkeitstheorie W(C) = W(A∩B) = W(A)*W(BA) = 0,6*0,98 = 0,588 = 58,8 %. Obgleich sie verbal sehr ähnlich klingen, besteht zwischen den Ereignissen C und BA ein fundamentaler Unterschied, der häufig übersehen wird: Während C das Ereignis beschreibt, daß zwei ungewisse Ereignisse („Schwangerschaft“ und „positiver Test“) zugleich eintreten, beschreibt BA das Eintreten eines positiven Tests unter der Voraussetzung, daß tatsächlich eine Schwangerschaft vorliegt. Entsprechend unterschiedlich sind die korrespondierenden Wahrscheinlichkeiten: W(C) = 58,89 % und W(BA) = 98 %. Man beachte, daß die beiden Ereignisse A und B in obigem Beispiel in ausgeprägter Weise voneinander abhängig sind. Unabhängigkeit [W(B) = W(BA)] würde inhaltlich bedeuten, daß beispielsweise die Wahrscheinlichkeit des Ergebnisses eines Schwangerschaftstests unbeeinflußt davon ist, ob die Getestete nun tatsächlich schwanger ist oder nicht – was dem Sinn jeden Tests zuwiderläuft und in diesem Fall einen offensichtlichen Unsinn darstellt. Negationssatz Der Negationssatz bezieht sich auf die Wahrscheinlichkeit der Negation eines Ereignisses („Gegenereignis“) und damit auf die Komplementärmenge, die aus der entsprechenden Menge gebildet werden kann. Negationssatz Die Wahrscheinlichkeit des zum Ereignis A komplementären Ereignisses ¬A erhält man, indem man vom Wert 1 die Wahrscheinlichkeit von A abzieht. Symbolisch: W(¬A) = 1-W(A). Man beachte, daß der Negationssatz auch auf die Komplementärmengen bedingter Ereignisse angewendet werden kann: Das zu (AB) gehörige Gegenereignis ist (¬AB). Es gilt daher: W(¬AB) = 1 – W(AB). Beispiel 3.17 Betrachten wir wieder unser Schwangerschaftstestbeispiel mit den Ereignissen und Wahrscheinlichkeiten: A „Probandin ist schwanger“ B „Schwangerschaftstest zeigt bei der Probandin eine Schwangerschaft an“ (BA) „Test zeigt eine Schwangerschaft an, unter der Voraussetzung, daß die Probandin schwanger ist“ W(A) = 60 %; W(B) = 70 %; W(BA) = 98 %. Die Wahrscheinlichkeiten der entsprechenden Komplementärereignisse sind: W(¬A) = 1- W(A) = 1- 0,6 = 0,4 = 40 % W(¬B) = 1- W(B) = 1- 0,7= 0,3 = 30 % W( ¬BA) = 1 – W(BA) = 1 – 0,98 = 0,02 = 2 % Offensichtlich ist die Menge (¬BA), welche das Ereignis beschreibt, daß der Schwangerschaftstest negativ ausfällt, obwohl die Probandin schwanger ist, eine echte Negation der Menge (BA). 4.6 Wichtige Spezialfälle: Unabhängigkeit und Disjunktheit von Ereignissen 4.6 63 Wichtige Spezialfälle: Unabhängigkeit und Disjunktheit von Ereignissen Disjunktheit zweier Ereignisse Zwei Ereignisse A und B heißen disjunkt („punktfremd“), wenn das Eintreten des einen Ereignisses, das Eintreten des anderen Ereignisses ausschließt. Symbolisch: A und B sind disjunkt, wenn gilt: A ∩ B = ∅. Beispiel 3.18 Betrachten wir die beiden folgenden Ereignisse: A „im Zeitpunkt t erfolgt eine exakte Messung der Geschwindigkeit des Objektes X“ B „im Zeitpunkt t erfolgt eine exakte Messung der Position des Objektes X“ Handelt es sich bei unserem „Objekt X“ um ein Objekt, das nur durch die Regeln der Quantenmechanik beschreibbar ist (wie z.B. ein Elektron), dann gilt die sogenannte Heisenberg`sche Unschärferelation. Diese besagt – grob gesprochen -, daß eine exakte Messung der Geschwindigkeit eines Objektes, die gleichzeitige exakte Messung seiner Position prinzipiell ausschließt und umgekehrt. Das gleichzeitige Eintreten von A und B ist daher nicht möglich, A und B sind disjunkt. Anders verhält es sich, wenn unser Objekt X mit den Regeln der klassischen Physik beschrieben werden kann (wie z.B. eine Billardkugel). In diesem Falle sind A und B nicht disjunkt, denn einer gleichzeitigen Messung von Position und Geschwindigkeit des Objektes X steht nichts im Wege. Die Disjunktheit wird häufig verwechselt mit der sogenannten Unabhängigkeit. Diese ist jedoch ein anderes Konzept, wenngleich es durchaus gewisse Zusamenhänge gibt. Unabhängigkeit zweier Ereignisse Zwei Ereignisse heißen unabhängig, wenn der Eintritt (oder Nichteintritt) des einen Ereignisses keinen Einfluß auf die Eintrittswahrscheinlichkeit des anderen Ereignisses hat, d.h., wenn gilt: W(AB) = W(A). Im Falle der Unabhängigkeit gilt selbstverständlich auch W(BA) = W(B). Beispiel 3.19 Betrachten wir die beiden Ereignisse: A: Student „Lustig“ kann während einer Statistikklausur von der Studentin „Flott“, welche excellente Statistikkenntnisse hat, abschreiben. B: Student “Lustig “ besteht die Statistikprüfung Offensichtlich ist die Wahrscheinlichkeit des Ereignisses B abhängig davon, ob Ereignis A eintritt. Kurz: B ist von A abhängig. An diesem Beispiel wird deutlich, daß die Frage, ob zwei Ereignisse voneinander abhängig sind, inhaltlich entschieden werden muß. So ist es entscheidend, ob es dem „Lustig“ ermöglicht wird, während der Klausur von der „Flott“ abzuschreiben. 4 Grundlagen der Wahrscheinlichkeitstheorie 64 Ist dies der Fall, so liegt Abhängigkeit vor, ist dies nicht der Fall, so sind A und B unabhängig. Wenn Abschreiben möglich ist, dann gilt W(BA)>W(B), was inhaltlich einfach besagt, daß die Chance, des „Lustig“, durch die Prüfung zu kommen, steigt, wenn er neben der „Flott“ sitzt. Ist dagegen Abschreiben nicht möglich, so gilt W(BA) = W(B), was inhaltlich besagt, daß die Wahrscheinlichkeit des Bestehens nur von den Fähigkeiten des „Lustig“ abhängt und nicht davon beeinflußt wird, ob er nun neben der „Flott“ zum Sitzen kommt oder nicht. Zwischen der Disjunktheit von Ereignissen und dem Additionssatz sowie zwischen der Unabhängigkeit und dem Multiplikationssatz bestehen enge Zusammenhänge. Stellen wir uns zunächst zwei disjunkte Ereignisse A und B vor. Da sie disjunkt sind, gilt definitionsgemäß: A∩B=∅. Die Wahrscheinlichkeit eines Ereignisses, das der leeren Menge entspricht ist Null. Daher vereinfacht sich der Additonssatz bei Disjunktheit der entsprechenden Ereignisse wie folgt: W(A∪B) = W(A)+W(B)-W(A∩B) = W(A) + W(B) – W(∅) = W(A) + W(B) – 0 = W(A) + W(B). Ähnliches gilt bei Unabhängigkeit. Sind A und B unabhängig, gilt definitionsgemäß: W(BA) = W(B). Daher vereinfacht sich der Multiplikationssatz bei Unabhängigkeit der entsprechenden Ereignisse wie folgt: W(A∩B) = W(A)*W(BA) = W(A)*W(B) 4.7 Der Satz von der totalen Wahrscheinlichkeit Die vor allem für die Kalkulation konkreter Probleme relevanten Wahrscheinlichkeitsregeln lassen sich zum sogenannten Satz von der totalen Wahrscheinlichkeit zusammenfassen. Satz von der totalen Wahrscheinlichkeit Gegeben sei ein beliebiges Ereignis A aus dem Ergebnisraum Ω sowie die Ereignisse B1;.....; Bn mit den Eigenschaften: (a) B1∪B2∪B3∪.....∪Bn = Ω (b) Bi∩Bj = ∅ ∀i,j Dann gilt: W(A) = W(AB1)*W(B1)+W(AB2)*W(B2)+ .....+W(ABn)*W(Bn) 4.8 Der Satz von Bayes 65 Der Beweis des Satzes ist relativ einfach: Die Ereignisse B1;.....; Bn haben die Eigenschaft, daß sie gemeinsam den gesamten Ergebnisraum Ω umfassen, sie „spannen“ ihn auf [Eigenschaft (a)]. Gleichzeitig sind sie paarweise disjunkt, d.h. sie schließen sich gegenseitig aus [Eigenschaft (b)]. Eine Menge von Ereignissen aus Ω mit diesen beiden Eigenschaften nennt man eine Zerlegung von Ω. Da die Ereignisse B1;.....; Bn den gesamten Eregbnisraum aufspannen bzw. umfassen, kann A wie folgt als Vereinigung dargestellt werden: A = (A∩B1) ∪ (A∩B2) ∪ (A∩B3) ∪ ..... ∪ (A∩Bn). Aufgrund der Disjunktheit der Ereignisse B1;.....; Bn gilt für die Wahrscheinlichkeit von A: W(A) = W(A∩B1) + W(A∩B2) + W(A∩B3) + .....+ W(A∩Bn). Nach dem Multiplikationssatz läßt sich dies auch schreiben als: W(A) = W(AB1)*W(B1) + W(AB2)*W(B2) + W(AB3)*W(B3) + ..... + W(ABn)*W(Bn), womit der Satz bewiesen wäre. Beispiel 3.20 Student „Lustig“ geht sehr lückenhaft vorbereitet in das Statistik-Examen. Die Wahrscheinlichkeit, daß er die Prüfung ohne fremde Hilfe besteht, beträgt daher lediglich 10 %. Seine große und einzige Hoffnung ist die Studentin „Flott“, denn diese hat ihm schon manchen nützlichen Tip gegeben. Der „Lustig“ ist sich daher bewußt: Wenn er während der Prüfung neben der „Flott“ zum Sitzen kommt, läßt sie ihn abschreiben und er besteht die Prüfung mit 80 %-iger Wahrscheinlichkeit. Da die Sitzverteilung rein zufällig erfolgt, beträgt die Wahrscheinlichkeit, daß er neben der „Flott“ zum Sitzen kommt (d.h. abschreiben kann!), lediglich 5 %. Wie hoch ist die Wahrscheinlichkeit, daß der „Lustig“ die Prüfung besteht? Um diese Frage zu beantworten, definieren wir folgende Ereignisse: A: Student „Lustig“ kann während der Prüfung von der „Flott“ abschreiben B: Student „Lustig“ besteht die Prüfung Die vorliegenden Informationen liefern uns folgende Wahrscheinlichkeiten: W(A)=0,05: W(BA)=0,8; W(B¬A)=0,1. Wir wissen aber auch: W(¬A)=1-W(A)=0,95; W(¬BA)=1-W(BA)=0,2; W(¬B¬A)=1-W(B¬A)=1- 0,1=0,9. Gesucht ist die Wahrscheinlichkeit W(B). Da die Ereignisse A und ¬A eine Zerlegung des relevanten Ergebnisraumes darstellen, sind die Voraussetzungen des Satzes von der totalen Wahrscheinlichkeit gegeben. Daher gilt: W(B)=W(BA)*W(A)+W(B¬A)*W(¬A). Diese Wahrscheinlichkeiten liegen uns aber vor: W(B) = 0,8*0,05+0,1*0,95 = 0,04+0,095=0,135. Fazit: Allein durch die kleine Chance, neben der „Flott“ zum Sitzen zu kommen, steigen die Aussichten des „Lustig“, die Prüfung zu bestehen, von zunächst 10 % auf 13,5 %. 4.8 Der Satz von Bayes Wie im letzten Beispiel deutlich wurde, kann mit dem Satz von der totalen Wahrscheinlichkeit die (unbedingte) Eintrittswahrscheinlichkeit eines Ereignisse ermittelt werden, wenn Informationen über die bedingten Wahrscheinlichkeiten dieses Ereignisses vorliegen. In vielen Anwendungen ist man jedoch darüber hinaus noch daran interessiert, zu erfahren, wie groß die Wahrscheinlichkeit des bedingenden 4 Grundlagen der Wahrscheinlichkeitstheorie 66 Ereignisses ist, unter der Voraussetzung, daß das Ereignis, an dem man ursprünglich interessiert war, tatsächlich eingetreten ist. Anhand der Problematik aus Beispiel (3.20) kann sehr schön illustriert werden, was damit gemeint ist: Dort hatten wir eine a priori Wahrscheinlichkeit, daß der „Lustig“ von der „Flott“ abschreibt, von 5 % gegeben. Wissen wir nun zusätzlich, daß der Student die Prüfung tatsächlich bestanden hat, so besteht verständlicherweise der Verdacht, daß er von der „Flott“ abgeschrieben hat. Sicher ist dies jedoch nicht. Wir können hierfür lediglich eine Wahrscheinlichkeit angeben. M.a.W: Wir sind an der Wahrscheinlichkeit interessiert, mit welcher der „Lustig“ von der „Flott“ abgeschrieben hat, unter der Voraussetzung einer bestandenen Prüfung. Diese und ähnlich strukturierte Fragen können mit Wahrscheinlichkeitskalkulationen beantwortet werden, die im 18. Jahrhundert von Thomas Bayes zu einem berühmten Satz zusammengefaßt wurden – dem Satz von Bayes. Satz von Bayes Gegeben sei wieder ein beliebiges Ereignis A aus dem Ergebnisraum Ω sowie die Ereignisse B1;.....; Bn mit den den Eigenschaften: (a) B1∪B2∪B3∪.....∪Bn = Ω (b) Bi∩Bj = ∅ ∀i, j Dann gilt: W(BiA) = W ( A Bi ) * W ( Bi ) n ∑ W ( A B )W ( B ) i i =1 i Auch dieser Satz läßt sich relativ problemlos nachvollziehen: Die Definition bedingter Wahrscheinlichkeiten besagt: W(BiA) = W ( Bi ∩ A) . W ( A) Aufgrund des Multiplikationssatzes und des Satzes von der totalen Wahrscheinlichkeit können Zähler und Nenner des Bruches auf der rechten Seite der Gleichung wie folgt umgeschrieben werden: W(BiA) = W ( A Bi ) *W ( Bi ) n ∑ W ( A B )W ( B ) i =1 i . i Damit ist der Satz von Bayes bewiesen. Ein wichtiger Spezialfall des Satzes ergibt sich, wenn die relevante Zerlegung des Ergebnisraumes nur aus den Ereignissen B und ¬B besteht. Dann gilt: 4.8 Der Satz von Bayes W(BA) = 67 W ( A B) *W ( B ) W ( A B)W ( B ) * + * W ( A ¬B)W ( ¬B ) . Beispiel 3.21 Gegeben sei unser Beispiel 3.20 mit den entsprechenden Wahrscheinlichkeiten. Dort waren wir an der (unbedingten) Wahrscheinlichkeit interessiert, mit der der Student „Lustig“ die Prüfung besteht, eingedenk der Möglichkeit, daß er von der „Flott“ abschreiben kann. Nun gehen wir davon aus, der „Lustig“ hat die Prüfung bestanden und wir wollen vor dem Hintergrund dieser zusätzlichen Information wissen, wie groß die Wahrscheinlichkeit ist, daß er tatsächlich von der „Flott“ abgeschrieben hat. Folgende Ereignisse und Wahrscheinlichkeiten liegen der Fragestellung zugrunde: A: Student „Lustig“ kann von der „Flott“ abschreiben; B: Student „Lustig“ besteht die Prüfung W(A)=0,05, W(BA)=0,8, W(B¬A)=0,1, W(¬A)=1-W(A)=0,95, W(¬BA)=1W(BA)=0,2, W(¬B¬A)=1-W(B¬A)=1- 0,1=0,9. Gesucht ist nun die die Wahrscheinlichkeit W(AB). Bei der Berechnung hilft uns die spezielle Variante des Satzes von Bayes weiter: W ( B A) * W ( A) W ( B A) * W ( A) W(AB) = = . Die zur Berechnung W ( B A) * W ( A) + W ( B ¬A) * W ( ¬A) W ( B) von W(AB) erforderlichen Wahrscheinlichkeiten haben wir gegeben: W(B/A) = 0,8, W(A) = 0,05 und W(B) = 0,135 (vgl. Bsp. 3.20). Somit gilt: 0,8 * 0,05 = 0,2963 = 29,63 % W(A/B) = 0,135 Wir können also festhalten: Wenn der „Lustig“ die Prüfung tatsächlich besteht, hat er mit rund 30%-iger Wahrscheinlichkeit von der „Flott“ abgeschrieben. Beispiel3.22 Ein Unternehmen verwendet die Methode des sogenannten Assessment-Centers (AC), um aus der Flut von Bewerbungen die richtige Kandidatin bzw. den richtigen Kandidaten auszuwählen. Von dieser Methode ist bekannt, daß ein geeigneter Kandidat von einem AC mit 85%-iger Wahrscheinlichkeit als solcher erkannt wird. Allerdings ist die Wahrscheinlichkeit, daß ein ungeeigneter Bewerber von einem AC ebenfalls als geeignet eingestuft wird, mit 20% relativ hoch. Man kann davon ausgehen, daß von allen Bewerbern lediglich 30 % für die ausgeschriebene Position geeignet sind. Eine sicherlich interessante Frage besteht nun darin, wie hoch Wahrscheinlichkeit ist, daß sich ein vom AC als geeignet beurteilter Kandidat letztlich als ungeeignet erweist. Folgende Variablendefinition ist sinnvoll: A: Bewerber ist ungeeignet B: Bewerber besteht Assessment-Center Der Problemstellung können folgende Wahrscheinlichkeiten entnommen werden: W(B/A)=0,2, W(B¬A)=0,85, W(A)=0,7, W(¬A)=0,3. Gesucht ist die Wahrscheinlichkeit W(A/B). Diese ergibt sich nach dem Satz von Bayes durch: 4 Grundlagen der Wahrscheinlichkeitstheorie 68 W(AB) = W ( B A) * W ( A) W ( B A) * W ( A) + W ( B ¬A) * W ( ¬A) = 0,2 * 0,7 0,14 = = 0,2 * 0,7 + 0,85 * 0,3 0,14 + 0,255 0,14 = 0,3544 = 35,44 %. Fazit: Gegeben die Testqualität des AC, erweist sich ein als 0,395 geeignet eingestufter Bewerber mit rund 35%-iger Wahrscheinlichkeit letztlich als ungeeignet. 4.9 Kombinatorik Die Kombinatorik stellt ein bedeutendes und aufgrund der vielfältigen Anwendungsbereiche eigenständiges Teilgebiet der Wahrscheinlichkeitstheorie dar. Vor Erläuterung der Grundkonzepte, ist es aber nötig, einige Begriffe einzuführen: Fakultät Die Fakultät einer positiven ganzen Zahl n (sprich: „n Fakultät“) entspricht dem Produkt, das aus den zwischen 1 und n gelegenen ganzen Zahlen gebildet werden kann, wobei 1 und n bei der Produktbildung mit einbezogen werden. Symbolisch: n! := 1*2*3*......*n. Die Fakultät von 0 ist definitorisch gleich 1. Symbolisch: 0!:=1 Beispiele 3.23 1! = 1 2! = 1*2 = 2 3! = 1* 2* 3 = 6 4! = 1* 2*3*4 = 24 5 ! = 1*2*3*4*5 = 120 n! = 1*2*3*4*.....*(n-2)*(n-1)*n Allgemeiner Binomialkoeffizient Sei α eine beliebige reelle Zahl und k eine beliebige natürliche Zahl. Der wie folgt αI F G Hk JK(sprich: „α über k“) heißt Binomialkoeffizient: αI α * (α − 1) * (α − 2) * (α − 3)*.....*[α − ( k − 1)] F G 1 * 2 * 3 * 4*.....*k Hk JK: = definierte Ausdruck Beispiel 3.24 (a) −2I −2 * ( −2 − 1) * ( −2 − 2) −24 F = = −4 G 1* 2 * 3 6 H3 JK= 4.9 Kombinatorik 69 10 F1 / 3I 1 / 3 *(1 / 3 − 1) *(1 / 3 − 2) = 1 / 3 *(−2 / 3) *(−5 / 3) = 27 = 5 (b) G J= 1* 2 * 3 1* 2 * 3 6 81 H3 K Spezieller Binomialkoeffizient Der Binomialkoeffizient αI F G Hk JKläßt sich für den Fall, daß neben k auch α eine natür- liche Zahl ist (d.h. wenn gilt α:=n∈Ν) darstellen als αI F nI F n! G Hk JK: = G Hk JK= (n − k )! k ! Der spezielle Binomialkoeffizient kann sehr schön illustriert werden. Der Wert von 18I F G J errechnet sich gemäß der Definition des allgemeinen Binomialkoeffizienten 12K H als: 18I 18 *17 *16*.....*7 F . G J= 12K 1 * 2 * 3 * 4*.....*12 H Multiplikation beider Seiten mit 6! verändert nicht den Wert der Gleichung, macht 6! aber deutlich, daß gilt: 18I 18 *17 * 16*.....*7 1 * 2 * 3*.....*6 F . * G J= 12K 1 * 2 * 3 * 4*.....*12 1 * 2 * 3*.....*6 H Offensichtlich entspricht der Zähler auf der rechten Seite dem Wert 18! und der Nenner dem Wert (18-6)!6!. Somit gilt: ne Zusammenhang 18I F 18! = . Damit ist der allgemeiG J 12K (18 − 6)! 6! H nI F n! = G J Hk K (n − k )! k ! beispielhaft illustriert. Beispiel 3.25 49I F 49! 1 * 2 * 3*.....*43 44 * 45*.....*49 44 * 45*.....*49 . G H6 JK= (49 − 6)!6! = 1* 2 * 3*.....*43 * 1* 2 * 3 * 4 * 5 * 6 = 1* 2 * 3 * 4 * 5 * 6 = 13.983816 Wie wir noch sehen werden, entspricht diese Zahl der Anzahl der insgesamt vorhandenen Möglichkeiten, aus 49 Elementen genau eine Sechser-Kombination zu ziehen – eine Situation wie sie z.B. beim Lotto gegeben ist. 4 Grundlagen der Wahrscheinlichkeitstheorie 70 Halten wir also fest: Der zunächst für reelle α´s definierte allgemeine Binomialkoeffizient kann für denFall, daß beide Zahlen α und k natürlich sind, in die Form nI F n! = G J Hk K (n − k )! k ! gebracht werden. Diese Variante des Binomialkoeffizienten spielt in der Anwendung der Kombinatorik eine sehr große Rolle. Doch nun weiter mit unserer Einführung grundlegender Begriffe: Permutation Gegeben sei eine beliebige Menge mit n Elementen Α={a1;.....an}. Jede einzelne Anordnung all dieser Elemente heißt Permutation der Menge Α. Eine Permutation der Menge {a; b; c} besteht im Tupel (abc), eine andere im Tupel (cba), wieder eine andere in (acb) usw. Insgesamt gibt es zur Menge {a; b; c} die folgende Menge an Permutationen: {(abc), (bac), (cab); (cba), (acb), (bca)}. Beispiel 3.26 Die Städte Berlin, München, Düsseldorf, Hamburg, Köln und Frankfurt müssen von einem Vertreter im Rahmen einer Präsentationsreise besucht werden. Eine Tour durch Deutschland (die diese Städte beinhaltet!) kann als eine Permutation der Menge {Berlin; München; Düsseldorf; Hamburg; Köln; Frankfurt} aufgefaßt werden. Beispielsweise bietet sich – von Nord-Ost kommend – die Tour (Berlin,Hamburg,Düsseldorf,Köln,Frankfurt,München) an. Eine wichtige Frage in diesem Zusammenhang ist, wieviel Permutationen es zu einer bestimmten vorliegenden Menge insgesamt gibt. Die Antwort hierauf läßt sich durch einige einfache Überlegungen finden: Etwas präziser formuliert, lautet die Frage, wieviel Permutationen es zur Menge {a1; a2; .....; an} gibt. Dies entspricht der Anzahl von Möglichkeiten die einzelnen „Stellen“ einer gewissermaßen „virtuellen“ Permutation (?1; ?2; .....; ?n) zu belegen. Zunächst ist klar, daß die erste Stelle, für die noch alle Elemente zur Verfügung stehen, mit n Elementen belegt werden kann. Wenn nun die erste Stelle (wie auch immer!) belegt ist, stehen für die zweite nur noch (n-1) Möglichkeiten zur Verfügung, für die dritte (n-2) für die vierte (n-3), usw., bis hin zur letzten, der n-ten Stelle, für die nur noch n-n+1 = 1 Möglichkeit zur Verfügung steht. Zusammenfassend ergibt sich daher folgendes Bild: 1. Stelle ⇒ n Möglichkeiten 2. Stelle ⇒ (n-1) Möglichkeiten 3. Stelle ⇒ (n-2) Möglichkeiten 4. Stelle ⇒ (n-3)Möglichkeiten ............ ........ 4.9 Kombinatorik 71 ............ ........ k-te Stelle ⇒ ............ ............ ........ ........ n-te Stelle ⇒ [n-(k-1)] Möglichkeiten [n-(n-1)] = 1 Möglichkeit Insgesamt gibt es also [n*(n-1)*(n-2)*(n-3)*.....*1] = n! Möglichkeiten, die verschiedenen Stellen einer „virtuellen“ Permutation zu belegen. Dieses wichtige Ergebnis halten wir fest: Anzahl möglicher Permutationen Zur Menge Α={a1;.....an} gibt es insgesamt n! Möglichkeiten, sämtliche Elemente dieser Menge anzuordnen, d.h. es gibt zur Menge Α insgesamt n! Permutationen. Der Vertreter des Beispiels (3.26), der die Städte Berlin, München, Düsseldorf, Hamburg, Köln und Frankfurt besuchen muß, hat 6!=720 Möglichkeiten, seine Deutschlandtour zu legen. Ein berühmtes Problem aus der betriebswirtschaftlichen Entscheidungslehre besteht darin, bei gegebenen Entfernungen zwischen den einzelnen Städten, die Tour herauszufinden, welche die Gesamtstrecke der Rundreise minimiert, unter der Voraussetzung, daß alle Städte besucht werden müssen. Interessanterweise wurde für dieses sogenannte „traveling-salesman-problem“ (TSP) erst in jüngster Vergangenheit ein exakter allgemeiner Lösungsalgorithmus gefunden. Bei Permutationen geht es darum, für eine gegebene Menge von Elementen zu bestimmen, wieviele Möglichkeiten es gibt, alle Elemente dieser Menge anzuordnen. Hierfür gibt es eine Vielzahl von Anwendungsmöglichkeiten. Viele Problemstellungen haben jedoch darüberhinausgehend eine etwas allgemeinere Struktur. Häufig ist es nötig, zu wissen, wieviele Möglichkeiten es gibt, aus einer gegebenen Anzahl von Elementen Untergruppen einer vorgegebenen Größe zu bilden. Hier wird der Begriff der sogenannten Kombination relevant. Kombination Gegeben sei die n elementige Menge Α={a1;.....an} sowie eine beliebige natürliche Zahl k≤n. Jede einzelne, k-stellige Anordnung von einem bis k Elementen aus der Menge Α heißt Kombination der Ordnung k (sprich: „k-Kombination“) aus der Menge Α. Im Gegensatz zu Permutationen werden bei k-Kombinationen nicht alle Elemente der zugrundeliegenden Menge angordnet, sondern es werden Anordnungen mit dem Umfang k gebildet, d.h. der Umfang einer einzelen Anordnung kann kleiner sein als die Anzahl der Elemente („Mächtigkeit“) der zugrundeliegenden Menge. Zudem dürfen einzelne Elemente grundsätzlich mehr als einmal vorkommen, ja im 72 4 Grundlagen der Wahrscheinlichkeitstheorie Extremfall kann eine Kombination nur aus einem Element bestehen, das k-mal „wiederholt“ wird. So können aus der Menge {a; b; c} die folgenden Kombinationen zweiter Ordnung gebildet werden: {(aa); (bb); (cc); (ab); (ba); (ac); (ca); (bc); (cb)}. Beispiel 3.27 Ein Lottotip, z.B. die Zahlen (2,8,1,3,5,6) stellt eine Kombination der Ordnung 6 aus der Menge der Zahlen {1; 2; 3; .....; 49} dar. Wie bei Permutationen ist es auch hier wieder von Interesse zu wissen, wieviele mögliche Kombinationen es zu einer bestimmten Menge gibt. Diese Frage muß jedoch präzisiert werden, bevor sie allgemein beantwortet werden kann. Zunächst ist festzulegen, welcher Ordnung die Kombination sein soll, deren mögliche Anzahl man sucht. Die Frage könnte also lauten: „Wieviele Kombinationen der Ordnung k gibt es zu einer n-elementigen Menge?“ Doch selbst diese konkretisierte Frage kann noch nicht beantwortet werden. Weiter muß man festlegen, ob innerhalb der Kombinationen Wiederholungen erlaubt sein sollen, d.h. ob Kombinationen der Form (a,a,....,a) zulässig sind, und ob die Anordnung der Elemente in einer Kombiantion eine Rolle spielt, d.h. ob z.B. die Anordnungen (ab) und (ba) zwei verschiedene Kombinationen darstellen, oder nur eine einzige repräsentieren. Insgesamt ergeben sich also vier verschiedene Möglichkeiten aus einer nelementigen Menge Kombinationen der Ordnung k zu bilden: • die Elemente der Menge dürfen sich in der Kombination nicht wiederholen und die Anordnung der Elemente ist relevant. („Keine Wiederholung – Anordnung relevant“) • die Elemente der Menge dürfen sich in der Kombination nicht wiederholen und die Anordnung der Elemente ist irrelevant. („Keine Wiederholung – Anordnung irrelevant“) • die Elemente der Menge dürfen sich wiederholen und die Anordnung der Elemente ist relevant. („Mit Wiederholung – Anordnung relevant“) • die Elemente der Menge dürfen sich wiederholen und die Anordnung der Elemente ist irrelevant. („Mit Wiederholung – Anordnung irrelevant“) Alle kombinatorischen Probleme lassen sich einer dieser vier Möglichkeiten zuordnen. Welcher Fall auf ein konkret vorliegendes Problem anzuwenden ist, muß von der Sache, d.h. vom Problem her entschieden werden. Dies wird deutlich, wenn wir die Problematik des Beispiels (3.27) aufgreifen. Dort hatten wir festgestellt, daß ein einzelner Lottotip eine Kombination der Ordnung 6 aus der 49elementigen Menge {1; 2; .....; 49} darstellt. Welcher unserer vier Fälle hier zutrifft, wird ausschließlich von den Lottoregeln bestimmt: Da eine Zahl nicht zweimal gezogen werden kann, sind Kombinationen ohne Wiederholung der Elemente angesprochen. Da es im Falle eines Gewinns vom Reglement her keinen Unter- 4.9 Kombinatorik 73 schied macht, in welcher Reihenfolge die 6 Zahlen getippt wurden, sind Kombinationen angesprochen, bei denen die Anordnung der Elemente irrelevant ist . Beim Lottospiel liegt also die spezielle Variante „keine Wiederholung – Anordnung irrelevant“ vor. Da die Antwort auf die Frage, wieviele Kombinationen der Ordnung k es zu einer bestimmten Menge gibt, unterschiedlich ausfällt, je nachdem welche der vier möglichen Varianten zur Anwendung konmt, müssen wir jeden Fall einzeln betrachten. Variante I: Keine Wiederholung – Anordnung relevant Auf Basis dieser konkreten Spezifizierung können wir nun die Frage beantworten, wieviele k-Kombinationen aus n Elementen gebildet werden können. Wieder hilft uns die Überlegung weiter, wieviele Möglichkeiten es gibt, die verschiedenen Stellen der „virtuellen“ k-Kombination (?1,?2,.....,?k) zu belegen. Wir erhalten: 1. Stelle ⇒ n Möglichkeiten 2. Stelle ⇒ (n-1) Möglichkeiten 3. Stelle ⇒ (n-2) Möglichkeiten 4. Stelle ⇒ (n-3)Möglichkeiten ............ ........ ............ ........ k-te Stelle ⇒ [n-(k-1)] Möglichkeiten Wir haben also insgesamt n*(n-1)*(n-2)*(n-3)*.....*[n-(k-1)] Möglichkeiten, die verschiedenen Stellen einer k-Kombination zu belegen, d.h es gibt n*(n-1)*(n2)*(n-3)*.....*[n-(k-1)] Kombinationen der Ordnung k. Dieser Ausdruck kann jedoch vereinfacht werden: Multiplikation mit (n − k )! verändert zwar nicht den (n − k )! Wert, ergibt aber: n * (n − 1) * (n − 2)*.....*[ n − ( k − 1)] (n − k )! (n − k )! = n * (n − 1) * (n − 2)*.....*[n − ( k − 1)]* (n − k )! (n − k )! = n * (n − 1) * (n − 2)*.....*[n − ( k − 1)]* (n − k ) *[n − ( k + 1)]*[n − ( k + 2)]*.....*1 (n − k )! = n! (n − k )! Wir erhalten also folgendes Ergebnis: 4 Grundlagen der Wahrscheinlichkeitstheorie 74 Anzahl Kombinationen: Variante I Wenn Wiederholungen ausgeschlossen sind und die Anordnung der Elemente von Bedeutung ist, dann gibt es zur n-elementigen Menge Α={a1;.....an} insgesamt n! Kombinationen der Ordnung k. (n − k )! k! und die Erinnerung an die Definitik! n n! erkennen wir, daß dies on des speziellen Binomialkoeffizienten als = k (n − k )! k ! Durch Multiplikation dieses Ausdrucks mit F IJ G HK auch alternativ ausgedrückt werden kann: F IJ G HK n n! = k! k (n − k )! Beispiel 3.28 Aus 70 Kandidaten soll ein Studentensprecher sowie dessen Stellvertreter gewählt werden. Es stellt sich die Frage, wieviele Wahlausgänge grundsätzlich möglich sind. Offensichtlich sind die Voraussetzungen von Variante I erfüllt: Wiederholung der Elemente ist ausgeschlossen, weil ein Studentenvertreter sinnvollerweise nicht sein eigener Stellvertreter sein kann; Anordnung der Elemente ist von Bedeutung, da es für den Wahlausgang einen Unterschied macht, ob ein bestimmter Student auf den ersten oder den zweiten Platz gewählt 70! 70! wird. Daher haben wir = =69*70 = 4.830 mögliche Ergebnisse der Wahl. (70 − 2)! 68! Variante II: Keine Wiederholung – Anordnung irrelevant Bei der Frage nach der Anzahl möglicher Kombinationen in Variante II, ist es zunächst sehr hilfreich, sich klarzumachen, daß bei Irrelevanz der Anordnung die Anzahl geringer sein muß als bei Relevanz. Um wieviel geringer, das wollen wir uns am Beispiel der Menge {a; b; c; d} klarmachen: Haben unterschiedliche Anordnungen eine Bedeutung (Variante I), so gibt es zur Menge {a; b; c; d} 4I F G H3J K3! = 24 Kombinationen der Ordnung 3. Diese lassen sich durch folgende Matrix darstellen: 4I F G J 3 H 644447K 44448 Fabc G acb G bac G G bca G cab G G Hcba abd adb bad bda dab dba acd adc cad cda dac dca bcd bdc cbd cdb dbc dcb I JJU JJ||V3! JJ|| JKW 4.9 Kombinatorik 75 Die Spaltenzahl dieser Matrix entspricht der Anzahl der 3-er Kombinationen bei Nichtberücksichtigung der Anordnung; sie entspricht daher genau der Fragestellung von Variante II. Die Zeilenanzahl 3! dagegen entspricht der Anzahl möglicher Permutationen zu einer dreielementigen Menge. Da die Gesamtzahl aller Kombinationen, d.h. die Anzahl der Elemente der Matrix 4I F G H3J K3! beträgt, erhalten wir unser gesuchtes Ergebnis, wenn wir diese Gesamtzahl durch die Anzahl der Zeilen divi- 4I F G J3! 4I 3K F H dieren: =G 3! H3JK. Dieser Wert entspricht dem bereits bekannten Binomialkoeffi- zienten. Wir können daher festhalten: Anzahl Kombinationen: Variante II Wenn Wiederholungen ausgeschlossen sind und die Anordnung der Elemente nicht von Bedeutung ist, dann gibt es zur n-elementigen Menge Α={a1;.....an} insgesamt nI F G Hk JKKombinationen der Ordnung k. Die wohl beste Illustration dieser Variante liefert das Lottospiel „6 aus 49“. Wie bereits erwähnt, kann beim Lotto keine Zahl mehrfach gezogen werden („Keine Wiederholung“) und die Reihenfolge, in der ein Tip abgegeben wird, hat auf die Gewinnchancen keinen Einfluß („Anordnung irrelevant“ ). Damit liegen die Voraussetzungen der Variante II vor und es gibt insgesamt 49I F 49! = G J H6 K (49 − 6)!6! = 13.983.816 Möglichkeiten sechs Richtige zu tippen. Unterstellt man beispielsweise – was ja durchaus üblich ist -, daß von einem Spieler insgesamt sechs Tips abgegeben werden und daß jeder mögliche Tip gleichwahrscheinlich ist, dann entspricht die Wahrscheinlichkeit eines Hauptgewinns („sechs Richtige“) der mikroskopisch kleinen Zahl von 6 = 0,00000042907. 13.983.816 Beispiel 3.29 Der Student „Lustig“ hofft, daß er während einer für ihn sehr wichtigen Prüfung neben der großzügigen und intelligenten Studentin „Flott“ zum Sitzen kommt, denn diese hat ihm signalisiert, daß sie einem kleinen Unterschleif nicht ablehnend gegenübersteht. Als nun der Tag der Prüfung anbricht, stehen für insgesamt 20 Prüflinge (unter ihnen die „Flott“ und der „Lustig“) genau zehn Zweisitzbänke zur Verfügung, so daß in jedem Fall zehn Sitzpaare gebildet werden müssen. Angesichts dieser günstigen Konstellation ist der „Lustig“ verständlicherweise an der Wahrscheinlichkeit interessiert, daß ihnen beiden tatsächlich dieselbe Bank zugewiesen wird, wobei berücksichtigt werden muß, daß die Sitzverteilung rein zufällig erfolgt. Bei diesem Problem geht es offensichtlich darum, aus insgesamt 20 Stu- 4 Grundlagen der Wahrscheinlichkeitstheorie 76 denten zehn Paare, d.h. Kombinationen zweiter Ordnung zu bilden. Da es beim Abschreiben unerheblich ist, ob jemand links oder rechts in der Bank sitzt, sind Kombinationen angesprochen, deren Anordnung irrelevant ist. Da ein Student nicht neben sich selbst sitzen kann, sind Wiederholungen ausgeschlossen. Wir haben also unsere Variante II vorliegen. 20 Dementsprechend gibt es = 190 Kombinationen, d.h. 190 Möglichkeiten, aus 20 Stu2 denten Zweiergruppen zu bilden. Da jedoch nur zehn Bänke zur Verfügung stehen, muß diese Zahl um den Faktor 10 reduziert werden. Dadurch erhalten wir 190/10 = 19 Möglichkeiten. Die Chance des „Lustig“, während der Prüfung neben der neben der „Flott“ zu sitzen, beträgt daher 1/19 ≈ 0,05263 ≈ 5,26 %. Diese Wahrscheinlichkeit kann auch durch eine einfachere, alternative Überlegung abgeleitet werden: Man stelle sich vor, der „Lustig“ betritt den Prüfungsraum und setzt sich in eine beliebige Bank. Nun sind noch 19 Plätze frei und 19 Personen ohne Platz, von denen sich jede mit gleicher Wahrscheinlichkeit neben den Lustig setzen kann. Da eine der Personen die „Flott“ ist, beträgt die Chance, daß sie neben den „Lustig“ zum Sitzen kommt 1/19. F I G HJK Variante III: Mit Wiederholung – Anordnung relevant Die Anzahl möglicher Kombinationen der Ordnung k ergibt sich für diese Variante aus ähnlichen Überlegungen wie in Variante I. Zunächst überlegen wir uns wieder, wieviele Möglichkeiten es gibt, die verschiedenen Stellen der „virtuellen“ kKombination (?1,?2,.....,?k) zu belegen. Da nun Wiederholungen erlaubt sind, kann jede Stelle mit allen n Elementen belegt werden. Wir erhalten: 1. Stelle ⇒ n Möglichkeiten 2. Stelle ⇒ n Möglichkeiten 3. Stelle ⇒ n Möglichkeiten 4. Stelle ⇒ nMöglichkeiten ............ ........ ............ ........ k-te Stelle ⇒ n Möglichkeiten k − mal 644744 8 Wir haben also insgesamt n * n * n*.....*n = nk Möglichkeiten, die verschiedenen Stellen einer k-Kombination zu belegen. Somit gilt: Anzahl Kombinationen: Variante III Wenn Wiederholungen erlaubt sind und die Anordnung der Elemente von Bedeutung ist, dann gibt es zur n-elementigen Menge Α={a1;.....an} insgesamt nk Kombinationen der Ordnung k. 4.9 Kombinatorik 77 Beispiel 3.30 Ein Würfel wird dreimal hintereinander geworfen. Wie groß ist die Wahrscheinlichkeit, im ersten Wurf die „1“, im zweiten die „2“ und im dritten Wurf die „3“ zu erhalten? Da Wiederholungen möglich sind sowie die Reihenfolge dere Wurfergebnisse und damit die Anordnung der 3-er Kombinationen relevant ist, liegt Variante III vor und es ergeben sich 63 =216 verschiedene Kombinationen. Eine davon ist die gefragte Wurffolge (1,2,3). Die Wahrscheinlichkeit, als Resultat von drei Würfen genau diese Folge zu erhalten beträgt daher 1/216 ≈ 0,0046296 ≈ 0,46 %. Variante IV: Mit Wiederholung – Anordnung irrelevant Um die Anzahl möglicher Kombinationen für den Fall abzuleiten, daß Wiederholungen erlaubt sind und die Anordnung irrelevant ist, sind formale Kenntnisse erforderlich, die in diesem einführenden Lehrbuch nicht theamtisiert werden müssen. Wir begnügen uns daher einfach mit dem Ergebnis: Anzahl Kombinationen: Variante IV Wenn Wiederholungen erlaubt sind und die Anordnung der Elemente nicht von Bedeutung ist, dann gibt es zur n-elementigen Menge Α={a1;.....an} insgesamt n + k − 1I F G H k JKKombinationen der Ordnung k. Beispiel 3.31 Die Zeitschrift „High Fidelity & Lebensart“ will aus insgesamt 25 verschiedenen Lautsprecherboxen die drei besten herausfinden, um sie ihren Lesern zu empfehlen. Hierzu arrangiert der Verlag mit einer Gruppe ausgewählter Experten einen möglichst objektiven Hörtest. Der Testcrew werden jeweils zwei Lautsprecher vorgespielt, von denen sie sich für den besseren entscheiden soll. Um zugleich auch Objektivität und Qualität der Tester zu testen, werden ihnen auch Paare identischer Lautsprecher vorgesetzt. Aus Zeitgründen will man nun wissen, wieviele Hörtest bei einem solchen Testdesign durchzuführen sind. Um diese Frage zu beantworten, muß die Anzahl der Kombinationen zweiter Ordnung ermittelt werden, wobei Wiederholungen erlaubt sind und die Anordnung der Elemente irrelevant ist. Es 25 + 2 − 1 26 26! 25 * 26 sind somit gemäß Variante IV = = = = 325 verschiedene 2 2 24! 2 ! 2 Hörtests durchzuführen. F G H IJ F I KG HJ K Die bisher abgeleiteten Ergebnisse sind aus Gründen größerer Übersichtlichkeit noch einmal in folgender Tabelle zusammengefaßt: Tabelle: Anzahl möglicher Kombinationen der Ordnung k zu einer n-elementigen Menge bei unterschiedlichen Kombinationstypen Anordnung wichtig Anordnung unwichtig 4 Grundlagen der Wahrscheinlichkeitstheorie 78 F I G HJ K Wiederholung ausgeschlossen n n! = k! k (n − k )! Wiederholung zugelassen nk nI F G Hk J K n + k − 1I F G Hk J K TEIL II: Statistikanwendungenmit Excel 6 1 Grundlagen von Excel 1.1 Einführung In diesem Kapitel werden in kompakter Form die wesentlichen Eigenschaften und Funktionen des Tabellenkalkulationsprogramms Excel dargelegt, die für die Bearbeitung der weiteren Abschnitt benötigt werden. Dem erfahrenen Excel-Benutzer wird so ein Überblick über die erforderlichen Vorkenntnisse gegeben. Für eine weitergehende Beschäftigung mit Excel sei auf die Spezialliteratur (siehe Abschnitt 5) verwiesen. Neben der klassischen, buchgestützten Stofferarbeitung bietet sich für die Aneignung der nötigen Excel-Kenntnisse auch die Verwendung von interaktiven Selbstlernprogrammen an. Mit diesen Lernprogrammen kann sich der Benutzer selbständig am Personal Computer Kenntnisse über Excel verschaffen. Dabei werden die Funktionen – z.T. unter Verwendung von multimedialen Komponenten – schrittweise erklärt, simuliert und der Benutzer wird zu Aktionen in der simulierten Excel-Umgebung aufgefordert. Zum Thema Office 97 und damit zu Excel 97 ist in Deutschland nach Kenntnis der Autoren die LernprogrammReihe TutorWIN der Firma Prokoda GmbH, Köln, am weitesten verbreitet. Neben geringen Excel-Vorkenntnissen werden für die Erarbeitung des folgenden Stoffes grundlegende Kenntnisse im Umgang mit einem Personal Computer sowie dem verwendeten Betriebssystem1 in der Form, wie sie heute üblicherweise im Grundstudium wirtschaftswissenschaftlicher Studiengänge an Hochschulen vermittelt werden, vorausgesetzt. Die weiteren Ausführungen beziehen sich auf Excel 97 – installiert unter Windows 95 – , wobei im Regelfall auch frühere Excel-Versionen die beschriebene Funktionalität aufweisen. _________________ 1 6 Excel 97 ist unter den Betriebssystemen Windows 95, Windows 98 und Windows NT ab Version 4.0 lauffähig. 1 Grundlagen von Excel 82 1.2 Grundelemente Der standardmäßige Dokument- bzw. Dateityp in Excel ist die Arbeitsmappe. In einer Arbeitsmappe befinden sich sog. Arbeitsblätter, beispielsweise für die Darstellung von Tabellen und Diagrammen. Jedes Arbeitsblatt stellt eine gitternetzartige Anordnung von Zeilen und Spalten dar. Eine Zelle ist der Schnittpunkt einer Zeile und einer Spalte. Jede Zelle besitzt eine eindeutige Adresse, den sog. Bezug. Beispielsweise bildet der Schnittpunkt von Spalte C und Zeile 5 die Zelle C5 (siehe Abbildung 1.2.1). Zellenbezüge werden u.a. beim Einsatz von Formeln verwendet (siehe Abschnitt 1.3). In den verschiedenen Zellen können Zahlen, Texte, arithmetische und logische Ausdrücke mit oder ohne Bezugnahme auf andere Zellen eingetragen werden. Damit ist es dem Benutzer möglich, auf sehr flexible Art und Weise individuelle Rechenschemata zu erstellen. Zur Erhöhung der Lesbarkeit und Aussagekraft von Formeln können Zellen und Zellbereiche – anstelle der Zellbezüge – auch mit einem Namen (max. 255 Zeichen lang) versehen werden, der – nach Doppelklick auf das Namenfeld (siehe Abbildung 1.2.1) – dort einzugeben ist. Der Name eines jeden Arbeitsblattes erscheint auf einem Register am unteren Rand der Arbeitsmappe. Die Blätter führen zunächst die Namen Tabelle1, Tabelle2 usw. Nach Doppelklick auf das Registerfeld kann man das jeweilige Blatt umbenennen (siehe Abbildung 1.2.1). Die einzelnen Arbeitsblätter lassen sich zwischen verschiedenen Arbeitsmappen verschieben oder kopieren und auch innerhalb einer Arbeitsmappe neu anordnen. Dem Zugriff auf die von Excel zur Verfügung gestellten Befehle dient die Menüleiste. Sie ist variabel, d.h., abhängig von der jeweiligen Arbeitssituation (z.B. Bearbeitung einer Tabelle oder eines Diagramms) weist sie unterschiedliche Befehle auf. Um die Verwendung häufig vorkommender Grundoperationen zu vereinfachen und zu beschleunigen, bietet Excel über 200 eingebaute Symbol-Schaltflächen an, die in vorgegebenen Symbolleisten zusammengestellt sind. Im folgenden werden hauptsächlich die Standard- und die Format-Symbolleiste angesprochen, die über das Menü Ansicht und den Menüpunkt Symbolleisten einund abschaltbar sind. 1.3 Eingabe und Bearbeitung von Daten 83 Namenfeld Zelle C5 Blattregister Abbildung 1.2.1: Excel-Arbeitsmappe 1.3 Eingabe und Bearbeitung von Daten Zellen, in die Daten eingegeben bzw. deren Inhalte verändert werden sollen, müssen markiert werden. Markierte Zellen werden hervorgehoben (siehe Abbildung 1.3.1). Die Zelle, in der die eingegebenen Daten plaziert werden, heißt aktive Zelle. Es ist immer nur eine Zelle aktiv. Adresse und Inhalt der aktiven Zelle werden auch in der sog. Bearbeitungsleiste, die sich unterhalb der Symbolleisten befindet (siehe Abbildung 1.3.1), angezeigt. 1 Grundlagen von Excel 84 Bearbeitungsleiste aktive Zelle Abbildung 1.3.1: Excel-Arbeitsblatt Für die Weiterverarbeitung von Daten im Rahmen von Berechnungen werden in Excel Formeln verwendet. Formeln sind Rechenvorschriften, die Excel veranlassen, in der Zelle, in der die Formel eingegeben wird, das Ergebnis auszugeben. Eine Formel beginnt immer mit einem Gleichheitszeichen. Die Formel selbst sieht man in der Zelle nur bei erstmaligem Bearbeiten dieser Zelle sowie später bei Doppelklick auf diese Zelle. Ansonsten führt die Zelle nur den Wert, den die Formel erzeugt. Die Formel ist immer in der Bearbeitungsleiste zu sehen. Bestandteile von Formeln können sein: Ø Konstanten (Zahlen) Ø Mathematische Operatoren Ø Integrierte Funktionen (siehe Abschnitt 1.5) Ø Zellbezüge Ø Zell- oder Zellbereichsnamen Das Bearbeiten größerer Tabellen mit gleichen Rechenoperationen wird durch die Funktionalität Autoausfüllen wesentlich erleichtert. Durch Ziehen des sogenannten Ausfüllkästchens – einem kleinen schwarzen Kästchen in der rechten unteren Ecke des markierten Zellbereichs (siehe Abbildung 1.3.2 (a)) – wird der Inhalt der markierten Zelle(n) auf andere Zellen derselben Zeile oder Spalte übertragen. Ist dieser Inhalt in einer Reihe fortführbar, wie beispielsweise bei Datums- oder Zahlenangaben, so werden diese Werte erweitert, andernfalls kopiert. 1.3 Eingabe und Bearbeitung von Daten 85 Abbildung 1.3.2 veranschaulicht die Funktionsweise von Autoausfüllen anhand von Monatsangaben. Zunächst wird in Zelle A1 "Januar" eingegeben (siehe Abbildung 1.3.2 (a)). Bewegt man nun den Mauszeiger in die Nähe der Zelle A1, so verwandelt er sich in ein "+" (siehe Abbildung 1.3.2 (a)). Durch Ziehen der Maus in Pfeilrichtung nach unten2, werden automatisch die Zellen A2:A12 mit den entsprechenden Monaten ausgefüllt (siehe Abbildung 1.3.2 (b)). Ausfüllkästchen Mauszeiger (a) (b) Abbildung 1.3.2: Funktionsweise von Autoausfüllen Die Registerkarte Autoausfüllen, die über den Befehl Optionen aus dem Menü Extras aufgerufen wird (siehe Abbildung 1.3.3), zeigt die verfügbaren Datenreihen an (in Abbildung 1.3.3 ist die in Abbildung 1.3.2 verwendete Datenreihe für Monate ausgewählt) und erlaubt die Definition neuer Datenreihen. Neben den Datenreihen können mit der Autoausfüllen-Funktion auch Formeln automatisch fortgeführt werden (siehe Beispiel 1.1). Will man Daten, die Bestandteile von Datenreihen sind, lediglich kopieren, so muß man neben dem für das Autoausfüllen erforderlichen Markieren und Ziehen gleichzeitig die Strg-Taste drücken! _________________ 2 Die linke Maustaste bleibt gedrückt. 86 1 Grundlagen von Excel Abbildung 1.3.3: Verfügbare Datenreihen in Excel Ein weiteres wichtiges Konzept von Tabellenkalkulationsprogrammen stellen die bereits in Abschnitt 1.2 angesprochenen Zellbezüge dar. Mit einem Zellbezug wird eine Zelle oder eine Gruppe von Zellen genau bestimmt. Verwendet man Zellbezüge in einer Formel, so ist der Formelwert von den Werten der Zelle abhängig, auf die Bezug genommen wird. Ändert man diese, so ändert sich der Formelwert automatisch. Man unterscheidet zwei Arten von Zellbezügen: Ø Relativer Zellbezug Kopiert man durch Verwendung der Autoausfüllen-Funktion eine Zelle mit einem relativen Zellbezug, so bezieht sich die Formel im Einfügebereich nicht auf dieselben Zellen wie im Kopierbereich. Ø Absoluter Zellbezug Es gibt Anwendungen, bei denen der Zellbezug unverändert bleiben muß. In diesem Fall fügt man ein $ vor die beiden Bestandteile des Zellbezugs. Beim Kopieren bleibt so der Bezug auf die gleiche Zelle erhalten. 1.3 Eingabe und Bearbeitung von Daten 87 Dieser Unterschied soll an kleinen Beispielen verdeutlicht werden. Beispiel 1.1 Abbildung 1.3.4: Beispiel für relative Zellbezüge Abbildung 1.3.4 zeigt die monatlichen Umsätze (in TDM) einer Gaststätte mit verschiedenen Biersorten. Der Gesamtumsatz für den Monat Januar ergibt sich durch Addition der relativen Bezüge B2:B4. Diese Vorgehensweise weist den Vorteil auf, daß sich bei Verwendung der Autoausfüllen-Funktion die in B6 eingegebene Formel auch auf andere Zellen, im Beispiel die Zelle C6, ausdehnen läßt. Dort wird dann automatisch die Summe der Zellen C2:C4 eingetragen. Diese Vorgehensweise läßt sich auf weitere Zellen ausdehnen. Will man diese automatische Übertragung von Formelbestandteilen auf angrenzende Zellen nicht, muß man mit absoluten Zellbezügen arbeiten. Beispiel 1.2 Im Beispiel der Abbildung 1.3.5, bei dem die monatliche Zinslast für eine Schuld von 100.000 DM bei einem Zinssatz von 8,5 % zu ermitteln ist, wird beispielsweise der permanente Bezug auf die Zelle B1 erforderlich. Die Formel der Zelle C5 für die Zinslast im Monat Januar muß demzufolge lauten: = B5*$B$1*1/12 Abbildung 1.3.5: Beispiel für absolute Zellbezüge Nach Eingabe der entsprechenden Formeln für die Zellen D5, E5 und B6 lassen sich durch Anwenden der Autoausfüllen-Funktion die monatlichen Zinsbelastungen ebenso bestimmen wie der Monat, in dem letztmalig Zahlungen zu leisten sind. 1 Grundlagen von Excel 88 Die bisherigen Formeloperationen liefern jeweils nur für eine Zelle ein Ergebnis. Sie werden verschiedentlich auch als Einzelwertformeln bezeichnet. Demgegenüber kann eine Matrixformel mehrere Ergebnisse für einen markierten Bereich "gleichzeitig" liefern. Beispiel 1.3 soll die Vorgehensweise bei der Anwendung von Matrixformeln veranschaulichen. Beispiel 1.3 Gegeben sei die Aufstellung der Abbildung 1.3.6 über den Süßwaren- Umsatz eines Tages an einem Kiosk. Abbildung 1.3.6: Tabelle für Beispiel 1.3 Die mit den verschiedenen Süßwaren erzielten Umsätze können nun mit Hilfe der Matrixformeln wie folgt ermittelt werden: Ø Zunächst ist der Ergebnisbereich, in unserem Fall D2:D6, zu markieren. Ø Die Formel für den gesamten Ergebnisbereich ist in die Bearbeitungsleiste einzugeben. Ø Der Cursor ist in der Bearbeitungsleiste hinter die Formel zu setzen. Ø Mit Auslösen der Tastenkombination STRG+ñ+Return (gleichzeitiges Drücken) werden alle Ergebnisse in die Zellen D2:D6 ausgegeben. Die Funktionalität von Matrixformeln erleichtert – wie im angeführten Beispiel – nicht nur Kalkulationen, sondern ist bei manchen Anwendungen (siehe Abschnitt 2.2) unabdingbar. 1.4 Aufbereitung von Daten Neben der reinen Kalkulation ist eine übersichtliche Aufbereitung von Tabellen und/oder deren grafische Darstellung in der Praxis ganz besonders wichtig. Zur Erhöhung von Lesbarkeit und Übersichtlichkeit einer tabellarischen Darstellung von Daten verfügt Excel über eine Vielzahl von Formatierungswerkzeugen, die über die Format-Symbolleiste bzw. den Befehl Format in der Menüleiste aktivierbar sind. 1.5 Integrierte Funktionen 89 Hierzu zählen insbesondere unterschiedliche Zahlenformate, Schriftarten und grade, Funktionen für Numerierungen und Aufzählungen, Auswahlmöglichkeiten für Ausrichtung und Farbdarstellung von Zell-inhalten, Rahmen, Schattierungen und Muster für Zellen usw. Vor allem bei großen Datenmengen ist die grafische Darstellung von Daten aussagekräftiger als die tabellarische Aufbereitung. Die in Excel eingebundene Funktionalität ermöglicht es dem Anwender, aus einer Tabelle in wenigen Arbeitsschritten einfach und bequem ein Diagramm zu erstellen. Dabei bietet Excel eine Reihe von Diagrammtypen, aus denen sich der Benutzer den für seine Problemstellung geeigneten Typ auswählen kann. Die Vorgehensweise zur Diagrammerstellung und Auswahlkriterien für die angebotenen Diagrammtypen werden in Abschnitt 4 behandelt. 1.5 Integrierte Funktionen Excel verfügt über eine Vielzahl integrierter Tabellenfunktionen und läßt sich zusätzlich durch sog. Add-Ins um weitere Funktionen3 erweitern. Damit kann man auf über 400 Tabellenfunktionen zugreifen, die von einfachen mathematischen Funktionen, wie Summenbildung, bis zu komplexen Analysefunktionen, wie z.B. Fourieranalyse oder zweifaktorielle Varianzanalyse, reichen. Die Funktionen lassen sich in folgende Kategorien einteilen: Ø Datenbank- und Listenverwaltungsfunktionen Ø Datums- und Zeitfunktionen Ø Finanzmathematische Funktionen Ø Informationsfunktionen Ø Logische Funktionen Ø Mathematische und trigonometrische Funktionen Ø Statistische Funktionen Ø Such- und Referenzfunktionen Ø Technische Funktionen Ø Textfunktionen Grundsätzlich stellt eine Funktion eine Rechenvorschrift dar, die bestimmt, welche Operationen mit einem oder mehreren Werten, den Funktionsargumenten, ausge_________________ 3 Die Add-In-Funktionen sind nach der Installation von Excel bei Bedarf zu aktivieren und danach von den anderen integrierten Funktionen nicht mehr zu unterscheiden.. 1 Grundlagen von Excel 90 führt werden. Das Ergebnis der Operation heißt Funktionswert. Argumente einer Funktion werden immer in Klammern an Excel übergeben. So addiert man beispielsweise die Zahlen 1,2,3,4 mit der Funktion SUMME wie folgt: =SUMME(1;2;3;4) Als Funktionsargumente sind anstelle der Zahlen auch Zellbezüge und andere Funktionen denkbar. So werden in nachfolgender Funktion die Inhalte der Zellen A1 und A2, das Produkt der Zellen B1 und B2 und die Zahl 111 addiert: =SUMME (A1;A2;Produkt(B1;B2);111) Auf diese Weise lassen sich auf Basis des verfügbaren Funktionsvorrates beliebig komplexe Funktionen darstellen und berechnen. Die verfügbaren Funktionen lassen sich über den Funktions-Assistenten aktivieren, ihre Verwendung wird durch das Beispiel 1.4 veranschaulicht. Beispiel 1.4 Ausgangspunkt ist der in Abbildung 1.5.1 dargestellte monatliche Umsatz eines Getränkefachhändlers an Erfrischungsgetränken. Zur Jahresmitte ist der Gesamtumsatz sowie der durchschnittliche monatliche Umsatz zu ermitteln. Für den Gesamtumsatz der einzelnen Getränkesorten wird die Funktion SUMME für die erste Getränkesorte verwendet (siehe Abbildung 1.5.1). Für diese Funktion existiert in der Standard-Symbolleiste eine eigene Schaltfläche, ansonsten ist sie auch über den Funktionsassistenten aufrufbar. Mit Hilfe der AutoausfüllenFunktion erhält man unmittelbar die in Abbildung 1.5.2 dargestellten Ergebnisse. Abbildung 1.5.1: Ausgangstabelle für Beispiel 1.4 Für die Ermittlung der monatlichen Durchschnittsumsätze ist zunächst der Durchschnittswert für ISO-Drinks zu bestimmen, indem im Funktionsassistenten die Funktion MIT- 1.6 Online-Hilfesysteme 91 TELWERT ausgewählt wird, anschließend ist der Bereich der Argumente, hier wiederum B4:B9, festzulegen. Der sich ergebende Wert für die ISO-Drinks ist durch die Autoausfüllen-Funktion auf die anderen Getränkearten auszuweiten. Das Ergebnis zeigt die Abbildung 1.5.2. Abbildung 1.5.2:Ergebnistabelle für Beispiel 1.4 1.6 Online-Hilfesysteme Ein umfangreiches System von Online-Hilfen unterstützt den Anwender dabei, den großen Funktionsumfang von Excel effizient für seine konkrete Aufgabenstellung einsetzen zu können. Zu unterscheiden sind dabei die folgenden Hilfesysteme (siehe Abbildung 1.6.1), die grundsätzlich nach Aufruf des Fragezeichens in der Menüleiste (siehe beispielsweise Abbildung 1.2.1) aktiviert werden können: Ø Microsoft-Hilfe Ø Index und Inhalt Ø Direkthilfe 1 Grundlagen von Excel 92 Ø Microsoft im Web Abbildung 1.6.1: Überblick über Excel-Hilfefunktionen 4 Die Microsoft-Hilfe – auch als Office-Assistent bezeichnet und immer mit dem in Abbildung 1.6.1 dargestellten Symbol visualisiert – kann auch direkt über die Schaltfläche in der Standard-Symbolleiste bzw. mit der Funktionstaste F1 aktiviert werden. Sie gibt in Form der Tips Ratschläge zum effektiveren Umgang mit Excel. Diese Tips können nach Auswahl der Microsoft-Hilfe aufgerufen werden (siehe Abbildung 1.6.2 (a)) bzw. sind stets dann aktivierbar, wenn eine Glühlampe in der Schaltfläche des Office-Assistenten ( ) bzw. im Office-Assistenten selbst (siehe Abbildung 1.6.2 (b)) eingeblendet ist. In diesen Fällen schlägt Excel eine Anzahl von zum momentanen Bearbeitungsstand passenden Hilfethemen vor, im Beispiel der Abbildung 1.6.2 (b) handelt es sich aufgrund der unmittelbar vorhergehenden Erstellung von Diagrammen um Themen in diesem Umfeld. Sollten die angebotenen Hilfestellungen nicht zutreffen, kann über die Suchmaske gezielt weitere Unterstützung abgefragt werden. _________________ 4 Die Abbildung ist direkt der Excel-Hilfe entnommen. 1.6 Online-Hilfesysteme 93 (a) (b) Abbildung 1.6.2: Microsoft-Hilfe Neben dieser passiven Hilfestellung gibt der Office Assistent auch aktive Unterstützung. Dabei "beobachtet" Excel den Benutzer bei seiner Arbeit und bietet eigenständig und unaufgefordert Hilfe an, wenn es den Eindruck gewinnt, daß dieser Probleme bei der Bedienung oder Benutzung des Programms hat. Inhalt und Index ermöglichen unterschiedlichen Zugang zu den Hilfethemen. Im Registerfeld Inhalt sind die verfügbaren Hauptthemen alphabetisch gelistet. Bei Doppelklick auf ein Hauptthema erscheinen die dazu gehörigen Themen, die ggf. in weitere Unterthemen unterteilt sind. Abbildung 1.6.3 veranschaulicht dies anhand des Hauptthemas "Bearbeiten von Themen in einem Tabellenblatt". Nach Selektion dieses Themas werden dazu passende Themen angezeigt, die bei Darstellung eines Buchsymbols, wie z.B. bei "Suchen oder Ersetzen von Dateien", weitere Unterthemen beinhalten. Die mit Fragezeichen versehenen Formulare stellen jeweils die unterste Hierarchieebene dar. Abbildung 1.6.3: Excel-Hilfethemen Das Registerfeld Index erlaubt die alphabetische Suche nach den im Index enthaltenen Begriffen, deren Erläuterung mit Mausklick abgerufen werden kann. Abbildung 1.6.4 zeigt einen Auszug aus diesem Index sowie die in einem eigenen Fenster dargestellte Erläuterung des selektierten Themas. 94 1 Grundlagen von Excel Abbildung 1.6.4: Auszug aus dem Index der Excel-Hilfe Im Registerfeld Suchen ist es möglich, in den Hilfethemen eine Volltextsuche mit mehreren Suchbegriffen durchzuführen. Die Direkthilfe bietet bei der Arbeit mit Dialog- und Registerfeldern Unterstützung. Nach Klicken auf die in den meisten dieser Felder vorkommenden Schaltfläche ? nimmt der Mauszeiger die Form eines Fragezeichens an. Klickt man nun mit diesem Mauszeiger auf eine Option oder ein Dialogfeld, so erhält man in einem Überlagerungs-Textfeld die erforderlichen Erläuterungen. (siehe Abbildung 1.6.5). Abbildung 1.6.5: Direkthilfe Mit Microsoft im Web erhält man über das Internet den direkten Zugriff auf die Microsoft-Website und damit auf aktuelle Informationen u.a. zu den jeweiligen Softwarepaketen. Über die verfügbaren Informationsinhalte gibt Abbildung 1.6.1 einen Überblick. 1.7 Aufgaben zu Kapitel 1 1.7 95 Aufgaben zu Kapitel 1 Aufgabe 1.1 Das Unternehmen „Skandal & Co.“, dessen Geschäftsführer Sie sind, benötigt zur Renovierung des firmeneigenen Swimmingpools ein Darlehen in Höhe von 60.000 DM. Die Hausbank bietet einen Zinssatz von 8% bei einer monatlichen Zahlung von 2.800 DM an. Die Rückzahlung des Darlehens soll am 1.6.1998 beginnen. a) Erstellen Sie einen Tilgungsplan mit folgendem Aufbau: Tilgungsplan Termin Schuld am An- Zinszah- Zahlung pro Schuld am fang des Monats lung [DM] Monat [DM] Ende des Mo[DM] nats [DM] 1.6.1998 60.000,00 ... ... ... 1.7.1998 ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... b) Ermitteln Sie mit Hilfe der Excel-Funktionalität „Autoausfüllen“, wann Ihre Firma die letze volle Zahlung in Höhe von 2.800 DM leisten muß? c) Wie hoch ist der im letzten Monat zu zahlende Betrag? 1 Grundlagen von Excel 96 Aufgabe 1.2 Eine andere Bank, die mit Ihrer Firma ins Geschäft kommen möchte, unterbreitet Ihnen für das in Aufgabe 1.1 dargestellte Vorhaben folgendes Angebot: Zinssatz: 6,5 % monatl. Zahlung: 2.500 DM a) Stellen Sie den folgenden Tilgungsplan auf: Tilgungsplan Zinssatz: Termin monatliche Zahlung: Schuld am Anfang Zinszahlung Schuld am Ende des des Monats [DM] Monats [DM] [DM] 1.6.1998 60.000,00 1.7.1998 ... ... ... ... ... ... ... ... ... ... ... b) Ermitteln Sie durch Verwendung absoluter Bezüge, wann Ihre Firma die letze volle Zahlung in Höhe von 2.500 DM leisten muß? c) Wie hoch ist der im letzten Monat zu zahlende Betrag? 1.8 Lösungsvorschläge zu Kapitel 1.7 Aufgabe 1.1 a) Die nachstehende Excel-Tabelle beinhaltet den geforderten Aufbau. b) Am 1.4.2000 ist die letzte volle Zahlung zu leisten. c) Der am 1.5.2000 zu zahlende Restbetrag beträgt 556,63 DM. 1.8 Lösungsvorschläge zu Kapitel 1.7 97 98 1 Grundlagen von Excel Aufgabe 1.2 a) Die nachstehende Excel-Tabelle beinhaltet den geforderten Aufbau. b) Am 1.6.2000 ist die letzte volle Zahlung zu leisten. c) Der am 1.7.2000 zu zahlende Restbetrag beträgt 1.939,38 DM. 2 Beschreibung und Analyse von Daten 2.1 Einführung Üblicherweise liegen die zu untersuchenden Daten in unstrukturierter und unsystematischer Form als Datenurmaterial vor. Dies führt nicht nur zu einer gewissen Unübersichtlichkeit, sondern verhindert auch den optimalen Einsatz von Excel für solche statistischen Berechnungen, für die ein Aufbereiten und Strukturieren der zur Verfügung stehenden Daten unabdingbar ist. Am einfachsten strukturiert man eine Datenmenge durch Sortieren der Werte. Hierfür stellt Excel den Befehl Sortieren des Menüs Daten zur Verfügung, wobei das markierte Datenmaterial der Größe nach in aufsteigender oder absteigender Reihenfolge – bis zu dreistufig nach verschiedenen Merkmalen – angeordnet werden kann. Beispiel 2.1 Abbildung 2.1.1 zeigt die Einsatz- und Torübersicht eines Fußball-Bundesligavereins, wobei jeweils in Spalte A die Rückennummer des Spielers, in Spalte B die Anzahl seiner Pflichtspiel-Einsätze in der Bundesliga und in Spalte C die insgesamt erzielten Tore stehen. (a) gibt das ursprüngliche Datenmaterial – geordnet nach der Rückennummer des Spielers – wider, das unter (b) nach der Anzahl der Pflichtspiel-Einsätze in absteigender Reihenfolge (Spalte B) und unter (c) zusätzlich noch nach den erzielten Toren in absteigender Reihenfolge (Spalten B und C) sortiert ist. Die Eingaben in das zugehörige Dialogfenster des Befehls Sortieren, die für den direkten Übergang von (a) nach (c) erforderlich sind, zeigt Abbildung 2.1.2. 6 2 Beschreibung und Analyse von Daten 100 1 2 3 4 5 6 7 8 9 10 11 12 13 14 A B C A B C A B C 1 2 3 4 5 6 7 8 9 10 11 12 13 14 2 6 13 9 14 3 4 7 11 5 8 10 1 12 13 6 2 9 14 3 7 11 4 8 5 10 1 12 17 1 34 3 30 4 28 3 27 4 34 4 28 6 27 5 33 11 25 6 28 4 17 0 34 5 33 3 (a) Abbildung 2.1.1: Zweistufiges Sortieren 34 3 34 4 34 5 33 11 33 3 30 4 28 3 28 6 28 4 27 4 27 5 25 6 17 1 17 0 (b) 34 5 34 4 34 3 33 11 33 3 30 4 28 6 28 4 28 3 27 5 27 4 25 6 17 1 17 0 (c) 2.2 Häufigkeiten 101 Abbildung 2.1.2: Sortier-Dialogfeld 2.2 Häufigkeiten Eine Möglichkeit zur Beschreibung von Datenmaterial ist die Bestimmung der Häufigkeit der Merkmalsausprägungen (siehe Teil I, Abschnitt 1.5). Dabei erfordern diskrete und stetige Merkmale eine unterschiedliche Vorgehensweise. Aus der Eigenschaft diskreter Merkmale, innerhalb eines bestimmten Bereiches nur ganz bestimmte Werte annehmen zu können (siehe Teil I, Abschnitt 1.3) läßt sich ableiten, wie oft eine Merkmalsausprägung auftritt. Dies wird als Gruppieren bezeichnet. Gruppieren bedeutet also, diskrete Merkmale mit der gleichen Merkmalsausprägung zusammenzufassen und so die absolute Häufigkeit einer jeden Merkmalsausprägung festzustellen. Excel bietet hierzu die Funktion HÄUFIGKEIT an. Beispiel 2.2 Die Tabelle der Abbildung 2.2.1 beinhaltet ausschnittsweise die Ergebnisse einer Prüfung. Es soll ermittelt werden, wie oft eine Note vergeben wurde. Student A Note 2,3 Student I Note 4,0 2 Beschreibung und Analyse von Daten 102 B C D E F G H 3,3 3,7 1,0 2,0 3,0 3,0 5,0 J K L M N O P 2,3 2,0 5,0 4,0 1,0 1,7 2,3 Abbildung 2.2.1: Datenurmaterial von Beispiel 2.2 Zur Vorbereitung der Gruppierung ist in Excel eine Tabelle gemäß Abbildung 2.2.2 zu erstellen. Abbildung 2.2.2: Ausgangstabelle für Beispiel 2.2 Die Berechnung geschieht nun mit Hilfe der Funktion HÄUFIGKEIT, wobei folgendes zu beachten ist: Da man gleichzeitig verschiedene Ergebnisse erzielen will, in unserem Fall die Häufigkeiten für die 12 Notenstufen, muß der entsprechende Platz für die Ergebnisse durch vorheriges Markieren freigehalten werden; in Abbildung 2.2.2 sind das die Zellen D2 bis D13. Gleichzeitig muß die Operation mit der Tastenkombination STRG+ñ+Return (gleichzeitiges Drücken) abgeschlossen werden, um Excel diese Matrixformel (siehe Abschnitt 1.3) mitzuteilen. Die Häufigkeiten werden nun wie folgt ermittelt: Ø Markieren des Ergebnisbereiches D2:D13. Ø Aufruf der Funktion HÄUFIGKEIT. 2.2 Häufigkeiten Ø Ø Ø Ø Ø 103 Nach Klicken von „Weiter“ sind im nächsten Dialogfeld folgende Informationen einzugeben: bei DATEN: B2:B17 bei KLASSEN: C2:C13 Schließen des Dialogfensters durch „Ende“. In der ersten Zelle des Ergebnisbereiches (D2) steht nun die Häufigkeit für die erste Merkmalsausprägung. Durch Mausklick hinter die letzte Position der Bearbeitungsleiste und anschließendes Auslösen der Tastenkombination STRG+ñ+Return erhält man alle gewünschten Häufigkeiten (siehe Spalte D in Abbildung 2.2.3 (a)). Aus den so errechneten absoluten Häufigkeiten lassen sich die relativen Häufigkeiten mit Hilfe der Formel fi = hi /N1 direkt aus den absoluten Häufigkeiten gewinnen. Der Wert N für die Anzahl der Merkmalsausprägungen kann mit Hilfe der Funktionen ANZAHL bzw. ANZAHL2 sofort aus der Spalte (Spalte B in Abbildung 2.2.3) mit den Merkmalsausprägungen oder durch Addition der absoluten Häufigkeiten (Spalte D in Abbildung 2.2.3) mit Hilfe der Summenfunktion bestimmt werden. Dabei berechnet die Funktion ANZAHL, wie viele Zahlen eine Liste von Argumenten enthält, ANZAHL2, wie viele Einträge eine Liste von Argumenten enthält. In unserem Beispiel führt die Verwendung beider Funktionen zum Ergebnis „16“. _________________ 1 mit fi = relative Häufigkeit, hi = absolute Häufigkeit und N = Gesamtzahl aller Elemente (a) (b) Abbildung 2.2.3: Ergebnistabellen für Beispiel 2.2 Abbildung 2.2.3 (b) beinhaltet die auf die eben beschriebene Weise ermittelten relativen Häufigkeiten von Beispiel 2.2. Es wird für derartige Fragestellungen grundsätzlich die Verwendung dieser Funktionen oder der Summenfunktion anstelle der manuellen Ermittlung empfohlen, da sich so bei einer Erweiterung oder Reduzierung des Datenurmaterials der jeweilige Wert automatisch anpaßt. Während sich das Gruppieren auf diskrete Verteilungen bezieht, werden bei stetigen Merkmalen sog. Häufigkeitsklassen gebildet. Will man beispielsweise in einem großen Unternehmen die monatlichen Gehälter der Mitarbeiter aussagekräftig darstellen, teilt man diese in Klassen ein, z.B. 3.500 – 3.999 DM, 4.000 – 4.499 DM etc. Für die Wahl der Klassengrenzen gibt es keine Regelungen, sie hängen naturgemäß vom jeweiligen Datenmaterial ab. Dabei kann es durchaus sinnvoll sein, unterschiedliche Klassengrößen zu verwenden. Die Funktion HÄUFIGKEIT ist bei stetigen Merkmalen analog zum Einsatz bei diskreten Merkmalen anzuwenden, wobei die jeweilige obere Klassengrenze als Klassenmerkmal einzugeben ist. Beispiel 2.3 Abbildung 2.2.4 zeigt die in einer Umfrage bei Absolventen einer Hochschule ermittelten Anfangsgehälter (per annum). 6 2.2 Häufigkeiten Nr. Anfangsgehalt 1001 84.500 1002 52.400 1003 76.340 1004 61.000 1005 43.000 1006 65.987 1007 55.670 1008 72.000 1009 64.567 1010 56.987 105 Nr. Anfangsgehalt Nr. Anfangsgehalt 1011 57.939 1021 82.000 1012 56.993 1022 74.000 1013 76.930 1023 65.450 1014 52.959 1024 57.660 1015 54.955 1025 64.700 1016 67.450 1026 87.500 1017 75.000 1027 91.400 1018 102.000 1028 59.700 1019 50.450 1029 72.550 1020 61.000 1030 51.000 Abbildung 2.2.4: Datenmaterial von Beispiel 2.3 Im ersten Schritt sind diese Daten in ein Excel-Arbeitsblatt einzugeben und in aufsteigender Reihenfolge zu sortieren (siehe Spalten A und B in Abbildung 2.2.5). Anschließend sind sinnvolle Klassengrenzen festzulegen (siehe Spalte C in Abbildung 2.2.5) und die absoluten und relativen Häufigkeiten dieser Klassen zu ermitteln (siehe Spalten D und E in Abbildung 2.2.5) 2 Beschreibung und Analyse von Daten 106 Abbildung 2.2.5: Ergebnistabelle von Beispiel 2.3 1 Für eine Reihe von Fragestellungen interessieren auch die Summenhäufigkeiten (vgl. Teil I, Abschnitt 1.5). So kann man für das Beispiel 2.3 zu Aussagen wie „40 % verdienen bis zu 60.000 DM oder 19 Absolventen verdienen bis zu 70.000 DM pro Jahr“ gelangen. Die Summenhäufigkeiten erhält man aus den absoluten bzw. relativen Häufigkeiten durch Aufsummieren der einzelnen Werte. Beispiel 2.4 Aus den relativen und absoluten Häufigkeiten des Beispiels 2.3 (siehe Abbildung 2.2.5) sind die Summenhäufigkeiten zu ermitteln. Die einzelnen Werte der Summenhäufigkeiten werden durch Addition der einzelnen Häufigkeiten gewonnen. So erhält man beispielsweise die absolute Summenhäufigkeit für Einkommen bis zu 55.000 DM (Zelle F3 in Abbildung 2.2.6) durch die Formel = F2+D3. Die weiteren Werte der absoluten Summenhäufigkeiten werden mit Hilfe der Autoausfüllen-Funktion berechnet (siehe Abbildung 2.2.6). _________________ 1 Spalten A und B sind nur teilweise dargestellt. 2.3 Mittelwerte 107 Abbildung 2.2.6: Ergebnistabelle des Beispiels 2.4 2.3 2 Mittelwerte Excel verfügt über integrierte Funktionen (siehe Abschnitt 1.5) für die Bestimmung der in Teil I, Abschnitt 2.1 behandelten Kenngrößen. Abbildung 2.3.1 zeigt diese Funktionen. Statistische Kenngröße Zugehörige Excel-Funktion (Argumente) Arithmetischer Mittelwert MITTELWERT (Zahl1;Zahl2;...) Modus MODALWERT (Zahl1;Zahl2;...) Median MEDIAN (Zahl1;Zahl2;...) Geometrischer Mittelwert GEOMITTEL (Zahl1;Zahl2;...) Abbildung 2.3.1: Mittelwerte _________________ 2 Spalten A und B sind nur teilweise dargestellt. 2 Beschreibung und Analyse von Daten 108 Der Funktionsassistent gibt dabei die jeweiligen Eingabeerfordernisse an, wobei für alle Funktionen gilt: Ø Zahl 1;Zahl2 ... sind 1 bis 30 Argumente. Ø Als Argumente dürfen nur Zahlen bzw. Namen, Matrizen oder Bezüge angegeben werden, die Zahlen enthalten. Ø Enthält ein als Matrix oder Bezug angegebenes Argument Text, Wahrheitswerte oder leere Zellen, werden diese Werte ignoriert. Zellen, die den Wert 0 enthalten, werden dagegen berücksichtigt. Darüber hinaus sind folgende Besonderheiten zu beachten: Ø MEDIAN Besteht eine Zahlenreihe aus einer geraden Anzahl von Zahlen, berechnet MEDIAN den Mittelwert der beiden mittleren Zahlen. Beispiel: Der Median aus den Zahlen 1,2,3,4,5 beträgt 3, der Median aus den Zahlen 1,2,3,4,5,6 wird als 3,5 berechnet. Ø MODALWERT ♦ Enthält die jeweilige Datenmenge keine mehrfach vorkommenden Werte, so liefert MODALWERT den Fehlerwert #NV3. ♦ Enthält die jeweilige Datenmenge mehrere gleich oft vorkommenden Werte, so wählt Excel daraus den Wert, der in der Datenliste als erster erscheint. Beispiel: Der Modalwert der Datenreihe 3,2,1,3,2,1 wird von Excel als 3, der Modalwert der Datenreihe 2,3,1,1,3,2 als 2 bestimmt. Beispiel 2.5 Ausgangspunkt sind die in Abbildung 2.2.1 dargestellten Klausurergebnisse. Für die Bestimmung des arithmetischen Mittelwertes erscheint nach Selektion der Funktion MITTELWERT das in Abbildung 2.3.2 dargestellte Dialogfenster. Nach Eingabe der Bezüge enthält man unmittelbar das Ergebnis, das zunächst im Dialogfenster angezeigt wird (siehe Abbildung 2.3.2), nach Betätigen der Endetaste in der vorher aktivierten Zelle (in Abbildung 2.3.2 ist das die Zelle E13) ausgegeben wird. In analoger Weise werden Median und Modus über die zugehörigen Excel-Funktionen MEDIAN und MODALWERT ermittelt. Die Ergebnisse sind in Abbildung 2.3.2 in den Zellen E14 und E15 dargestellt. _________________ 3 NV = No Value. #NV besagt, daß "kein Wert verfügbar" ist. 2.3 Mittelwerte 109 Abbildung 2.3.2: Dialogfenster für Berechnung des arithm. Mittels Beispiel 2.6 Die Abbildung 2.3.3 zeigt für die Jahre 1993-1997 das jeweilige Bruttosozialprodukt der Bundesrepublik Deutschland und die jährlichen Zuwachsraten an. Für die Ermittlung der durchschnittlichen jährlichen Zuwachsrate ist nicht auf das arithmetische Mittel, sondern auf das geometrische Mittel zurückzugreifen (siehe Teil I, Abschnitt 2.1). Die Anwendung der Funktion GEOMITTEL mit den jährlichen Zuwachsraten als Argumenten führt zu einer durchschnittlichen jährlichen Zuwachsrate von 3,18 %. 2 Beschreibung und Analyse von Daten 110 Jahr 1993 1994 1995 1996 1997 BSP (Mrd. DM) 3.168,8 3320,2 3442,7 3515,3 3612,2 Jährlicher Zuwachs in % 4,78 3,69 2,11 2,76 4 Abbildung 2.3.3: Ausgangsdaten für Beispiel 2.6 2.4 Streuungsmaße Für die in Teil I, Abschnitt 2.2, erläuterten Kenngrößen für die Variabilität einer Verteilung liefert Excel nur in einigen Fällen eine vollständige und sofort anwendbare Funktion, die meisten Streumaße müssen durch Verknüpfung mehrerer Funktionen abgeleitet werden. Die Abbildung 2.4.1 gibt einen Überblick darüber, wie die einzelnen Kenngrößen bestimmt werden. Statistische Kenngröße Berechnung in Excel Spannweite Interquartilsspanne Varianz Standardabweichung Variationskoeffizient MAX (Zahl1;Zahl2; ...) – MIN (Zahl1;Zahl2;...) QUARTILE (Matrix;3) – QUARTILE (Matrix;1) VARIANZEN (Zahl1;Zahl2;...) STABWN (Zahl1; Zahl2;...) STABWN (Zahl1; Zahl2;...) / MITTELWERT (Zahl1; Zahl2;...) Abbildung 2.4.1: Streuungsmaße Die Spannweite, die der Differenz aus der größten und kleinsten Merkmalsausprägung einer Verteilung entspricht, läßt sich mit Excel durch Differenzbildung der Funktionen MAX und MIN einfach bestimmen. Beispiel 2.7 Die in Abbildung 2.4.2 dargestellte Tabelle enthält das Ergebnis der Gewichtsmessung von zwölf Studierenden einer Hochschule. _________________ 4 Quelle: Statistisches Bundesamt, Internet-Abfrage der Dokumentenadresse http://www.statistikbund.de/indicators/d/vg4w.htm vom 1.3.1998. 2.4 Streuungsmaße 111 Abbildung 2.4.2: Ausgangs- und Ergebnisdaten von Beispiel (2.7) Wendet man die Funktionen MAX und MIN auf den Zellenbereich B3:B14 an, so erhält man die in den Zellen E2 und E3 dargestellten Werte. Die Differenz dieser beiden Werte ergibt dann unmittelbar die in Zelle E4 ausgewiesene Spannbreite. Die Interquartilsspanne läßt sich als Differenz aus erstem und drittem Quartil bestimmen. Für die Berechnung der Quartile bietet Excel eine Funktion an, deren Syntax wie folgt lautet: QUARTILE (Matrix; Quartil) Matrix ist hierbei eine Matrix oder ein Zellbereich numerischer Werte, deren Quartil bestimmt werden soll. Quartil gibt an, welcher Wert ausgegeben werden soll (siehe Abbildung 2.4.3). Ist Quartil gleich 0 1 2 3 4 liefert QUARTILE Den kleinsten Wert Das erste Quartil Q1 Den Median (0,5-Quantil) Das dritte Quartil Q3 Den größten Wert Abbildung 2.4.3: Werte der Funktion QUARTIL 112 2 Beschreibung und Analyse von Daten Beispiel 2.8 Die Interquartilsspanne für die in Abbildung 2.4.2 dargestellten Datenwerte wird wie folgt bestimmt: Ø Bestimmung des ersten Quartils: QUARTILE (B3:B14; 1) Ø Bestimmung des dritten Quartils: QUARTILE (B3:B14; 3) Ø Bildung der Differenz aus drittem und erstem Quartil Die sich jeweils ergebenden Werte sind aus Abbildung 2.4.2 zu entnehmen. Sortiert man die Datenwerte in aufsteigender Reihenfolge (siehe Abbildung 2.4.4), so überrascht das Ergebnis im ersten Moment. Bei Betrachtung der Datenwerte hätte man für das erste Quartil das Ergebnis 68 als Mittelwert zwischen dem dritten und dem vierten Datenwert und für das dritte Quartil das Ergebnis 88 als Mittelwert zwischen dem neunten und zehnten Datenwert erwartet. Excel berücksichtigt allerdings, daß der unterhalb des ersten bzw. oberhalb des dritten Quartils liegende Wert, in unserem Beispiel der dritte bzw. zehnte Wert, nur 25%, der oberhalb des ersten und unterhalb des dritten Quartils liegende Wert, in unserem Beispiel der vierte bzw. neunte Wert jeweils 75% zur Spannweite der 50% „in der Mitte liegenden“ Merkmalsausprägungen beiträgt. Während die Quartile jeweils die 25%-Schwellwerte liefern, läßt sich mit Quantilen für jeden beliebigen Prozentsatz der dazugehörige Schwellwert bilden, wobei die Werte 25% und 75% zu den Quartilen führen. Für die Bestimmung der Quantile bietet Excel die Funktion QUANTIL, deren Syntax der Excel-Hilfefunktion bzw. bei Aufruf der Funktion dem Dialogfenster entnommen werden kann. Abbildung 2.4.4: Sortierung der Datenwerte von Beispiel 2.7 2.4 Streuungsmaße 113 Für die Bestimmung der Varianz bietet Excel die Funktion VARIANZEN5, für die Berechnung der Standardabweichung die Funktion STABWN6. Für die Bestimmung des Variationskoeffizienten gibt es in Excel keine gesonderte Funktion, er ist aber leicht als Quotient aus Standardabweichung und arithmetischem Mittel zu bestimmen. Beispiel 2.9 Bei Anwendung der Funktionen VARIANZEN und STABWN bzw. bei Berechnung des Variationskoeffizienten über die o.a. Formel erhält man unmittelbar die in Abbildung 2.4.2 dargestellten Ergebnisse. _________________ 5 Achtung: Nicht verwechseln mit der EXCEL-Funktion VARIANZ, welche die Varianz einer Grundgesamtheit ausgehend von einer Stichprobe schätzt. 6 Achtung: Nicht verwechseln mit der EXCEL-Funktion STABW, welche die Standardabweichung einer Grundgesamtheit ausgehend von einer Stichprobe schätzt. 2 Beschreibung und Analyse von Daten 114 2.5 Konzentrationsmaße Die in Teil I, Abschnitt 2.3 behandelten Konzentrationsmaße Ø Konzentrationsrate Ø Herfindahl-Index Ø Lorenzkurve sind in Excel nicht als „fertige“ Funktionen integriert, sondern müssen durch Berechnung mit Hilfe der jeweiligen Formeln bestimmt werden. Für die Konzentrationsrate und den Herfindahl-Index ist diese Bestimmung sehr einfach, wie anhand des Beispiels 2.10 deutlich wird. Beispiel 2.10 Gegeben sind die in Abbildung 2.5.1 dargestellten Anfangsgehälter von HochschulAbsolventen, für welche die Konzentrationsraten und der Herfindahl-Index herzuleiten sind. Absolvent-Nr. 1 2 3 4 Anfangsgehalt in DM p.a. 52.500 51.000 67.000 59.000 Absolvent-Nr. 5 6 7 8 Anfangsgehalt in DM p.a. 45.000 81.000 72.000 66.000 Abbildung 2.5.1: Ausgangsdaten für Beispiel 2.10 Diese Daten sind gemäß den Ausführungen von Abschnitt 2.3 in Teil I zunächst bezüglich der Anfangsgehälter in aufsteigender Reihenfolge zu sortieren und aufzuaddieren. Dieses Ergebnis zeigen die Spalten A und B in Abbildung 2.5.2. Für die Bestimmung der Konzentrationsraten sind die Zellen B3:B10 jeweils durch die in Zelle B12 dargestellte Summe zu dividieren. Die Ergebnisse sind in den Zellen C3:C10 abzulesen. Für die Bestimmung vom Herfindahl-Index sind die Quadrate der Konzentrationsraten aufzuaddieren. Hierzu werden die Quadrate durch Anwendung der Funktion QUADRATSUMME gebildet (siehe Zellen D3:D10). Die Zelle D12 zeigt den ermittelten HerfindahlIndex als Summe der quadrierten Konzentrationsraten. 2.5 Konzentrationsmaße 115 Abbildung 2.5.2: Ergebnisse für Beispiel (2.10) Die Lorenzkurve ist gemäß den Ausführungen in Teil I, Abschnitt 2.3, eine Funktion, die jedem kumulierten Anteil an Merkmalsträgern den entsprechenden Anteil an der Gesamtsumme der Merkmalsausprägungen zuordnet. Die Vorgehensweise zu ihrer Ermittlung soll ebenfalls an einem Beispiel veranschaulicht werden. Beispiel 2.11 Ausgangspunkt sind wiederum die in Abbildung 2.5.1 dargestellten Anfangsgehälter von Hochschulabsolventen. Die Konzentrationsraten qi wurden bereits in Beispiel 2.10 bestimmt (siehe Abbildung 2.5.2). Die Merkmalsträgeranteile wi sind mit der Formel wi = i/N (i = 1;...;N) beispielsweise durch Einfügen einer Spalte mit laufenden Nummern (Spalte A in Abbildung 2.5.3) und Division der jeweiligen Nummer durch die Anzahl der gesamten Merkmalsträger leicht zu bestimmen. Die Ergebnisse der Division zeigt Spalte E in Abbildung 2.5.3. 116 2 Beschreibung und Analyse von Daten Abbildung 2.5.3: Ergebnisse für Beispiel 2.11 Durch Kumulieren der qi erhält man die Werte für L(wi), die in Spalte F der Abbildung 2.5.3 dargestellt sind. Für die Ermittlung der Lorenzkurve werden nun noch die Nullwerte für wi und L(wi) eingetragen. Nach Markieren der Spalten E und F in Abbildung 2.5.3 und Aktivieren des DiagrammAssistenten von Excel (siehe Abschnitt 4.2) wird aus dem Standard-Diagrammtyp "Punkt (X,Y)" der Untertyp "Punkte mit Linien ohne Datenpunkte" ausgewählt. Die sich daraus ergebende Lorenzkurve zeigt die Abbildung 2.5.4, wobei vorher noch die beiden Achsen auf den Maximalwert 1,0 einzustellen sind. 2.6 Korrelationsmaße 117 1,00 0,80 0,60 0,40 0,20 0,00 0,00 0,20 0,40 0,60 0,80 1,00 Abbildung 2.5.4: Lorenzkurve für Beispiel 2.11 2.6 Korrelationsmaße Für die in Teil I, Abschnitt 2.4, dargestellten Korrelationsmaße bietet Excel die in Abbildung 2.6.1 dargestellten Funktionen, wobei Matrix1 und Matrix2 die jeweiligen Zellbereiche der beiden Merkmalsauspägungen aufnehmen. Statistische Kenngröße Berechnung in Excel Kovarianz Korrelationskoeffizient KOVAR (Matrix1;Matrix2) KORREL (Matrix1;Matrix2) Abbildung 2.6.1: Korrelationsmaße Beispiel 2.12 Abbildung 2.6.2 zeigt eine Wertetabelle, die für die zwölf Studierenden von Beispiel 2.7 zusätzlich auch deren Körpergröße beinhaltet. Bei Anwendung der in Abbildung 2.6.1 dargestellten Funktionen gelangt man unmittelbar zu den in Abbildung 2.6.2 dargestellten Ergebnissen, wobei nach Funktionsaufruf der Zellbereich B3:B14 in Matrix1 und der Zellbereich C3:C14 in Matrix2 des jeweiligen Dialogfensters einzugeben ist. 118 2 Beschreibung und Analyse von Daten Abbildung 2.6.2: Ausgangs- und Ergebnisdaten von Beispiel 2.12 2.7 Aufgaben zu Kapitel 2 2.7 119 Aufgaben zu Kapitel 2 Aufgabe 2.1 In einer Klausur sind folgende Ergebnisse erzielt worden: Matr.-Nr. 1001 1002 1003 1004 1005 1006 1007 1008 1009 1010 1011 1012 1013 a) b) c) d) Note 1,3 5,0 3,3 2,0 4,0 3,0 1,7 2,0 1,3 3,7 2,7 2,0 4,0 Matr.-Nr. 1014 1015 1016 1017 1018 1019 1020 1021 1022 1023 1024 1025 1026 Note 2,7 5,0 3,3 2,7 1,7 1,3 4,0 5,0 5,0 5,0 2,7 3,3 2,3 Matr.-Nr. 1027 1028 1029 1030 1031 1032 1033 1034 1035 1036 1037 1038 1039 Note 2,3 1,0 5,0 1,7 2,3 2,7 3,0 3,7 3,3 1,0 1,3 5,0 4,0 Geben Sie die Noten in eine Spalte eines Excel-Tabellenblattes ein Sortieren Sie die Noten in aufsteigender Reihenfolge, d.h. ab 1,0. Berechnen Sie die absoluten und relativen Häufigkeiten der vergebenen Notenstufen! Ermitteln Sie die Durchschnittsnote! 2 Beschreibung und Analyse von Daten 120 Aufgabe 2.2 Die beiden folgenden Tabellen geben die Verteilungen der Anfangseinkommen von 15 Absolventen zweier verschiedener Hochschulen an! 60.000 DM 80.000 DM 60.000 DM 85.000 DM 70.000 DM 90.000 DM 80.000 DM 85.000 DM 70.000 DM 80.000 DM 70.000 DM 60.000 DM 80.000 DM 70.000 DM 90.000 DM Hochschule 1 a) 30.000 DM 35.000 DM 40.000 DM 30.000 DM 40.000 DM 612.500 DM 42.500 DM 35.000 DM 40.000 DM 30.000 DM 35.000 DM 40.000 DM 42.500 DM 35.000 DM 42.500 DM Hochschule 2 Ermitteln Sie die durchschnittlichen Anfangseinkommen der Absolventen beider Hochschulen! b) Ermitteln Sie die Spannbreiten der Anfangseinkommen der Absolventen beider Hochschulen! c) Berechnen Sie die Interquartilsspannen der beiden Verteilungen! 2.7 Aufgaben zu Kapitel 2 121 Aufgabe 2.3 Die folgenden Tabellen enthalten die Bevölkerungsanzahlen von allen Ländern der Europäischen Gemeinschaft sowie von deren Hauptstädten ! Land Belgien Dänemark Deutschland Finnland Frankreich Griechenland Großbritannien Irland Italien Luxemburg Niederlande Österreich Portugal Schweden Spanien Bevölkerungszahl des Landes 10,12 5,22 81,54 5,10 57,22 10,28 57,90 3,53 57,14 0,41 15,42 8,04 9,89 8,82 39,06 Hauptstadt des jeweil. Landes Brüssel Koppenhagen Berlin Helsinki Paris Athen London Dublin Rom Luxemburg Amsterdam Wien Lissabon Stockholm Madrid Bevölkerungszahl der Hauptstadt 951.000 1,34 Mio. 3,46 Mio. 502.000 9,1 Mio. 3,1 Mio. 6,8 Mio. 1,1 Mio. 2,79 Mio. 75.713 1,0 Mio. 1,8 Mio. 2,3 Mio. 692.954 2,9 Mio. a) Berechnen Sie die Gesamtbevölkerung der Europäischen Gemeinschaft sowie die durchschnittliche Bevölkerungszahl pro Land und pro Hauptstadt! b) Bestimmen Sie die Varianz und die Standardabweichung der Bevölkerungszahlen der Länder und der Hauptstädte! c) Bestimmen Sie die Variationskoeffizienten der Länder und der Hauptstädte! Aufgabe 2.4 Für diese Aufgabe sind die bereits in Aufgabe 2.2 angegebenen Anfangseinkommen der Absolventen der Hochschulen1 und 2 zu verwenden! 2 Beschreibung und Analyse von Daten 122 60.000 DM 80.000 DM 60.000 DM 85.000 DM 70.000 DM 90.000 DM 80.000 DM 85.000 DM 70.000 DM 80.000 DM 70.000 DM 60.000 DM 80.000 DM 70.000 DM 90.000 DM Hochschule 1 a) 30.000 DM 35.000 DM 40.000 DM 30.000 DM 40.000 DM 612.500 DM 42.500 DM 35.000 DM 40.000 DM 30.000 DM 35.000 DM 40.000 DM 42.500 DM 35.000 DM 42.500 DM Hochschule 2 Sortieren Sie zunächst die Einkommen beider Hochschulen in aufsteigender Reihenfolge! b) Bestimmen Sie aus den Konzentrationsraten beider Einkommensverteilungen die Herfindahl-Indices der beiden Verteilungen! c) Bestimmen Sie die Werte der Lorenz-Kurve für beide Verteilungen und stellen Sie diese anschließend grafisch dar! 2.8 Lösungsvorschläge zu Kapitel 2.7 Aufgabe 2.1 a) Siehe Spalten A und B der nachstehenden Tabelle. 1 b) Siehe Spalten C und D der nachstehenden Tabelle, die sich durch Kopieren der Spalten A und B und Anwenden der Sortierfunktion auf Spalte D ergaben. Dabei ist zu beachten, daß Spalte C ebenfalls umsortiert werden muß, um den Bezug zwischen Prüfungsteilnehmer und Note beizubehalten. c) Siehe Spalten F und G der nachstehenden Tabelle. Die Berechnung erfolgt gemäß der in Abschnitt 2.2 (Beispiel 2.2) geschilderten Verfahren mit der Funktion Häufigkeit und unter Verwendung von Matrixformeln (siehe Abschnitt 1.3). Die Summen für die absolute und relativen Häufigkeiten sind in den Zellen F14 und G14 ermittelt worden. Eine gute Kontrolle für die richtige Vorgehensweise stellt die Summe der relativen Häufigkeit dar, die grundsätzlich den Wert 1,0 annehmen muß. d) Für die Ermittlung der Durchschnittsnote wird in Spalte H zunächst das Produkt aus Notenstufe (Spalte E) und Anzahl der vorkommenden Noten (Spalte F) gebildet werden. Die daraus resultierende Summe (H 14) wird mit der Anzahl der Prüfungsteilnehmer (F14) dividiert. Die Durchschnittsnote von 2,98 zeigt die Zelle G16. _________________ 1 6 Das Kopieren der Spalten A und B wurde nur für diesen Lösungsvorschlag vorgenommen, ansonsten wendet man die Sortierfunktion direkt auf das eingegebene Zahlenmaterial an. 124 2 Beschreibung und Analyse von Daten 2.8 Lösungsvorschläge zu Kapitel 2.7 125 Aufgabe 2.2 a) Die durchschnittlichen Anfangseinkommen der Absolventen ergeben sich durch Anwendung des arithmetischen Mittelwertes. Die Ergebnisse zeigen die Zellen A17 und B17. b) Die Spannbreiten als Differenz der Maxima- und Minima-Funktionen der jeweiligen Datenreihen führen die Zellen A20 und B20. c) Die Interquartilsspanne wird entsprechend der Ausführungen in Abschnitt 2.4 bestimmt und ist in den Zelle A23 und B23 dargestellt. 126 2 Beschreibung und Analyse von Daten Aufgabe 2.3 a) Die Gesamtbevölkerung wird mit der Funktion Summe, die durchschnittliche Bevölkerungszahl mit der Funktion Mittelwert bestimmt. Die Ergebnisse sind in den Zeilen 18 und 20 dargestellt. b) Die Varianzen werden mit der Funktion Varianzen, die Stabdardabweichung mit Hilfe der Funktion STABWN ermittelt. Die Ergebnisse führen die Zeilen 22 und 24. c) Durch Bildung der Quotienten aus Standardabweichung und Mittelwert erhält man die Variationskoeffizienten (siehe Zeile26). 2.8 Lösungsvorschläge zu Kapitel 2.7 127 Aufgabe 2.4 a) Die in aufsteigender Reihenfolge sortierten Einkommen der beiden Hochschulen sind den Spalten B und G der nachstehenden Tabelle zu entnehmen. Lorenzkurven für Aufgabe 2.4 1,0000 0,8000 0,6000 Hochschule A 0,4000 Hochschule B 0,2000 0,0000 0,0000 0,5000 1,0000 b) Die Konzentrationsraten werden jeweils durch Division der Höhe der einzelnen Einkommen durch die Gesamtsumme der Einkommen berechnet (siehe Spalte C für Hochschule A und Spalte H für Hochschule B). Durch Quadrieren der Konzentrationsraten und Aufsummieren erhält man die Herfindahl-Indices (siehe D20 für Hochschule A und I20 für Hochschule B). c) Die für die Bestimmung der Lorenzkurve erforderlichen wi ergeben sich nach Abschnitt 2.5 aus der Division der laufenden Nummer durch die Anzahl der gesamten 2 Beschreibung und Analyse von Daten 128 Merkmalsträger. Die für beiden Hochschulen identischen wi sind in den Spalten E und 2 J dargestellt . Das Kumulieren der qi liefert die L(wi ) (siehe Spalten F und K). Die Verwendung der Diagrammtyps Punkt (XY)-Diagramm führt zum nachstehend abgebildeten Diagramm, welches die Lorenzkurven beider Hochschulen zeigt. _________________ 2 Die doppelte Darstellung der Spalten für die wi dient hier nur der Übersichtlichkeit, ist an sich aber nicht erforderlich. 3 Wahrscheinlichkeitsrechnung 3.1 Einführung Für das Verständnis der in Teil I, Abschnitt 3 behandelten Grundlagen der Wahrscheinlichkeitstheorie läßt sich Excel nur sehr beschränkt einsetzen. Der Grund liegt darin, daß bei den dort vorkommenden Fragestellungen in erster Linie der zutreffende Ansatz zu bestimmen ist sowie die wahrscheinlichkeitstheoretischen Sätze angewendet werden müssen. Die Berechnungen selbst sind meist trivial, Kalkulationen mit großen Datenmengen kommen fast nicht vor. Excel-Funktionen werden im folgenden für Zufallsexperimente und für Aufgabenstellungen im Bereich der Kombinatorik angewendet. 3.2 Zufallsexperimente Zufallsexperimente lassen sich in Excel mit Hilfe der Funktion ZUFALLSZAHL simulieren, wobei Excel hierbei eine Zahl zwischen 0 und 1 liefert. Dabei gilt es zu beachten: 1. Die erzeugte Zufallszahl ändert sich bei jeder neuen Berechnung in der aktuellen Arbeitsmappe. Um mit einer festen Zufallszahl arbeiten zu können, muß nach Eingabe der Funktion die Funktionstaste F9 ausgelöst werden, um die Formel in eine Zufallszahl zu verändern. 2. Um eine reelle Zufallszahl, die zwischen a und b liegt, zu erzeugen, ist folgende Formel zu verwenden: = ZUFALLSZAHL()*(b-a) + a Beispiel 3.1 Abbildung 3.2.1 zeigt die Ergebnisse von sechsmaligem Würfeln, wobei die Formel = ZUFALLSZAHL () * (6-1) +1 verwendet wurde. 6 3 Wahrscheinlichkeitsrechnung 130 Abbildung 3.2.1: Ergebnisse sechsmaligen Würfelns Die Ganzzahligkeit wird durch die entsprechende Festlegung des Zellenformats – in unserem Fall als Zahl ohne Dezimalstellen – oder durch Verwendung der Funktion RUNDEN erreicht. 3.3 Kombinatorik Die wesentliche Berechnungskomponente bei kombinatorischen Fragestellungen stellt die Fakultät dar, die in Excel durch die gleichnamige Funktion repräsentiert wird. Die Funktion FAKULTÄT bestimmt für ganze positive Zahlen die Fakultät, bei Dezimalzahlen werden die Nachkommastellen abgeschnitten und für "0" wird definitionsgemäß der Wert 1 ausgegeben. Beispiel 3.2 Um die Wahrscheinlichkeit, beim Lotto einen Sechser zu haben, errechnen zu können, ist zunächst die Anzahl der möglichen Sechserkombinationen gemäß Teil I, Abschnitt 3.9, zu ermitteln: Abbildung 3.3.1 zeigt das Ergebnis dieser Berechnung mit Hilfe der Excel-Funktion FA- 49! (49 − 6)! 6! KULTÄT, wobei die Bearbeitungszeile die Berechnungsformel führt. 3.3 Kombinatorik 131 Die Wahrscheinlichkeit, daß nun genau die getippte Sechserkombination gezogen wird, beträgt 1:13.983.816 oder, in % ausgedrückt, 0,0000072 %. Abbildung 3.3.1: Lösung für Beispiel 3.2 3 Wahrscheinlichkeitsrechnung 132 3.4 Aufgaben zu Kapitel 3 Aufgabe 3.1 Die Kugel kann beim Roulette-Spiel auf eine von insgesamt 37 Zahlen (Zahlen 0 bis 36) fallen. a) Wie hoch ist die Wahrscheinlichkeit, daß die Kugel bei der ersten Runde auf die "0" rollt! b) Wie hoch ist die Wahrscheinlichkeit, daß die Kugel in der zweiten Runde auf die "0" rollt. c) Simulieren Sie 15 Runden des Roulette-Spieles! Aufgabe 3.2 In Bayern ist Schafkopfen das am weitesten verbreitete Kartenspiel. Bei der üblichen Spielart erhält jeder der vier Spieler aus insgesamt 32 genau acht Karten. Das beste Blatt, "Sie" genannt, besteht aus den vier Ober und den vier Unter. Wie hoch ist die Wahrscheinlichkeit, als Spieler einen Sie zu bekommen? 3.5 Lösungsvorschläge zu Kapitel 3.4 3.5 133 Lösungsvorschläge zu Kapitel 3.4 Aufgabe 3.1 a) Die Wahrscheinlichkeit beträgt 1:37, oder in % ausgedrückt, 2,7 %. b) Natürlich beträgt auch hier die Wahrscheinlichkeit 2,7 %. c) Die nachstehende Tabelle erhält ein mögliches, mit der Funktion Zufallszahl ermitteltes Ergebnis. Als Funktionsargument ist lediglich die Zahl 36 einzugeben. Aufgabe 3.2 Analog zum Vorgehen in Abschnitt 3.3 ist zunächst die Anzahl der Möglichkeiten, genau eine Achterkombination ausgeteilt zu bekommen, zu berechnen (Formel: siehe Bearbeitungsleiste). Das in Zelle A1 dargestellte Ergebnis zeigt, daß es insgesamt 10.518.300 verschiedene Achterkombinationen gibt. Die Wahrscheinlichkeit, einen Sie zu erhalten, beträgt demnach 1:10.518.300 oder, in % ausgedrückt, 0,0000095 %. 4 Grafische Präsentation von Daten 4.1 Einführung Für die grafische Präsentation von Daten bietet Excel eine Reihe von Diagrammtypen, die jeweils in mehreren, unterschiedlichen Varianten verfügbar sind. Excel unterscheidet dabei zwischen Standard-Diagrammtypen und benutzerdefinierten Diagrammtypen. Jeder benutzerdefinierte Diagrammtyp basiert auf einem Standard-Diagrammtyp und enthält zusätzliche Formatierungen und Optionen. Man kann auf die bereits in Excel integrierten benutzerdefinierten Diagrammtypen zugreifen oder eigene benutzerdefinierte Diagrammtypen erstellen. Im Rahmen der folgenden Ausführungen werden ausschließlich Standard-Diagrammtypen verwendet. Die Daten werden im einfachsten Fall durch Datenpunkte repräsentiert, an deren Stelle – je nach Diagrammtyp – Säulen, Balken, Kreise usw. treten können. Da diese auch nur jeweils einen Wert darstellen, werden sie in Excel ebenfalls als Datenpunkte bezeichnet. Zusammengehörige Daten bilden eine Datenreihe. Die Datenpunkte einer Datenreihe sind in der zugrundeliegenden Tabelle zeilen- oder spaltenförmig angeordnet. Den Bezugsrahmen, in dem die Daten einer Tabelle grafisch dargestellt werden, liefert ein Koordinatensystem. Am häufigsten sind Diagramme anzutreffen, die auf dem rechtwinkligen kartesischen Koordinatensystem basieren. Als weitere Koordinatensysteme finden sich noch Kreis-/Ringdiagramme und Netzdiagramme. Kartesisches Koordinatensystem Dieses Koordinatensystem wird durch Achsen bestimmt, wobei in Excel die Achse der unabhängigen Variablen Rubrikenachse, die der abhängigen Variablen Größenachse heißt. Mit Ausnahme der Balkendiagramme stimmt die Rubrikenachse mit der Abszisse, die Größenachse mit der Ordinate überein. Bei dreidimensionalen Darstellungen kommt eine dritte Achse – Reihenachse genannt – hinzu. 6 4 Grafische Präsentation von Daten 136 Die Einteilung der Achsen, Skalierung genannt, nimmt der Diagramm-Assistent (siehe Abschnitt 4.2) aufgrund des vorliegenden Datenmaterials automatisch vor. Dabei verfügt Excel bei den meisten Diagrammtypen nur über eine numerische Achse, die Größenachse. Auf diesen Umstand ist bei der Auswahl der Diagrammtypen zu achten. Neben den Achsen mit entsprechenden Skalierungen weist ein Diagramm normalerweise noch folgende Elemente auf: Ø Achsenbeschriftungen Ø Gitternetzlinien Ø Legenden Ø Titel Ø Kopf- und Fußzeilen Abbildung 4.1.1 zeigt für die in Beispiel 1.4 vorliegenden Umsatzerlöse für Erfrischungsgetränke ein Säulendiagramm mit den eben angeführten Elementen. Die Datenpunkte sind dabei die einzelnen Umsatzwerte, die Umsatz-Datenpunkte jeweils einer Getränkesorte bilden die Datenreihen. Kopfzeile Titel Gitternetzlinien Größenachse Achsenskalierungen Achsenbeschriftungen Legende Rubrikenachse Fußzeile Abbildung 4.1.1: Beispiel für ein „kartesisches Koordinatensystem“1 Kreis- und Ringdiagramme _________________ 1 Nicht exakt aus mathematischer Sicht, da bei einem kartesischen Koordinatensystem beide Achsen kardinak skaliert sind. 4.1 Einführung 137 Bei diesen Koordinatensystemen wird anstelle der Rubrikenachse ein Kreis verwendet, der – im Gegensatz zu einer Achse – keinen Anfangspunkt hat. An Stelle der Größenachse tritt dann der Winkel im Kreis, so daß den verschiedenen Datengrößen verschiedene Winkelgrößen entsprechen. Abbildung 4.1.2 stellt die Umsatzwerte von Beispiel 1.4 für den Monat Januar in einem Kreisdiagramm dar, in dem zur leichteren Lesbarkeit die Datenbeschriftungen und die jeweiligen Prozentsätze bei den Kreissegmenten angegeben sind. Umsatzerlöse Erfrischungsgetränke Januar 1998 Apfel17% saft Min.wasser 28% Iso16% Drinks Limon21% aden Cola 18% Abbildung 4.1.2: Beispiel für ein Kreisdiagramm Netzdiagramme Bei diesem Koordinatensystem werden die Rubriken kreisförmig angeordnet. Für jede Rubrik wird eine eigene Größenachse erstellt, auf der die jeweiligen Datenpunkte markiert werden. Abbildung 4.1.3 veranschaulicht diese Darstellung vereinfacht ebenfalls anhand der Umsatzerlöse der Erfrischungsgetränke im Januar (siehe Beispiel 1.4). 4 Grafische Präsentation von Daten 138 Umsatzerlöse Erfrischungsgetränke Januar 1998 ISO-Drinks 6000 4000 Apfelsaft 2000 Limonaden 0 Min.-wasser Januar Cola Abbildung 4.1.3: Beispiel für ein Netzdiagramm 4.2 Diagrammerstellung Die Erstellung von Diagrammen läuft mit Hilfe des Diagramm-Assistenten in folgenden Dialogschritten ab: 1. Wahl des Diagrammtyps Im ersten Schritt kann zwischen Standard-Diagrammtypen und benutzerdefinierten Diagrammtypen ausgewählt werden. Bei der Bestimmung eines Standard-Diagrammtyps ist dessen Eignung für das vorliegende Datenmaterial zu beachten. 2. Zuordnung der Diagramm-Quelldaten Zunächst muß im Registerfeld Datenbereich der Bereich festgelegt werden, der die grafisch darzustellenden Daten enthält. Sind diese bereits vor dem Start des Diagramm-Assistenten markiert, so werden sie im Feld Datenbereich angezeigt, ansonsten sind sie im Tabellenblatt zu markieren. Weiterhin ist festzulegen, ob die Datenreihen zeilen- oder spaltenweise angeordnet sind. Im Registerfeld Reihe können u.a. folgende Festlegungen getroffen werden: Ø Hinzufügen oder Entfernen von markierten Datenreihen Ø Modifizieren von Namen für Datenreihen 4.2 Diagrammerstellung 139 Ø Ändern des von Excel standardmäßig ausgewählten Zellbereichs für die Rubrikenbeschriftung 3. Festlegung von Diagrammoptionen Hier werden eine Reihe optionaler Eigenschaften für eine aussagekräftige Aufbereitung der Grafiken in Form von Registern angeboten, wobei die Optionen nur bei Eignung für den jeweils ausgewählten Diagrammtyp verfügbar sind. Die Tabelle der Abbildung 4.2.1 gibt einen Überblick über die insgesamt verfügbaren Optionen. Option Titel Achsen Gitternetzlinien Legende Datenbeschriftungen Datentabelle Auswirkung bei Auswahl Titel für das Diagramm und die Achsen Ein- und Ausblenden der Rubriken-, Größen- und Reihenachse; Festlegung der Rubrikenachse als Zeit- oder Standardachse Festlegung von Haupt- und/oder Hilfsgitternetzlinien Festlegung der Anzeige und Anordnung einer Legende Beschriftung der dargestellten Daten mit ihren Datenwerten oder mit der Beschriftung der zugehörigen Rubrikenachse Anzeige der Werte für die einzelnen Datenreihen in einem Gitternetz unter dem Diagramm Abbildung 4.2.1: Überblick über Diagrammoptionen 4. Diagrammplazierung Hier wird festgelegt, ob das Diagramm in eine der vorhandenen Tabellenblätter eingefügt oder ob ein neues Arbeitsblatt erzeugt werden soll. Nach dem Ausführen dieser Dialogschritte wird automatisch ein Diagramm erstellt. Verschiedene Befehle des Menüpunkts Diagramm, der nach Markieren des Diagramms verfügbar wird, gestatten dem Benutzer, die getroffenen Festlegungen hinsichtlich des Diagrammtyps, des zugrundeliegenden Datenbereichs, der Diagrammoptionen (siehe Abbildung 4.2.1) sowie der Plazierung in das vorhandene oder ein eigenes Tabellebblatt nachträglich abzuändern. Des weiteren gibt es Befehle für das Hinzufügen neuer Datenpunkte oder einer Trendlinie. Bei der Erstellung des Diagramms bestimmt Excel eine Reihe von Eigenschaften, die ggf. noch den Anforderungen des Benutzers anzupassen sind. Durch Doppelklick im Diagramm auf die einzelnen Achsen, den Diagrammtitel, die Legende, die Zeichnungsfläche, die Gitternetzlinien oder die Datenpunkte öffnen sich die zugehörigen Dialogfenster, die eine bedarfsgerechte Formatierung des selektierten Elements ermöglichen. Abbildung 4.2.2 zeigt beispielhaft das Dialogfenster für die Formatierung einer Achse. 4 Grafische Präsentation von Daten 140 Abbildung 4.2.2: Dialogfenster für Achsenformatierung 4.3 Statistische Anwendungen Für die im Rahmen dieses Buches behandelten statistischen Fragestellungen kommen für die grafische Präsentation vor allem folgende Diagramme in Betracht: Ø Säulendiagramme Ø Balkendiagramme Ø Stabdiagramme Ø Liniendiagramme Ø Kreisdiagramme Ø Streudiagramme Ø Lorenzkurve Diese Diagramme lassen sich direkt aus Standard-Diagrammtypen von Excel ableiten. Die Charakteristika der erforderlichen Standard-Diagrammtypen werden in 4.3 Statistische Anwendungen 141 diesem Abschnitt in tabellarischer Form dargestellt, die Vorgehensweise und zu beachtende Besonderheiten im wesentlichen anhand von Beispielen aufgezeigt. Für die grafische Darstellung von Häufigkeiten finden Säulen-, Balken- und Stabdiagramme Anwendung. Einen Überblick über Säulendiagramme gibt Abbildung 4.3.1. Säulendiagramm Allgemeine Anwendungsmöglichkeiten: 1. Anzeige von Datenänderungen innerhalb eines Zeitabschnitts 2. Darstellung von Vergleichen zwischen Elementen Anwendungsgebiete in der Statistik: Darstellung der Häufigkeit bei stetigen Merkmalen (Histogramm) Achsenzuordnung für statistische Anwendungen: Rubrikenachse: Klassen der Merkmalswerte Größenachse: Häufigkeit der Merkmalswerte Alternative Formate (Auswahl): Gestapelte Säulendiagramme 3D-Säulendiagramme Abbildung 4.3.1: Überblick über Säulendiagramme Beispiel 4.1 Ausgangspunkt sind die in Beispiel 2.4 ermittelten Häufigkeiten für verschiedene Einkommensklassen (siehe Abbildung 2.2.6). Mit Hilfe des Diagramm-Assistenten erhält man bei Auswahl des Diagrammtyps Säule die in Abbildung 4.3.2 dargestellte Grafik, wobei folgende Besonderheiten zu beachten sind: Ø Als Datenbereich wird D2:D13 ausgewählt. Ø Für die Beschriftung der Rubrikenachse wird der Bereich C2:C13 bestimmt. 4 Grafische Präsentation von Daten 142 Ø Ø Für die Rubrikenachse wird die Ausrichtung des Textes auf 90o eingestellt. Nach Doppelklick auf einen Datenpunkt, d.h. auf eine Säule, öffnet sich das Dialogfenster "Datenreihen formatieren (siehe Abbildung 4.3.3). Im Registerfeld Optionen ist der Abstand auf 0 einzustellen, andernfalls werden die Säulen nicht unmittelbar nebeneinander angeordnet. Einkommensgrenzen Abbildung 4.3.2: Säulendiagramm für Beispiel 4.1 105000 100000 95000 90000 85000 80000 75000 70000 65000 60000 55000 6 5 4 3 2 1 0 50000 Häufigkeit Einkommensverteilung 4.3 Statistische Anwendungen 143 Abbildung 4.3.3: Formatieren der Datenreihe Mit Balkendiagrammen (siehe Abbildung 4.3.4) kann man ebenso wie mit Säulendiagrammen Vergleiche zwischen einzelnen Elementen darstellen, allerdings bieten Balkendiagramme aufgrund der horizontalen Darstellung eine bessere Vergleichsmöglichkeit zwischen den Werten. Balkendiagramm Allgemeine Anwendungsmöglichkeiten: 1. Anzeige einzelner Zahlen zu einem bestimmten Zeitpunkt 2. Darstellung von Vergleichen zwischen Elementen Anwendungsgebiete in der Statistik: Darstellung der Häufigkeit bei stetigen Merkmalen Achsenzuordnung für statistische Anwendungen: Rubrikenachse: Klassen der Merkmalswerte Größenachse: Häufigkeit der Merkmalswerte 4 Grafische Präsentation von Daten 144 Alternative Formate (Auswahl): Gestapelte Balkendiagramme 3D-Balken, gestapelt Abbildung 4.3.4: Überblick über Balkendiagramme Beispiel 4.2 Abbildung 4.2.5 zeigt die in Beispiel 4.1 ermittelten Häufigkeitswerte in Form eines Balkendiagrammes, wobei die für Beispiel 4.1 geltenden Besonderheiten auch hier zutreffen. E in k o m m e n s v e r t e ilu n g 105000 100000 Einkomme n s k l a s s e n 95000 90000 85000 80000 75000 70000 65000 60000 55000 50000 0 2 4 6 H ä u fig k e it Abbildung 4.3.5: Balkendiagramm Mit Säulen- und Balkendiagramme werden Häufigkeiten klassifizierter stetiger und diskreter Merkmale grafisch dargestellt. Vorzugsweise geschieht dies in solchen Fällen, in denen mehrere Datenreihen, d.h. mehrere Merkmale, in einem Diagramm abgebildet werden. Der wesentliche Grund liegt in der einfachen unterschiedlichen Darstellbarkeit (z.B. durch verschiedene Muster und Schraffuren) der einzelnen Datenreihen. 4.3 Statistische Anwendungen 145 Zur Abbildung der Häufigkeit von in einer Datenreihe vorliegenden diskreten Merkmalen werden manchmal auch Stabdiagramme eingesetzt. Diesen – als Säulendiagramm mit der Breite null interpretierbaren – Diagrammtyp bietet Excel explizit nicht an. Die Ableitung aus Säulen- bzw. Balkendiagrammen ist ebenfalls nicht möglich, da die Breite der Säulen bzw. Balken nicht auf Null reduziert werden kann. Mit einem kleinen Trick lassen sich die Stabdiagramme mit dem Diagrammtyp Kurs erstellen, der üblicherweise zur Darstellung von Aktienkursen herangezogen wird. Beispiel 4.3 veranschaulicht die erforderliche Vorgehensweise. Beispiel 4.3 Ausgangspunkt ist die in Abbildung 2.2.6 dargestellte Ergebnistabelle für Beispiel 2.2. Die Anwendung des Diagrammtyps Kurs setzt drei verschiedene Datenreihen voraus, für Aktienkurse sind dies die Hoch-, Tief- und Schlußwerte. Im vorliegenden Fall stellen die Häufigkeiten der Abbildung 2.2.6 die Hochwerte dar, als Tief- und Schlußwerte sind zwei Datenreihen zu ergänzen, die ausschließlich die Werte null enthalten (siehe Spalten E und F in Abbildung 4.3.6). Abbildung 4.3.6: Ergänzte Ausgangsdaten von Beispiel 4.3 Markiert man nun den Bereich D2:F13 und weist diesem den Diagrammtyp Kurs zu, so erhält man nach Festlegung der Rubrikenachse auf C2:C13 und Eingabe der Titel unmittelbar das in Abbildung 4.3.7 dargestellte Stabdiagramm. 4 Grafische Präsentation von Daten 146 N o t e n v e r t e ilu n g Häufigkeit 4 3 2 1 N o ten Abbildung 4.3.7: Stabdiagramm für Beispiel 4.3 5,0 4,7 4,0 3,7 3,3 3,0 2,7 2,3 2,0 1,7 1,3 1,0 0 4.3 Statistische Anwendungen 147 Liniendiagramme (siehe Abbildung 4.3.8) dienen in erster Linie der Darstellung zeitlicher Entwicklungen einer Datenreihe. 1 Liniendiagramm Allgemeine Anwendungsmöglichkeiten: Anzeige von Datentrends über einen bestimmten Zeitraum in regelmäßigen Intervallen Anwendungsgebiete in der Statistik: Siehe allgemeine Anwendungsmöglichkeiten Achsenzuordnung für statistische Anwendungen: Rubrikenachse: Zeitintervalle Größenachse: Merkmalswerte Alternative Formate (Auswahl): Gestapelte Liniendiagramme 3D-Liniendiagramme Abbildung 4.3.8: Überblick über Liniendiagramme Beispiel 4.4 Die Tabelle der Abbildung 4.3.9 enthält das Bruttosozialprodukt der Bundesrepublik für die 2 Jahre 1993 – 1997 . Der Diagramm-Assistent liefert bei Auswahl des Diagrammtyps Linie das in Abbildung 4.3.10 dargestellte Diagramm. _________________ 2 Quelle: Statistisches Bundesamt, Internet-Abfrage der Dokumentenadresse http://www.statistik-bund.de/indicators/d/vg4w.htm vom 1.3.1998. 148 Abbildung 4.3..9: Ausgangsdaten für Beispiel 4.4 4 Grafische Präsentation von Daten 4.3 Statistische Anwendungen 149 Bruttosozialprodukt BRD 1993 - 1997 1.000,00 900,00 800,00 700,00 I 1993 III I 1994 III I 1995 III I 1996 III I 1997 III Abbildung 4.3.10: Liniendiagramme für Beispiel 4.4 Kreisdiagramme – häufig auch als Tortendiagramme bezeichnet – zeigen das proportionale Verhältnis der einzelnen Werte einer Datenreihe zum Gesamtwert der Datenreihe (siehe Abbildung 4.3.11). Kreisdiagramm Allgemeine Anwendungsmöglichkeiten: Anzeige der proportionalen Größe von Elementen einer Datenreihe im Verhältnis zur Gesmatzahl der Elemente. Anwendungsgebiete in der Statistik: Siehe allgemeine Anwendungsmöglichkeiten Alternative Formate (Auswahl): Explodierendes Kreisdiagramme Abbildung 4.3.11: Überblick über Kreisdiagrammme 3D-Kreisdiagramme 4 Grafische Präsentation von Daten 150 Beispiel 4.5 Abbildung 4.3.12 zeigt das vorläufige amtliche Endergebnis der Landtagswahl in Niedersachsen im Jahr 1998, Abbildung 4.3.13 das dazugehörige Kreisdiagramm. Partei SPD CDU Grüne FDP Sonstige Anteil 47,9 % 35,9 % 7,0 % 4,9 % 4,3 % Abbildung 4.3.12: Ausgangsdaten für Beispiel 4.5 Landtagswahl Niedersachsen 1998 SPD CDU Grüne FDP Sonstige Abbildung 4.3.13: Kreisdiagramm für Beispiel 4.6 Punktdiagramme (siehe Abbildung 4.3.14) stellen das Verhältnis von zwei Datenreihen als xy-Koordinaten dar und werden im Rahmen statistischer Anwendungen für die Erstellung von Streudiagrammen und für die Darstellung der Lorenzkurve verwendet. Punkt (XY)-Diagramm Allgemeine Anwendungsmöglichkeiten: 1. Anzeige des Verhältnisses zwischen numerischen Werten in Mehreren Datenreihen 4.3 Statistische Anwendungen 151 2. Aufzeichnung von zwei Zahlengruppen als eine Reihe von xy-Koordinaten Anwendungsgebiete in der Statistik: 1. Streudiagramme 2. Lorenzkurve Alternative Formate (Auswahl): Punkte mit interpolierten Linien Punkte mit Datenpunkte Linien ohne Abbildung 4.3.14: Überblick über Punktdiagramme Beispiel 4.7 Abbildung 4.3.15 zeigt in einer vergleichenden Gegenüberstellung die entscheidenden Kriterien für die Teilnahme der EU-Staaten an der gemeinsamen Währung Euro. Bei Auswahl des Punktdiagramms auf das zugrundeliegende Zahlenmaterial erhält man das – in der Statistik als Streudiagramm bezeichnete – Diagramm der Abbildung 4.3.11, welches Aufschluß über den statistischen Zusammenhang von Haushalts-Defizit bzw. Überschuß und Schuldenstand der einzelnen EU-Staaten gibt. 4 Grafische Präsentation von Daten 152 EU-Staat Belgien Dänemark Deutschland Finnland Frankreich Griechenland Großbritannien Irland Italien Luxemburg Niederlande Haushaltsdefizit (-) bzw. -überschuß (+) in Prozent des Bruttoinlandsprodukt -2,1 +1,3 -2,7 -0,9 -3,0 -4,2 -2,0 -0,4 -2,7 +1,72 -2,2 Österreich Portugal Schweden Spanien -2,5 -2,45 -1,9 -2,6 Schuldenstand in Prozent des Bruttoinlandsprodukt 122,0 67,0 (EU-Schätzung) 61,3 55,8 58,0 109,3 (EU-Schätzung) 52,9 (EU-Schätzung) 67,0 (erwartet) 121,6 6,7 3 65 (erwartet) 66,1 61,99 77,4 (EU-Schätzung) 68,3 Abbildung 4.3.15: Euro-Kriterien im Vergleich4 150,0 100,0 50,0 0,0 -5 -3 -1 Schuldenstand Eurokriterien im Vergleich 1 Haushalts-Defizit bzw. -Überschuß Abbildung 4.3.16: Streudiagramm für Vergleich der Euro-Kriterien _________________ 3 Aus den angegebenen Grenzen "60 – 70%" wurde vereinfacht der Mittelwert angenommen. 4 Entnommen aus: Nürnberger Zeitung vom 28.2.1998, S. 3. 4.3 Statistische Anwendungen 153 Grundsätzlich lassen sich mit derartigen Streudiagrammen Aussagen über Art, Richtung und Stärke eines statistischen Zusammenhanges von zwei Variablen treffen, d.h., es kann festgestellt werden, ob ein Zusammenhang vorliegt, ob er sich gleichgerichtet oder gegenläufig verhält und wie groß der Zusammenhang ist. Das zweite Anwendungsgebiet von Punktdiagrammen stellt die Lorenzkurve dar. Die Vorgehensweise der Erstellung ist bereits in Abschnitt 2.5, insbesondere in Beispiel 2.11, erläutert worden, so daß an dieser Stelle auf eine Behandlung verzichtet wird. 4 Grafische Präsentation von Daten 154 4.4 Aufgaben zu Kapitel 4 Aufgabe 4.1 Eine Befragung unter 1866 wahlberechtigten Personen ergab folgende nach Geschlecht differenzierte Anhängerschaft der im Bundestag vertretenen Parteien: männlich weiblich Summe CDU/CSU 388 416 804 SPD 345 322 667 Grüne 101 112 213 FDP 55 65 120 Sonstige 38 24 62 Gesamt 927 939 1866 a) Ermitteln Sie für jede Partei den Anteil ihrer Wähler an der Gesamtzahl der Wähler und stellen Sie Ihr Ergebnis in einer geeigneten Grafik dar! b) Ermitteln Sie für jede Partei den Anteil weiblicher Wähler an der Gesamtzahl der weiblichen Wähler. Stellen Sie den Zusammenhang zwischen diesem Ergebnis und den in a) ermittelten Anteilen in einer geeigneten Grafik dar! Aufgabe 4.2 Die nachstehende Abbildung zeigt die Tabellensituation zweier Fußballvereine im Verlauf der Vorrunde einer Bundesligaaison. Stellen Sie in einem geeigneten Diagramm diesen Verlauf da, wobei insbesondere die Entwicklung der Tabellenplazierungen beider Vereine verdeutlicht werden soll. Spieltag 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 Plazierung Verein 1 2 4 3 3 7 5 7 7 7 9 9 12 12 14 14 15 16 Plazierung Verein 2 16 11 12 12 13 11 15 15 17 17 16 16 18 16 15 14 15 4.5 Lösungsvorschläge zu Kapitel 4.4 155 Aufgabe 4.3 a) Stellen Sie die in der folgenden Tabelle dargestellten Daten in einem Diagramm dar, das den Zusammenhang zwischen den beiden Datenreihen wiedergibt! b) Welchen zwischen den beiden Datenreihen bestehenden Zusammenhang können Sie dem Diagramm entnehmen? 4.5 Lösungsvorschläge zu Kapitel 4.4 Aufgabe 4.1 a) Nach Ermittlung der jeweiligen Anteile durch Division der für die einzelnen Parteien ermittelten Summen durch die Gesamtzahl der Befragungsteilnehmer wird für die Anzeige der in Zeile 5 ermittelten Anteile im Diagramm-Assistenten der Diagrammtyp Kreis ausgewählt. Das Ergebnis zeigt die nachstehende Abbildung. 156 4 Grafische Präsentation von Daten b) Nach Ermittlung des Anteils der weiblichen Wähler kann aus den Datenreihen der Zeilen 5 und 6 die folgende Abbildung hergeleitet werden. Zur besseren Unterscheidung der beiden Datenreihen werden hier – obwohl es sich um diskrete Merkmale handelt – Säulendiagramme ausgewählt (siehe hierzu auch Abschnitt 4.3). 4.5 Lösungsvorschläge zu Kapitel 4.4 157 4 Grafische Präsentation von Daten 158 Aufgabe 4.2 Die Abbildung zeigt den Verlauf der Plazierungen der beiden Bundesligavereine in einem Liniendiagramm an, wobei zur Verdeutlichung der Untertyp Linien mit Datenpunkten ausgewählt wird. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 V e r e in 1 S p ie lta g 17 15 13 11 9 7 5 3 V e r e in 2 1 Plazierung A n a ly s e V o r r u n d e n v e r la u f 4.5 Lösungsvorschläge zu Kapitel 4.4 159 Aufgabe 4.3 a) Das nachstehend abgebildete Streudiagramm wird aus einem Punktdiagramm hergeleitet. b) Es besteht ein relativ starker, gleichläufiger Zusammenhang zwischen Bruttosozialpro- Bruttoe inkomme n Zusammenhang zw ischen Bruttosozialprodukt und B ruttoeinkommen aus Unternehmertätigkeit und Vermögen 240 220 200 180 160 140 120 100 700 750 800 850 900 Bruttosozialprodukt dukt und Bruttoeinkommen aus Unternehmertätigkeit und Vermögen. 950 1.000 5 Literatur Bleymüller, J., Gehlert, G., Gülicher, H., 1996, Statistik für schaftler, Vahlen Verlag. Wirtschaftswissen- Bourier, G., 1996, Beschreibende Statistik, Gabler Verlag. Bosch, K., 1993, Statistik-Taschenbuch, Oldenbourg Verlag. Fischer Weltalmanach, 1996, Fischer Taschenbuch Verlag. Freedman, D., Pisani, R., Purves, R., Adhikari, A., 1991, Statistics, Norton & Company. Institut der deutschen Wirtschaft Köln (Hrsg.), 1995, Zahlen zur wirtschaftlichen Entwicklung der Bundesrepublik Deutschland, Deutscher Instituts-Verlag Köln. Gonick, L., Smith, W., 1993, The Cartoon Guide to Statistics, HarperCollins. Hofstädter, D., 1985, Gödel, Escher, Bach - ein endloses geflochtenes Band, Klett-Cotta. Jarai, H., 1997, Excel 97, München. Kamenz, A., Vonhoegen, H., 1997, Excel 97, Düsseldorf. Knight, F. H., 1921, Risk, Uncertainty, and Profit, New York. Königs, G., 1997. Excel 97, Kaarst. Kolmgoroff, A. N., 1933, Grundbegriffe der Wahrscheinlichkeitsrechnung, Berlin. Laplace, P. S., 1774, Mémoire sur la probabilité des causes les par les mens. Übersetzung in: Stigler (1986). évène- Mises, R.v., 1936, Wahrscheinlichkeit, Statistik und Wahrheit, Wien. Monka, M., Voss, W., 1996, Statistik am PC - Lösungen mit Excel, MünchenWien. Oberhofer, W., 1984, Wahrscheinlichkeitstheorie, Oldenbourg Verlag. Ortlepp, M., Osenberg, R., 1997, Das Excel 97 Buch, Düsseldorf. Penrose, R., The Emperor’s New Mind - Concerning Computers, Minds, and the Laws of Physics, Penguin Books. 6 162 Literatur Pfuff, F., 1979, Mathematik für Wirtschaftswissenschaftler, Bd. 1+2, Vieweg Verlag, Braunschweig. Rao, C. R., 1995, Was ist Zufall? Statistik und Wahrheit, Prentice Hall. Savage, L. J., 1954, The Foundations of Statistics, New York. Statistisches Bundesamt (Hrsg.), 1996, Statistisches Jahrbuch für das Ausland, Metzler Poeschel. Statistisches Bundesamt (Hrsg.), 1996, Statistisches Jahrbuch für die publik Deutschland, Metzler Poeschel. Bundesre- Stigler, S. M., 1986, Laplace’s 1774 memoir on inverse probability, Statistical Science, 1.