Statistik Rechnerübungen

Werbung
Labor Statistik - Beispiele für die
Einführungsveranstaltung, mit Lösungsweg
Prof. Dr. Peter Plappert
Fakultät Grundlagen
Achtung: Die vorliegende Datei ist für Excel 2010 bestimmt.
Für alle Beispiele benötigen Sie die Datei einf_d_2010.xlsx.
Für Beispiel 1 ist zusätzlich die Datei einf_b1.txt erforderlich.
Wenn Sie die nur die Fragestellungen (ohne Lösungswege) nachlesen wollen:
Datei einf_b_2010.pdf.
Wenn Sie die Endergebnisse vergleichen wollen:
Die Datei einf_d_2010_mit_ergebnissen.xlsx sieht so aus, wie Ihre Datendatei
einf_d_2010.xlsx nach Bearbeitung der vier Beispiele aussehen sollte.
Damit keine Missverständnisse auftreten: Die hier genannten Beispiele sind nicht die TestatAufgaben sr_aufg_1 bis sr_aufg_4, die Sie selbständig bearbeiten sollen. Beachten Sie auch,
dass zwar in hier vorliegenden Beispielen einige wichtige Statistik-Funktionen von Excel
erläutert werden, aber nicht alle Funktionen und Optionen angesprochen werden, die bei der
Bearbeitung der Testataufgaben benötigt werden. Im Rahmen der Einführungsstunde kann
auch nicht auf die grundlegende Bedienung von Excel eingegangen werden.
Im Folgenden wird für die meisten Fragestellungen nur ein möglicher Lösungsweg
vorgestellt. In vielen Fällen kann man die Beispiele auch auf andere Arten lösen, die hier nicht
alle erwähnt werden können.
Die Lösungsvorschläge sind eingerückt und eingerahmt. Müssen Sie aus einem
Menü auswählen, ist dies durch > Pfeil und Unterstreichung gekennzeichnet.
Beispiel 1
In diesem Beispiel sollen die Noten und Punktzahlen einer Klausur ausgewertet werden.
Die dazu erforderlichen Daten stehen liegen noch nicht in Excel-Form vor. Sie stehen in der Datei
einf_b1.txt in drei Feldern (laufende Nummer, Punktzahl, Note), die durch Leerzeichen getrennt
sind. Die Daten sollen in die Datei einf_d_2010.xlsx kopiert und dort weiterbearbeitet werden.
Folgende Schritte sollen durchgeführt werden:
Textdatei einlesen
a) Starten Sie Excel und öffnen Sie die Datei einf_d_2010.xlsx.
Wählen Sie das Verzeichnis, in dem sich die Datei einf_d_2010.xlsx befindet, und
> doppelklicken Sie auf die Datei.
Labor Statistik Einführungsveranstaltung
einf_b_2010_mit_loesungsweg.pdf, Seite 1/15
© P. Plappert 26.09.2011
b) Öffnen Sie die Datei einf_b1.txt mit Excel und kopieren Sie die Daten in das Tabellenblatt
„Noten-Daten“ der Datei einf_d_2010.xls, und zwar in die Felder A2 bis C43.
> Datei > Öffnen. Wählen Sie im sich öffnenden Fenster in der zweiten Zeile von
unten ganz rechts (das Feld, das sich rechts vom Eingabefeld für den Dateinamen
befindet) > Textdateien aus. Bei Windows-Versionen vor Vista müssen Sie (unten im
Fenster) > Dateityp > Textdateien auswählen.
Wählen Sie anschließend das Verzeichnis, in dem sich die Datei einf_b1.txt befindet,
und doppelklicken Sie auf die Datei. Es öffnet sich der Textkonvertierungs-Assistent.
In Schritt 1 müssen Sie entscheiden, ob die Daten in Spalten fester Breite stehen oder
ob die Felder mit bestimmten Trennzeichen getrennt sind. Hier ist letzteres der Fall;
wählen Sie also Dateityp > Getrennt; anschließend > Weiter.
In Schritt 2 muss das Trennzeichen zwischen den Feldern ausgewählt werden.
Entsprechend den vor a) gemachten Angaben wählen Sie Trennzeichen
> Leerzeichen; deaktivieren Sie „Tabstopp“ durch > Anklicken des Häkchens; dann
> weiter.
In Schritt 3 können Sie den Datentyp für jede Spalte festlegen. Wenn Sie die
Formatierung der laufenden Nummer behalten wollen, wählen Sie für die Spalte 1
> Text; (sonst wird z. B. aus Nummer 07 die Zahl 7). Die anderen Spalten können in
unserem Beispiel bei Datentyp „Standard“ belassen werden. Dann > Fertig stellen.
Markieren Sie nun die Felder mit den Notendaten, wählen Sie (im Menü > Start)
> Kopieren, wechseln Sie zur Datei einf_d_2010.xls, klicken Sie im Tabellenblatt
„Noten-Daten“ auf das Feld A2 und wählen Sie
> Einfügen (auf den kleinen Pfeil unter „Einfügen“ klicken!) > Werte einfügen
> Werte (ganz links im Untermenü „Werte einfügen“).
Labor Statistik Einführungsveranstaltung
einf_b_2010_mit_loesungsweg.pdf, Seite 2/15
© P. Plappert 26.09.2011
Häufigkeiten und Prozentanteile berechnen
c) Berechnen Sie die Häufigkeiten der Noten „sehr gut“ (1,0 und 1,3), „gut“ (1,7 bis 2,3),
„befriedigend“ (2,7 bis 3,3), „ausreichend“ (3,7 und 4,0) und „mangelhaft“ (4,7 und 5,0).
Die Ergebnisse sollen in den Feldern G3 bis G7 des Tabellenblatts „Noten-Daten“ stehen.
Wir benutzen den Excel-Befehl HÄUFIGKEIT. Damit Excel weiß, welche Klassen
wir bilden wollen, müssen wir zunächst eine Tabelle mit den Obergrenzen der
gewünschten Klassen anlegen. Geben Sie dazu in die Felder J3 bis J7 die in der
Abbildung gezeigten Werte von 1,3 bis 5 ein.
Markieren Sie anschließend die Felder, in die die Häufigkeiten eingetragen werden
sollen, also die Felder G3 bis G7 neben „sehr gut“ ... „mangelhaft“.
Wählen Sie dann > Formeln > Mehr Funktionen (Symbol
hier benötigte Funktion > HÄUFIGKEIT.
) > Statistisch und die
Geben Sie im Feld „Daten“ C2:C43 ein. Klicken Sie dann in das Feld „Klassen“ und
geben Sie dort J3:J7 ein.
Achtung: Klicken Sie nicht auf OK, denn HÄUFIGKEIT ist eine Matrix-Funktion,
die mehrere Felder gleichzeitig ausfüllt. Die Eingabe muss für Matrix-Funktionen
abgeschlossen werden durch gleichzeitiges Betätigen der Tasten
>Strg + Shift + Enter. (Shift = Hochstelltaste, Enter = Eingabetaste).
d) Ergänzen Sie bei c) die Summe.
Klicken Sie auf das Feld G8 und anschließend auf das Symbol
(AutoSumme)
Akzeptieren Sie den Vorschlag der zu summierenden Felder G3:G7 durch Betätigen
der Eingabetaste.
Labor Statistik Einführungsveranstaltung
einf_b_2010_mit_loesungsweg.pdf, Seite 3/15
© P. Plappert 26.09.2011
e) Berechnen Sie, welche prozentualen Anteile auf die Notenstufen „sehr gut“ bis „mangelhaft“
entfallen. Geben Sie die Prozentzahlen als ganze Zahlen (ohne Nachkommastellen) an.
Wir benutzen eine selbst eingegebene Berechnungsformel. Eine solche beginnt
immer mit einem Gleichheitszeichen =. Geben Sie in das Feld H3 die Formel
=100*G3/G8 ein, in das Feld H4 die Formel =100*G4/G8 usw. bis zu Feld H7.
Anschließend streichen wir der Übersichtlichkeit halber die Nachkommastellen, z. B.
indem wir die Felder H3 bis H7 markieren, im Menü > Start bei
> Format > Zellen formatieren im Register > Zahlen die Kategorie > Zahl wählen
und bei > Dezimalstellen 0 eingeben. Dann > OK.
Im Feld H8 können wir (so wie bei d) beschrieben) die Summe ergänzen.
Säulendiagramm erstellen
f) Stellen Sie die Häufigkeiten aus c) mit einem Säulendiagramm dar. Geben Sie dem Diagramm
einen passenden Titel, beschriften Sie die Achsen und entfernen Sie die Legende. Fügen Sie das
Diagramm als neues Tabellenblatt in die Datei einf_d_2010.xlsx ein.
Markieren Sie die Felder F3 bis G7. Wählen Sie > Einfügen > Säule, wobei Sie den
Untertyp ganz links bei „2D-Säule“ wählen Es wird ein Säulendiagramm erstellt.
Im Menü > Diagrammtools, das sich öffnet, wählen Sie > Layout > Diagrammtitel
> Über Diagramm und geben als Diagrammtitel z. B. „Notenverteilung“ ein.
Wählen Sie > Achsentitel > Titel der horizontalen Primärachse > Titel unter Achse
und beschriften Sie die x-Achse, indem Sie „Note“ eintippen und die > Eingabetaste
betätigen. Dann wählen Sie > Achsentitel > Titel der vertikalen Primärachse
> gedrehter Titel und beschriften Sie die y-Achse, indem Sie „Anzahl“ eintippen und
die > Eingabetaste betätigen.
Anschließend wählen Sie > Legende > Keine.
Schließlich ändern Sie den Speicherort des Diagramms, indem Sie im Menü
> Diagrammtools > Entwurf > Diagramm verschieben auswählen, > Neues Blatt
anklicken und dem Diagramm am besten einen „sprechenden“ Namen wie
„Diagramm Noten“ geben sowie auf > OK klicken.
g) Führen Sie in dem Diagramm die folgenden Umformatierungen durch:
g1) Die Farbe der Säulen soll dunkelblau sein.
In Excel-Diagrammen können Sie viele Elemente (z. B. Achsen, Säulen,
Beschriftungen...) umformatieren. In vielen Fällen öffnet sich ein passendes Menü,
wenn Sie mit der rechten Maustaste auf das zu formatierende Element klicken,.
Klicken Sie also im neuen Tabellenblatt „Diagramm Noten“ mit der > rechten
Maustaste auf eine der Säulen, dann auf den > kleinen Pfeil rechts neben dem
Symbol „Fülleffekt“
und schließlich auf das gewünschte > Farbkästchen
(dunkelblau).
Labor Statistik Einführungsveranstaltung
einf_b_2010_mit_loesungsweg.pdf, Seite 4/15
© P. Plappert 26.09.2011
g2) Jede Säule soll mit der zugehörigen Häufigkeit (wie oft gab es diese Note?) beschriftet
sein.
Klicken Sie mit der > rechten Maustaste auf eine der Säulen, dann auf
> Datenbeschriftungen hinzufügen.
g3) Die Beschriftung aus g2) soll in Schriftgröße 14pt in Fettschrift erscheinen.
Klicken Sie mit der > rechten Maustaste auf eine der Säulenbeschriftungen, wählen
Sie bei > Schriftgrad 14 und klicken Sie auf das > Symbol
für Fettdruck.
Kennzahlen berechnen
h) Berechnen Sie Mittelwert, empirische Varianz und empirische Standardabweichung der
Punktzahlen. Die Ergebnisse sollen in den Feldern H11 bis H13 des Tabellenblatts „NotenDaten stehen“ und mit 4 Nachkommastellen angegeben werden.
Gehen Sie wieder in das Tabellenblatt „Noten-Daten“ auf das Feld H11.
Wählen Sie > Formeln > Mehr Funktionen > Statistisch und die Funktion
> MITTELWERT.
Geben Sie bei Zahl1 den Datenbereich B2:B43 ein. > OK.
Für empirische Varianz und empirische Standardabweichung gehen Sie analog vor.
Die passenden Excel-Funktionen heißen VAR.S bzw. STABW.S.
Achtung: Da es mehrere Funktionen mit ähnlichen Namen gibt, müssen Sie Acht
geben, dass Sie nicht aus Versehen eine falsche Funktion anklicken.
Anschließend verringern Sie der Übersichtlichkeit halber die Anzahl der Nachkommastellen, z. B. indem Sie die Felder H11 bis H13 markieren, im Menü
> Start > Format > Zellen formatieren im Register > Zahlen die Kategorie > Zahl
wählen und bei > Dezimalstellen 4 eingeben. Dann > OK.
i) Berechnen Sie Median und Spannweite der Punktzahlen, ohne die Punktzahlenliste zu sortieren.
(Spannweite = größter Datenwert minus kleinster Datenwert.) Die Ergebnisse sollen in den
Feldern H14 und H15 des Tabellenblatts „Noten-Daten“ stehen.
Gehen Sie für den Median analog zu h) vor. Die Excel-Funktion heißt MEDIAN.
Für die Spannweite geben Sie in das Feld H15 die Berechnungsformel
=MAX(B2:B43)-MIN(B2:B43) ein.
j) Speichern Sie die geänderte Datei einf_d_2010.xlsx in Ihr persönliches Verzeichnis ab.
Wählen Sie > Datei > Speichern unter; wechseln Sie (falls erforderlich) das
Verzeichnis, in das Sie die Datei speichern möchten, und klicken Sie auf
> Speichern.
Labor Statistik Einführungsveranstaltung
einf_b_2010_mit_loesungsweg.pdf, Seite 5/15
© P. Plappert 26.09.2011
Beispiel 2
Die Daten, die diesem Beispiel zugrunde liegen, sind Angaben über die Weltproduktion von Mais
(Körnermais) in Millionen Tonnen. Sie stehen im Tabellenblatt „Mais-Daten“ der Datei
einf_d_2010.xls. (Quelle der Daten: Deutsches Maiskomitee; Stand: Oktober 2005.)
Streudiagramm zeichnen
a) Erstellen Sie ein Streudiagramm. Fügen Sie dabei das Diagramm als neues Tabellenblatt in die
Datei einf_d_2010.xlsx ein. Geben Sie dem Diagramm einen passenden Titel, beschriften Sie
die Achsen und entfernen Sie die Legende.
Markieren Sie die Felder A1 bis B10. Wählen Sie > Einfügen > Punkt, wobei Sie den
Untertyp ganz links wählen Es wird ein Streudiagramm erstellt, das diesmal schon
einen Diagrammtitel hat, da wir die Spaltenüberschriften mitmarkiert haben.
Klicken Sie in den Diagrammtitel hinein und ändern Sie ihn auf
„Weltmaisproduktion 1960 - 2004“ ab.
Wählen Sie im Menü > Diagrammtools > Layout > Achsentitel > Titel der
horizontalen Primärachse > Titel unter Achse und beschriften Sie die x-Achse, indem
Sie „Jahr“ eintippen und die > Eingabetaste betätigen.
Dann wählen Sie > Achsentitel > Titel der vertikalen Primärachse > gedrehter Titel
und beschriften Sie die y-Achse, indem Sie „Millionen Tonnen“ eintippen und die
> Eingabetaste betätigen.
Anschließend wählen Sie > Legende > Keine.
Ändern Sie den Speicherort des Diagramms, indem Sie im Menü > Diagrammtools
> Entwurf > Diagramm verschieben auswählen, > Neues Blatt anklicken und dem
Diagramm den Namen „Diagramm Mais“ geben sowie auf > OK klicken.
Regressionsgerade einzeichnen
b) Zeichnen Sie in Ihr Diagramm aus a) die lineare Regressionsgerade ein. Im Diagramm sollen
außerdem die Gleichung der Regressionsgeraden und das Bestimmtheitsmaß R 2 erscheinen.
Wechseln Sie in das neue Tabellenblatt „Diagramm Mais“ und wählen Sie im Menü
> Diagrammtools > Layout > Analyse > Trendlinie > Weitere Trendlinienoptionen.
(Je nach Installation kann „Trendlinie“ auch direkt im Menü „Layout“ zu finden
sein.) Im Feld > Trend-/Regressionstyp belassen Sie den Vorschlag > Linear.
Klicken Sie dann die Kontrollkästchen an bei > Formel im Diagramm anzeigen und
bei > Bestimmtheitsmaß im Diagramm darstellen. Dann > Schließen.
c) Ändern Sie die Schriftgröße der Gleichung der Regressionsgeraden auf 12pt.
Klicken Sie mit der > rechten Maustaste auf die Gleichung und wählen Sie bei
> Schriftgrad 12.
Labor Statistik Einführungsveranstaltung
einf_b_2010_mit_loesungsweg.pdf, Seite 6/15
© P. Plappert 26.09.2011
Korrelationskoeffizienten berechnen
d) Berechnen Sie den empirischen Korrelationskoeffizienten r zwischen Jahr und produzierter
Maismenge. r soll im Feld G1 stehen. Geben Sie r mit 4 Nachkommastellen an.
Gehen Sie wieder in das Tabellenblatt „Mais-Daten“ auf das Feld G1.
Wählen Sie > Formeln > Mehr Funktionen > Statistisch und die Funktion
> KORREL.
Geben Sie bei Matrix1 den Datenbereich A2:A10 und bei Matrix 2 den Datenbereich
B2:B10 ein. > OK.
Anschließend verringern Sie der Übersichtlichkeit halber die Anzahl der Nachkommastellen, z. B. indem Sie das Feld G1 markieren, bei im Menü > Start > Format
> Zellen formatieren im Register > Zahlen die Kategorie > Zahl wählen und bei
Dezimalstellen 4 eingeben. Dann > OK.
e) Speichern Sie die geänderte Datei einf_d_2010.xlsx in Ihr persönliches Verzeichnis ab.
Wenn Sie die Datei bereits in Beispiel 1 j) abgespeichert haben, genügt zur
Sicherung der Änderungen > Datei > Speichern. Anderenfalls wie bei 1 j) vorgehen.
Andere Regressionskurven ausprobieren
f) Ändern Sie den Typ der Regressionskurve von linear in quadratisch.
Wechseln Sie wieder in das Tabellenblatt „Diagramm Mais“. Klicken Sie zum
Formatieren mit der > rechten Maustaste auf die Regressionsgerade und wählen Sie
> Trendlinie formatieren. Im Feld > Trend-/Regressionstyp wählen Sie
> Polynomisch und bei „Reihenfolge“ den Grad 2. > Schließen.
g) Das Bestimmtheitsmaß R 2 gibt an, wie gut die Regressionskurve die Punktewolke beschreibt
(0 = gar nicht, 1 = alle Datenpunkte liegen auf der Regressionskurve). Bei quadratischer
Regression ist R 2 größer als bei linearer Regression. Warum ist bei diesem Datensatz trotzdem
eine lineare Regression sinnvoller als eine quadratische?
Das Bestimmtheitsmaß R 2 ist bei quadratischer Regression nur geringfügig größer
als bei linearer Regression (0,9792 gegenüber 0,9788).
Unter mehreren ansonsten annähernd gleich guten Regressionskurven sollte man
stets die einfachste nehmen:
1.) Wichtigster Grund: Der Denkökonomie wegen sollten Zusammenhänge
grundsätzlich so einfach wie möglich beschrieben werden.
(Fortsetzung auf der nächsten Seite)
Labor Statistik Einführungsveranstaltung
einf_b_2010_mit_loesungsweg.pdf, Seite 7/15
© P. Plappert 26.09.2011
2.) Bei etwa gleicher Erklärungsgüte sind einfache statistische Modelle zuverlässiger
und weniger fehleranfällig als kompliziertere. Dies zeigt sich hier z. B. daran,
dass bei linearer Regression y = mx + k nur zwei Parameter (m, k) geschätzt
werden müssen, bei quadratischer Regression y = ax 2 + bx + c aber drei (a, b, c).
Jede Parameterschätzung verursacht zwangsläufig einen Schätzfehler, daher ist
(bei sonst gleich guten Modellen) eines mit weniger Parametern vorzuziehen.
3.) Bei höheren Potenzen ist meistens auch mit größeren Rundungsfehlern zu
rechnen.
4.) Es besteht die Gefahr des „Overfitting“, siehe bei i) unten.
h) Machen Sie die Änderung aus f) wieder rückgängig.
Mit der > Schaltfläche
sind, rückgängig machen.
können Sie Änderungen, die noch nicht abgespeichert
i) Probieren Sie außerdem eine Regression mit einem Polynom sechsten Grades. Was stellen Sie
hier fest? Machen Sie auch diese Änderung anschließend wieder rückgängig.
Gehen Sie wie bei f) und h) vor.
Wir haben hier einen Fall von „Overfitting“ (= Überanpassung an den Datensatz)
vorliegen. Das Regressionspolynom vom Grad 6 läuft fast exakt durch alle
Datenpunkte, was man auch am sehr hohen Bestimmtheitsmaß R 2 von 0,9982
erkennen kann. Es liefert aber außerhalb der Datenpunkte unsinnige Werte (z. B.
negative Werte zwischen 1962 und 1965) und ist daher für Prognose- oder
Trendaussagen unbrauchbar.
Bei Polynomen höheren Grades ist die Gefahr von „Overfitting“ groß. Solche
Polynome sind oft (wie auch in unserem Beispiel) stark oszillierend (d. h., sie
schwanken heftig nach oben und nach unten) und geben in diesem Fall einen den
Daten zugrundeliegenden Trend kaum noch wieder.
An diesem Beispiel kann man sehen, dass die Regression mit dem höchsten R 2
nicht unbedingt die beste ist. Das Bestimmtheitsmaß ist also nicht das einzige
Kriterium zur Auswahl eines Regressionsmodells!
Labor Statistik Einführungsveranstaltung
einf_b_2010_mit_loesungsweg.pdf, Seite 8/15
© P. Plappert 26.09.2011
Beispiel 3
In diesem Beispiel lernen Sie einige Statistik-Funktionen kennen, mit denen man Berechnungen bei
den wichtigsten diskreten Wahrscheinscheinlichkeitsverteilungen (hypergeometrische
Verteilung, Binomialverteilung, Poissonverteilung) durchführen kann.
Genaueres über diese Verteilungen erfahren Sie später in der Vorlesung.
Hypergeometrische Verteilung
a) Sie erhalten eine Lieferung von 50 Glühbirnen. Daraus entnehmen Sie eine Stichprobe von 20
Glühbirnen und testen diese 20 Birnen auf Funktionsfähigkeit. Die Zufallsvariable X gebe die
Anzahl der defekten Birnen unter den 20 Glühbirnen der Stichprobe an.
Angenommen, in der Lieferung sind 5 defekte Glühbirnen. Unter unseren Annahmen folgt
X einer so genannten hypergeometrischen Verteilung X ~ H (20; 50; 5) . Berechnen Sie hierfür
a1) die Wahrscheinlichkeit, dass in Ihrer Stichprobe gar keine defekte Glühbirne ist;
Gehen Sie in das Tabellenblatt „Diskrete Verteilungen“ auf das Feld D3.
Wählen Sie > Formeln > Mehr Funktionen > Statistisch und die Funktion
> HYPGEOM.VERT.
Eine hypergeometrisch verteilte Zufallsvariable X beschreibt das Ziehen einer
Stichprobe vom Umfang n ohne Zurücklegen aus N Objekten, von denen M eine
bestimmte Eigenschaft haben. Bei uns ist n = 20, N = 50 und M = 5 (besondere
Eigenschaft: Glühbirne defekt). In der Excel-Funktion HYPGEOM.VERT werden
die Objekte mit der bestimmten Eigenschaft „Erfolge“ genannt. [Bei uns müsste
man eigentlich eher von „Misserfolgen“ sprechen...]
Die Excel-Funktionen für eine diskreten Zufallsvariable X bieten die Möglichkeit
zu wählen zwischen der Berechung von
• P( X = k )
„genau k Erfolge“ und
• P( X ≤ k )
„höchstens k Erfolge“.
Bei der zweiten Möglichkeit werden die Wahrscheinlichkeiten für 0 Erfolge, 1
Erfolg, 2 Erfolge usw. bis einschließlich k Erfolge aufsummiert. Man spricht auch
von „kumulieren“. Will man das haben, muss man für „Kumuliert“ den Wert WAHR
oder 1 eingeben, will man nicht kumulieren, muss man für „Kumuliert“ den Wert
FALSCH oder 0 eingeben.
Wenn wir für eine hypergeometrisch verteilte Zufallsvariable X ~ H (n; N ; M ) die
Wahrscheinlichkeit P ( X = k ) berechnen wollen (das ist in unserem Beispiel die
Wahrscheinlichkeit, genau k defekte Stücke zu ziehen, in Excel-Sprache: k „Erfolge
in der Stichprobe“), müssen wir also eingeben:
bei > Erfolge_S den Wert k,
bei > Umfang_S den Wert n,
bei > Erfolge_G den Wert M,
bei > Umfang_G den Wert N,
bei > Kumuliert, ob kumuliert werden soll,
für a1) also 0,
für a1) also 20,
für a1) also 5,
für a1) also 50,
für a1) also 0.
Anschließend mit > OK bestätigen.
Labor Statistik Einführungsveranstaltung
einf_b_2010_mit_loesungsweg.pdf, Seite 9/15
© P. Plappert 26.09.2011
a2) die Wahrscheinlichkeit, dass in Ihrer Stichprobe genau 1 defekte Glühbirne ist;
Dies ist die gleiche Fragestellung wie in a1), nur dass hier P ( X = 1) gesucht ist.
Wählen Sie in Feld D4 > Formeln > Mehr Funktionen > Statistisch und die Funktion
> HYPGEOM.VERT. Geben Sie hier ein:
bei > Erfolge_S den Wert 1,
bei > Umfang_S den Stichprobenumfang n = 20
bei > Erfolge_G die Anzahl M = 5 der Objekte in der Grundgesamtheit, die die uns
interessierende Eigenschaft haben („defekt“)
bei > Umfang_G den Umfang der Grundgesamtheit N = 50 und
bei > Kumuliert wiederum 0 (oder FALSCH). Bestätigen mit > OK.
a3) die Wahrscheinlichkeit, dass in Ihrer Stichprobe genau 2 defekte Glühbirnen sind;
a4) die Wahrscheinlichkeit, dass in Ihrer Stichprobe genau 3 defekte Glühbirnen sind;
Gehen Sie wie bei a1) und a2) vor. Hier ist lediglich für > Erfolge_S der Wert 2 bzw.
3 einzugeben.
a5) die Wahrscheinlichkeit, dass in Ihrer Stichprobe höchstens 3 defekte Glühbirnen sind.
Die Ergebnisse sollen in den Feldern D3 bis D7 des Tabellenblatts „Diskrete Verteilungen“ der
Datei einf_d_2010.xlsx stehen und 4 Nachkommastellen haben.
Die Wahrscheinlichkeit für „höchstens 3“ defekte Glühbirnen ist eine kumulierte
Wahrscheinlichkeit. Wählen Sie bei der Funktion HYPGEOM.VERT
bei > Erfolge_S den Wert 3,
bei > Umfang_S den Wert 20,
bei > Erfolge_G den Wert 5,
bei > Umfang_G den Wert50 und nun im Gegensatz zu a4)
bei > Kumuliert den Wert 1 (oder WAHR). Bestätigen mit > OK.
Hinweis: entsprechend der Definition von „kumulieren“ würden wir in diesem
Beispiel das gleiche Ergebnis erhalten, wenn wir im Feld D7 auf das Summensymbol
klicken würden.
Ändern der Anzahl der Nachkommastellen: Markieren Sie die Felder D3 bis D7,
wählen Sie bei > Start > Format > Zellen formatieren im Register > Zahlen die
Kategorie > Zahl und geben Sie bei > Dezimalstellen 4 ein. Dann > OK.
Binomialverteilung
b) Bei der Massenproduktion bestimmter elektronischer Kleinteile entsteht eine Ausschussquote
von 10 %. Sie entnehmen der laufenden Produktion eine Stichprobe vom Umfang 20. Man kann
davon ausgehen, dass hierbei verschiedene Stichprobenteile unabhängig voneinander defekt
sind.
Die Zufallsvariable X gebe die Anzahl der defekten Kleinteile unter diesen 20 Glühbirnen an.
Unter den genannten Annahmen folgt X einer so genannten Binomialverteilung
X ~ B (20; 0,1) . Berechnen Sie hierfür
Labor Statistik Einführungsveranstaltung
einf_b_2010_mit_loesungsweg.pdf, Seite 10/15
© P. Plappert 26.09.2011
b1) die Wahrscheinlichkeit, dass in Ihrer Stichprobe genau 3 defekte Kleinteile sind;
Gehen Sie in das Tabellenblatt „Diskrete Verteilungen“ auf das Feld D11.
Wählen Sie > Formeln > Mehr Funktionen > Statistisch und die Funktion
> BINOM.VERT.
Eine binomialverteilte Zufallsvariable X beschreibt, wie oft bei n unabhängigen
Durchführungen eines Zufallsexperiments ein bestimmtes Ereignis vorkommt, das
bei einmaliger Durchführung des Zufallsexperiments mit Wahrscheinlichkeit p
auftritt. Bei uns wird das Zufallsexperiment „ein Kleinteil aus der laufenden
Produktion ziehen“ n = 20-mal durchgeführt, und uns interessiert das Ereignis
„Kleinteil defekt“, das beim Ziehen eines Kleinteils mit Wahrscheinlichkeit p = 0,1
auftritt.
In der Sprache von Excel heißt das Eintreten des untersuchten Ereignisses auch hier
„Erfolg“.
Wenn wir für eine binomialverteilte Zufallsvariable X ~ B(n; p) eine
Wahrscheinlichkeit P ( X = k ) berechnen wollen, (das ist in unserem Beispiel die
Wahrscheinlichkeit, genau k defekte Stücke zu ziehen, in Excel-Sprache ist k die
„Zahl der Erfolge“), müssen wir also eingeben:
bei > Zahl_Erfolge den Wert k,
für b1) also 3,
für b1) also 20,
bei > Versuche den Wert n,
bei > Erfolgswahrsch den Wert p, für b1) also 0,1,
bei > Kumuliert den Wert 0, d. h. nicht kumulieren.
Anschließend mit > OK bestätigen.
b2) die Wahrscheinlichkeit, dass in Ihrer Stichprobe höchstens 3 defekte Kleinteile sind.
Die Ergebnisse sollen in den Feldern D11 und D12 stehen und 4 Nachkommastellen haben.
Wählen Sie in Feld D12 wieder > Formeln > Mehr Funktionen > Statistisch und die
Funktion > BINOM.VERT.
Der Unterschied zu b1) besteht wiederum darin, dass wir dort die Wahrscheinlichkeit
P( X = 3) , genau 3 Defektstücke zu ziehen, berechnet haben, während wir uns hier
für die kumulierte Wahrscheinlichkeit P ( X ≤ 3) interessieren, also die
Wahrscheinlichkeit, höchstens 3 Defektstücke zu ziehen.
Wenn wir für eine binomialverteilte Zufallsvariable X ~ B(n; p) eine „kumulierte“
Wahrscheinlichkeit P( X ≤ k ) berechnen wollen, müssen wir eingeben:
bei > Zahl_Erfolge den Wert k,
für b2) also 3,
für b2) also 20,
bei > Versuche den Wert n,
bei > Erfolgswahrsch den Wert p, für b2) also 0,1,
bei > Kumuliert den Wert 1, d. h. kumulieren.
Anschließend mit > OK bestätigen.
Formatieren der Zahlen (Anzahl der Nachkommastellen) wie oben bei a5).
Labor Statistik Einführungsveranstaltung
einf_b_2010_mit_loesungsweg.pdf, Seite 11/15
© P. Plappert 26.09.2011
Poissonverteilung
c) Bei der Produktion einer bestimmten Textilart entstehen zufallsbedingt Gewebefehler. Im Mittel
sind es 2 Gewebefehler auf 1 m².
Sie entnehmen zufällig ein Textilstück von 1 m² und zählen, wie viele Gewebefehler auf diesem
Stück sind. Die Zufallsvariable X gebe die Anzahl festgestellten Gewebefehler an. Unter den
genannten Annahmen folgt X einer so genannten Poissonverteilung X ~ Po(2) , dabei ist
λ = 2 der Erwartungswert von X (mittlere, d. h. erwartete Anzahl von Fehlern).
Berechnen Sie hierfür
c1) die Wahrscheinlichkeit, dass in auf Ihrem Textilstück genau 3 Gewebefehler sind;
Gehen Sie in das Tabellenblatt „Diskrete Verteilungen“ auf das Feld D16.
Wählen Sie > Formeln > Mehr Funktionen > Statistisch und die Funktion
> POISSON.VERT.
Zum Berechnen der Wahrscheinlichkeit P ( X = k ) für eine poissonverteilte
Zufallsvariable X ~ Po(λ ) (das ist in unserem Beispiel die Wahrscheinlichkeit,
genau k Gewebefehler vorzufinden), müssen wir eingeben:
bei > X den Wert k,
für c1) also 3,
für c1) also 2,
bei > Mittelwert den Wert λ ,
bei > Kumuliert den Wert 0, d. h. nicht kumulieren.
Anschließend mit > OK bestätigen.
c2) die Wahrscheinlichkeit, dass in auf Ihrem Textilstück höchstens 3 Gewebefehler sind.
Die Ergebnisse sollen in den Feldern D16 und D17 stehen und 4 Nachkommastellen haben.
Wählen Sie in Feld D17 wieder > Formeln > Mehr Funktionen > Statistisch und die
Funktion > POISSON.VERT.
Zum Berechnen der Wahrscheinlichkeit P( X ≤ k ) für eine poissonverteilte
Zufallsvariable X ~ Po(λ ) (das ist in unserem Beispiel die Wahrscheinlichkeit,
höchstens k Gewebefehler vorzufinden), müssen wir eingeben:
bei > X den Wert k,
für c2) also 3,
für c2) also 2,
bei > Mittelwert den Wert λ ,
bei > Kumuliert den Wert 1, d. h. kumulieren.
Anschließend mit > OK bestätigen.
Formatieren der Zahlen (Anzahl der Nachkommastellen) wie oben bei a5).
d) Speichern Sie die geänderte Datei einf_d_2010.xlsx in Ihr persönliches Verzeichnis ab.
> Datei > Speichern.
Labor Statistik Einführungsveranstaltung
einf_b_2010_mit_loesungsweg.pdf, Seite 12/15
© P. Plappert 26.09.2011
Beispiel 4
In diesem Beispiel lernen Sie einige Statistik-Funktionen kennen, mit denen man Berechnungen bei
der wichtigsten stetigen Wahrscheinscheinlichkeitsverteilung, nämlich der Normalverteilung,
durchführen kann. Genaueres über die Normalverteilungen erfahren Sie später in der Vorlesung.
Eine Maschine füllt Zucker in Packungen. Die Füllmenge variiert zufällig. Die Zufallsvariable X
gebe die Füllmenge [in g] einer zufällig ausgewählten Zuckerpackung an.
Wir gehen in diesem Beispiel davon aus dass die Zufallsvariable X einer Normalverteilung
X ~ N (1000; 9) folgt. In diesem Beispiel ist also der Erwartungswert der Füllmenge µ = 1.000 [g],
Varianz der Füllmenge σ 2 = 9 [g²] und Standardabweichung der Füllmenge σ =
9 = 3 [g].
a) Berechnen Sie die Wahrscheinlichkeit, dass die Füllmenge einer zufällig ausgewählten
Zuckerpackung bei höchstens 994 g liegt. Das Ergebnis soll im Feld D3 des Tabellenblatts
„Normalverteilung“ der Datei ein_daten.xlsx stehen und 4 Nachkommastellen haben.
Wählen Sie in Feld D3 des Tabellenblatts „Normalverteilung > Formeln
> Mehr Funktionen > Statistisch und die Funktion > NORM.VERT.
Zum Berechnen der Wahrscheinlichkeit P( X ≤ k ) für eine normalverteilte
Zufallsvariable X ~ N ( µ ; σ 2 ) (das ist in unserm Beispiel die Wahrscheinlichkeit,
dass die Füllmenge einer zufällig ausgewählten Packung höchstens k g beträgt),
müssen wir eingeben:
bei > X den Wert k,
bei > Mittelwert den Erwartungswert µ ,
also hier 994,
also hier 1000,
bei > Stabwn die Standardabweichung σ , also hier 3,
bei > Kumuliert den Wert 1, d. h. kumuliert (Verteilungsfunktion).
Anschließend mit > OK bestätigen. Formatieren (Nachkommastellen) wie oben.
Wählt man bei NORMVERT für „Kumuliert“ den Wert 1, so wird die so genannte
„Verteilungsfunktion“ der normalverteilten Zufallsvariablen X berechnet.
Das heißt, in diesem Fall werden die „kumulierten“ Wahrscheinlichkeiten P( X ≤ k )
berechnet, wobei allerdings „Kumulieren“ hier nicht Aufsummieren, sondern
Integrieren bedeutet. Dies wird später in der Vorlesung genauer besprochen.
b) Berechnen Sie das 1-%-Quantil der Normalverteilung N (1000; 9) . Das ist diejenige Füllmenge,
die von einer zufällig ausgewählten Zuckerpackung nur mit einer Wahrscheinlichkeit von 0,01
unterschritten wird. Das Ergebnis soll im Feld D5 stehen und 4 Nachkommastellen haben.
Quantile der Normalverteilung berechnet die Funktion NORM.INV.
Wählen Sie > Formeln > Mehr Funktionen > Statistisch und die Funktion
> NORM.INV. Geben Sie dann ein:
bei > Wahrsch
bei > Mittelwert den Erwartungswert µ ,
den Wert 0,01,
also hier 1000,
bei > Stabwn die Standardabweichung σ , also hier 3.
Formatieren (Nachkommastellen) wie oben.
Labor Statistik Einführungsveranstaltung
einf_b_2010_mit_loesungsweg.pdf, Seite 13/15
© P. Plappert 26.09.2011
c) Schauen Sie in der Excel-Hilfe nach, mit welcher Funktion kann die Quantile der so genannten
t-Verteilung berechnen kann. (Es ist nur nach dem Namen der Funktion gefragt. Die Quantile
der t-Verteilung werden in Kapitel 5 der Vorlesung genauer erläutert.)
Die Hilfefunktion wird aufgerufen, indem Sie in der Hauptmenüzeile auf das
> Symbol
klicken. Lassen Sie dort nach „Quantile“ suchen.
Unter den angebotenen Funktionen ist T.INV die richtige.
Zusatzinformation In Excel 2003 hatte (unlogischerweise) TINV eine andere Syntax
als NORMINV. Dieser Defekt ist in Excel 2010 behoben.
d) Zeichnen Sie die Dichtefunktion der Zufallsvariablen X im Intervall [990, 1010].
Excel berechnet die Dichtefunktion einer Normalverteilung, wenn bei
NORM.VERT für „Kumuliert“ der Wert 0 (nicht kumulieren) gewählt wird.
Die Funktionswerte der Dichtefunktion werden in diesem Beispiel an mehreren
Stellen im Intervall [990, 1010] benötigt, um die Funktionskurve zeichnen zu
können.
Dazu muss zunächst eine Wertetabelle erstellt werden, was am schnellsten mit dem
„automatischen Ausfüllen“ wie folgt geht. Geben Sie in die Felder B8 und B9 die
Werte 990 und 991 ein. Markieren Sie die beiden Felder. Klicken Sie mit der linken
Maustaste auf das kleine Kästchen rechts unten im markierten Bereich (Ausfüllkästchen; in der Abbildung zeigt ein roter Pfeil darauf).
Ziehen Sie das Kästchen bei gedrückter linker Maustaste nach unten bis zum Feld
B28. Excel erhöht dabei die Werte in der Spalte B jeweils um die Differenz der
beiden markierten Felder, also jeweils um 1.
Nach den x-Werten benötigen wir nun die Funktionswerte. Markieren Sie das Feld
C8 und wählen Sie > Formeln > Mehr Funktionen > Statistisch und die Funktion
> NORM.VERT.
Zum Berechnen der Dichtefunktion geben Sie ein:
bei > X nicht den Zahlenwert, sondern den Namen des linken Nachbarfeldes B8,
bei > Mittelwert den Erwartungswert µ , also 1000,
bei > Stabwn die Standardabweichung σ , also 3,
bei > Kumuliert den Wert 0, d. h. nicht kumuliert (Dichtefunktion).
Anschließend mit > OK bestätigen.
Labor Statistik Einführungsveranstaltung
einf_b_2010_mit_loesungsweg.pdf, Seite 14/15
© P. Plappert 26.09.2011
Excel interpretiert die so eingegebene Formel als „berechne die Dichtefunktion einer
Normalverteilung N (1000; 9) an der Stelle, die durch den Wert im linken
Nachbarfeld gegeben ist“.
Wir können die Formel daher für die anderen Stellen kopieren, z. B. dadurch, dass
wir C8 markieren, wiederum das Ausfüllkästchen (roter Pfeil) anklicken und es bei
gedrückter linker Maustaste bis zum Feld C28 nach unten ziehen.
Nachdem die Wertetabelle so erstellt ist, zeichnen wir den Funktionsgraphen als ein
Streudiagramm, bei dem die Punkte durch eine „glatte“ Linie verbunden werden, die
Punkte selbst aber nicht angezeigt werden.
Markieren Sie dazu die Felder B7 bis C28. Wählen Sie > Einfügen > Punkt, wobei
Sie den Untertyp in der ersten Zeile ganz rechts wählen Es wird ein Streudiagramm
(Punkte mit Linien verbunden) erstellt, das ebenfalls schon einen Diagrammtitel hat,
da wir die Spaltenüberschriften mitmarkiert haben.
Klicken Sie in den Diagrammtitel hinein und ändern Sie ihn auf „Dichte der
Normalverteilung N(1000; 9)“ ab.
Wählen Sie im Menü > Diagrammtools > Layout > Achsentitel > Titel der
horizontalen Primärachse > Titel unter Achse und beschriften Sie die x-Achse, indem
Sie „x“ eintippen und die > Eingabetaste betätigen.
Dann wählen Sie > Achsentitel > Titel der vertikalen Primärachse > gedrehter Titel
und beschriften Sie die y-Achse, indem Sie „p“ eintippen und die > Eingabetaste
betätigen.
Anschließend wählen Sie > Legende > Keine.
Ändern Sie den Speicherort des Diagramms, indem Sie im Menü > Diagrammtools
> Entwurf > Diagramm verschieben auswählen, > Neues Blatt anklicken und dem
Diagramm den Namen „Diagramm Dichte NV“ geben sowie auf > OK klicken.
Das Diagramm zeigt eine „Gaußsche Glockenkurve“ als Dichte der Normalverteilung. Später wird besprochen werden, dass sich die Wahrscheinlichkeiten bei
Normalverteilungen als Flächen unter der Dichtkurve ergeben.
Excel hat das Anzeigeintervall auf der x-Achse etwas vergrößert. Um das Diagramm
auf das Intervall [990, 1010] einzuschränken, klicken Sie mit der > rechten
Maustaste auf die x-Achse, wählen > Achse formatieren, wählen bei > Minimum
> Fest und geben den Wert 990 ein, sodann wählen Sie bei > Maximum ebenfalls
> Fest und geben den Wert 1010 ein. > Schließen.
e) Speichern Sie die geänderte Datei einf_d_2010.xlsx in Ihr persönliches Verzeichnis ab.
> Datei > Speichern.
Labor Statistik Einführungsveranstaltung
einf_b_2010_mit_loesungsweg.pdf, Seite 15/15
© P. Plappert 26.09.2011
Herunterladen