StatAnaly15

Werbung
Statistische Analysen mit Excel
Statistische Nutzung an Beispielen
Mathematisches Seminar am 05.Juni 2002 9.15 Uhr, Raum 30
Vortragender: Robert Vogel
1
Inhalt des Vortrages:
……………………………………2
ZWEI-STICHPROBEN F-TEST
……………………………………3
STABW
……………………………………4
STABWA
……………………………………6
QUANTIL
……………………………………8
ZUFALLSZAHL
..…………….……………………9
SCHÄTZER
..…………………………………10
TREND
..…………………………………11
KONFIDENZ
..…………………………………14
RKP
..…………………………………16
RGP
..…………………………………20
Anhang
..…………………………………27
2
Zwei-Stichproben F-TEST
Gibt die Teststatistik eines F-Tests zurück. Ein F-Test berechnet die einseitige
Wahrscheinlichkeit, dass sich die Varianzen von Matrix1 und Matrix2 nicht signifikant
unterscheiden. Mit dieser Funktion können Sie feststellen, ob zwei Stichproben
unterschiedliche Varianzen haben. Sind beispielsweise die Prüfungsergebnisse öffentlicher
und privater Schulen bekannt, können Sie ermitteln, ob bei diesen Schultypen ein
unterschiedlich breites Notenspektrum üblich ist. Untersucht wird der Unterschied in der
Streuung (oder Vielfalt) der Prüfungsergebnisse.
Syntax
FTEST(Matrix1;Matrix2)
Matrix1 ist die erste Matrix oder der erste Wertebereich.
Matrix2 ist die zweite Matrix oder der zweite Wertebereich.
Hinweise



Als Argumente müssen entweder Zahlen oder Namen, Matrizen oder Bezüge
angegeben werden, die Zahlen enthalten.
Enthält ein als Matrix oder Bezug angegebenes Argument Text, Wahrheitswerte oder
leere Zellen, werden diese Werte ignoriert. Zellen, die den Wert 0 enthalten, werden
dagegen berücksichtigt.
Enthält eines der Argumente Matrix1 oder Matrix2 weniger als 2 Datenpunkte oder ist
die Varianz von Matrix1 oder Matrix2 gleich 0, gibt FTEST den Fehlerwert #DIV/0!
zurück.
Beispiel
Noten
1
2
3
4
5
6
Schule A
Schule B
Daten 1
Daten 2
6
20
7
28
9
31
15
38
21
40
Formel
Beschreibung (Ergebnis)
=FTEST(A2:A6;B2:B6)
F-Test für die oben genannten
Datenmengen (0,648318)
3
STABW
Schätzt die Standardabweichung ausgehend von einer Stichprobe. Die Standardabweichung
ist ein Maß dafür, wie weit die jeweiligen Werte um den Mittelwert (Durchschnitt) streuen.
Syntax
STABW(Zahl1;Zahl2;…)
Zahl1;Zahl2;... sind 1 bis 30 numerische Argumente, die einer Stichprobe aus der
Grundgesamtheit entsprechen. Anstelle der durch Semikola voneinander getrennten
Argumente können Sie eine Matrix oder einen Bezug auf eine Matrix angeben.
Hinweise



STABW geht davon aus, dass die ihr übergebenen Argumente eine Stichprobe,
gezogen aus einer Grundgesamtheit, darstellen. Entsprechen die als Argumente
übergebenen Daten dagegen einer Grundgesamtheit, sollte die zugehörige
Standardabweichung mit Hilfe der Funktion STÄBEN berechnet werden.
Die berechnete Standardabweichung ist eine erwartungsgetreue Schätzung der
Standardabweichung der Grundgesamtheit. Das bedeutet, es wird durch n-1 anstatt
durch n geteilt.
Logische Werte wie WAHR und FALSCH sowie Text werden nicht berücksichtigt.
Wenn logische Werte und Text berücksichtigt werden sollen, verwenden Sie die
Arbeitsblattfunktion STABW.
Beispiel
Angenommen, 10 Schraubenschlüssel, die auf derselben Maschine geschmiedet wurden und
zu demselben Fertigungslos gehören, werden zufällig zu einer Stichprobe zusammengestellt
und auf ihre Bruchfestigkeit hin überprüft.
4
A
Bruchfestigkeit
1
1345
2
1301
3
1368
4
1322
5
1310
6
1370
7
1318
8
1350
9
1303
10
1299
11
Formel
=STABW(A2:A11)
Beschreibung (Ergebnis)
Standardabweichung der Bruchfestigkeit (27,46391572)
5
STABWA
Schätzt die Standardabweichung ausgehend von einer Stichprobe. Die Standardabweichung
ist ein Maß für die Streuung von Werten bezüglich deren Mittelwert (dem Durchschnitt). Text
und Wahrheitswerte wie WAHR und FALSCH werden bei der Berechnung berücksichtigt.
Syntax
STABWA(Wert1;Wert2;...)
Wert1;Wert2;... sind 1 bis 30 Werte, die einer Stichprobe aus der Grundgesamtheit
entsprechen. Anstelle der durch Semikola voneinander getrennten Argumente können Sie eine
Matrix oder einen Bezug auf eine Matrix angeben.
Hinweise



STABWA geht davon aus, dass die ihr übergebenen Argumente eine Stichprobe einer
Grundgesamtheit entsprechen. Für den Fall, dass die zugehörigen Daten eine
Grundgesamtheit angeben, sollten Sie die Standardabweichung mit der Funktion
STABWNA berechnen.
Argumente, die den Wert WAHR enthalten, werden als 1 berücksichtigt; Argumente,
die Text oder den Wahrheitswert FALSCH enthalten, werden als 0 (Null)
berücksichtigt. Soll die Berechnung weder Text noch Wahrheitswerte berücksichtigen,
verwenden Sie statt dessen die Arbeitsblattfunktion STABW.
Die berechnete Standardabweichung ist eine erwartungsgetreue Schätzung der
Standardabweichung der Grundgesamtheit. Das bedeutet, es wird durch n-1 anstatt
durch n geteilt.
Beispiel
Angenommen, 10 Schraubenschlüssel, die auf derselben Maschine geschmiedet wurden und
zu demselben Fertigungslos gehören, werden zufällig zu einer Stichprobe zusammengestellt
und auf ihre Bruchfestigkeit hin überprüft.
6
A
Bruchfestigkeit
1
2
3
4
5
6
7
8
9
10
11
1345
1301
1368
1322
1310
1370
1318
1350
1303
1299
Formel
Beschreibung (Ergebnis)
=STABWA(A2:A11) Standardabweichung der Bruchfestigkeit aller Werkzeuge
(27,46391572)
7
QUANTIL
Gibt das Alpha-Quantil einer Gruppe von Daten zurück. Mit Hilfe dieser Funktion können Sie
einen Akzeptanzschwellenwert festlegen. So könnten Sie beispielsweise entscheiden, dass nur
Kandidaten untersucht werden, deren Prüfungsergebnisse oberhalb des 90 %-Quantils liegen.
Syntax
QUANTIL(Matrix;Alpha)
Matrix ist eine Matrix oder ein Datenbereich, die/der die relative Lage der Daten beschreibt.
Alpha ist ein Wert aus dem geschlossenen Intervall von 0 bis 1.
Hinweise




Enthält Matrix keine oder mehr als 8191 Datenpunkte, gibt QUANTIL den
Fehlerwert #ZAHL! zurück.
Ist Alpha kein numerischer Ausdruck, gibt QUANTIL den Fehlerwert #WERT!
zurück.
Ist Alpha < 0, oder ist Alpha > 1, gibt QUANTIL den Fehlerwert #ZAHL! zurück.
Ist Alpha kein Vielfaches von 1/(n - 1), interpoliert QUANTIL, um das AlphaQuantil zu bestimmen.
Beispiel
A
Daten
1
1
2
3
3
2
4
4
5
Formel
=QUANTIL(A2:A5;0,3)
Beschreibung (Ergebnis)
30 %-Quantil der obigen Liste (1,9)
8
ZUFALLSZAHL
Gibt eine Zufallszahl zwischen 0 und 1 zurück. Bei jeder Neuberechnung in der jeweiligen
Tabelle wird eine neue Zufallszahl gezogen.
Syntax
ZUFALLSZAHL( )
Hinweise

Mit der folgenden Anweisung können Sie eine reelle Zufallszahl erzeugen, die
zwischen a und b liegt:
ZUFALLSZAHL()*(b-a)+a

Für den Fall, dass Sie mit ZUFALLSZAHL zwar eine Zufallszahl erzeugen möchten,
aber nicht wünschen, dass sich deren Wert bei jeder Neuberechnung der
entsprechenden Zelle ändert, können Sie auch =ZUFALLSZAHL() in die
Bearbeitungszeile eingeben und anschließend F9 drücken, um die Formel in eine
Zufallszahl zu ändern.
Beispiel
1
2
3
A
B
Formel
Beschreibung (Ergebnis)
=ZUFALLSZAHL()
Eine (variierende) Zufallszahl zwischen 0 und 1
=ZUFALLSZAHL()*100 Eine (variierende) Zufallszahl, die größer gleich 0 und
kleiner 100 ist
9
SCHÄTZER
Gibt den Schätzwert für einen linearen Trend zurück. Der Vorhersagewert ist ein Y-Wert bei
einem gegebenen X-Wert. Bei den bekannten Werten handelt es sich um vorhandene X- und
Y-Werte, und der neue Wert wird, ausgehend von einer linearen Regression, vorhergesagt.
Diese Funktion ermöglicht Ihnen, zukünftige Umsätze, erforderliche Lagerbestände oder
Verbrauchertrends vorherzusagen.
Syntax
SCHÄTZER(x;Y_Werte;X_Werte)
x ist der Datenpunkt, dessen Wert Sie schätzen möchten.
Y_Werte ist eine abhängige Matrix oder ein abhängiger Datenbereich.
X_Werte ist eine unabhängige Matrix oder ein unabhängiger Datenbereich.
Hinweise



Ist x kein numerischer Ausdruck, gibt SCHÄTZER den Fehlerwert #WERT! zurück.
Sind Y_Werte und X_Werte leer oder umfassen sie unterschiedlich viele Datenpunkte,
gibt SCHÄTZER den Fehlerwert #NV zurück.
Ist die Varianz von X_Werte gleich 0, gibt SCHÄTZER den Fehlerwert #DIV/0!
zurück.
Beispiel
1
2
3
4
5
6
A
B
Y-Wert
X-Wert
6
20
7
28
9
31
15
38
21
40
Formel
Beschreibung (Ergebnis)
=SCHÄTZER(30;A2:A6;B2:B6) Gibt den Schätzwert für einen Y-Wert bei einem
gegebenen X-Wert von 30 (10,60725) zurück
10
TREND
Liefert Werte, die sich aus einem linearen Trend ergeben. Diese Funktion passt den als
Matrizen Y_Werte und X_Werte übergebenen Werten eine Gerade an (nach der Methode der
kleinsten Quadrate). Als Ergebnis liefert die Funktion die auf der Geraden liegenden y-Werte,
die zu den in Neue_X_Werte angegebenen x-Werten gehören.
Syntax
TREND(Y_Werte;X_Werte;Neue_X_Werte;Konstante)
Y_Werte sind die y-Werte, die Ihnen bereits aus der Beziehung y = mx + b bekannt sind.


Besteht die Matrix Y_Werte aus nur einer Spalte, wird jede Spalte der Matrix
X_Werte als eigenständige Variable interpretiert.
Besteht die Matrix Y_Werte aus nur einer Zeile, wird jede Zeile der Matrix X_Werte
als eigenständige Variable interpretiert.
X_Werte sind optionale x-Werte, die Ihnen möglicherweise bereits aus der Beziehung y =
mx + b bekannt sind.


Die Matrix X_Werte kann eine oder mehrere Variablengruppen umfassen. Wird nur
eine Variable verwendet, können Y_Werte und X_Werte Bereiche beliebiger Form
sein, solange sie dieselben Dimensionen haben. Werden mehrere Variablen
verwendet, muss Y_Werte ein Vektor sein (das heißt ein Bereich, der aus nur einer
Zeile oder nur einer Spalte besteht).
Fehlt die Matrix X_Werte, wird an ihrer Stelle die Matrix {1;2;3;...} angenommen,
die genauso viele Elemente wie Y_Werte enthält.
Neue_X_Werte sind die neuen x-Werte, für die die TREND-Funktion die zugehörigen yWerte liefern soll.



Analog zur Matrix X_Werte muss auch Neue_X_Werte für jede unabhängige
Variable eine eigene Spalte (oder Zeile) bereitstellen. Daher müssen die Matrizen
X_Werte und Neue_X_Werte gleich viele Spalten haben, wenn Y_Werte sich in
einer einzelnen Spalte befindet. Befindet sich Y_Werte in einer einzelnen Zeile,
müssen die Matrizen X_Werte und Neue_X_Werte gleich viele Zeilen haben.
Fehlt die Matrix Neue_X_Werte, wird angenommen, dass sie mit der Matrix
X_Werte identisch ist.
Fehlt sowohl die Matrix X_Werte als auch die Matrix Neue_X_Werte, werden diese
als die Matrix {1;2;3;...} angenommen, die genauso viele Elemente wie die Matrix
Y_Werte enthält.
Konstante ist ein Wahrheitswert, der angibt, ob die Konstante b den Wert 0 annehmen soll.


Ist Konstante mit WAHR belegt oder nicht angegeben, wird b normal berechnet.
Ist Konstante mit FALSCH belegt, wird b gleich 0 (Null) gesetzt und m so angepasst,
dass y = mx gilt.
11
Hinweise




Informationen darüber, wie Microsoft Excel eine Gerade an Daten anpasst, finden Sie
unter "RGP".
Sie können TREND zur Anpassung von Polynomen verwenden, indem Sie eine
lineare Regression bezüglich Potenzen einer Variablen durchführen. Nehmen wir
beispielsweise an, die Spalte A enthält y-Werte und die Spalte B enthält x-Werte. Sie
könnten x^2 in Spalte C, x^3 in Spalte D eingeben usw. und anschließend eine
Regression für die Spalten B bis D gegen die Spalte A durchführen.
Formeln, die als Ergebnis eine Matrix liefern, müssen als Matrixformeln eingegeben
werden.
Wird anstelle eines Arguments (z.B. X_Werte) eine Matrixkonstante eingegeben,
müssen Sie Semikola verwenden, um die zu einer Zeile gehörenden Werte
voneinander zu trennen, und Punkte, um die Zeilen selbst voneinander zu trennen.
Beispiel
Die erste Formel zeigt entsprechende Werte zu den bekannten Werten an. Die zweite Formel
liefert Schätzwerte für die nächsten Monate, wenn der lineare Trend anhält.
A
B
C
Monat
Ansch_Wert
Formel (Entsprechende Kosten)
1
$133.890
2
$135.000
1
3
$135.790
2
4
$137.300
3
5
$138.130
4
6
$139.100
5
7
$139.900
6
8
$141.120
7
9
$141.890
8
10
$143.230
9
11
$144.000
10
12
$145.290
11
Monat
Formel (Geschätzte Kosten)
12
13
=TREND(B2:B13;A2:A13;A15:A19)
13
14
=TREND(B2:B13;A2:A13)
15
16
17
12
Anmerkung Die Formel im Beispiel muss als Matrixformel eingegeben werden. Nachdem
Sie das Beispiel in ein leeres Arbeitsblatt kopiert haben, markieren Sie den Bereich C2:C13
oder B15:B19 beginnend mit der Formelzelle. Drücken Sie F2 und dann
STRG+UMSCHALT+EINGABE. Wenn die Formel nicht als Matrixformel eingegeben wird,
lauten die Einzelergebnisse 133.953,3333 und 146.171,5152.
13
KONFIDENZ
Ermöglicht die Berechnung des 1-Alpha Konfidenzintervalls für den Erwartungswert einer
Zufallsvariablen. Ein Konfidenzintervall ist ein Bereich, der sich links und rechts des
jeweiligen Stichprobenmittels erstreckt. Beispielsweise können Sie für eine Ware, die Sie per
Post zugestellt bekommen, mit einer bestimmten Sicherheit (Konfidenzniveau) vorhersagen,
wann die Ware frühestens beziehungsweise spätestens bei Ihnen eintrifft.
Syntax
KONFIDENZ(Alpha;StandardAbweichung;Umfang)
Alpha ist die Irrtumswahrscheinlichkeit bei der Berechnung des Konfidenzintervalls. Das
Konfidenzintervall ist gleich 100*(1 - Alpha)%, was bedeutet, dass ein Wert für Alpha von
0,05 einem Konfidenzniveau von 95% entspricht.
StandardAbweichung ist die als bekannt angenommene Standardabweichung der
Grundgesamtheit.
Umfang ist der Umfang der Stichprobe.
Hinweise






Ist eines der Argumente nichtnumerisch, gibt KONFIDENZ den Fehlerwert #WERT!
zurück.
Ist Alpha ≤ 0 oder Alpha ≥ 1, gibt KONFIDENZ den Fehlerwert #ZAHL! zurück.
Ist StandardAbweichung ≤ 0, gibt KONFIDENZ den Fehlerwert #ZAHL! zurück.
Ist Umfang keine ganze Zahl, wird der Dezimalanteil abgeschnitten.
Ist Umfang < 1, gibt KONFIDENZ den Fehlerwert #ZAHL! zurück.
Ist Alpha gleich 0,05, dann muss die Fläche unter der Kurve der standardisierten
Normalverteilung berechnet werden, die dem Wert (1 - Alpha) bzw. 95% entspricht.
Dieser Wert ist ± 1,96.
Beispiel
Angenommen, eine Stichprobe bei 50 Berufspendlern ergibt, dass diese im Mittel 30 Minuten
benötigen, um zu ihrem Arbeitsplatz zu gelangen, wobei die Standardabweichung der
Grundgesamtheit 2,5 beträgt. Dann gilt mit einer Wahrscheinlichkeit von mindestens 95%,
dass der Mittelwert der Grundgesamtheit im folgenden Intervall liegt:
14
A
B
Daten
Beschreibung
0,05
Irrtumswahrscheinlichkeit
1
2,5
Standardabweichung der Grundgesamtheit
2
50
Umfang der Stichprobe
3
Formel
Beschreibung (Ergebnis)
4
=KONFIDENZ(A2;A3;A4) 1-Alpha Konfidenzintervall für den Erwartungswert einer
Zufallsvariablen. Dies bedeutet eine mittlere Fahrzeit zur
Arbeit von 30 Minuten ± 0,692951 Minuten, also
zwischen 29,3 und 30,7 Minuten. (0,692951)
15
RKP
In Regressionsanalysen berechnet diese Funktion eine Exponentialkurve, die möglichst gut an
die von Ihnen bereitgestellten Daten angepasst ist, und liefert ein Wertarray, die diese Kurve
beschreibt. Da diese Funktion ein Wertarray liefert, muss die Formel als Matrixformel
eingegeben werden.
Die Gleichung der Kurve lautet
y = b*m^x oder
y = (b*(m1^x1)*(m2^x2)*_) (bei mehreren x-Werten)
wobei der abhängige y-Wert eine Funktion der unabhängigen x-Werte ist. Jeder m-Wert ist
eine Basis, zu der ein entsprechender x-Wert als Exponent gehört, und b ist eine Konstante.
Beachten Sie, dass y, x und m Vektoren sein können. Eine von RKP ausgegebene Matrix hat
die Form {mn.mn-1 ... .m1.b}.
Syntax
RKP(Y_Werte;X_Werte;Konstante;Stats)
Y_Werte sind die y-Werte, die Ihnen aus der jeweiligen Beziehung y = b*m^x bereits
bekannt sind.


Besteht die Matrix Y_Werte aus nur einer Spalte, wird jede Spalte der Matrix
X_Werte als eigenständige Variable interpretiert.
Besteht die Matrix Y_Werte aus nur einer Zeile, wird jede Zeile der Matrix X_Werte
als eigenständige Variable interpretiert.
X_Werte ist eine optionale Gruppe von x-Werten, die Ihnen aus der Beziehung y = b*m^x
eventuell bereits bekannt sind.


Die Matrix X_Werte kann eine oder mehrere Gruppen von Variablen umfassen. Wird
nur eine Variable verwendet, können Y_Werte und X_Werte Bereiche beliebiger
Form sein, solange sie dieselben Dimensionen haben. Werden mehrere Variablen
verwendet, müssen Y_Werte als Zellbereiche vorliegen, wobei sich der Bereich nur
über eine Zeile oder eine Spalte erstrecken darf (auch als Vektor bezeichnet).
Fehlt die Matrix X_Werte, wird an ihrer Stelle die Matrix {1;2;3;...} angenommen,
die genauso viele Elemente wie Y_Werte enthält.
Konstante ist ein Wahrheitswert, der angibt, ob die Konstante b den Wert 1 annehmen soll.


Ist Konstante mit WAHR belegt oder nicht angegeben, wird b normal berechnet.
Ist Konstante mit FALSCH belegt, wird b gleich 1 gesetzt, und die m-Werte werden
gemäß y = m^x berechnet.
16
Stats ist ein Wahrheitswert, der angibt, ob zusätzliche Regressionskenngrößen ausgegeben
werden sollen.


Ist Stats mit WAHR belegt, liefert RKP diese zusätzlichen Regressionskenngrößen, so
dass die zurückgegebene Matrix wie folgt aussieht:
{mn.mn-1. ... .m1.b;sen.sen-1. ... .se1.seb;r 2.sey;F.df.ssreg.ssresid}.
Ist Stats mit FALSCH belegt oder nicht angegeben, liefert RKP nur die mKoeffizienten und die Konstante b.
Weitere Informationen zu den zusätzlichen Regressionskenngrößen finden Sie unter RGP.
Hinweise


Je mehr die grafische Darstellung Ihrer Daten einer Exponentialkurve gleicht, desto
besser wird die berechnete Kurve an diese Daten angepasst sein. Wie RGP liefert RKP
eine Matrix, deren Elemente die Beziehung zwischen den Werten beschreiben, wobei
RGP aber Ihren Daten eine gerade Linie anpasst; RKP passt eine Exponentialkurve an.
Weitere Informationen finden Sie unter RGP.
Wenn Sie nur eine unabhängige x-Variable haben, können Sie die Werte für die
Steigung (m) und den y-Schnittpunkt (b) mit den folgenden Formeln direkt ermitteln:
Steigung (m):
INDEX(RKP(Y_Werte;X_Werte);1)
y-Schnittpunkt (b):
INDEX(RKP(Y_Werte;X_Werte);2)
Mit Hilfe der Gleichung y = b*m^x können Sie zukünftige y-Werte abschätzen.
Solche Abschätzungen können Sie aber auch mit der von Microsoft Excel
bereitgestellten VARIATION-Funktion vornehmen. Weitere Informationen finden Sie
unter "VARIATION".



Formeln, die als Ergebnis eine Matrix liefern, müssen als Matrixformeln eingegeben
werden.
Wird eine Matrix-Konstante (wie zum Beispiel X_Werte) als Argument eingegeben,
müssen Sie Punkte verwenden, um Werte derselben Zeile zu trennen, und Semikola,
um die Zeilen zu trennen. Die Trennzeichen können entsprechend der
Ländereinstellung (in der Systemsteuerung unter Ländereinstellungen)
unterschiedlich sein.
Sie sollten daran denken, dass mit Hilfe einer Regressionsgleichung vorhergesagte yWerte eventuell ungültig sind, wenn diese außerhalb des Bereichs der y-Werte liegen,
mit denen Sie die Gleichung ermittelt haben.
17
Beispiel 1 m-Koeffizienten und die Konstante b
A
B
Monat
Einheiten
1
11
33.100
2
12
47.300
3
13
69.000
4
14
102.000
5
15
150.000
6
16
220.000
7
Formel
Formel
=RKP(B2:B7;A2:A7; WAHR; FALSCH)
Anmerkung Die Formel im Beispiel muss als Matrixformel eingegeben werden. Nachdem
Sie das Beispiel in ein leeres Arbeitsblatt kopiert haben, markieren Sie den Bereich A9:B9 ab
der Zelle mit der Formel. Drücken Sie F2 und dann STRG+UMSCHALT+EINGABE. Wird
die Formel nicht als Matrixformel eingegeben, lautet das einzige Ergebnis 1,463275628.
Wird die Formel als Matrix eingegeben, werden die m-Koeffizienten und die Konstante b
zurückgegeben.
y = b*m1^x1 beziehungsweise mit den Werten, die in der Matrix stehen: y = 495,3 * 1,4633x
Sie können die Verkaufszahlen für zukünftige Monate abschätzen, indem Sie den Exponenten
x dieser Gleichung durch die Nummer des gewünschten Monats ersetzen. Sie können hierzu
aber auch die VARIATION-Funktion einsetzen.
Beispiel 2 Vollständige Statistiken
A
B
Monat
Einheiten
1
11
33.100
2
12
47.300
3
13
69.000
4
14
102.000
5
15
150.000
6
16
220.000
7
Formel
=RKP(B2:B7;A2:A7; WAHR; WAHR)
18
Anmerkung Die Formel im Beispiel muss als Matrixformel eingegeben werden. Nachdem
Sie das Beispiel in ein leeres Arbeitsblatt kopiert haben, markieren Sie den Bereich A9:B13
ab der Zelle mit der Formel. Drücken Sie F2 und dann STRG+UMSCHALT+EINGABE.
Wird die Formel nicht als Matrixformel eingegeben, lautet das einzige Ergebnis 1,463275628.
Wird die Formel als Matrix eingegeben, werden folgende Regressionsstatistiken
zurückgegeben. Verwenden Sie diese Taste, um die gewünschte Statistik anzuzeigen.
Mit Hilfe der weiter oben berechneten zusätzlichen Regressionskenngrößen (Zellen A10:B13
in der Matrix weiter oben) können Sie entscheiden, wie gut die Gleichung geeignet ist, um
zukünftige Werte vorherzusagen.
Wichtig Die Methoden, nach denen Sie mit RKP eine Gleichung testen, sind weitgehend
identisch zu den Methoden für RGP. Allerdings basieren die zusätzlichen statistischen
Kenngrößen, die RKP liefert, auf dem folgenden linearen Modell:
ln y = x1 ln m1 + ... + xn ln mn + ln b
Diesen Sachverhalt sollten Sie bei der Auswertung der zusätzlichen statistischen Kenngrößen
beachten, besonders die Tatsache, dass die Werte sei und seb mit ln mi und ln b verglichen
werden müssen, nicht mit mi und b. Weitere Informationen finden Sie sicherlich in einem
ausführlichen Statistikbuch.
19
RGP
Berechnet die Statistik für eine Linie unter Verwendung der Methode der kleinsten Quadrate,
zur Berechnung einer geraden Linie, die für die Daten am geeignetsten ist, und gibt eine
Matrix zurück, die die Linie beschreibt. Da diese Funktion ein Wertarray liefert, muss die
Formel als Matrixformel eingegeben werden.
Die Gleichung einer solchen Geraden lautet:
y = mx + b oder
y = m1x1 + m2x2 + ... + b (bei mehreren Bereichen mit x-Werten)
Dabei ist der abhängige y-Wert eine Funktion der unabhängigen x-Werte. Die m-Werte sind
Koeffizienten, die zu den jeweiligen x-Werten gehören, und b ist eine Konstante. Beachten
Sie, dass y, x und m Vektoren sein können. Eine von RGP ausgegebene Matrix hat die Form
{mn;mn-1;...;m1;b}. RGP kann darüber hinaus zusätzliche Regressionskenngrößen
bereitstellen.
Syntax
RGP(Y_Werte;X_Werte;Konstante;Stats)
Y_Werte sind die y-Werte, die Ihnen bereits aus der Beziehung y = mx + b bekannt sind.


Besteht die Matrix Y_Werte aus nur einer Spalte, wird jede Spalte der Matrix
X_Werte als eigenständige Variable interpretiert.
Besteht die Matrix Y_Werte aus nur einer Zeile, wird jede Zeile der Matrix X_Werte
als eigenständige Variable interpretiert.
X_Werte sind optionale x-Werte, die Ihnen möglicherweise bereits aus der Beziehung y =
mx + b bekannt sind.


Die Matrix X_Werte kann eine oder mehrere Variablengruppen umfassen. Wird nur
eine Variable verwendet, können Y_Werte und X_Werte Bereiche beliebiger Form
sein, solange sie dieselben Dimensionen haben. Werden mehrere Variablen
verwendet, muss Y_Werte ein Vektor sein (das heißt ein Bereich, der aus nur einer
Zeile oder nur einer Spalte besteht).
Fehlt die Matrix X_Werte, wird an ihrer Stelle die Matrix {1;2;3;...} angenommen,
die genauso viele Elemente wie Y_Werte enthält.
Konstante ist ein Wahrheitswert, der angibt, ob die Konstante b den Wert 0 annehmen soll.


Ist Konstante mit WAHR belegt oder nicht angegeben, wird b normal berechnet.
Ist Konstante mit FALSCH belegt, wird b gleich 0 gesetzt, und die m-Werte werden
so angepasst, dass sie zu der Beziehung y = mx passen.
Stats ist ein Wahrheitswert, der angibt, ob zusätzliche Regressionskenngrößen ausgegeben
werden sollen.
20

Ist Stats mit WAHR belegt, liefert RGP weitere Regressionskenngrößen, so dass eine
wie folgt aufgebaute Matrix zurückgegeben wird: {mn;mn-1;...;m1;b.sen;sen1;...;se1;seb.r2;sey.F;df.ssreg;ssresid}.
Ist Stats mit FALSCH belegt oder nicht angegeben, liefert RGP nur die mKoeffizienten sowie die Konstante b.

Die folgenden Regressionskenngrößen (-statistiken) können zusätzlich ermittelt werden:
Kenngröße
(Statistik)
se1,se2,...,sen
Seb
Beschreibung
Sind die Standardfehler der Koeffizienten m1;m2;...;mn.
Der Standardfehler der Konstanten b (seb = #NV, wenn Konstante mit
FALSCH belegt ist).
r2
Das Bestimmtheitsmaß. Vergleicht die berechneten mit den tatsächlichen yWerten und kann Werte von 0 bis 1 annehmen. Hat es den Wert 1, besteht
für die Stichprobe eine vollkommene Korrelation: ein berechneter y-Wert
und der entsprechende tatsächliche y-Wert unterscheiden sich nicht. Im
anderen Extremfall, wenn das Bestimmtheitsmaß 0 ist, ist die
Regressionsgerade ungeeignet, einen y-Wert vorherzusagen. Informationen
darüber, wie r2 berechnet wird, finden Sie weiter unten unter "Hinweise".
sey
Der Standardfehler des Schätzwertes y (Prognosewert).
F
Die F-Statistik (oder der berechnete F-Wert). Anhand der F-Statistik können
Sie entscheiden, ob die zwischen der abhängigen und der unabhängigen
Variablen beobachtete Beziehung zufällig ist oder nicht.
df
Der Freiheitsgrad. Mit diesem Freiheitsgrad können Sie den jeweiligen
kritischen F-Wert (Quantil F) einer entsprechenden statistischen Tabelle
entnehmen. Vergleichen Sie den jeweils auf solche Weise ermittelten
kritischen F-Wert mit der von RGP gelieferten F-Statistik, um das
Konfidenzniveau Ihres Modells zu beurteilen.
ssreg
ssresid
Die Regressions-Quadratsumme.
Die Residual-Quadratsumme (Summe der Abweichungsquadrate).
Die folgende Abbildung zeigt, in welcher Reihenfolge die zusätzlichen
Regressionskenngrößen zurückgegeben werden.
Hinweise

Jede Gerade lässt sich durch ihre Steigung und die jeweilige Anfangsordinate (yAchsenabschnitt) beschreiben:
Steigung (m):
Die Steigung einer Geraden (häufig als m bezeichnet) lässt sich aus zwei Punkten der
Geraden, (x1,y1) und (x2,y2), gemäß der Beziehung (y2 - y1)/(x2 - x1) berechnen.
21
y-Achsenabschnitt (b):
Der y-Achsenabschnitt (häufig als b bezeichnet) ist der y-Wert des Punktes, in dem
die Gerade die y-Achse schneidet.
Eine Gerade wird durch die Gleichung y = mx + b beschrieben. Sobald Sie die Werte
von m und b kennen, können Sie jeden Punkt der Geraden berechnen, indem Sie den
jeweiligen y- oder x-Wert in die Gleichung einsetzen. Sie können dafür auch die
TREND-Funktion verwenden.

Wenn nur eine unabhängige x-Variable vorliegt, können Sie die Steigung und den yAchsenabschnitt direkt mit Hilfe der folgenden Formeln ermitteln:
Steigung:
=INDEX(RGP(Bekannte_y_Werte;Bekannte_x_Werte);1)
y-Achsenabschnitt:
=INDEX(RGP(Bekannte_y_Werte;Bekannte_x_Werte);2)





Die Genauigkeit einer von RGP berechneten Geraden hängt davon ab, wie sehr Ihre
Daten streuen. Je linearer die Daten sind, desto genauer ist das von RGP ermittelte
Modell. RGP verwendet die Methode der kleinsten Quadrate, um die für die
jeweiligen Daten beste Anpassung zu ermitteln. Wenn nur eine unabhängige xVariable vorliegt, werden m und b entsprechend der folgenden Formeln berechnet:
Die Regressionsfunktionen RGP (lineare Regression) und RKP (exponentielle
Regression) können die Koeffizienten der bezüglich der von Ihnen bereitgestellten
Daten optimal angepassten Geraden bzw. Exponentialkurve berechnen. Trotzdem ist
es nach wie vor Ihre Aufgabe, zu entscheiden, welches der beiden Ergebnisse besser
zu Ihren Daten passt. Bei einer Geraden können Sie TREND(Y_Werte;X_Werte),
bei einer Exponentialkurve können Sie VARIATION(Y_Werte, X_Werte)
berechnen. Werden diese Funktionen ohne das Argument Neue_x_Werte
verwendet, liefern sie eine Matrix mit y-Werten, die an den x-Werten Ihrer
tatsächlichen Datenpunkte als Vorhersagewerte auf der Geraden oder
Exponentialkurve liegen. Diese Vorhersagewerte können Sie mit den tatsächlichen
Werten vergleichen. Um eine bessere Vergleichsmöglichkeit zu haben, kann es
sinnvoll sein, die Werte in Diagrammen darzustellen.
Bei einer Regressionsanalyse berechnet Microsoft Excel für jeden Punkt das Quadrat
der Differenz, die zwischen dem für diesen Punkt berechneten y-Wert und dessen
tatsächlichen y-Wert liegt. Die Summe dieser quadrierten Differenzen wird
Residual-Quadratsumme genannt. Danach berechnet Microsoft Excel die Summe
der quadrierten Differenzen, die zwischen den tatsächlichen y-Werten und dem
Mittelwert der y-Werte liegen. Diese Summe wird als Gesamtsumme der
Abweichungsquadrate bezeichnet (Regressions-Quadratsumme + ResidualQuadratsumme). Je kleiner die Residual-Quadratsumme im Vergleich zu der
Gesamtsumme der Abweichungsquadrate ist, desto größer ist der Wert des
Bestimmtheitsmaßes (r2), das anzeigt, wie gut die aus der Regressionsanalyse
resultierende Gleichung die zwischen den Variablen bestehende Beziehung
beschreibt.
Formeln, die als Ergebnis eine Matrix liefern, müssen als Matrixformeln eingegeben
werden.
Wird eine Matrix-Konstante (wie zum Beispiel X_Werte) als Argument eingegeben,
müssen Sie Punkte verwenden, um Werte derselben Zeile zu trennen, und Semikola,
um die Zeilen zu trennen. Die Trennzeichen können entsprechend der
22

Ländereinstellung unterschiedlich sein (in der Systemsteuerung unter
Ländereinstellungen.
Beachten Sie, dass mit Hilfe einer Regressionsgleichung vorhergesagte y-Werte
eventuell keinen Sinn machen, wenn diese außerhalb des Bereiches der y-Werte
liegen, die Sie zur Ermittlung der Gleichung verwendet haben.
Beispiel 1 Steigung und y-Achsenabschnitt (Anfangsordinate)
A
B
y-Wert
x-Wert
1
1
0
2
3
4
3
5
2
4
7
3
5
Formel
Formel
=RGP(A2:A5;B2:B5;;FALSCH)
Anmerkung Die Formel im Beispiel muss als Matrixformel eingegeben werden. Nachdem
Sie das Beispiel in ein leeres Arbeitsblatt kopiert haben, markieren Sie den Bereich A7:B7 ab
der Zelle mit der Formel. Drücken Sie F2 und dann STRG+UMSCHALT+EINGABE. Wird
die Formel nicht als Matrixformel eingegeben, lautet das einzige Ergebnis 2.
Wird die Formel als Matrix eingegeben, werden die Steigung (2) und der y-Achsenabschnitt
(1) zurückgegeben.
Beispiel 2 Einfache lineare Regression
1
2
3
4
5
6
7
A
B
Monat
Umsatz
1
3100
2
4500
3
4400
4
5400
5
7500
6
8100
Formel
Beschreibung (Ergebnis)
=SUMME(RGP(B2:B7;
A2:A7)*{9;1})
Geschätzter Umsatz für den neunten Monat
(11000)
Im Allgemeinen ist SUMME({m;b}*{x;1}) gleich mx + b; dies ist der geschätzte y-Wert
eines gegebenen x-Wertes. Sie können dafür auch die TREND-Funktion verwenden.
23
Beispiel 3 Multiple lineare Regression
Angenommen, eine Immobilienfirma plant, mehrere Bürogebäude zu kaufen, die in einem gut
eingeführten Geschäftsviertel stehen.Ausgehend von den in der folgenden Tabelle
zusammengestellten Variablen kann die Firma mit Hilfe der multiplen linearen
Regressionsanalyse abschätzen, welchen Wert ein in einer bestimmten Gegend stehendes
Bürogebäude hat.
Variable
Beschreibt
y
den geschätzten Wert eines Bürogebäudes
x1
die Grundfläche in Quadratmetern
x2
die Anzahl von Büros
x3
die Anzahl von Eingängen
x4
das Alter des Bürogebäudes in Jahren
Für dieses Beispiel wird angenommen, dass zwischen den unabhängigen Variablen (x1, x2,
x3 und x4) und der abhängigen Variablen (y), die jeweils den Wert eines in der fraglichen
Umgebung stehenden Bürogebäudes angibt, eine lineare Beziehung besteht.
Die Immobilienfirma wählt aus 1500 möglichen Bürogebäuden nach dem Zufallsprinzip eine
Stichprobe von 11 Bürogebäuden und erhält die folgenden Daten: "Halber Eingang" bedeutet,
dass nur ein Lieferanteneingang vorhanden ist.
A
B
2
3
4
5
6
7
8
9
10
11
12
D
E
Büroräume Eingänge Alter Schätzwert
(x2)
(x3)
(x4)
(y)
Grundfläche (x1)
1
C
2310
2
2
20
142.000
2333
2
2
3,60
144.000
2356
3
1,5
33
151.000
2379
3
2
43
150.000
2402
2
3
53
139.000
2425
4
2
23
169.000
2448
2
1,5
99
126.000
2471
2
2
34
142.900
2494
3
3
23
163.000
2517
4
4
55
169.000
2540
2
3
22
149.000
Formel
=RGP(E2:E12;A2:D12;WAHR;WAHR)
24
Anmerkung Die Formel im Beispiel muss als Matrixformel eingegeben werden. Nachdem
Sie das Beispiel in ein leeres Arbeitsblatt kopiert haben, markieren Sie den Bereich A14:E18
beginnend mit der Formelzelle. Drücken Sie F2 und dann STRG+UMSCHALT+EINGABE.
Wird die Formel nicht als Matrixformel eingegeben, lautet das einzige Ergebnis 234,2371645.
Wird die Formel als Matrix eingegeben, werden folgende Regressionsstatistiken
zurückgegeben. Verwenden Sie diese Taste, um die gewünschte Statistik anzuzeigen.
Mit den in Zeile 14 stehenden Werten kann jetzt die Gleichung für die multiple lineare
Regression (y = m1*x1 + m2*x2 + m3*x3 + m4*x4 + b) formuliert werden:
y = 27,64*x1 + 12.530*x2 + 2.553*x3 - 234,24*x4 + 52.318
Die Immobilienfirma kann jetzt den Schätzwert eines 25 Jahre alten Bürogebäudes ermitteln,
das in demselben Geschäftsviertel steht, eine Grundfläche von 2.500 Quadratmetern hat, drei
Büros umfasst und zwei Eingänge hat. Dazu verwendet die Firma folgende Gleichung:
y = 27,64*2500 + 12530*3 + 2553*2 - 234,24*25 + 52318 = 158.261 Euro
Sie können auch die folgende Tabelle in Zelle A21 der Beispiel-Arbeitsmappe kopieren.
Grundfläche
(x1)
Büroräume
(x2)
Eingänge
(x3)
Alter
(x4)
2500
3
2
25
Schätzwert (y)
=D14*A22 + C14*B22 +
B14*C22 + A14*D22 + E14
Sie können diesen Wert auch mit der TREND-Funktion berechnen.
Beispiel 4 Einsetzen der F- und der R2-Statistik (F-Test und Bestimmtheitsmaß)
In dem vorherigen Beispiel hat der Bestimmtheitskoeffizient (oder r2) den Wert 0,99675
(siehe Zelle A17 in der von RGP erzeugten Ausgabe). Dieser Wert zeigt einen starken
Zusammenhang zwischen den unabhängigen Variablen und dem jeweiligen Verkaufspreis an.
Mit Hilfe der F-Statistik können Sie prüfen, ob diese Ergebnisse mit einem derart großen
Bestimmtheitsmaß (r2) zufällig sind oder nicht.
Stellen Sie dazu die Hypothese auf, dass zwischen den Variablen eigentlich kein
Zusammenhang besteht, sondern dass Sie nur zufällig eine Stichprobe von 11 Bürogebäuden
erhoben haben, für die die statistische Analyse einen starken Zusammenhang anzeigt. Um die
Wahrscheinlichkeit zu beschreiben, mit der irrtümlich ein Zusammenhang ermittelt wird, wird
die Irrtumswahrscheinlichkeit "Alpha" verwendet.
Es besteht ein Zusammenhang zwischen den Variablen, wenn der bei dem F-Test berechnete
F-Wert größer ist als der kritische F-Wert. Den kritischen F-Wert können Sie entsprechenden
Tabellen entnehmen, die Sie in vielen Statistikbüchern finden. Um eine solche Tabelle für
dieses Beispiel auswerten zu können, nehmen Sie Folgendes an: Der Test ist einseitig; als
Alpha-Quantil wird 0,05 verwendet; für die Freiheitsgrade (in den meisten Tabellen mit v1
25
und v2 bezeichnet) werden v1 = k = 4 und v2 = n – (k + 1) = 11 – (4 + 1) = 6 verwendet,
wobei k für die Anzahl von bei der Regressionsanalyse verwendeten Variablen und n für die
Anzahl von Datenpunkten steht. Dafür ergibt sich ein kritischer F-Wert von 4,53.
Der berechnete F-Wert ist 459,753674 (Zelle A18) und damit deutlich größer als der kritische
F-Wert von 4,53. Daher ist die gefundene Regressionsgleichung geeignet, den Schätzwert
eines Bürogebäudes zu ermitteln, das zu dem fraglichen Büroviertel gehört.
Beispiel 5 Berechnen Der T-Statistik (T-Test)
Mit Hilfe einer anderen Hypothese kann festgestellt werden, ob die einzelnen
Steigungskoeffizienten geeignet sind, den Schätzwert eines der im Beispiel 3 aufgeführten
Bürogebäude zu berechnen. Um zum Beispiel den Koeffizienten für das Gebäudealter
bezüglich der statistischen Wahrscheinlichkeit (Sicherheit) zu prüfen, dividieren Sie –234,24
(Steigungskoeffizient für das Alter) durch 13,268 (der in Zelle 15 stehende Standardfehler des
Alterskoeffizienten). Daraus ergibt sich der folgende t-Wert:
t = m4 ÷ se4 = -234,24 ÷ 13,268 = -17,7
Wenn Sie die entsprechende Tabelle eines Statistikbuches zu Rate ziehen, werden Sie
feststellen, dass der kritische t-Wert bei einem einseitigen Test mit 6 Freiheitsgraden und
Alpha = 0,05 den Wert 1,94 hat. Da der Absolutwert von t (17,7) größer als 1,94 ist, ist das
Alter eine zuverlässige Variable, um den Schätzwert eines Bürogebäudes zu ermitteln. Für
alle weiteren unabhängigen Variablen kann die statistische Wahrscheinlichkeit auf dieselbe
Weise geprüft werden. Für die anderen unabhängigen Variablen werden die folgenden tWerte ermittelt:
Variable
Berechneter t-Wert
Grundfläche
5,1
die Anzahl von Büros
31,3
die Anzahl von Eingängen
4,8
Alter
17,7
Alle Werte haben einen Absolutwert, der größer als 1,94 ist. Daher sind alle Variablen, die in
der Regressionsgleichung verwendet werden, geeignet, den Schätzwert eines zum fraglichen
Büroviertel gehörenden Bürogebäudes zu bestimmen.
26
Beschreibung von (metrischen) Daten
univariat
numerisch
grafisch
Mittelwerte
Streuungsmaße
Quantile
Konzentrationsmaße
...
Histogramm
Boxplot
Quantilsplot
Plot gegen Zeit
Symmetrieplot
bivariat
multivariat
Kovarianz
multiple Korrelation
Korrelation
Hauptkomponenten
Assoziationsmaße
Scatterplot
Trendlinien
Umsetzung mit Excel
Chernov-Gesichter
Andrews-Kurven
interaktive 3D-Plots
Scatterplotmatrizen
Clusterdarstellung
MDS
Beispiele/Kommentare
einzelne
numerische
Kennzahlen
entsprechende Formel
aufrufen
(z.B.Funktionsassistent->
Kategorie Statistik-> ...)
Syntax beachten! Hilfe
konsultieren!
=MITTELWERT(A1:A100)
=VARIANZ(A1:A100)
=QUARTILE(A1:A100;3)
=KORREL(B1:B100;C1:C100)
mehrere
numerische
Kennzahlen
Analyse-Funktion
Populationskenngrößen
(Extras->Analyse-Funktionen>...)
Ergebnisse werden als Zahl,
nicht als Formel geliefert
=> keine Änderung beim
Ändern der ursprünglichen
Daten!
Analyse-Funktion
Histogramm
(Extras->Analyse-FunktionenHistogramm >...)
oder Matrix-Funktion
HÄUFIGKEIT() und
Diagramm-Assistent (Säulen)
Klassenzugehörigkeit wird mit
“über ... bis gleich ...” ermittelt!!
Säulenabstände nachträglich
auf 0 setzen!
Beschriftung korrigieren!
nur bei gleichen
Klassenbreiten !!
Plot gegen
Zeit
Diagramm-Assistent ...
Säule oder Linie
Zeitreihe darf keine fehlenden
Werte haben!
Scatterplot
Diagramm-Assistent ... Punkt
(XY)
Trendlinie
im Scatterplot Datenpunkt
markieren
Diagramm-> Trendlinie
hinzufügen ...
Boxplot
Symmetrieplot in Excel nicht standardmäßig
multivariate
implementiert!
Darstellungen
27
Gleitende Durchschnitte
werden dem letzten, nicht dem
mittleren Datenpunkt
zugeordnet.
28
Herunterladen