Daniela Feuersinger, A-121 9947894 MULTIPLE REGRESSION/KORRELATION Ziel der mehrfachen Regression ist s, aus mehreren unabhängigen Variablen eine abhängige Variable zu schätzen bzw. vorherzusagen. Gleichung: y= b1*x1 + b2*x2 + … + bn*xn + a Es geht darum, die Koeffizienten der Gleichung zu schätzen, wobei n die Anzahl der unabhängigen Variablen ist, die mit x1 bis xn bezeichnet sind; a ist eine Konstante. Die Beta-Koeffizienten sind auf den jeweiligen Wertebereich standardisierte Regressionskoeffizienten und geben die Wichtigkeit der aufgenommenen unabhängigen Variablen an. Ein wichtiger Punkt ist die Überprüfung der Residuen, also die Abweichung der beobachteten von den theoretischen zu erwartenden Werten. Diese sollen zufällig auftreten und normal verteilt sein. 1. Hypothese Hypothese: Es gibt einen Zusammenhang den Variablen. Unabhängige Variablen: Familienstand (qualitative Var.) und Haushaltseinkommen (intervallskaliert) Abhängige Variable: erfolgreich sein, Erfolg haben (0-gar nicht, 10-in hohem Masse) Ich nehme an, dass man sich eher als erfolgreich bezeichnet, wenn man nicht geschieden oder ledig ist und außerdem noch ein hohes Haushaltseinkommen hat. Deskriptive Statistiken erfolgreich sein, Erfolg haben Haushaltsnettoe inkommen Familienstand Mittelwert Standardab weichung 6,32 2,36 1238 8,39 4,86 1238 1,00 ,84 1238 N Der Mittelwert von 6,32 bedeutet, dass im Durchschnitt mehr als die Hälfte der Befragten Personen denken, dass sie erfolgreich sind. Modellzusammenfassungb Modell 1 R ,223a R-Quadrat ,050 Korrigiertes R-Quadrat ,048 Standardf ehler des Schätzers 2,31 a. Einflußvariablen : (Konstante), Familienstand, Haushaltsnettoeinkommen b. Abhängige Variable: erfolgreich s ein, Erfolg haben R-Quadrat: 0,050 = 5,0% werden erklärt Koeffizientena Modell 1 (Konstante) Haushaltsnett oeinkommen Familienstand Nicht s tandardis ierte Koeffizienten Standardf B ehler 5,969 ,180 Standardi sierte Koeffizien ten Beta T 33,116 Signifikanz ,000 7,848E-02 ,014 ,161 5,466 ,000 -,306 ,083 -,109 -3,690 ,000 a. Abhängige Variable: erfolgreich sein, Erfolg haben ANOVAb Modell 1 Regres sion Residuen Gesamt Quadrats umme 344,438 6569,610 6914,048 df 2 1235 1237 Mittel der Quadrate 172,219 5,320 F 32,375 Signifik anz ,000a a. Einfluß variablen : (Kons tant e), Familiens tand, Haushalts nett oeinkommen b. Abhängige Variable: erfolgreich sein, Erfolg haben Beta-Werte-Vergleich: Beide Variablen leisten ca. gleich viel. Sie sind relevante Faktoren. Regressionslinie: y= b1*x1 + b2*x2 + a y= -0,306 * Familienstand + 0,07848 * Haushaltsnettoeinkommen + 5,969 Die Signifikanz bezieht sich immer auf H0 (die Variablen sind unabhängig), und da die Signifikanz 0,000 ist, muss man H0 ablehnen. F=32,375 H0 verwerfen es besteht ein Zusammenhang Histogramm Abhängige Variable: erfolgreich sein, Erfolg haben 140 120 100 80 Häufigkeit 60 40 Std.abw. = 1,00 20 Mittel = 0,00 0 N = 1238,00 00 2, 50 1, 00 1, 0 ,5 00 0, 0 -,5 0 ,0 -1 0 ,5 -1 0 ,0 -2 0 ,5 -2 0 ,0 -3 Regression Standardisiertes Residuum Die Residuen sind normal verteilt. 2. Hypothese Hypothese: Es gibt einen Zusammenhang den Variablen. Unabhängige Variablen: sich junger fühlen als das eigene Alter (qualitative Var.) und Selbstbewusstsein (mit sich selbst zufrieden sein) und Altersgruppe (intervallskaliert) Abhängige Variable: gut aussehen, für andere attraktiv sein (0-gar nicht, 10-in hohem Masse) Ich nehme an, dass man sich eher angibt gut auszusehen, wenn man sich jung fühlt, leicht zufrieden zu stellen ist und jung ist. De skriptive Statistike n gut aussehen, fuer andere attraktiv sein Juenger/0aeter fuehlen als eigenes Alter Selbst : leic ht-s chwer zufriedenz ustellen Altersgruppe (Dekaden) Mittelwert St andardab weichung 5,96 2,54 1278 2,27 1,00 1278 3,34 1,64 1278 4,00 1,88 1278 N Der Mittelwert von 5,96 bedeutet, dass im Durchschnitt ein bisschen mehr als die Hälfte der Befragten Personen denken, dass sie gut aussehen. b Model lzusam menfassung Modell 1 R R-Quadrat ,335a ,112 Korrigiertes R-Quadrat ,110 St andardf ehler des Sc hätz ers 2,40 a. Einfluß variablen : (Kons tant e), Altersgruppe (Dek aden), Juenger/0aeter fuehlen als eigenes Alter, Selbst : leicht-s chwer z ufriedenzust ellen b. Abhängige Variable: gut aussehen, fuer andere attraktiv sein R-Quadrat: 0,112 = 11,2% werden erklärt Koeffi zientena Modell 1 Nicht s tandardisierte Koeffiz ient en St andardf B ehler 8,161 ,296 (K onst ante) Juenger/0aeter fuehlen -,335 als eigenes Alt er Selbst : leic ht-s chwer 6,925E -02 zufriedenz ustellen Altersgruppe (Dekaden) -,419 St andardi sierte Koeffiz ien ten Beta T 27,569 Signifik anz ,000 ,068 -,132 -4, 949 ,000 ,042 ,045 1,646 ,100 ,037 -,310 -11,357 ,000 a. Abhängige Variable: gut aussehen, fuer andere attraktiv sein ANOVAb Modell 1 Regres sion Residuen Gesamt Quadrats umme 926,135 7330,667 8256,802 df 3 1274 1277 Mittel der Quadrate 308,712 5,754 F 53,651 Signifikanz ,000a a. Einflußvariablen : (Konstante), Altersgruppe (Dekaden), Juenger/0aeter fuehlen als eigenes Alter, Selbst: leicht-schwer zufriedenzustellen b. Abhängige Variable: gut auss ehen, fuer andere attraktiv sein Beta-Werte-Vergleich: Die beide Variablen „sich jünger fühlen und die Altersgruppen relevante Faktoren. Das Selbstbewusstsein sollte ausgetauscht werden, da diese Variable nichts leistet. Regressionslinie: y= b1*x1 + b2*x2 + b3*x3 + a y= -0,335 * jünger fühlen + 0,06925 * Selbstbewusstsein - 0,419 * Altersgruppe + 8,161 F=53,651 H0 verwerfen es besteht ein Zusammenhang Histogramm Abhängige Variable: gut aus sehen, fuer andere attraktiv s ein 140 120 100 80 Häufigkeit 60 40 Std.abw. = 1,00 20 Mittel = 0,00 0 N = 1278,00 50 2, 00 2, 50 1, 00 1, 0 ,5 00 0, 0 -,5 0 ,0 -1 0 ,5 -1 0 ,0 -2 0 ,5 -2 0 ,0 -3 Regression Standardisiertes Residuum Die Residuen sind normal verteilt. 3. Hypothese Hypothese: Es gibt einen Zusammenhang den Variablen. Unabhängige Variablen: Familienstand (qualitative Var.) und Ortsgrösse (intervallskaliert) Abhängige Variable: einsam sein, Einsamkeit (0-gar nicht, 10-in hohem Masse) Ich nehme an, dass man sich eher einsam ist, wenn man nicht verheiratet ist und in einem großen Ort lebt, da dort die Anonymität höher ist man wahrscheinlich weniger Leute kennt. De skri ptive Statistiken einsam sein, unter Einsamkeit leiden Familienstand Ortsgr00e Mittelwert St andardab weichung 2,14 2,72 1303 ,99 5,09 ,84 2,65 1303 1303 N Der Mittelwert von 2,14 bedeutet, dass die Befragten Personen eher nicht einsam sind. Modellzusammenfassungb Modell 1 R ,223a R-Quadrat ,050 Korrigiertes R-Quadrat ,048 Standardf ehler des Schätzers 2,65 a. Einflußvariablen : (Konstante), Ortsgr00e, Familienstand b. Abhängige Variable: eins am sein, unter Einsamkeit leiden R-Quadrat: 0,050 = 5,0% werden erklärt Koeffizientena Modell 1 (Konstante) Familienstand Ortsgr00e Nicht s tandardis ierte Koeffizienten Standardf B ehler 1,745 ,173 ,721 ,088 -6,19E-02 ,028 Standardi sierte Koeffizien ten Beta ,223 -,060 a. Abhängige Variable: eins am s ein, unter Einsamkeit leiden T 10,061 8,180 -2,215 Signifikanz ,000 ,000 ,027 ANOVAb Modell 1 Regres sion Residuen Gesamt Quadrats umme 480,520 9143,643 9624,163 df 2 1300 1302 Mittel der Quadrate 240,260 7,034 F 34,159 Signifik anz ,000a a. Einfluß variablen : (Kons tant e), Ortsgr00e, Familiens tand b. Abhängige Variable: einsam sein, unter Eins amkeit leiden Beta-Werte-Vergleich: Die Ortsgrösse sollte ausgetauscht werden (ev. durch die Haushaltsgrösse), da diese Variable nichts leistet. Der Familienstand ist der relevante Faktor. Regressionslinie: y= b1*x1 + b2*x2 + a y= 0,721* Familienstand - 0,0619 * Ortsgrösse + 1,745 F=34,159 H0 verwerfen es besteht ein Zusammenhang Histogramm Abhängige Variable: einsam sein, unter Einsamkeit leiden 400 300 Häufigkeit 200 100 Std.abw. = 1,00 Mittel = 0,00 N = 1303,00 0 25 3, 0 0 3, 5 7 2, 0 5 2, 5 2 2, 0 0 2, 5 7 1, 0 5 1, 5 2 1, 0 0 1, 5 ,7 0 ,5 5 ,2 0 0 0, 5 -,20 -,55 -,,700 -1 25 , -1 50 , -1 Regression Standardisiertes Residuum Die Residuen sind normal verteilt. 4. Hypothese Hypothese: Es gibt einen Zusammenhang den Variablen. Unabhängige Variablen: Familienstand (qualitative Var.) und Haushaltsgrösse Abhängige Variable: einsam sein, Einsamkeit (0-gar nicht, 10-in hohem Masse) Ich nehme an, dass man sich eher einsam ist, wenn man nicht verheiratet ist und im Haushalt mehr Personen leben. De skri ptive Statistiken einsam sein, unter Einsamkeit leiden Familienstand Haushaltsgroes se Mittelwert St andardab weichung 2,14 2,72 1303 ,99 2,01 ,84 1,32 1303 1303 N Der Mittelwert von 2,14 bedeutet, dass die Befragten Personen eher nicht einsam sind. Modellzusammenfassungb Modell 1 R ,239a R-Quadrat ,057 Korrigiertes R-Quadrat ,056 Standardf ehler des Schätzers 2,64 a. Einflußvariablen : (Konstante), Haushaltsgroes se, Familienstand b. Abhängige Variable: eins am sein, unter Einsamkeit leiden R-Quadrat: 0,057 = 5,7% werden erklärt Koeffi zientena Modell 1 (Konst ante) Familienstand Haushaltsgroes se Nic ht s tandardisiert e Koeffiz ienten St andardf B ehler 2,093 ,199 ,537 ,096 -,239 ,061 St andardi sierte Koeffiz ien ten Beta ,166 -,116 a. Abhängige Variable: einsam sein, unter Eins amk eit leiden T 10,504 5,579 -3, 891 Signifik anz ,000 ,000 ,000 ANOVAb Modell 1 Regres sion Residuen Gesamt Quadrats umme 551,657 9072,506 9624,163 Mittel der Quadrate 275,828 6,979 df 2 1300 1302 F 39,523 Signifik anz ,000a a. Einfluß variablen : (Kons tant e), Haus halt sgroess e, Familienst and b. Abhängige Variable: einsam sein, unter Eins amkeit leiden Beta-Werte-Vergleich: Beide Variablen leisten ca. gleich viel. Sie sind relevante Faktoren. Regressionslinie: y= b1*x1 + b2*x2 + a y= 0,537* Familienstand - 0,239 * Haushaltsgrösse + 2,093 Die Signifikanz bezieht sich immer auf H0 (die Variablen sind unabhängig), und da die Signifikanz 0,000 ist, muss man H0 ablehnen. F=39,523 H0 verwerfen es besteht ein Zusammenhang Histogramm Abhängige Variable: einsam sein, unter Eins amkeit leiden 300 200 Häufigkeit 100 Std.abw. = 1,00 Mittel = 0,00 N = 1303,00 0 25 3, 0 0 3, 5 7 2, 0 5 2, 5 2 2, 0 0 2, 5 7 1, 0 5 1, 5 2 1, 00 1, 5 ,7 0 ,5 5 ,2 0 0 0, 5 -,20 -,55 -,,700 -1 25 , -1 50 , -1 Regression Standardisiertes Residuum Die Residuen sind normal verteilt.