. . Tabellenkalkulationsprogramme in der Pädagogik . . Hiermit erkläre ich an Eides statt, die vorliegende Forschungsarbeit selbstständig und ohne unzulässige Hilfe angefertigt zu haben. Die verwendeten Literaturquellen sind im Literaturverzeichnis vollständig aufgeführt. Frank Rollinger Frank Rollinger Candidat-professeur au Lycée Technique Mathias Adam Tabellenkalkulationsprogramme in der Pädagogik Lamadelaine 2015 Zusammenfassung Der theoretische Teil beinhaltet die Entstehungsgeschichte und die Entwicklung von den ersten einfachen Tabellenprogrammen hin zu der heute aktuellen Software. Die wichtigsten Entwicklungsschritte dieser Programme werden herauskristallisiert und in chronologischer Reihenfolge mit dem geschichtlichen Hintergrund beleuchtet. Anschließend wird die Wichtigkeit analysiert, die dem Einsatz solcher Programme an den Universitäten, sowie an den Klassen der Oberstufe des „Enseignement secondaire“ heutzutage zukommt. Dies erfolgt mittels Umfragebögen, durch die man ein möglichst objektives Bild über den Einsatz von Tabellenkalkulationsprogrammen in der Ausbildung und im Berufsleben sowie im privaten Einsatz liefert. Der praktische Teil kombiniert Konzepte aus der deskriptiven Statistik mit dem Einsatz von Tabellenkalkulationsprogrammen. Also Kenntnisse, die in der Ausbildung und in der beruflichen Karriere heutzutage immer öfter vorausgesetzt und eingesetzt werden. Durch die Benutzung von Tabellenkalkulationsprogrammen kann man die Zusammenhänge der Kennziffern besser veranschaulichen und interpretieren. Am Ende des Kurses sollen die Auszubildenden selbstständig in der Lage sein, ein Tabellenkalkulationsprogramm für ihre individuellen Zwecke effizient einzusetzen. Inhaltsverzeichnis I Theoretischer Teil 3 1 Geschichtlicher Hintergrund 5 2 Bedarf an Tabellenkalkulationssoftware 2.1 Vorbereitungen . . . . . . . . . . . . . . 2.2 Der Umfragebogen . . . . . . . . . . . . 2.3 Auswertung des Fragebogens . . . . . . 2.4 Excel und die Statistik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 . 9 10 11 16 II Praktischer Teil 19 3 Einführung in Microsoft Excel 3.1 Grundlagen . . . . . . . . . . . . . . . . . 3.2 Die ersten Schritte . . . . . . . . . . . . . 3.2.1 Die Arbeitsoberfläche . . . . . . . . 3.2.2 Zellinhalte formatieren . . . . . . . . 3.2.3 Formeln, Shortcuts und Funktionen . 23 23 23 23 26 30 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 Häufigkeiten und Diagramme 37 4.1 Einführungsbeispiel . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 4.2 Histogramme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42 5 Zentralwerte 5.1 Der Modus . . . . . . . . 5.2 Der Median . . . . . . . . 5.3 Das arithmetische Mittel . 5.4 Wann nimmt man welchen . . . . . . . . . . . . . . . . . . . . . . . . Zentralwert? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49 49 51 58 61 ii Inhaltsverzeichnis 6 Streuungsmaße 65 6.1 Die Spannweite . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65 6.2 Die Standardabweichung . . . . . . . . . . . . . . . . . . . . . . . . . 66 7 Korrelation 71 7.1 Der Korrelationskoeffizient . . . . . . . . . . . . . . . . . . . . . . . . 71 7.2 Grafische Darstellung . . . . . . . . . . . . . . . . . . . . . . . . . . 77 7.3 Die Regressionsgerade . . . . . . . . . . . . . . . . . . . . . . . . . . 82 Literaturverzeichnis 101 A 103 104 106 106 108 110 114 Anhang A.1 Ein Histogramm mit Geogebra erstellen A.2 Weitere Mittelwerte . . . . . . . . . . . A.2.1Das harmonische Mittel . . . . . . A.2.2Das geometrische Mittel . . . . . . A.3 Wörterbuch . . . . . . . . . . . . . . . . A.4 Aufgabenstellungen . . . . . . . . . . . . . . . . . . . . . . . . Travail de candidature . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Eigentlich weiß man nur, wenn man wenig weiß. Mit dem Wissen wächst der Zweifel. Johann Wolfgang von Goethe Teil I. Theoretischer Teil 1. Geschichtlicher Hintergrund In früheren Zeiten ohne Computer mussten alle Berechnungen von Hand oder im Kopf ausgeführt werden. Bei kleinen Rechnungen und weniger Operationsfolgen sollte dies für die meisten Menschen kein Problem darstellen. Werden es aber mehr Operationen oder hängt das Endergebnis von vielen anderen Ergebnissen ab, impliziert das Abändern einer einzelnen Variable oder Zahl, dass alle nachfolgenden Rechnungen ebenfalls neu ausgeführt werden müssen. Die Buchhaltung ist ein klassisches Beispiel dafür. Die kleinsten Parameteränderungen, ja sogar einige wenige „Wenn-dann“ Szenarien benötigen gegebenenfalls mehrere Arbeitsstunden. Mit der Verbreitung der ersten Computer kam Dan Bricklin während einer Vorlesung, in der der Professor alle Berechnungen umständlich mit einem Schwamm und Kreide neu anpassen musste, auf die Idee, diese Berechnungen mit dem Computer zu automatisieren. Dies sollte so geschehen, dass man nicht alle Rechnungen einzeln neu berechnen musste, sondern alle Werte automatisch neu ausgeführt werden, wenn sich eine davon abhängige Zahl ändert. Mit der Umsetzung dieser Idee wurde 1979 von Dan Bricklin die erste Tabellenkalkulationssoftware entwickelt. Er schrieb die Anwendung für einen Apple-Computer und nannte sie VisiCalc.1 Der größte Vorteil von Bricklins VisiCalc bestand demzufolge darin, dass es in Sekundenbruchteilen eine Vielzahl von Berechnungen automatisch ausführen konnte. Für die Verbreitung war es jedoch viel wichtiger, dass VisiCalc ohne Programmierkenntnisse bedient werden konnte und die Benutzung damit nicht nur Computerexperten und „Nerds“ vorenthalten war. VisiCalc mauserte sich dadurch zu einer sogenannten „Killerapp2 “: eine Killerapp bezeichnet ein Computerprogramm, das den Kauf eines ganzen Computers rechtfertigt. In diesem Fall durch die extrem schnelle Berechnung verschiedener Szenarien, gepaart mit der einfachen Bedienung, die unzählige Arbeitsstunden von Angestellten und damit sehr hohe Arbeitszeiten und -kosten, einsparte. Der Kaufpreis eines damals sehr teuren Computers war allein mit VisiCalc also schnell amortisiert.3 VisiCalc war zudem die erste kommerziell benutzte Software in dem Bereich der Tabellenkalkulationssoftware. Bricklin selbst brachte dies allerdings keinerlei finanziel1 Siehe [16]. Der Begriff „Killerapp“ wurde von VisiCalc mitbegründet. Siehe [8]. 3 Siehe [8]. 2 6 1. Geschichtlicher Hintergrund le Bereicherung, denn er versäumte es wegen der damaligen Situation, aber auch wegen schlechter Beratung, sein Programm 1979 patentieren zu lassen. Hier ein Auszug aus Bricklins Stellungnahme, wieso er VisiCalc nicht schützen ließ: „[...] in 1979, when VisiCalc was shown to the public for the first time, patents for software inventions were infrequently granted. Programs were thought to be mere mathematical algorithms, and mathematical algorithms, as laws of nature, were not patentable. [...] The patent attorney explained to us the difficulty of obtaining a patent on software, and estimated a 10% chance of success, even using various techniques for hiding the fact that it was really software (such as proposing it as a machine). [...] If I invented the spreadsheet today, of course I would file for a patent. That’s the law of the land...today. The companies I have been involved with since Software Arts have filed for patents on many of their inventions. In 1979, almost nobody tried to patent software inventions.“4 Detailliertere geschichtliche Hintergründe sowie Texte und Bilder sind auf Bricklins persönlicher Homepage veröffentlicht und erlauben es anhand von Originaldokumenten, nachträglich veröffentlichten Stellungnahmen und älteren Videos aus jener Zeit, weiter in die Geschichte von VisiCalc und der damaligen Epoche einzutauchen.5 Ohne Patentierung erschienen sehr schnell Konkurrenzprogramme zu Bricklins VisiCalc, die dem Original mit der Zeit den Rang abliefen. Die Firma Lotus Software veröffentlichte 1983 das erste Tabellenkalkulationsprogramm namens Lotus 1-2-3 mit einer grafischen Oberfläche.6 Die Software war bis Ende der Achtziger einer der Marktführer und begründete nebenbei die Erfolgsgeschichte des IBM-PC, da die Software auf diesen PC zugeschnitten war. Nachdem Lotus 1-2-3 aus verschiedenen Gründen an Bedeutung verlor, kam es nie wieder an seine anfängliche Popularität heran und die Anwendung wurde schließlich von IBM selbst aufgekauft. Seit 2013 wird das Programm nicht mehr verkauft und ab dem 30. September 2014 wurde jegliche Unterstützung der Anwendung eingestellt.7 Neben Lotus 1-2-3 ist das Programm Boeing Calc des gleichnamigen Flugzeugherstellers zu erwähnen. Anfangs wurde Boeing Calc für firmeneigene Bedürfnisse entwickelt, später jedoch auch als Software für PCs verkauft. Bekannt wurde es unter anderem wegen den dreidimensionalen Tabellen8 , so wie man sie in den heuti4 Das komplette Zitat, sowie weiterführende Dokumente findet man in [2]. Siehe [3]. 6 Siehe [14]. 7 Siehe [13]. 8 Siehe [12]. 5 Travail de candidature 7 gen Kalkulationsprogrammen kennt: die ersten zwei Dimensionen wurden wie bisher üblich durch Zeilen und Spalten dargestellt, die dritte Dimension erhielt man durch das Hinzufügen von weiteren Tabellenblättern. 1993 wurde das Programm Lotus Improv veröffentlicht.9 Wie der Name vermuten lässt stammte es von demselben Entwickler wie Lotus 1-2-3. Das neue Produkt war aber keineswegs eine simple Weiterentwicklung von Lotus 1-2-3, sondern ein direktes Konkurrenzprodukt. Der Unterschied zum bereits existierenden Produkt bestand darin, dass die Daten nicht wie bisher direkt in die Zellen geschrieben wurden, sondern den Zellen wurden Namen zugeordnet, wie etwa „Verkaufte Einheiten“ und „Preis“. Anschließend wurde der Gewinn mit der Formel „Gewinn = Verkaufte Einheiten * Preis“ berechnet. Danach rechnete man mit dem „Gewinn“ weiter, ohne die genannte Formel nochmal eingeben zu müssen. Mit dieser Vorgehensweise lassen sich die Daten sehr einfach kategorisieren und gruppieren. Heutzutage wird eine ähnliche Vorgehensweise in modernen Datenbankprogrammen angewendet. Trotz des zu diesem Zeitpunkt großen technologischen Vorsprungs blieb Lotus Improv der Erfolg verwehrt. Ob es daran lag, dass die Technologie zu früh kam, lässt sich nicht eindeutig belegen. Es könnte auch daran gelegen haben, dass die bereits vorhandenen Produkte so weit verbreitet waren, dass sich die Benutzer schwertaten, sich in ein neues System einzuarbeiten. Microsoft integrierte Jahre später unter der Bezeichnung „Pivot-Tabelle“ eine ähnliche Vorgehensweise wie die, die Lotus Improv bereits 1993 besaß, in sein eigenes Produkt namens Excel. Die erfolgreiche Idee von VisiCalc und später Lotus 1-2-3 wurde ebenfalls von Microsoft übernommen. Zunächst wurde die Tabellenkalkulationssoftware namens Multiplan im Jahre 1982 veröffentlicht, die 1985 von Excel abgelöst wurde. Die beiden wichtigsten Neuerungen in Excel waren zum einen die grafische Oberfläche, die Lotus 1-2-3 bereits zwei Jahre früher einführte, und zum anderen die erstmalige Unterstützung der Maus als Eingabegerät. In seinen Anfangsjahren war Excel nur für Apple Macintosh verfügbar und im Jahr 1988 kam eine erste Version für Windows auf den Markt. Bis heute gibt es Excel immer noch für Apples Betriebssystem zu kaufen. Seit 1983 hatten sich die sogenannten „integrierten Office-Pakete“ von verschiedenen Software-Entwicklern durchgesetzt. Sie beinhalteten mehrere Büroprogramme gleichzeitig, wie zum Beispiel eine Anwendung für Tabellenkalkulationen und eine für Textverarbeitungen. Microsoft ließ seine Pendants Excel und Word allerdings noch getrennt, ehe es 1989 die erste Office-Version zusammen mit Powerpoint ausschließlich für den Macintosh von Apple veröffentlichte. Drei Jahre später, zu9 Siehe [17]. Travail de candidature 8 1. Geschichtlicher Hintergrund sammen mit Windows 3.1, erschien die erste Office-Ausgabe für Windows.10 Seitdem ist Excel fester Bestandteil der bis heute vertriebenen Office-Produktreihe von Microsoft. 10 Siehe [14]. Travail de candidature 2. Bedarf an Tabellenkalkulationssoftware 2.1. Vorbereitungen Seit der Einführung von Tabellenkalkulationssoftware im Jahre 1979 hat sich der Funktionsumfang dieser Anwendungen stetig erweitert. Nach etwa 30 Jahren Entwicklung beherrschen sie umfangreiche Berechnungsalgorithmen, mit denen selbst komplexe Probleme in Sekundenbruchteilen gelöst werden können. Ferner besitzt nahezu jeder moderne Haushalt einen Computer, auf dem ein Tabellenkalkulationsprogramm bereits vorhanden ist oder zumindest einfach nachinstalliert werden kann. Aufgrund dieser Voraussetzungen ist es durchaus verständlich, dass die Anforderungsprofile an Studenten und Arbeitnehmer grundlegende bis fortgeschrittene Kenntnisse im Umgang mit Tabellenkalkulationsprogrammen voraussetzen. Ebenso besteht die Möglichkeit, solche Programme im Privatbereich einzusetzen. Beispielsweise um ein effizientes Haushaltsbuch zu führen, das einen geordneten Überblick der eigenen Einnahmen und Ausgaben zu verschaffen hilft. Diese Veränderungen der Anforderungen im Studenten- und Berufsleben, sowie erweiterte Möglichkeiten im Privaten, bedürfen einer Anpassung in der Ausbildung. Wie stark jener Bedarf eines entsprechenden Kurses ist soll anhand eines Umfragebogens ergründet werden. Das primäre Ziel dieses Umfragebogens liegt also darin herauszufinden, wie hoch die Nachfrage nach einem interdisziplinären Kurs eines Tabellenkalkulationsprogrammes in Kombination mit der Statistik ist. Kernpunkt der Umfrage ist demnach die Nutzung und der Bedarf eines Tabellenkalkulationsprogrammes, sei es privat oder beruflich. Dieser Punkt gilt gleichermaßen für Schüler und Studenten wie für Erwerbstätige und Privatleute, denn es macht keinen wesentlichen Unterschied, ob man seine erworbenen Kenntnisse anwendet, um private Daten zu verarbeitet, oder ob diese Kenntnisse im Berufsleben notwendig sind: eine Ausbildung ist in jedem Fall von Nöten. 10 2. Bedarf an Tabellenkalkulationssoftware 2.2. Der Umfragebogen Aus [4] geht hervor, dass man bis zu acht verschiedene Aussagen oder Fragen formulieren sollte, um ein möglichst genaues Ergebnis anhand eines Fragebogens zu erhalten. Diese Formulierungen sollten auch umgeändert oder verneint werden, damit der Befragte möglichst nicht in eine Richtung manipuliert wird. Anschließend soll man das arithmetische Mittel aller Aussagen bilden, um das Ergebnis eines erforschten Bereichs zu erhalten. Die Sprache soll klar strukturiert und einfach zu verstehen sein. Die Fragen und Aussagen sollten also so kurz wie möglich sein, damit jeder Zugang hat und sofort weiß, was gemeint ist. Allgemeine Wörter wie „nie“, „nichts“, „alle“, „immer“, u.s.w., sollten aufgrund der Klarheit der Aussage vermieden werden. Darüber hinaus sollten ebenfalls Wörter mit emotioneller Bedeutung, wie „Freiheit“, „Frieden“, oder ähnliches, vermieden werden, da sie den Befragten beeinflussen könnten. Um die wichtigsten Punkte in Erfahrung zu bringen, werden die Befragten zunächst gebeten anzugeben, welche Kenntnisse sie bereits mit einem Tabellenkalkulationsprogramm besitzen und ob sie sich dieses Wissen selbst angeeignet haben. Sei es durch eine Einheit in der Schule oder einen nach der Schule freiwillig besuchten Kurs. Zeitgleich wird unterschieden, ob man Schüler/Student ist oder nicht, um einerseits die Lebenserfahrung einschätzen zu können und andererseits einen Indikator dafür zu erhalten, wie stark Tabellenkalkulationsprogramme im Berufsleben verbreitet sind beziehungsweise ob sie in der Ausbildung benutzt werden. Beachtet man diese Punkte beinhaltet der Fragebogen die folgenden zu beantwortenden Punkte. Dabei wird unterschieden, ob eine Person bereits Kenntnisse im Umgang mit Tabellenkalkulationsprogrammen besitzt oder nicht. Leute, die bereits Kenntnisse mit Excel1 oder ähnlicher Software besitzen, erhalten den Fragebogen mit folgenden Formulierungen: 1. Ich arbeite regelmäßig mit Excel. 2. Ohne Excel würde ich auch gut zurecht kommen. 3. Ich nutze Excel beruflich (bzw. in der Schule/an der Uni). 4. Ich benutze Excel außerhalb der Arbeit, z.B. privat, um ein Haushaltsbuch zu führen. 5. Es ist im Interesse der Schüler einen Excel-Kurs in der Schule anzubieten. 1 Excel wird stellvertretend für alle Tabellenkalkulationsprogramme benutzt, da sehr viele Leute die Anwendung wegen seiner Popularität namentlich kennen. Die meisten Nutzer anderer Software wissen auch was gemeint ist, da sie in diesem Bereich augenscheinlich besser informiert sind. Travail de candidature 2.3. Auswertung des Fragebogens Für diejenigen, die noch keine Erfahrung mit Excel haben, werden die Aussagen sinngemäß angepasst: 1. Ich habe noch nie daran gedacht Excel zu benutzen. 2. Ich hatte schon einmal eine andere Personen beauftragt oder um Hilfe gebeten, Daten für mich aufzubereiten. (Z.B. um aus einer Datenmenge ein Diagramm zu erstellen, einen Mittelwert zu berechnen, o.ä.) 3. Excel könnte mir beruflich weiterhelfen. 4. Ich könnte mir vorstellen, Excel außerhalb der Arbeit zu benutzen, z.B. privat, um ein Haushaltsbuch zu führen. 5. Es ist im Interesse der Schüler, einen Excel-Kurs in der Schule anzubieten. Zu jeder Aussage gibt es nach der Theorie aus [4] genau vier Antwortmöglichkeiten: • Trifft zu, • trifft eher zu, • trifft eher nicht zu und • trifft nicht zu. Dadurch werden die Befragten indirekt aufgefordert, sich für eine Richtung zu entscheiden, anstatt einen einfachen Mittelweg zu wählen, für den weder die eine, noch die andere Aussage zutrifft. 2.3. Auswertung des Fragebogens Da der Fragebogen möglichst kurz gehalten wurde und nur die wichtigsten Elemente enthält, sind alle Daten in der Tabelle in Abbildung 2.1 zusammengefasst. Die Mittelwerte der letzten fünf Fragen und deren Standardabweichungen wurden in Abbildung 2.2 veranschaulicht. Anhand dieser Daten lässt sich ablesen, dass es zunächst niemanden gibt, der nicht weiß, was Excel ist. Das lässt sich wahrscheinlich dadurch erklären, dass die Umfrage über das Internet verbreitet wurde. Es liegt nahe, dass diejenigen Leute, die ein Mindestmaß an Erfahrung mit Computern oder Ähnlichem besitzen, auch wissen, was Excel ist. Zieht man zusätzlich in Betracht, dass Tabellenkalkulationsprogramme mittlerweile zur Standardausrüstung eines jeden Rechners zählen, kann man davon ausgehen, dass man als Besitzer weiß, worum es sich bei Excel handelt. Travail de candidature 11 12 2. Bedarf an Tabellenkalkulationssoftware Abbildung 2.1.: Zusammenfassung der Ergebnisse der Umfrage. Travail de candidature Trifft nicht zu Trifft eher nicht zu Trifft eher zu Trifft zu 2.3. Auswertung des Fragebogens Ich arbeite regelmäßig mit Excel. Ohne Excel würde ich auch gut zurecht kommen. Ich nutze Excel beruflich. Ich benutze Excel außerhalb der Arbeit. Excel-Kurs in der Schule? Abbildung 2.2.: Bedarf an Tabellenkalkulationssoftware. Aufgrund dieser Gegebenheit könnte man anführen, dass durch eine reine Onlinebefragung der Kreis der Teilnehmer unnötigerweise eingeschränkt wurde. Allerdings muss man sich direkt im Anschluss fragen, ob die durch eine Onlineumfrage außen vor Gebliebenen eine Relevanz in Bezug auf die gezogenen Schlussfolgerungen der Ergebnisse spielen. Heutzutage ist das Internet sehr verbreitet und man holt seine Informationen immer öfters online. Zumindest die ersten Schritte werden meistens übers Internet in Erfahrung gebracht. Unterstützend wirkt dann natürlich, dass nahezu alle Schulen, Universitäten und sogar viele öffentliche wie gewerbliche Plätze einen kostenlosen Internetzugang anbieten. Deswegen kann man davon ausgehen, dass kaum ein Student oder Berufstätiger das Internet nicht in irgendeiner Weise nutzt, oder nutzen muss. An eben genau diese Zielgruppe der Erwerbstätigen und zukünftigen Berufstätigen richtet sich ein Kurs über Tabellenkalkulation. Erstaunlicherweise gibt es nicht nur niemanden, der nicht weiß, was Excel oder ein Tabellenkalkulationsprogramm ist, es gibt auch bis auf eine einzige Person niemanden, der nicht zumindest grundlegende Kenntnisse im Umgang mit diesen Programmen besitzt. Zum einen könnte dies daran liegen, dass solche Anwendungen mittlerweile so einfach zu bedienen sind, dass ein wenig Neugier, gepaart mit Experimentierfreudigkeit, ausreichen, um herauszufinden, wie die Programme funktionieren. Zum anderen, und dies ist die weitaus wahrscheinlichere Erklärung, liegt wohl eher darin, dass 85% der Befragten Excel beruflich nutzen oder in der Ausbildung benötigen, beziehungsweise benötigt haben. Travail de candidature 13 14 2. Bedarf an Tabellenkalkulationssoftware Neben dem exorbitant hohen Anteil von über 80% der Befragten, die Excel in ihrer beruflichen Karriere benötigen, gibt es einen ebenso hohen Anteil an Leuten, die sich die Kenntnisse selbst angeeignet haben. Bei der Benutzung kommt man also nicht daran vorbei, sich selbst ein wenig einzuarbeiten, oder zumindest ab und zu die eigenen Kenntnisse selbstständig nachzuschlagen. Im Internet sollte dies keine allzu große Hürde darstellen. Zumindest dann, wenn man ein wenig Erfahrung besitzt und weiß, wie man eine Suchmaschine zu bedienen hat. Diese Vorgehensweise der autonomen Recherche im Netz dürfte ausreichen, um zumindest grundlegende Lücken zu schließen. Gegenüber den 85%, die Excel irgendwann im Laufe ihres Lebens gebraucht haben, stehen nur etwa 40%, die von einem Kurs in der Schule profitieren konnten. Demnach hatte knapp die Hälfte der regelmäßigen Benutzer die Möglichkeit, ihre Kenntnisse durch einen Kurs in der Schule anzueignen. Hier besteht also noch viel Nachholbedarf. Wenn man die Befragten auf die Gruppe der Schüler einschränkt (siehe Abbildung 2.3), ist der prozentuale Anteil der angebotenen Excel-Kurse in der Schule mit etwa 50% ein wenig höher, aber immer noch verbesserungswürdig. Betrachtet man die außerschulische Fortbildung, stellt man fest, dass der Anteil der Besucher eines Weiterbildungskurses mit unter 5% vernichtend gering ist. Die Ursache mag vielleicht darin liegen, dass es Überwindung kostet, sich für einen solchen Kurs anzumelden, weil er auf Kosten der Freizeit zusätzliche Zeit in Anspruch nimmt und darüber hinaus auch oft mit finanziellen Kosten einhergeht. Aufgrund eigener Erfahrungen und Beobachtungen bleibt ohnehin festzuhalten, dass man heute im Internet manchmal viel schneller und flexibler Hilfe bekommt, als wenn man sich räumlich zu einem Kurs fortbewegen muss. Dementsprechend hat sich die Gewohnheit der Fortbildung möglicherweise in Richtung Internet verlagert. Nichtsdestotrotz kann man in einem von Menschenhand geführten Kurs viele nützliche Tipps in Erfahrung bringen, die in einem rein autodidaktischen Kurs nicht zur Geltung kommen würden. Daher ist seine Daseinsberechtigung nicht zu unterschätzen. Eine weitere interessante Beobachtung liegt darin, dass von denjenigen, die regelmäßig mit Excel arbeiten, mehr als zwei Drittel die Anwendung ebenfalls für private Zwecke nutzen.2 Hat man die Vorteile erst einmal „gezwungenermaßen“ entdecken müssen, lernt man sie schätzen und es liegt nahe, dass man diese Kenntnisse auch noch in anderen Bereichen anwendet. Obschon dies eine logische Vorgehensweise ist, ist der prozentuale Anteil derer, die es in die Tat umsetzen, erstaunlich hoch. 2 Alle angegebenen Daten, sowie alle Primärdaten, befinden sich in folgender Datei und können dort nachgeschlagen werden: https://www.dropbox.com/s/psrak0mq70t7pkq/umfrage_ergebnisse.xlsx. Travail de candidature 2.3. Auswertung des Fragebogens Abbildung 2.3.: Einschränkung der Umfrage auf die Schüler/Studenten. Travail de candidature 15 16 2. Bedarf an Tabellenkalkulationssoftware Abschließend bleibt zu erwähnen, dass etwa 95% der Befragten einen Excel-Kurs in der Schule als sehr nützlich empfinden. Selbst bei aktuellen Schülern und Studenten ist der Anteil derer, die diese Meinung vertreten, außergewöhnlich hoch, so dass der Mehrwert von Tabellenkalkulationskursen in der Ausbildung kaum zu bestreiten ist. 2.4. Excel und die Statistik Schaut man sich die in Excel integrierten Funktionen an, befinden sich die Hauptanwendungsgebiete einerseits in der Finanzmathematik und andererseits in der Statistik. Ersterer Bereich setzt umfangreiche mathematische Grundlagen voraus, wie zum Beispiel im Rechnungswesen oder in der Zinsrechnung. Außerdem stellt die Finanzmathematik ein Fachgebiet für spezifischere Berufszweige dar, während sie für die Mehrzahl der Berufstätigen keine allzu große Bedeutung spielt. Demgegenüber liegen die am meisten und öftesten benutzten Funktionen von Excel größtenteils im Anwendungsgebiet der Statistik. Zudem ist die Statistik allgegenwärtig: in nahezu allen Zeitungs- und Fernsehberichten, sei es aus der Politik, in der Werbung oder im Sport, tauchen immer wieder Zahlen auf, um potenzielle Kunden zu überzeugen, um Wähler bewusst oder unbewusst zu beeinflussen oder einfach nur um Information zu veranschaulichen.3 Darüber hinaus trägt das berühmte Zitat „Ich glaube nur der Statistik, die ich selbst gefälscht habe.“, das Winston Churchill von den Nazis angehängt wurde4 , nicht unbedingt dazu bei, das Vertrauen in die Statistik zu stärken. Wenn keiner mehr an die veröffentlichten Statistiken glaubt, erreichen sie oft das Gegenteil von dem, was sie bezwecken. Dann könnte man nämlich dazu neigen, alle Auswertungen kategorisch als Fehlinformation, oder gar als Betrug zu verunglimpfen, anstatt die möglichen Vorteile darin zu erkennen. Dabei sind es nicht die Zahlen, die irrtümlicherweise falsch sind, sondern deren Darstellung und Interpretation. Man könnte somit behaupten, dass die Zahlen eigentlich beides tun: sie lügen und sie lügen nicht. Zum einen kann man nämlich die Ergebnisse der statistischen Daten grafisch falsch darstellen, wenn zum Beispiel die richtigen Daten vorliegen, man sie aber nicht richtig zu präsentieren weiß. Oder man versucht mit Absicht die Meinung des Lesers in die gewünschte Richtung zu lenken. Einige ausgewählte Beispiele dafür findet man in [6]. Zum anderen kann man die richtigen Kennzahlen benutzen, sie aber auf die falschen Daten anwenden, wodurch man an 3 Viele Beispiele und Belege, die beweisen, dass Verbraucher bewusst oder unbewusst getäuscht werden, beziehungsweise getäuscht werden können, findet man unter anderem in [6]. 4 Die Nazis hängten Churchill das Zitat an, um den Kriegsgegner im eigenen Land als Lügner und Zahlenverdreher darzustellen. Siehe [5]. Travail de candidature 2.4. Excel und die Statistik dem gestellten Problem vorbei arbeitet. Das heißt, die Kennzahl wurde zwar richtig berechnet, kann im Bezug auf das zu lösende Problem aber keine adäquate Hilfestellung anbieten, da die dadurch gewonnenen Erkenntnisse im Hinblick auf das zu lösende Problem irrelevant sind.5 Folglich ist es umso wichtiger einen Statistikkurs anzubieten, der bewusst auf das Verständnis zielt und den Lernenden zum Nachdenken anregt, anstatt eine reine „Zahlenhexerei“ zu betreiben. Der Schüler wird also mehr gefordert als nur ein paar Zahlenwerte blind in seinen Taschenrechner einzugeben und die Ergebnisse als Lösung zu präsentieren. In der Statistik geht es weniger um das richtige Ausrechnen von simplen Operationsfolgen, als vielmehr um das tiefere Verständnis der geforderten Aufgabenlösung und das korrekte Auswählen der entsprechenden statistischen Kennzahlen, die zur Lösung des Problems führen. Die Daten müssen also richtig aufbereitet und ausgewertet werden. Dies kann jedoch nur dann geschehen, wenn die verschiedenen Bewertungskennzahlen sowie deren Vor- und Nachteile bekannt sind und verstanden werden. Die Statistik ist für eine ganze Reihe von Studiengängen, wie zum Beispiel der Physik, Chemie, Biologie, Volks- und Betriebswirtschaftslehre sowie vielen Anderen ein Pflichtfach. Staatliche Ämter, die nur statistischen Erhebungen und deren Auswertungen nachgehen, unterstreichen die Bedeutung der Statistik im Alltag und im Berufsleben. Statistiken helfen nämlich, Trends besser zu erkennen. Dadurch fällt es vielfach leichter, die besseren Entscheidungen in verschiedenen Situationen zu fällen. Winston Churchill war, im Gegensatz zu dem, was das oben genannte Zitat vermuten lässt, ein Politiker, dessen Entscheidungen oft auf statistischen Gegebenheiten beruhten.6 Er war sich dessen bewusst, dass man mit den richtigen Daten einen Überblick über die möglichen Konsequenzen erhält und man anschließend die bessere Entscheidung zu treffen vermag. Churchills Entscheidungen beruhten deshalb oft auf Erfahrungswerten, die statistisch belegbar waren. Er behauptete nachweislich belegbar im Jahre 1925: „Du musst die Tatsachen anschauen, denn sie schauen dich an!“ Eine vergleichbare Situation ergibt sich in der Wirtschaft. Man nehme nur einen Zeitungsartikel, der über die aktuelle wirtschaftliche Lage berichtet. In diesen Berichten kommt man kaum mehr an Zahlen und statistischen Daten vorbei. Hier ist das Erkennen der wichtigsten Trends enorm wichtig, um die möglichst beste Wahl für die Zukunft treffen zu können. 5 Siehe Seite 65ff, wo der Mittelwert im Vergleich zu den einzelnen Testwerten wenig darüber aussagt, ob ein Kandidat wirklich besser ist, als alle Anderen. 6 Siehe [5]. Travail de candidature 17 18 2. Bedarf an Tabellenkalkulationssoftware Im Alltag kann man statistische Werte heranziehen, um verschiedene Situationen zum eigenen Vorteil zu beeinflussen oder um sich einer bewussten, fremden Manipulation zu entziehen. In einem Geschäft zum Beispiel sind die Waren aus einem einzigen Grund so angeordnet wie sie sind: sie liegen nämlich genau dort, wo sie statistischen Erkenntnissen zufolge am meisten verkauft werden. Kennt man diese Statistiken, kann man versuchen, sich dieser Manipulation zu entziehen. In anderen Situationen trifft man wahrscheinlich öfters die bessere Entscheidung, wenn man sich der entsprechenden Statistiken bewusst ist. Das Buch von Richard Wiseman beinhaltet eine Vielzahl solcher Beispiel und erklärt, wie man sie zum persönlichen Vorteil nutzen kann.7 Ein Kurs über Statistik ist also doppelt interessant, weil man neben der Einarbeitung in Excel die Schüler mit einem durchaus kontroversen Thema vertraut machen kann und ihnen aufzeigt, wie man Statistiken lesen muss und wo ihre Grenzen liegen. Darüber hinaus bieten interdisziplinäre Kurse ausreichend Abwechslung, um dem Schüler fortwährend neue, abwechslungsreiche Reize zu geben, damit sein Interesse und seine Lernbereitschaft auf einem hohen Niveau bleiben. 7 Siehe [15]. Travail de candidature Teil II. Praktischer Teil Vorwort Da es sich in diesem Teil um einen Kurs über Microsoft Excel handelt, der eine aktive Teilnahme voraussetzt, ist es unumgänglich, einige vorbereitete Dateien mitzuliefern. Diese Dateien befinden sich im angehängten pdf-Dokument und können durch Anklicken der Grafik in der Fußnote geöffnet werden. Diese Grafiken, die auf eine angehängte Datei verweisen, sind in der Druckversion dieses Dokuments gegebenenfalls nicht sichtbar. Um dennoch einen Zugang auf diese Dateien zu gewährleisten, beinhaltet der Text in der Fußnote einen Link, unter dem man den entsprechenden Anhang herunterladen kann. Die Sicherheitseinstellungen des pdf-Betrachters müssen lediglich so eingestellt sein, dass sie dem Benutzer erlauben die Datei direkt (durch anklicken der Grafik) zu öffnen oder den Link, der auf die herunterladbare Datei verweist, zu öffnen. Darüber hinaus befinden sich die Dateien in einem eigenen Ordner auf dem hier hinterlegten Datenträger. Die Bezeichnungen der Dateien auf der CD sind identisch mit dem jeweiligen Text in der Fußnote. 3. Einführung in Microsoft Excel 3.1. Grundlagen Voraussetzung für die Bedienung und die Umsetzung der folgenden Anwendungen ist eine vollständige Installation von Microsoft Excel. Grundlage aller abgebildeten Grafiken und Erläuterungen ist Excel 2010 (aus der MS Office 2010 Professional Plus Suite1 ). Der Nutzer sollte ebenso oberflächliche Allgemeinkenntnisse im Umgang mit PCs und insbesondere Windows besitzen. Dieser Kurs dient unter anderem zur Vorbereitung auf eine weitergehende naturwissenschaftliche Ausbildung, in denen statistische Auswertungen und Analysen von Primärdaten als Grundkenntnisse vorausgesetzt werden. Oft sind dies nicht nur die Studiengänge Mathematik und Physik, sondern auch Chemie und Biologie. Während der Ausbildung, aber auch danach, bieten Tabellenkalkulationsprogramme und deren Möglichkeiten zur grafischen Aufbereitung von Daten eine notwendige Hilfe, um die erworbenen Erkenntnisse adäquat zu präsentieren. Ob zur Kostenübersicht und Kategorisierung großer Datenmengen in Firmen oder als einfaches, privates Haushaltsbuch zur Überwachung der Einnahmen und Ausgaben dienen Tabellenkalkulationen in vielen Bereichen des Alltags. Die hier vorgeschlagenen Aufgaben basieren zumeist auf Daten aus [1], [7], [10] und [11]. Manche Daten wurden auch aus dem „Statistics Portal2 “ vom Statec entnommen. 3.2. Die ersten Schritte 3.2.1. Die Arbeitsoberfläche Startet man Excel, so gelangt man zur Arbeitsoberfläche, wie sie in Abbildung 3.1 erscheint. 1 Bis auf wenige oder keine Einschränkungen dürfte die günstigere Home-Version für diese Zwecke auch genügen. 2 http://www.statistiques.public.lu/en/actors/statec/index.html. 24 3. Einführung in Microsoft Excel Abbildung 3.1.: Arbeitsoberfläche von MS Excel. Travail de candidature 3.2. Die ersten Schritte Im Folgenden befinden sich die Bezeichnungen der in Abbildung 3.1 nummerierten Elemente aufgelistet sowie eine kurze Erklärung ihrer jeweiligen Funktion. 1. Die Titelleiste. Sie gibt den Dateinamen und die Anwendung an. In der linken, oberen Ecke daneben befindet sich die Schnellstartleiste, um zum Beispiel unter anderem das Dokument mit einem einzigen Klick abzuspeichern, oder um die Schriftfarbe zu ändern. 2. Das Menü. In Abhängigkeit des gewählten Menüeintrags (hier: „Start“) erscheinen andere Schaltflächen im Menüband darunter. Diese Schaltflächen sind unterteilt in Gruppen, deren Bezeichnung in grauer Farbe unterhalb dieser Gruppe steht. Auf dieser Abbildung zu erkennen sind unter anderem die Einteilungen Zwischenablage, Schriftart, Ausrichtung und Zahl. 3. Menüband minimieren. Dadurch verschwinden die Schaltflächen unterhalb des Menüs. Erst wenn man auf den entsprechenden Menüeintrag klickt, treten sie wieder hervor. 4. Die Scrollbalken, vertikal (4a) und horizontal (4b). Unterhalb der Scrollbalken befindet sich die Zoomeinstellung, um die Ansicht zu verkleinern oder zu vergrößern, indem man entweder den Balken nach links/rechts bewegt oder direkt /⊕ anklickt. 5. Die Tabellenblätter. Sie stellen, wie im geschichtlichen Hintergrund erwähnt, die dritte Dimension dar. Klickt man auf das weiße Blatt rechts, kann man ein neues, leeres Tabellenblatt erstellen. Durch einen Rechtsklick auf ein bereits bestehendes Blatt, kann man dieses beispielsweise umbenennen oder löschen. Standardmäßig enthält eine neue Arbeitsmappe drei leere Tabellenblätter. 6. Die aktivierte (oder ausgewählte, markierte) Zelle. Hier ist es die Zelle A1. Sie ist schwarz umrandet. Durch einen Mausklick auf eine andere Zelle wird diese andere Zelle aktiviert. 7. Die Bearbeitungszeile zeigt den Inhalt (oder Formel) der aktivierten Zelle an. Auf der Abbildung 3.1 gut zu erkennen ist die alphabetische Nummerierung der Spalten und die arabische Nummerierung der Zeilen. Dementsprechend setzt sich die Bezeichnung jeder Zelle aus einem Buchstaben und einer Zahl zusammen. Befindet man sich beispielsweise in der neunten Zeile der Spalte C, so handelt es sich in dem Fall um die Zelle C9. In Abbildung 3.1 ist beispielsweise die Zelle A1 aktiviert. Travail de candidature 25 26 3. Einführung in Microsoft Excel Abbildung 3.2.: Formatierung der Schrift. Um von einer Zelle zur Nächsten zu gelangen kann man entweder mit der Maus direkt in die gewünschte Zelle klicken oder die Pfeiltasten auf der Tastatur benutzen, um dorthin zu navigieren. 3.2.2. Zellinhalte formatieren . Aufgabe 1 Schreiben Sie den Text „Dies ist die Zelle C5“ in die entsprechende Zelle und formatieren Sie die Zelle wie im unten angefügten Bild. Geben Sie ebenfalls den Text aus der folgenden Abbildung in die Zelle D5 ein. Lösung der Aufgabe Aktivieren Sie die Zelle C5 und tippen Sie den Text „Dies ist die Zelle C5“ ein, gefolgt von der Eingabe-Taste. Diesen Text kann man nun beliebig formatieren. Dazu muss man die Zelle C5 wieder auswählen, indem man beispielsweise mit der Pfeiltaste ↑ zurück navigiert. Die Schaltflächen in der rot eingefärbten Gruppe in Abbildung 3.2 dienen dazu, den Text beispielsweise fett darzustellen oder zu unterstreichen. Es muss aber nicht zwangsweise dieselbe Formatierung auf die komplette Zelle angewendet Travail de candidature 3.2. Die ersten Schritte Abbildung 3.3.: Nur einen Teil der Zelle formatieren. Abbildung 3.4.: Die Höhe der Zelle anpassen. werden. Es ist ebenfalls möglich nur einen Teil des Textes zu formatieren. Dazu muss die Zelle aktiviert und anschließend in der Bearbeitungszeile den zu formatierenden Textteil markiert werden. Nun kann man diesen markierten Text beispielsweise rot einfärben. Diese Prozedur ist zusätzlich in Abbildung 3.3 veranschaulicht. Klickt man , erhält man mehr Farben zur Auswahl. auf den Pfeil rechts neben dem Symbol Bemerkung: Vergrößert man die Schrift, so wird die Zeilenhöhe automatisch angepasst. Man kann die Zellenhöhe aber auch manuell einstellen, indem man, wie in Abbildung 3.4, die untere Grenze der entsprechenden Zeilennummer links im Rand verschiebt. Genauso kann man die Spaltenbreite in der Spaltenleiste anpassen. Gibt man nun „1-2“ in die Zelle D5 ein, stellt man folgendes fest: 1. Der Text in Zelle C5, der in die angrenzende Zelle D5 hineinragte, wurde abgeschnitten. 2. In der Zelle D5 erscheint das Datum „01. Feb“ anstatt der Eingabe „1-2“. Travail de candidature 27 28 3. Einführung in Microsoft Excel Das Abschneiden des Textes in der Zelle C5 kann man verhindern indem man entweder die Spaltenbreite anpasst oder einen Zeilenumbruch innerhalb derselben Zelle erzwingt. Dazu aktiviert man die gewünschte Zelle und klickt die in Abbildung 3.5 markierte Schaltfläche. Abbildung 3.5.: Zeilenumbruch erzwingen. Wieso erscheint nun das Datum „01.Feb“ in der Zelle D5? Ein großer Vorteil von Excel besteht darin, dass das Programm viele Arbeitsschritte vorwegnimmt und diese automatisch im Hintergrund ausführt, um dem Benutzer einen Teil der Arbeit abzunehmen. In diesem Fall erkennt Excel die Eingabe „1-2“ als Datum. Die erste Zahl stellt den Tag und die zweite Zahl den Monat des aktuellen Jahres dar. Wenn die Eingabe jedoch so erscheinen soll wie man sie eingegeben hat, muss man das Format der jeweiligen Zelle auf „Text“ umstellen. Dazu markiert man die Zelle D5 und klickt in der Gruppe „Zahl“ auf den Pfeil rechts neben der Kom. Aus der Liste der möglichen Formate wählt man den untersten bobox: Eintrag „Text“. Die Zelle enthält nun eine fünfstellige Zahl und man muss erneut „1-2“ eingeben um das gewünschte Ergebnis zu erhalten. Wieso macht Excel aus „1-2“ eine fünfstellige Zahl? Excel hat die Eingabe „1-2“ als Datum (1. Februar) umgewandelt. Dabei erhält man eben diese fünfstellige Zahl, denn Excel interpretiert jedes Datum als fortlaufende Zahl, mit 1 beginnend am 1.1.1900. Die Zahl 1 steht also für den 1.1.1900, die Zahl 32 dementsprechend für den 1.2.1900 und 367 für den 1.1.1901. Die fünfstellige Zahl steht also für den ersten Februar des aktuellen Jahres. Darüber hinaus speichert Excel die Zeiten als Nachkommazahl. Da ein Tag genau Travail de candidature 3.2. Die ersten Schritte 1 ist und ein Tag 24 Stunden hat, entspricht eine Stunde 1 24 von 1, also 0, 0416. Zum Abschluss dieses Unterkapitels befindet sich in Abbildung 3.6 eine Übersicht einiger anderer, oft benutzter Formatierungen. Abbildung 3.6.: Verschiedene Textformatierungen. . Aufgabe 2 Erstellen Sie eine Arbeitsmappe, in der das erste Tabellenblatt wie in der folgenden Abbildung aussieht. Speichern Sie das Dokument für die folgenden Aufgaben ab. Lösung der Aufgabe Die Lösungsdatei ist angehängt3 und die Vorgehensweise ist analog wie die in Abbildung 3.6 erklärten Formatierungen. 3 Lösung Aufgabe 2: Travail de candidature 29 J 30 3. Einführung in Microsoft Excel Das erstellte Dokument speichert man am schnellsten über die Tastenkombination „Strg+S“ ab. Beim ersten Speichern wird automatisch nach dem Dateinamen gefragt, bei späteren Speichervorgängen wird die angelegte Datei überschrieben. J 3.2.3. Formeln, Shortcuts und Funktionen Im vorigen Unterkapitel wurde erläutert, dass Excel die Eingabe „1-2“ nicht als Rechnung wertet, sondern als Datum interpretiert. Soll Excel das Ergebnis von einer oder mehreren Rechenoperationen berechnen, muss man der Rechnung ein Gleichheitszeichen „=“ vorschieben. Dann wird das Ergebnis „−1“ im Arbeitsblatt angezeigt. Die eigentliche Rechnung bleibt aber weiterhin erhalten und man kann sie, wenn man die entsprechende Zelle aktiviert hat, in der Bearbeitungszeile einsehen und anpassen. Wenn man sich beispielsweise vertippt hat, genügt ein Klick in die Bearbeitungszeile. Abbildung 3.7 veranschaulicht die Funktionsweise von Formeln. Abbildung 3.7.: Die Bearbeitungszeile. Worin besteht der Sinn, dass Excel einen Unterschied zwischen der Eingabe „1-2“ und der Eingabe „=1-2“ macht? Meistens benötigt man ein und dieselbe Angabe mehrmals und diese Angaben können variieren, während die Rechnung aber dieselbe bleibt. Anstatt die Angabe dann jedes Mal neu einzugeben, schreibt man sie einmal in eine eigene Zelle und verweist dann in allen Rechnung auf diese Zelle. Ändert man nun den Wert einer Angabe, berechnet Excel automatisch alle davon abhängigen Zellen neu. In Aufgabe 3 wird die Funktionsweise von Formeln in die Praxis umgesetzt. . Aufgabe 3 Berechnen Sie mit Excel die Umsätze für jede Filiale und jeden Artikel aus den aus Aufgabe 2 vorgegebenen Daten. Schreiben Sie diese Umsätze in die Zellen C5 bis E6. Travail de candidature 3.2. Die ersten Schritte Lösung der Aufgabe Wählen Sie zunächst die Zelle C5 aus, in der Sie das Ergebnis angezeigt haben möchten. Dann tippen Sie das Gleichheitszeichen „=“ ein, um Excel anzuweisen, dass eine Rechnung ausgeführt werden soll. Anschließend markieren Sie die Zelle C3, die den Preis des Artikels enthält. Dadurch erscheint „C3“ hinter dem Gleichheitszeichen. Die Multiplikation mit der Anzahl der verkauften Artikel erfolgt durch die Eingabe eines Sternchen „*“, gefolgt von der Zelle C4 in der die Anzahl der verkauften Artikel steht. Drücken Sie am Ende „Eingabe“, so zeigt Excel das gewünschte Ergebnis der Multiplikation an. Wählt man nun erneut die Zelle C5 mit der eben eingetragenen Formel aus, steht in der Bearbeitungszeile immer noch die Formel „=C2*C3“. Hat man sich nur leicht vertippt, klickt man in der Bearbeitungszeile an die entsprechende Stelle um gegebenenfalls einzelne Veränderungen vorzunehmen. Dadurch muss man nicht mehr die komplette Formel neu eingeben. Bemerkung: Man hätte die Formel „=C2*C3“ auch manuell nur mit Hilfe der Tastatur eingeben können (hier wird nicht zwischen Groß- oder Kleinbuchstaben unterschieden). Anstatt die Maus zu benutzen kann man die Zellen auch mit den Pfeiltasten ansteuern. Bemerkung: Passt man einen Wert in den Zellen C2 oder C3 an, wird das Ergebnis in der Zelle C5 automatisch neu berechnet. Deswegen sollte man, sofern möglich, alle Primärdaten einmal auflisten und dann die Berechnungen mit Hilfe der Zellbezüge auf die Primärdaten eingeben. Um den Umsatz für die beiden anderen Artikel zu berechnen, muss man die Formel nicht noch einmal eingeben, sondern man kann sie aus der Zelle C5 in die Zelle D5 kopieren. Hierzu aktiviert man die Zelle C5 und „zieht“ die Formel dann mit Hilfe des schwarzen Quadrats unten rechts, dem sogenannten Ausfüllkästchen, in die anliegende Zelle D5. Dies wird in Abbildung 3.8 illustriert. Excel kopiert dann die Formel aus der Zelle C5 in die Zelle D5. Dabei werden die Zellbezüge so angepasst, dass wenn die Formel um genau eine Zelle nach rechts kopiert wird, alle Spaltenindizes in der Formel ebenfalls um eine Einheit nach rechts verschoben werden. Aus der Spalte C wird so die Spalte D. Da wir uns aber immer noch in derselben Zeile befinden, bleiben die Zeilenindizes in der Formel unverändert. Das heißt, aus C2 wird D2 und aus C3 wird D3. Insgesamt wird aus der Formel „=C2*C3“ in der Zelle C5 nach dem Kopiervorgang in die Zelle D5 die Formel „=D2*D3“. Will man die Formel aus einer Zelle (hier C5), in eine nicht benachbarte Zelle (hier Travail de candidature 31 32 3. Einführung in Microsoft Excel Abbildung 3.8.: Kopieren einer Formel mit Hilfe des Ausfüllkästchens. E5) kopieren, muss man die Formel (in Zelle C5) erst kopieren und dann (in die Zelle E5) einfügen. Das Kopieren erfolgt mit dem Symbol im Menüband links oben. Dann wählt man die Zielzelle (E5), aus und klickt links neben dem Kopieren-Symbol auf „Einfügen“. Die Bezeichnung dieses Vorganges wurde aus dem englischen Sprachgebrauch übernommen und heißt „copy-paste“ (kopieren-einfügen). Bemerkung: Anstatt die „Kopieren-Einfügen“ Symbole im Menüband anzuklicken, genügt es, die Tastenkombination (Shortcut) „Strg+C“ auszuführen, um die Formel aus der aktivierten Zelle zu kopieren und anschließend „Strg+V“, um die Formel in die gewünschte Zelle einzufügen. Da die Buchstaben C und V auf der Tastatur nebeneinanderliegen, geht es mit diesen Shortcuts im Allgemeinen schneller von der Hand. Kopiert man nun die Formel für die Umsätze der ersten Filiale wie oben beschrieben in die Zeile darunter, sind die Zahlenwerte für die Umsätze offensichtlich viel zu hoch. Schaut man sich die Formel in der Bearbeitungszeile genauer an erkennt man, dass die beiden falschen Zellen miteinander multipliziert werden. Das liegt daran, dass Excel beim Kopieren der Formel in die Zeile darunter die Zeilennummern in der Formel entsprechend um eins anpasst. Der Preis für den jeweiligen Artikel steht aber immer noch in derselben Zeile und wurde nicht um eine Zelle nach unten verschoben. Dieser Zeilenindex darf beim Kopieren also nicht angepasst werden. Hierfür bietet Excel eine komfortable Lösung an: Soll der Zeilenindex beim Kopieren unverändert bleiben, muss man ein Dollarzeichen „$“ davor setzen. Damit erhält man in der Zelle C5 die Formel „=C$2*C4“. Diese Formel kann nun mit „Strg+C“ kopiert und gleichzeitig in alle Zellen C5 bis E6 eingefügt werden. Dazu wählt man die sechs Zellen aus und fügt die Formel mit „Strg+V“ ein. Alternativ kann die Formel aus Zelle C5 direkt in alle sechs Zellen C5 bis E6 geschrieben werden, indem man das Ausfüllkästchen bis zur Zelle E6 zieht. Schaut man sich nun die eingefügten Formeln an, sieht man, dass die Spaltenindizes angepasst wurden, während die „$2“ der Zeilenindizes unverändert Travail de candidature 3.2. Die ersten Schritte 33 Abbildung 3.9.: Lösung der Aufgabe 3. übernommen wurden. Die Ergebnisse aller Berechnungen aus dieser Aufgabe sind in Abbildung 3.9 abgebildet. Bemerkung: Soll der Spaltenindex beim Kopieren unverändert bleiben, schreibt man ein $ vor den entsprechenden Großbuchstaben des Spaltenindex. . Aufgabe 4 Berechnen Sie den Gesamtumsatz für jede der zwei Filialen aus Aufgabe 2, sowie die Summe aller Umsätze. Lösung der Aufgabe Berechnet man die Summe aller Umsätze einer Filiale in Zelle F5 (beziehungsweise F6) kann man die Formel „=C5+D5+E5“ benutzen. Excel bietet hierfür aber die Funktion „SUMME(Zellbezug)“ an. Um sie anzuwenden, schreibt man „=SUMME(C5:E5)“. Der Doppelpunkt zwischen C5 und E5 gibt an, dass die Werte in allen Zellen von C5 bis E5 summiert werden. Dies kann man über beliebig viele Zellen tun. In der Abbildung 3.10 sind beispielsweise die Zellen C5 bis E6 markiert. Das heißt, die Zelle C5 stellt die linke obere Ecke und die Zelle E6 stellt die rechte untere Ecke der gesamten Auswahl dar. Mit „=SUMME(C5:E6)“ wird so die Summe aus den entsprechenden sechs Zellen berechnet. Travail de candidature J 34 3. Einführung in Microsoft Excel Abbildung 3.10.: Ergebnisse der Aufgabe 4. Bemerkung: Wenn man die Summenfunktion inklusive der ersten Klammer hingeschrieben hat, kann man die Zellen C5 bis E5 mit der Maus auswählen. Excel schreibt sie dann automatisch in die Formel. Alternativ kann man die Zellen auch mit den Pfeiltasten auswählen, während man gleichzeitig die „Shift“-Taste gedrückt hält. J Excel bietet eine Vielzahl von Funktionen an, die weit mehr als den mathematischen und statistischen Bereich abdecken. Einige davon werden im Verlauf dieses Kurses vorgestellt. Die anderen findet man indem man eine leere Zelle auswählt und links klickt. Nach der Auswahl neben der Bearbeitungszeile auf das Funktionssymbol einer Funktion bietet Excel eine Erklärung und eine Hilfestellung bei der Eingabe der Formel an. . Aufgabe 5 Die angehängte Datei4 beinhaltet eine Auflistung der aktiven Bevölkerung Luxemburgs, der Anzahl der Erwerbstätigen und die Anzahl der Angestellten, geordnet nach den 12 Kantonen. Berechnen Sie anhand dieser Daten die Anzahl der Freiberufler, der Arbeitslosen und die Arbeitslosenquote für alle Kantone, sowie alle Daten für das ganze Land. Lösung der Aufgabe Die Lösungsdatei ist angehängt.5 Die benutzten Formeln kann man in Abbildung 3.11 ablesen. J 4 Aufgabe 5: 5 Lösung Aufgabe 5: Travail de candidature 3.2. Die ersten Schritte Abbildung 3.11.: Ergebnisse der Aufgabe 5. . Aufgabe 6 In der angehängten Datei6 befinden sich die Einnahmen, die Ausgaben und die Angestelltenlöhne des Luxemburger Staates in den Jahren 1995 bis 2012. Errechnen Sie daraus die Summe, sowie den Mittelwert über alle Jahre. Berechnen Sie anschließend für jedes Jahr den prozentualen Anteil der Ausgaben für Angestelltenlöhne und den Überschuss des jeweiligen Jahres. Hinweis: Den Mittelwert berechnet man mit der Funktion „MITTELWERT(Zellbezug)“. Lösung der Aufgabe Die Lösungsdatei ist angehängt7 und die Abbildung 3.12 zeigt die Ergebnisse der Aufgabe. J Die roten und grünen Zahlen der Überschüsse in Abbildung 3.12 wurden nicht etwa manuell eingefärbt, sondern wurden über eine sogenannte „bedingte Formatierung“ eingefügt. In diesem Fall wurde es so festgelegt, dass der Wert in der jeweiligen Zelle rot erscheinen soll, wenn er negativ ist und grün, wenn er positiv ist. Um eine solche bedingte Formatierung zu erstellen, markiert man zunächst die Zellen, auf die man diese Formatierung anwenden möchte. Dann geht man im Menü in der Gruppe „Formatierung“ auf „bedingte Formatierung“, dann auf „neue Regel“ und füllt das Formular wie in Abbildung 3.13 aus. Für jedes Format muss eine neue Regel definiert werden. 6 Aufgabe 6: 7 Lösung Aufgabe 6: Travail de candidature 35 36 3. Einführung in Microsoft Excel Abbildung 3.12.: Ergebnisse der Aufgabe 6. Abbildung 3.13.: Einfügen einer bedingten Formatierung. Travail de candidature 4. Häufigkeiten und Diagramme Große Datenmengen sind oft unübersichtlich und dadurch schwer zu bewerten. Um es anhand eines Beispiels zu veranschaulichen, befinden sich hier die Ergebnisse der Befragung von 130 Leuten nach deren bevorzugten Jahreszeit: Nur mit Hilfe dieser Tabelle ist es sehr aufwendig herauszufinden, welche Jahreszeit die Meistgenannte ist. Es ist klar, dass die Ergebnisse anders aufbereitet werden müssen. Dies wird durch grafische Darstellungen oder Diagramme ermöglicht. Sie erlauben es eine große Datenmenge sehr schnell bezüglich ausgewählten Kriterien zu interpretieren und zu bewerten. 4.1. Einführungsbeispiel In der angehängten Excel-Datei1 befinden sich die Antworten aus dem Einführungsbeispiel. Bevor man diese Daten in einem Diagramm darstellen kann, müssen sie in einer Tabelle gruppiert und abgezählt werden. Man muss aber nicht alles von Hand nachzählen, denn die Funktion „ZÄHLENWENN(Bereich; Suchkriterien)“ übernimmt diesen Teil der Arbeit. Das erste Argument „Bereich“ gibt die Zellen an, in denen sich die zu zählenden Daten befinden. Das zweite Argument „Suchkriterien“ definiert das zu zählende Kriterium. Die Abbildung 4.1 verdeutlicht, wie es geht. 1 Aufgabe 7: 38 4. Häufigkeiten und Diagramme Abbildung 4.1.: Benutzung der Formel „ZÄHLENWENN“. Zunächst werden die Namen der Jahreszeiten in die Zellen A16 bis A19 geschrieben. Rechts daneben wird dann mit der Funktion „ZÄHLENWENN“ aufgezählt, wie oft die entsprechende Jahreszeit genannt wurde. Im zweiten Argument dieser Funktion kann man entweder die Jahreszeit direkt, zum Beispiel „Frühling“, reinschreiben oder auf die entsprechende Zelle links daneben klicken, in der man die gewünschte Jahreszeit bereits aufgelistet hat. Bemerkung: Gibt man anstelle des Verweises auf die Zelle A16 (siehe Abbildung 4.1) direkt die Jahreszeit (z.B. „Frühling“) ein, müssen vor und hinter das Wort Gänsefüßchen gesetzt werden, damit Excel weiß, dass es sich nicht um eine Formel oder einen Verweis handelt, sondern um den genauen Text nach dem gesucht werden soll. Sind die Daten in einer Tabelle zusammengefasst, kann man ein erstes Diagramm erstellen. Klickt man im Menüband auf „Einfügen“, erscheinen die Schaltflächen der verfügbaren Diagrammarten: Markiert man nun die eben erstellte Tabelle in den Zellen A15 bis B19 und wählt unter dem Säulendiagramm das erste Symbol mit der Bezeichnung „Gruppierte Säulen“ aus, dann erstellt Excel eine bereits vorgefertigte Grafik wie sie in Abbildung 4.2 zu Travail de candidature 4.1. Einführungsbeispiel Abbildung 4.2.: Diagramm mit den Bezeichnungen der Elemente. Abbildung 4.3.: Beispiel farbiger Säulen. sehen ist. In der Abbildung 4.2 sind auch die wichtigsten Diagrammelemente beschriftet. Will man beispielsweise den Diagrammtitel ändern, muss man ihn nur anklicken und die gewünschten Änderungen vornehmen. Im Menüband „Start“, kann man darüber hinaus andere Schriftformate wählen. Alternativ erreicht man diese Einstellungsmöglichkeiten auch durch einen Rechtsklick in den zu ändernden Text. Die Legende kann man einfach löschen, indem man darauf klickt und „Entfernen“ („Delete“) auf der Tastatur drückt. Zudem können die Farben der Säulen individuell anpasst werden, indem man die sie doppelklickt. Will man nur eine einzige Säule einfärben, muss diese Säule zunächst einzeln ausgewählt werden. Anschließend kann sie durch einen Doppelklick geändert werden. Das Ergebnis könnte beispielsweise wie in Abbildung 4.3 aussehen. Die Achsenbeschriftung ist ein wichtiges Element, was Excel standardmäßig ein wenig vernachlässigt. Die Beschriftung der Achsen fügt man hinzu, indem man das Travail de candidature 39 40 4. Häufigkeiten und Diagramme Abbildung 4.4.: Korrekte Achsenbeschriftung. Diagramm auswählt und im dann erscheinenden Menüband unter „Layout“ die Schaltfläche „Achsenbeschriftung“ anklickt. Dort findet man in der dritten Gruppe „Beschriftungen“ die Schaltfläche „Achsentitel“ um die horizontalen und vertikalen Achsentitel einzufügen. Anschließend müssen die Elemente nur noch verschoben werden, so dass das Diagramm wie in Abbildung 4.4 aussieht. . Aufgabe 7 1. Erstellen Sie aus den Daten in der Datei auf Seite 37 folgendes Kreisdiagramm: 2. Erstellen Sie ebenfalls ein Kreis- und ein Säulendiagramm, in dem die Prozentualwerte der Antworten angezeigt werden. Lösung der Aufgabe Wie man ein Diagramm einfügt, die Schriftart und die Schriftgröße des Titels ändert oder die Legende löscht, wurde bereits erläutert. Die Datenbeschriftung außerhalb des Kreises stellt man im Menüband unter „Layout“, „Datenbeschriftung“, „Weitere Datenbeschriftungsoptionen“ ein. Dann muss man die in Abbildung 4.5 rot hinterlegten Einträge so wie in der Abbildung anpassen. Um das Säulendiagramm mit den prozentualen Werten zu erstellen, genügt es unter „Achsenbeschriftung formatieren“ das Kästchen vor „Prozentsatz“ auszuwählen. In Abbildung 4.5 ist dieser Punkt blau hinterlegt. Gegebenenfalls muss das Kästchen mit dem Eintrag „Wert“ deaktiviert werden. Die komplette Lösungsdatei ist angehängt.2 J 2 Lösung Aufgabe 7: Travail de candidature 4.1. Einführungsbeispiel Abbildung 4.5.: Beschriftung der Daten in einem Diagramm. Travail de candidature 41 42 4. Häufigkeiten und Diagramme Abbildung 4.6.: Ein Histogramm. 4.2. Histogramme Um ein Histogramm zu erstellen, benötigt man im Gegensatz zu den Jahreszeiten im Einführungsbeispiel auf Seite 37 konkrete Zahlenwerte. In der angehängten Datei3 beispielsweise ist es das Alter der Teilnehmer eines pädagogischen Kolloquiums. Die Zahlenwerte sind erforderlich, weil man die Daten in einem Histogramm in Intervalle einteilt. Die Veranschaulichung der Datenverteilung aus den angehängten Daten soll im Endergebnis so wie in Abbildung 4.6 aussehen. Um die Altersintervalle oder -klassen zu definieren, muss zunächst das Minimum und das Maximum bestimmt werden. Dafür bedient man sich der Funktionen „MIN(Bereich)“ und „MAX(Bereich)“. Da das Mindestalter hier 20 und das Höchstalter 68 ist, beginnt man bei der Klasseneinteilung mit 20 und erhöht in 10-er Schritten. Diese Werte schreibt man vertikal untereinander, damit die Zellen rechts daneben die Werte für die Anzahl der jeweiligen Klasse Platz beinhalten können. Abbildung 4.7 zeigt, wie es aussehen könnte. Die Teilnehmeranzahl einer Altersklasse bestimmt man mit der Funktion „HÄUFIGKEIT(Daten; Klassen)“. Um die Werte aller Intervalle in einem Zug einzugeben, geht man wie folgt vor: 1. Man markiert alle Zellen hinter den Intervallen, in denen die Teilnehmeranzahl stehen soll. In Abbildung 4.7 sind dies die Zellen D6:D11. 2. Man gibt die Formel „=HÄUFIGKEIT(A1:A84;C6:C11)“ ein und bestätigt mit „Strg+Shift+Eingabe“. Dabei hält man „Strg“ und „Shift“ gedrückt, während man mit „Eingabe“ bestätigt. 3 Aufgabe Histogramm: Travail de candidature 4.2. Histogramme Abbildung 4.7.: Erstellen der Daten für ein Histogramm. Mit dieser Vorgehensweise schreibt Excel die Formel automatisch in alle markierten Felder. Bemerkung: Bei der Eingabe von „Strg+Shift+Eingabe“ handelt es sich um eine Matrixformel, die man in der Bearbeitungszeile an den geschwungenen Klammern erkennen kann, sobald man die Formel bestätigt hat. Diese Matrixformeln können nicht einzeln geändert werden, sondern es muss immer die ganze Matrix (hier D6:D11) markiert werden, bevor man eine Änderungen vornehmen kann. Diese Änderung wird dann auf den gesamten Bereich angewendet. In diesem Beispiel zählt die erste Klasse 0 Teilnehmer, da der Wert 20 die obere Grenze der ersten Klasse darstellt. Das heißt, es gibt keinen Teilnehmer, der jünger als 20 Jahre ist. Zwischen 20 und 30 Jahren werden entsprechend 15 Teilnehmer gezählt. Um mit Hilfe der gruppierten Daten ein Histogramm zu erstellen, wählt man die zu repräsentierenden Daten aus. Hier sind es die Zellen D7 bis D11. Man beachte, dass die erste Zelle, die 0 Teilnehmer zählt, ignoriert wird! Anschließend fügt man ein 2DSäulendiagramm ein. Löscht man die Legende, bleibt das Diagramm aus Abbildung 4.8. Die wesentlichen Unterschiede vom Diagramm in Abbildung 4.8 zu einem richtigen Histogramm wie in Abbildung 4.6, sind die Folgenden: 1. Die Säulen oder Rechtecke müssen aneinander liegen. 2. Die Beschriftung der Klassengrenzen müssen zwischen diesen Rechtecken stehen und geben die obere, beziehungsweise untere Grenze der jeweiligen Klasse an. Travail de candidature 43 44 4. Häufigkeiten und Diagramme Abbildung 4.8.: Diagramm, was als Grundlage für ein Histogramm dient. Abbildung 4.9.: Rahmenfarbe anpassen. Mit den folgenden Schritten passt man diese Unzulänglichkeiten an: 1. Die Entfernung der Abstände zwischen den Säulen erfolgt durch einen Doppelklick auf eine der fünf Säulen. Im darauf folgenden Fenster setzt man die Abstandsbreite auf 0%. Damit die Rechtecke klar getrennt sind, wählt man in demselben Fenster noch eine Rahmenfarbe aus, so wie es in Abbildung 4.9 gezeigt wird. 2. Die beiden Achsenbeschriftungen und den Titel fügt man so ein, wie es bereits für andere Diagramme gezeigt wurde. Zum Schluss ordnet man die einzelnen Elemente durch Ziehen mit der Maus an. 3. Im letzten Schritt müssen die Klassengrenzen unter die Intervallgrenzen geschrieben werden. Hier bietet Excel keine vorgefertigte Funktion an, mit der man es problemlos machen könnte. Dadurch muss man ein wenig basteln, um ein echtes Histogramm zu erhalten: zunächst löscht man die vorhandenen horizontalen Achsenbeschriftungen, indem man einen Rechtsklick auf die Rechtecke ausführt und anschließend „Daten auswählen“ anklickt. Nun klickt man in der rechten Fensterhälfte unter „Horizontale Achsenbeschriftung“ auf „Bearbeiten“ und setzt ein Semikolon „;“ ein. Dadurch ersetzt Excel alle Beschriftungen durch leere Felder. Travail de candidature 4.2. Histogramme Abbildung 4.10.: Klassengrenzen in ein Histogramm einfügen. Um die neuen Beschriftungen einzufügen, ist das kostenlose Add-In-Programm „XY Chart Labeler“4 sehr nützlich. In der Fußnote5 befindet sich die Version 7.1.05 für MS Windows. Nachdem das Programm installiert wurde6 , erscheint ein zusätzlicher Eintrag namens „XY Chart Labels“ im Menüband. Nun kann man die Beschriftungen im Diagramm einfügen und an die richtige Stelle verschieben. Dazu klickt man „Add Chart Labels“ an und markiert im nächsten Fenster in der zweiten Bearbeitungszeile die unteren Grenzen der Intervalle. (Siehe Abbildung 4.10.) In der letzten Zeile muss „Inside Base“ ausgewählt werden. Die nun eingefügten Beschriftungen bringt man mit Hilfe des Add-Ins und „Move Chart Labels“ in die richtige Position. 4. Für die letzte obere Grenze ist kein Platz mehr frei, da man nur eine Klassengrenze pro Intervall definieren kann. Deswegen fügt man die letzte, obere Klassengrenze mit der Achsenbeschriftung ein. Dazu schreibt man den Wert links vor die Achsenbeschriftung und passt das Format dieser Zahl an, indem man sie markiert und mit der rechten Maustaste in diese Markierung klickt. Zum besseren Verständnis ist die Vorgehensweise nochmal in Abbildung 4.11 illustriert. Nach diesen Schritten erhält man ein richtiges Histogramm. Soll die horizontale Achse bei 0 beginnen, muss man lediglich eine weitere Klasse in der Tabelle hinzufügen bevor man das Diagramm erstellt. 4 Erhältlich unter www.appspro.com. 5 XY Chart Labeler: Datei speichern, Excel schließen, Installation durchführen, Excel wieder öffnen. 6 Travail de candidature 45 46 4. Häufigkeiten und Diagramme Abbildung 4.11.: Einfügen der letzten Klassengrenze in ein Histogramm. Bemerkung: Die Einteilung der horizontalen Achse eines Histogramms muss nicht zwingend gleichmäßig sein. Ist dies nicht der Fall, so muss die Breite der Rechtecke entsprechend angepasst werden. Excel unterstützt jedoch keine Histogramme mit ungleichmäßigen Intervallen. Für diese Zwecke kann man das kostenlose Programm GeoGebra benutzen. Die Umsetzung wird im Anhang A.1 beschrieben. . Aufgabe 8 In der angehängten Datei7 befinden sich im ersten Tabellenblatt die Einkommensdaten von 5 000 amerikanischen Haushalten aus dem Jahr 2006 und im zweiten Blatt das Einkommen von 50 Studenten während der Sommermonate. 1. Veranschaulichen Sie die beiden Verteilungen dieser Einkommen anhand jeweils eines Histogramms. Wählen Sie dafür eine geeignete Klasseneinteilung. 2. Vergleichen Sie die Histogramme in beiden Tabellenblättern. Was kann man über die Verteilungen sagen? 3. Erweitern Sie die Tabellen in den beiden Arbeitsblättern um die relativen Häufigkeiten. Man berechnet sie, indem man die Häufigkeit der jeweiligen Klasse durch die Gesamtsumme der Häufigkeiten teilt. 4. Erweitern Sie die beiden Tabellen um eine weitere Spalte, die die kumulierten relativen Häufigkeiten enthält. Das ist die Summe der relativen Häufigkeit der entsprechenden Klasse und allen vorangehenden Klassen. 7 Aufgabe 8: Travail de candidature 4.2. Histogramme 47 5. Erstellen Sie eine Liniengrafik der kumulierten relativen Häufigkeiten für beide Arbeitsblätter. Das Ergebnis soll wie in der folgenden Grafik aussehen. Lösung der Aufgabe Die Erläuterungen zu den einzelnen Punkten: 1. Die benutzten Formeln kann man in Abbildung 4.12 nachsehen. Die beiden Histogramme befinden sich in der Abbildung 4.13. Man beachte, dass die Häufigkeiten mit einer Matrixformel eingegeben wurden, so wie es auf Seite 43 erklärt wird. 2. Während die Einkommen der Studenten symmetrisch um eine Klasse, die in der Mitte liegt, verteilt sind, ist die Verteilung der Haushaltseinkommen asymmetrisch: es gibt sehr viel mehr Haushalte mit einem niedrigen Einkommen. 3. Diese Antwort wurde bereits im ersten Punkt erläutert. 4. Die Formeln befinden sich in der Abbildung 4.12 und können dort abgelesen werden. 5. Man wählt die Daten der Klassengrenzen und die der kumulierten relativen Häufigkeiten aus, um das Diagramm zu erstellen. Die Klassengrenzen der Beschriftung auf der horizontalen Achse werden auf die Teilstriche positioniert indem man einen Doppelklick auf die Achsenbeschriftung ausführt und die Option „Auf Teilstrichen“ im unteren Bereich des Fensters aktiviert. Die Lösungsdatei mit allen Diagrammen ist in der Fußnote angehängt.8 8 Lösung Aufgabe 8: Travail de candidature J 48 4. Häufigkeiten und Diagramme Abbildung 4.12.: Formeln im ersten und zweiten Tabellenblatt aus Aufgabe 8. Abbildung 4.13.: Verteilung der Haushaltseinkommen und der Studenteneinkommen aus Aufgabe 8. Travail de candidature 5. Zentralwerte Wie der Begriff „Zentralwert“ schon verrät, geht es in diesem Kapitel um Werte, die im Zentrum, also in der „Mitte“ liegen. Die Meisten denken hier wohl an den klassischen Mittelwert, mit dem das arithmetische Mittel gemeint ist.1 Allerdings benötigt man mehr als einen einzigen Mittelwert, um vernünftig Statistik zu betreiben. Bei politischen Wahlen zum Beispiel macht das arithmetische Mittel keinen Sinn. Hier zählt allein die Anzahl der Sitze einer Partei, die ihrerseits anhand der Anzahl der Stimmen bestimmt wird. In der Politik kommt es also darauf an, die meisten Wähler zu gewinnen. Womit man beim Modus wäre, der im nächsten Unterkapitel näher beleuchtet wird. 5.1. Der Modus . Aufgabe 9 In der angehängten Datei2 sind die Benotungen von etwa 120 Schülern. Erstellen Sie eine Tabelle, die die Häufigkeiten jeder Benotung auflistet. Welche Benotung kommt am häufigsten vor? Lösung der Aufgabe Die folgende Tabelle enthält die Ergebnisse. Die Lösungsdatei ist angehängt.3 Benotung Schüleranzahl sehr gut 15 gut 32 ausreichend 68 ungenügend 18 1 Neben dem arithmetischen Mittel existieren weiterhin das harmonische und das geometrische Mittel. In diesem Kurs wird lediglich auf das arithmetische Mittel im Detail eingegangen. Einen Überblick über andere Mittelwerte ist im Anhang ab Seite 106 zu finden. 2 Aufgabe 9: 3 Lösung Aufgabe 9: 50 5. Zentralwerte Die Häufigkeiten erhält man mit der Funktion „ZÄHLENWENN(Bereich; Suchkriterien)“. Ins erste Argument schreibt man „A:A“ damit die gesamte erste Spalte betrachtet wird. Ins zweite Argument schreibt man die jeweilige Benotung. Der Modus ist in diesem Beispiel „ausreichend“, da er im Vergleich zu allen anderen Benotung viel häufiger vorkommt. J Liegen Zahlenwerte vor, kann Excel den Modus mit der Funktion „Modus.einf“ ermitteln. Allerdings hat diese Vorgehensweise den Nachteil, dass man nicht erkennt, ob nur ein oder mehrere Modalwerte existieren. Darüber hinaus erkennt man nicht, wie groß der Unterschied zwischen der Häufigkeit des Modus und des nächsten Wertes ist. Treten nämlich mehrere Werte annähernd gleich oft auf, sagt man, dass kein Modus existiert. Benutzt man in dem Fall die Funktion „MODUS.EINF“ definiert man womöglich einen Modus, den es mathematisch gesehen zwar gibt, den man im Allgemeinen aber nicht annimmt. Daher sollte man immer eine vollständige Tabelle mit den Häufigkeiten erstellen um den Modus selbst zu bestimmen. . Aufgabe 10 Bestimmen Sie den Modus der Punktzahl der Schüler in der angehängten Datei.4 Lösung der Aufgabe In den folgenden Tabellen stehen die Ergebnisse. Die entsprechende Datei ist angehängt.5 Benotung 0 1 2 3 4 5 6 7 8 9 10 Häufigkeit - 6 - 3 7 8 11 23 22 27 23 Benotung 11 12 13 14 15 16 17 18 19 20 Häufigkeit 26 26 28 25 19 13 6 4 2 - Wendet man hier die Funktion „Modus.einf“ an, liefert Excel den Wert 13. In Anbetracht dessen, dass es mehrere Werte gibt, die sehr nahe beieinander liegen, definiert man in diesem Fall jedoch keinen Modus. J . Aufgabe 11 Folgendes Histogramm repräsentiert die Verteilung der Anzahl der Arbeiter einer Firma in Funktion ihres Dienstalters. 4 Aufgabe 10: 5 Lösung Aufgabe 10: Travail de candidature 5.2. Der Median Arbeiter [#] 60 50 40 30 20 10 0 5 10 15 20 25 30 35 40 Dienstalter [Jahre] Bestimmen Sie den Modus anhand dieser Daten. Lösung der Aufgabe Am Histogramm liest man ab, dass sich zwei Klassen in Bezug auf die Häufigkeitsverteilung von allen anderen Klassen absetzen. In diesem Fall existieren zwei Modi: einerseits die Klasse der Altersgruppe zwischen 5 und 10 Dienstjahren und andererseits die Altersgruppe von 20 bis 25 Dienstjahren. Eine solche Verteilung nennt man bimodal. J Bemerkung: Einen Modus gibt es nur dann, wenn sich ein Wert in der Häufigkeit von allen anderen Werten absetzt. Existieren zwei oder mehr Werte, die im Vergleich zu allen Anderen viel öfter auftreten, definiert man entsprechend zwei oder mehr Modi. 5.2. Der Median Der Modus gehört zwar zur Gruppe der Zentralwerte, er liegt aber offensichtlich nicht notwendigerweise im „Zentrum“ einer Datenreihe. Dieses Zentrum würde man eher in der Mitte zwischen allen anderen Werten vermuten. Genau so ist der Median definiert. Betrachtet man die Zahlen 1; 2; 5, dann ist 2 der Median, weil er, nachdem man alle Daten sortiert hat, zwischen den beiden Anderen liegt. Für die Zahlen 7; 0; 5; 7; 6 ist 6 der Median, da er nach dem Sortieren (0; 5; 6; 7; 7) in der Mitte von allen Zahlen liegt. Um einen Median zu bestimmen, muss man die Daten also sortieren können. Travail de candidature 51 52 5. Zentralwerte . Aufgabe 12 Versuchen Sie zunächst ohne Excel den Median der jeweiligen Datenreihe zu bestimmen. Überprüfen Sie anschließend Ihre Ergebnisse mit der Funktion „Median“. Datenreihe Median 0; 1; 0 2; 2; 57; 3; 3 0; 3; 4; 5 Lösung der Aufgabe Excel liefert die folgenden Ergebnisse. Datenreihe Median 0; 1; 0 2; 2; 57; 3; 3 0; 3; 4; 5 0 3 3,5 Der Median stellt immer den mittleren oder den zentralen Wert einer Zahlenfolge dar. Nachdem man die Daten also sortiert hat, liegt dieselbe Anzahl an Werten links und rechts vom Median. Anders ausgedrückt befindet sich rund die Hälfte der Werte links vom Median. Das heißt, ungefähr die Hälfte der Daten ist kleiner oder gleich dem Median. Ist die Anzahl der Daten ungerade, beispielsweise 121, dann ist der Median der 61. Wert, da genau 60 Werte davor und 60 Werte dahinter liegen. Berechnen tut man die Position des Median, indem man zu 121 eins hinzu addiert und durch 2 teilt. Bei einer geraden Anzahl von Werten gibt es zwei zentrale Werte. Der Median ist dann die Summe dieser beiden Werte, geteilt durch 2. Dadurch wird sichergestellt, dass ungefähr die gleiche Anzahl an Werten links und rechts vom Median liegen. Das letzte Beispiel aus der Tabelle beinhaltet vier Datenwerte. Das heißt, der Median ist die Hälfte der Summe des zweiten und dritten Wertes: 3+4 = 3, 5. 2 J Travail de candidature 5.2. Der Median Abbildung 5.1.: Neue Sortierreihenfolge definieren. . Aufgabe 13 In der Fußnote6 befindet sich eine Datei mit der Benotung von etwa 200 Studenten. 1. Bestimmen Sie den Median dieser Daten. 2. Erstellen Sie eine Tabelle mit der Häufigkeitsverteilung der Benotungen. 3. Erweitern Sie diese Tabelle um die relativen Häufigkeiten sowie um die kumulierten relativen Häufigkeiten. 4. Wie kann man den Median aus der Tabelle der kumulierten Häufigkeiten lesen? Lösung der Aufgabe 1. Zunächst muss man die Daten sortieren. Dazu markiert man die Spalte A und wählt dann im Menüband „Start“ die Schaltfläche „Sortieren und Filtern“, „Benutzerdefiniertes Sortieren“. Da die gewünschte Reihenfolge noch nicht aufgelistet ist, fügt man sie unter „Benutzerdefinierte Liste“ hinzu. Abbildung 5.1 illustriert, wie man vorgehen muss. Da insgesamt 120 Werte vorliegen, gibt es 2 zentrale Werte: den 60. und den 61. Wert. Die Benotungen, die nach dem Sortieren in den Zeilen 60 und 61 stehen, heißen „ausreichend“. Der Median ist dementsprechend ebenfalls „ausreichend“. 2. Die Zahlenwerte befinden sich in Tabelle 5.1 und die benutzten Formeln in Abbildung 5.2. 3. Siehe Tabelle 5.1 und Abbildung 5.2. 6 Aufgabe 13 Travail de candidature 53 54 5. Zentralwerte Benotung Häufigkeit rel. Hfgk. ungenügend 30 25% ausreichend 56 47% 24 20% gut sehr gut 10 8% Total: 120 100% rel. Kum. Hfgk. 25% 72% 92% 100% Tabelle 5.1.: Ergebnisse der Aufgabe 13. Abbildung 5.2.: Benutzte Formeln in Aufgabe 13. 4. Da der Median so definiert ist, dass die Hälfte der Werte, also 50%, links und 50% rechts von ihm liegen, muss er sich in der Klasse befinden, die die 50%Marke zuerst überschreitet. In diesem Fall ist es die Klasse mit der Bewertung „ausreichend“. Die Ergebnisse befinden sich ebenfalls in der angehängten Datei.7 Bemerkung: Ähnlich wie bei der Funktion „MODUS.EINF“ ist es nicht möglich, den Median zu bestimmen, wenn die vorliegenden Werte keine Zahlenwerte sind. In dem Fall muss man wie in Aufgabe 13 vorgehen und die Werte sortieren. Aus Aufgabe 13 geht ebenfalls hervor, dass der Median in der Gruppe oder Klasse liegt, die als Erste die 50%-Marke der kumulierten relativen Häufigkeiten überschreitet. Daher nennt man ihn auch noch das 50. Quantil (Quantil bedeutet Hunderstel). Dementsprechend definiert man das 25. Quantil und das 75. Quantil, die auch noch das erste und das dritte Quartil (Viertel) genannt werden. Insgesamt sind der Median, das 50. Quantil und das 2. Quartil also identisch. Manchmal wurden die Daten in Klassen gruppiert und die Primärdaten liegen nicht mehr vor. Beispielsweise in einer Zeitschrift, in der die Daten aufgrund eines besseren Überblicks in einer Tabelle gruppiert wurden. Zur Tabelle 5.2 liegen die Primärdaten auch nicht vor. Der Median dieser Daten befindet sich in der Klasse [100; 150[, da die kumulierten relativen Häufigkeiten dieser Klasse die 50%-Marke zuerst überschreitet. 7 Lösung Aufgabe 13: Travail de candidature J 5.2. Der Median Ausgaben [e] rel. Hfgk. [%] [0; 50[ 20% [50; 100[ 26% 34% [100; 150[ [150; 200[ 15% 5% [200; 250[ kum. rel. Hfgk. [%] 20% 46% 80% 95% 100% Tabelle 5.2.: Tabelle ohne Primärdaten. Abbildung 5.3.: Den Median grafisch bestimmen. Man könnte also einfach den Mittelwert beider Klassengrenzen wählen und behaupten, der Median sei 125. Betrachtet man aber das Diagramm der kumulierten relativen Häufigkeiten in Abbildung 5.3, stellt man fest, dass das 50. Quantil, also der Median, wesentlich näher an 100 e liegt. Anhand der Abbildung 5.3 kann man den Median eingrenzen und behaupten, dass er in etwa zwischen 102 e und 110 e liegt. Eine viel genauere Abschätzung kann man alleine mit Hilfe der Grafik aber nicht erreichen. Wenn man jedoch die Zahlenwerte aus der Tabelle hinzuzieht, kann man einen exakten Wert berechnen. Man erkennt, dass der Weg vom Punkt A unterhalb der Pfeiles bis zum nächstgelegenen Punkt B oberhalb, gleichmäßig verläuft. Hat man also zum Beispiel die Hälfte des Weges von A nach B zurückgelegt, so hat man auch die Hälfte des Weges in der Horizontalen und auch die Hälfte des Weges in der Vertikalen von A nach B zurückgelegt. Entsprechend nutzt man diese „Gleichmäßigkeit“ oder Proportionalität innerhalb der Klassen aus, um die Distanz in der Horizontalen von 100 e bis zum Median zu berechnen. Da der Median bei genau 50% der kumulierten relativen Häufigkeiten liegt, Travail de candidature 55 56 5. Zentralwerte weiß man, dass in diesem Beispiel genau 4 Prozentpunkte zwischen dem unteren Ende A und dem Median liegen. Die ganze Breite dieser Klasse beträgt 34 Prozentpunkte. 4 Man hat also 34 des Weges von A nach B zurückgelegt, um zum Median zu gelangen. 4 von der Breite In der Horizontalen muss man also, beginnend bei 100 e, ebenfalls 34 4 der Klasse, also 50, zurücklegen, um zum Median zu gelangen. 34 von 50 sind ungefähr 5,9. Der Median liegt also bei etwa 105,9 e. Die ganze Rechnung sieht wie folgt aus: M = 100 + 4 · 50 ≈ 105, 9 e. 34 Bezeichnet man die Höhe der Punkte A und B auf der horizontalen Achse mit xA , xB und die Höhe auf der vertikalen Achse entsprechend mit yA und yB , erhält man die Formel 0, 5 − yA · (xB − xA ). M = xA + yB − yA Setzt man die Werte aus dem Beispiel oben ein, erhält man M = 100 + = 100 + 0, 50 − 0, 46 · (150 − 100) 0, 80 − 0, 46 0, 04 · 50 0, 34 ≈ 105, 9. Multipliziert man den Zähler und den Nenner des Bruchs mit 100, erhält man genau die gleiche Formel wie oben. . Aufgabe 14 Die folgende Tabelle enthält die Amtszeiten englischer Monarchen zwischen 827 und 1952. Bestimmen Sie den Median. Was sagt er aus und was kann man daraus schließen? Amtszeit [Jahre] Monarchen [#] [0; 10[ [10; 20[ [20; 30[ [30; 40[ [40; 50[ [50; 60[ [60; 70[ 22 16 11 7 1 2 2 Travail de candidature 5.2. Der Median 57 Lösung der Aufgabe Der Median ist etwa 15 Jahre und wird wie oben anhand der kumulierten Häufigkeiten berechnet. Erweitert man die Tabelle um die entsprechenden Spalten, erhält man folgende Werte: Amtszeit [Jahre] Monarchen [#] rel. Hfgk. [0; 10[ [10; 20[ [20; 30[ [30; 40[ [40; 50[ [50; 60[ [60; 70[ 22 16 11 7 1 2 2 36% 26% 18% 11% 2% 3% 3% kum. rel. Hfgk. 36% 62% 80% 91% 93% 97% 100% Mit Hilfe der allgemeinen Formel weiter oben erhält man: M = xA + ≈ 10 + = 10 + 0,50−yA · (xB − xA ). yB −yA 0,50−0,36 · (20 − 10) 0,62−0,36 0,14 · 10 0,28 = 15 Ungefähr 50% der Monarchen hat demnach nicht länger als 15 Jahre regiert. . Aufgabe 15 In der angehängten Datei8 sind die Antworten einer Umfrage, in der etwa 100 Haushalte nach der Anzahl der vorhandenen Fernsehgeräte befragt wurden. Bereiten Sie die Daten in einer Häufigkeitstabelle auf, die auch die kumulierten relativen Häufigkeiten enthält und bestimmen Sie den Median. Überprüfen Sie das Ergebnis anhand der Funktion „Median“. Lösung der Aufgabe Hier liegen keine Klassen vor! Den Median bestimmt man also anhand der kumulierten relativen Häufigkeiten. Der erste Wert, für den die kumulierten relativen Häufigkeiten 8 Aufgabe 15: Travail de candidature J 58 5. Zentralwerte die 50%-Marke überschreiten ist 2. Der Median ist also 2. Anzahl Fernseher Anzahl Familien rel. Hfgk. rel. kum. Hfgk. 0 1 2 3 4 5 1 26 46 20 10 1 1% 25% 44% 19% 10% 1% 1% 26% 70% 89% 99% 100% Die Datei mit den Ergebnissen ist in der Fußnote angehängt.9 5.3. Das arithmetische Mittel Beim arithmetischen Mittel handelt es sich um den bekanntesten aller Mittelwerte. Hier wird auf das arithmetische Mittel im Detail eingegangen, während weitere Mittelwerte im Anhang A.2 erläutert werden. Das arithmetische Mittel bildet die Summe aller Werte, geteilt durch die Anzahl dieser Werte. Schreibt man xi für die einzelnen Werte, nimmt i die Zahlen 1 bis n an, wobei n die Anzahl der Werte repräsentiert. Die Formel für das arithmetische Mittel ergibt dann x1 + x2 + .. + xn = n n P xi i=1 n = n 1X xi . n i=1 An dieser Berechnungsweise erkennt man, dass das arithmetische Mittel den durchschnittlichen Wert angibt, den man erhält, wenn man eine Gesamtsumme gleichmäßig aufteilen würde. Um die Bedeutung des Mittelwerts zu veranschaulichen kann man beispielsweise die Löhne einer Firma mit 10 Mitarbeitern analysieren: 852 e, 1 250 e, 1 751 e, 1 751 e, 1 820 e, 1 857 e, 1 867 e, 2 200 e, 2 200 e, 4 721 e. Die Summe aller Löhne beträgt 20 269 e. Würde man sie gleichmäßig aufteilen, würde jeder Mitarbeiter 20 269 : 10 = 2 026, 90 e erhalten. Dieser Wert entspricht genau dem arithmetischen Mittelwert aller Löhne. In Excel kann man den arithmetischen Mittelwert mit der Funktion „MITTELWERT“ berechnen. 9 Lösung Aufgabe 15: Travail de candidature J 5.3. Das arithmetische Mittel . Aufgabe 16 Berechnen Sie den Mittelwert der Einkommen der Haushalte aus Aufgabe 8. Wofür steht dieser Mittelwert? Lösung der Aufgabe Das arithmetische Mittel der Einkommen beträgt ungefähr 78 195 e. Würde das gesamte Einkommen gleichmäßig auf alle Lohnempfänger aufgeteilt werden, erhielt jeder diese Summe von etwa 78 195 e. J Liegen nicht alle Primärdaten vor, muss man unterscheiden, wie die Daten aufbereitet sind: • Sind die Daten in einer Tabelle wie auf Seite 58 zusammengefasst, muss jeder Wert mit der entsprechenden Anzahl multipliziert werden: 0 · 1 + 1 · 26 + 2 · 46 + 3 · 20 + 4 · 10 + 5 · 1 26 + 92 + 60 + 40 + 5 = ≈ 2, 14 1 + 26 + 46 + 20 + 10 + 1 104 Im Durchschnitt besitzt also jede Familie 2,14 Fernseher. Dies entspricht dem Mittelwert, den man mit den allen Primärdaten erhalten würde. Durch das Zusammenfassen gehen nämlich keine Daten verloren. In diesem Beispiel kann man über die Sinnhaftigkeit vom arithmetischen Mittel diskutieren. Vor allem dann, wenn man im Allgemeinen davon ausgeht, dass nur ganze Fernseher existieren. • Liegen wie in Aufgabe 14 Klassen vor, multipliziert man die Häufigkeiten der Klassen mit dem Mittelwert der beiden Intervallgrenzen der entsprechenden Klasse. Man erhält 5 · 22 + 15 · 16 + 25 · 11 + 35 · 7 + 45 · 1 + 55 · 2 + 65 · 1 ≈ 19. 22 + 16 + 11 + 7 + 1 + 2 + 2 Im Durchschnitt hat also jeder Monarch etwa 19 Jahre regiert. Ein Mittelwert mit Nachkommastellen macht hier keinen Sinn, denn die gegebenen Daten ermöglichen keine präziseren Schätzungen. . Aufgabe 17 Untenstehend die Stundenlöhne (in e) von 10 Angestellten in zwei verschiedenen Unternehmen. Unternehmen 1 10 10 10 10 10 10 15 15 50 50 Unternehmen 2 16 16 17 17 17 17 17 17 18 19 Berechnen Sie das arithmetische Mittel der Stundenlöhne beider Unternehmen. Welche Schlussfolgerungen kann man ziehen, wenn man beide Werte vergleicht? Travail de candidature 59 60 5. Zentralwerte Lösung der Aufgabe Der Mittelwert des Stundenlohns im ersten Unternehmen beträgt 19 e, der im zweiten Unternehmen 17,1 e. Der Mittelwert ist im ersten Unternehmen höher ist als im Zweiten. Trotzdem verdienen die meisten Lohnempfänger aus dem ersten Unternehmen bedeutend weniger als den Durchschnittsstundenlohn, während die Löhne im zweiten Unternehmen viel homogener aufgeteilt sind. Der Mittelwert sagt also nichts über die Verteilung der Löhne aus. J . Aufgabe 18 Die folgende Tabelle stellt das Einkommen der Haushalte von 10 kanadischen Provinzen im Jahr 1997 dar: Einkommen, ø [$] Einkommen, Median [$] Provinz Alberta British Columbia Manitoba Neufundland und Labrador New Brunswick Nova Scotia Ontario Prince Edward Island Québec Saskatchewan 47 539 47 041 43 556 37 438 39 549 38 524 52 072 37 914 41 499 40 921 40 403 37 957 36 872 31 125 33 977 32 585 42 753 32 466 33 858 32 974 1. Wieso ist das durchschnittliche Einkommen in allen Provinzen höher als der Median des Einkommens? 2. Berechnen Sie den Mittelwert der Einkommen. Wieso entspricht er nicht den vom kanadischen Statistikamt veröffentlichten Wert von $ 46 556? Lösung der Aufgabe 1. Es liegt eine asymmetrische Verteilung der Einkommen vor. In dieser Verteilung gibt es weniger höhere Werte, die dafür aber umso höher ausfallen. In etwa so wie beim ersten Unternehmen in der Aufgabe 17. 2. Berechnet man den Mittelwert aller Einkommen, wird jede der zehn Provinzen gleich gewichtet. Dies entspricht aber nicht der Realität, da nicht die gleiche Anzahl an Einwohnern in jeder Provinz leben. Man müsste also die Einkommen mit der Anzahl der Einwohner der entsprechenden Provinz multiplizieren und die Travail de candidature 5.4. Wann nimmt man welchen Zentralwert? 61 Werte anschließend addieren und durch die gesamte Einwohnerzahl dividieren. Erst dann würde man auf den vom kanadischen Statistikamt veröffentlichten Wert kommen. Da diese Daten hier aber nicht vorliegen, kann man den Wert nicht nachrechnen. . J . Aufgabe 19 Nach einer Studie der Uni Kassel im Jahr 2010 verdienen vollzeitbeschäftigte Fachhochschulabsolventen zehn Jahre nach ihrem Abschluss im Schnitt etwa 59 400 e. Nun behauptet ein Freund, dass sein Vater, Hochschulabsolvent, aber 95 000 e im Jahr verdient. Stehen beide Aussagen im Widerspruch? Erläutern Sie Ihre Antwort. Lösung der Aufgabe Nein, beide Aussagen stehen nicht im Widerspruch. Es gibt immer Ausreißer nach oben und die Jahresgehälter können teilweise erheblich vom Durchschnittseinkommen abweichen. Dadurch sind viel höhere Gehälter als das Durchschnittsgehalt möglich. Andererseits gibt es dann unter Umständen mehr niedrige Gehälter, die diese wenigen hohen Gehälter „ausgleichen“. J 5.4. Wann nimmt man welchen Zentralwert? Von den drei hier vorgestellten Zentralwerten, dem Modus, dem Median und dem arithmetischen Mittel, hat jeder seine Daseinsberechtigung. Im Allgemeinen gibt es keine goldene Regel, die jederzeit besagen kann, welchen Zentralwert man nehmen muss. Man kann aber anhand einiger charakteristischer Merkmale festmachen, zu welchem Zentralwert man tendieren sollte. Den Modus wählt man, wenn sich ein oder mehrere Werte in der Häufigkeit von allen Anderen abheben. Zum Beispiel wenn eine bimodale Verteilung vorliegt, wie in der Abbildung 5.4. Bei einer solchen Verteilung liegen sehr wenige Werte in der Nähe des Medians oder des arithmetischen Mittelwertes. In diesem Fall einer bimodalen Verteilung liegen sogar zwei Modi vor. Es ist also durchaus möglich, dass zwei oder mehr Modi existieren. Die Modi müssen sich lediglich in der Häufigkeit von allen anderen Werten abheben. Wenn es einen Modus gibt, der nur ein wenig öfter als alle Anderen auftritt, sagt man, dass es keinen Modus gibt. Konkret wird der Modus zum Beispiel von einem Textilhersteller benutzt, der für den breitesten Markt produzieren möchte und daher wissen will, welche Kleidergröße Travail de candidature 62 5. Zentralwerte Abbildung 5.4.: Beispiel einer bimodalen Verteilung. am meisten verkauft wird. Ihn wird das arithmetische Mittel der Größe aller produzierten Kleider wahrlich nicht interessieren, denn was nützt es ihm, wenn er seine Kleider in „Mittelwert“-Größe produziert, sie aber niemandem passen? Der Median ist der Wert, der in der „Mitte“ liegt. Er wird benutzt, wenn einige wenige Ausreißer nach unten oder oben existieren, die den arithmetischen Mittelwert zu sehr in ihre Richtung beeinflussen würden. Dies ist unter anderem bei asymmetrischen Verteilungen der Fall. Ein Anwendungsbeispiel wären die Gehälter einer Firma oder eines Landes, wo wenige Besserverdiener einen wesentlich höheren Lohn erhalten als die restliche Belegschaft. Aufgabe 17 stellt hierfür ein theoretisches Beispiel dar. Den bekanntesten aller Zentralwerte, den arithmetischen Mittelwert, nimmt man meistens dann, wenn die oben genannten Fälle nicht vorliegen. Das heißt, wenn eine symmetrische und unimodale Verteilung der Werte vorliegt. Anders ausgedrückt sollen die Werte mehr oder weniger gleichmäßig verteilt sein, um einen aussagekräftigen Mittelwert zu erhalten. Als Beispiel könnte man hier den Absatz oder Umsatz des Textilverkäufers nennen, der wissen möchte, wie viele Kleider er im Durchschnitt verkauft hat. Travail de candidature 5.4. Wann nimmt man welchen Zentralwert? . Aufgabe 20 Welchen Zentralwert sollte man in jedem der folgenden Beispielen nehmen? 1. Aufteilung der Angestellten nach ihrer Muttersprache. Muttersprache Anzahl Angestellter Luxemburgisch Französisch Deutsch Sonstige 25 81 57 9 2. Aufteilung der Angestellten nach ihrer Zufriedenheit. Zufriedenheit Anzahl Angestellter sehr unzufrieden eher unzufrieden eher zufrieden sehr zufrieden 18 27 60 45 3. Aufteilung der Angestellten nach ihren Krankentagen. Krankentage Angestellte [%] 0 1 2 3 85 12 2 1 4. Die Ergebnisse einer Schulklasse in einer Klausur. 1; 5; 24; 26; 28; 31; 32; 34; 34; 35; 35; 35; 37; 38; 40; 42. Lösung der Aufgabe Die Ergebnisse im Überblick: Teilaufgabe Modus Median Arithmetisches Mittel 1. 2. 3. 4. Französisch eher zufrieden 0 35 eher zufrieden 0 34 0,19 ≈ 30, 33 Travail de candidature 63 64 5. Zentralwerte Während in den ersten beiden Beispielen keine Wahl bleibt, sollte man im dritten Beispiel den Modus oder den Median wählen, da die Verteilungen asymmetrisch sind. In der vierten Teilaufgabe gibt es zwei Ausreißer, die den Mittelwert nach unten ziehen. Einen Modus möchte man hier nicht definieren, da sich kein Wert zahlenmäßig von allen Anderen absetzt. Der Median wäre hier also der geeignetere Zentralwert. J Travail de candidature 6. Streuungsmaße Ein Zentralwert gibt an um welchen Wert die Daten verteilt sind. Will man beispielsweise die Ausgangsqualität eines Produktes bewerten, reicht ein Zentralwert allein nicht aus. Der Produzent möchte nämlich eine möglichst gleichbleibende Qualität seiner Produkte erreichen. Die Schwankungen sollten also möglichst klein sein. Umgekehrt sollten die Schwankungen in einem Eignungstest möglichst groß sein um die Spreu vom Weizen trennen. Man benötigt also eine Kennzahl für die Verteilung der vorliegenden Daten. Hierüber liefert ein Zentralwert aber keine Erkenntnis, denn er gibt lediglich ein „Zentrum“ an, je nachdem wie er definiert ist. Ein ähnliches Bild zeichnet sich bei den Kennwerten, die die Verteilung von Daten messen, denn auch hier existieren Mehrere. Die Geläufigsten sind jedoch die Spannweite und die Standardabweichung, die in der Folge vorgestellt werden. 6.1. Die Spannweite Im ersten Einführungsbeispiel will man eine möglichst stabile Produktqualität erreichen, denn die Firma möchte eine ausreichend gute und stabile Qualität ihrer Produkte sicherstellen. Es ist also erwünscht, dass die Ergebnisse der Qualitätstests eng zusammen liegen. Hier liegt es nahe, die Differenz zwischen dem höchsten und dem niedrigsten Wert zu berechnen. Diese Kennzahl definiert die Spannweite. Um die Spannweite zu veranschaulichen, kann man die beiden Einführungsbeispiele mit Zahlen unterlegen. . Aufgabe 21 In der angehängten Datei1 befinden sich in zwei Tabellenblättern die Testergebnisse der Belastungstests von Beton, sowie die Punktzahl der Bewerber einer Arbeitsstelle. Berechnen Sie mit den Funktionen „MIN(Bereich)“ und „MAX(Bereich)“ die Spannweite beider Datenreihen. 1 Aufgabe 21: 66 6. Streuungsmaße Lösung der Aufgabe Die Spannweite im ersten Beispiel beträgt etwa 0,9 und die Spannweite im zweiten Beispiel beträgt 11 Punkte. Die Datei mit den Ergebnissen ist in der Fußnote angehängt.2 J Die beiden Spannweiten 0,9 und 11 liegen weit auseinander und sind als einzelne Zahlen wenig aussagekräftig. Um sie besser einordnen und vergleichen zu können, setzt man sie deswegen in Bezug zum arithmetischen Mittelwert. Man erhält eine Spannweite von etwa 10% im ersten Beispiel und eine Spannweite von etwa 83% im zweiten Beispiel. Auf den ersten Blick erscheint der zweite Test durch die große Spannweite der Ergebnisse als geeignet, den kompetentesten Kandidaten zu ermitteln. Allerdings erkennt man bei genauerem Hinsehen, dass die erhöhte Spannweite durch einen einzigen Ausreißer bedingt ist und die restlichen Werte annähernd gleich sind. Somit ist es nicht eindeutig möglich, den besten Kandidaten zu finden. Die Spannweite gibt die Breite der Testergebnisse sehr gut wieder. Sie ist aber keine zuverlässige Kennzahl, wenn es um die Verteilung der Gesamtheit aller Daten geht. Es braucht also eine weitere Kennzahl, die im nächsten Abschnitt analysiert wird. 6.2. Die Standardabweichung Im Gegensatz zur Spannweite zieht die Standardabweichung alle Werte zur Berechnung heran. Sie wird mit Hilfe der Varianz berechnet. Das ist die Summe der Quadrate der Abweichungen aller Werte vom arithmetischen Mittel, geteilt durch die Anzahl der Werte. Sind x1 ; x2 ; ..; xn die vorhandenen Werte und x deren Mittelwert, so wird die Varianz wie folgt berechnet: 2 2 2 (x1 − x) + (x2 − x) + .. + (xn − x) = n n P (xi − x)2 i=1 n = n 1X (xi − x)2 n i=1 Wieso es gerade die Quadrate der Abweichungen sind, die summiert werden, und nicht die Abweichungen selbst, wird im nächsten Kapitel veranschaulicht. Durch das Quadrieren der Terme sind die Einheiten der Varianz und der Daten xi verschieden. Deswegen berechnet man die Quadratwurzel der Varianz, um die Standardabweichung 2 Lösung Aufgabe 21: Travail de candidature 6.2. Die Standardabweichung 67 zu erhalten. Sie wird mit σ bezeichnet: σ= v u n u1 X t (x n i=1 i − x)2 . In Excel berechnet man die Standardabweichung mit Hilfe der Funktion „STABW.N(Bereich)“. . Aufgabe 22 Acht Bewerber des vorher erwähnten Einführungstests unterzogen sich einem zweiten Test, dessen Ergebnisse in der Tabelle unten hinzugefügt wurden: Punkte (von 20) Test 1: Test 2: 14 17 13 14 15 13 5 16 15 7 16 17 10 7 17 14 Berechnen Sie den arithmetischen Mittelwert, die Spannweite und die Standardabweichung der beiden Tests. Vergleichen Sie die Ergebnisse der drei Kennzahlen. Lösung der Aufgabe Die Ergebnisse beider Datenreihe ergeben folgende Werte. Test 1 Test 2 MW Spannweite Stdabw. 13,125 13,125 11 10 ≈ 3,22 ≈ 4,17 Während die Mittelwerte in beiden Fällen identisch sind, weichen die Spannweite und die Standardabweichung voneinander ab. Im ersten Test liegt die Spannweite um 10% höher, die Standardabweichung aber um 25% kleiner als im zweiten Test. Da die Standardabweichung die Abweichung jedes einzelnen Wertes vom (arithmetischen) Mittelwert summiert, wird die Zahl um so höher, je weiter die Daten vom Mittelwert entfernt liegen. Umgekehrt gilt natürlich auch, dass, je näher die Daten am arithmetischen Mittel liegen, desto kleiner wird die Standardabweichung. Sie ist also ein Indikator dafür, ob die Mehrzahl der Daten nahe um den Mittelwert liegen oder weiter vom Mittelwert entfernt liegen. J . Aufgabe 23 Berechnen Sie die Standardabweichung der 5 000 Einkommen aus Aufgabe 8. Lösung der Aufgabe Die Standardabweichung beträgt ungefähr 123 611 e. Travail de candidature J 68 6. Streuungsmaße . Aufgabe 24 Folgende Tabelle enthält die Kundenumsätze (in Tsd. e) von vier verschiedenen Firmen. Firma Firma Firma Firma A: B: C: D: 121 132 132 122 134 135 135 125 137 138 138 138 142 141 142 158 162 148 165 160 Schätzen Sie zunächst von welcher Firma die Kundenumsätze die höchste Standardabweichung aufweisen. Überprüfen Sie Ihre Vermutung anschließend mit Hilfe von Excel. Lösung der Aufgabe Die Mittelwerte der Umsätze der vier Firmen liegen alle zwischen ungefähr 136 und 138, denn die äußeren Werte liegen jeweils paarweise in etwa gleich weit davon entfernt. Der kleinste und der größte Wert von Firma A liegen sehr viel weiter vom geschätzten Mittelwert weg, als die entsprechenden Werte von Firma B. Die Standardabweichung von Firma A muss demnach höher sein. Die Argumentation zwischen A und C ist fast identisch. Hier ist es nun der kleinste Wert, der bei Firma A weiter vom Mittelwert entfernt liegt. Man erhält also vorerst die Reihenfolge B < C < A. Vergleicht man A mit D, sind die beiden äußeren und der mittlere Wert ungefähr gleich, während die restlichen zwei aber bei Firma D weiter voneinander entfernt sind. Folglich muss die Standardabweichung von Firma D den höchsten Wert aufweisen. Die berechneten Werte stehen in der folgenden Tabelle und bestätigen die vorangegangenen Überlegungen. σ Firma Firma Firma Firma A B C D ≈ 13, 35 ≈ 5, 49 ≈ 11, 77 ≈ 15, 97 J Travail de candidature 6.2. Die Standardabweichung . Aufgabe 25 Das folgende Histogramm enthält die Verteilung der Umsätze von zwei Firmen. 20 15 10 5 0 100 200 300 400 500 600 Welche der beiden Verteilungen weist die kleinere Standardabweichung auf? Lösung der Aufgabe Die Standardabweichung der grünen Verteilung ist kleiner, denn die Abweichung der Höhe der Säulen und damit der Daten vom Mittelwert sind kleiner als die der blauen Säulen. J Travail de candidature 69 7. Korrelation Das Wort Korrelation stammt aus dem mittellateinischen ’correlatio’, dessen Übersetzung ins Deutsche „Wechselbeziehung“ bedeutet. Die Korrelation beschreibt also die Beziehung oder den Zusammenhang zwischen zwei oder mehr Variablen, Merkmalen oder Ähnlichem. Dieser Kurs behandelt die Korrelation zwischen genau zwei Variablen, die durch x und y dargestellt werden. Faltet man beispielsweise ein Blatt Papier immer in der Mitte, so hängt die Anzahl der Lagen direkt von der Anzahl der Faltungen ab. Hat man 4 Lagen, weiß man, dass das Papier zweimal gefaltet wurde. Kennt man die Anzahl der Papierlagen, kann man Rückschlüsse auf die Anzahl der Faltungen ziehen. Die Anzahl der Lagen ist also mit der Anzahl der Faltungen korreliert. Ein anderes Beispiel ist die Weltbevölkerung. Sie wächst (exponentiell) mit der Zeit. Das heißt, die Größe der Population ist abhängig von der Zeit. Hier spielen aber noch andere Faktoren eine Rolle, so dass man nicht wie beim Papierfalten eindeutig sagen kann, wie die groß die Population y nach x Jahren ist. 7.1. Der Korrelationskoeffizient Als Einstieg kann man drei typische Situationen betrachten, wie sie in der folgenden Aufgabe vorkommen. . Aufgabe 26 Erläutern Sie für die folgenden drei Situationen, ob eine Korrelation, also ein Zusammenhang oder eine Abhängigkeit, besteht. 1. Die Anzahl der Touristen, die eine Stadt besuchen und die Höhe der Einnahmen dieser Stadt. 2. Das Gewicht eines Menschen und dessen Intelligenzquotient (IQ). 3. Die Dauer der Ausbildung eines Arztes und die Zeit, die er benötigt um eine richtige Diagnose zu erstellen. 72 7. Korrelation Lösung der Aufgabe In den einzelnen Fällen kann man teilweise anders argumentieren, was aber in der Natur der Sache liegt, da sich je nach Situation ein anderes Bild ergeben kann und die betrachteten Merkmale oder Eigenschaften nicht immer nur von einer einzigen Variable abhängig sind. Im Allgemeinen sind aber die folgenden Lösungen vertretbar: 1. In der Regel steigen die Einnahmen mit der Anzahl der Touristen. Es besteht also eine Korrelation oder Abhängigkeit zwischen beiden Merkmalen. 2. Da das Gewicht im Allgemeinen unabhängig von der Intelligenz eines Individuums ist, kann man hier von keiner Korrelation ausgehen. 3. Die Dauer der Ausbildung erhöht die Urteilskraft eines Arztes, so dass dieser - dank besserer Ausbildung - schneller auf die richtige Diagnose kommt. Beide Merkmale korrelieren also. Insbesondere im letzten Fall ist die Korrelation auch von anderen Faktoren, hier zum Beispiel von der Qualität des Ausbilders, abhängig. Es gibt also nicht immer eine Abhängigkeit von nur einer einzigen Variable. J Tritt eine Korrelation zwischen zwei Variablen auf, definiert man eine abhängige Variable, die mit y bezeichnet wird, und eine unabhängige Variable, die mit x bezeichnet wird: die abhängige Variable y variiert in Abhängigkeit von der unabhängigen Variable x. . Aufgabe 27 Definieren Sie in den drei Situationen aus Aufgabe 26 jeweils die unabhängige Variable x und die von x abhängige Variable y. Lösung der Aufgabe Sofern man von einer Korrelation ausgeht, kann man x und y wie folgt definieren: Situation x y 1 2 3 Anzahl der Touristen nicht definiert Dauer der Ausbildung Höhe der Einnahmen nicht definiert Zeit bis zur Diagnose Da im zweiten Fall keine Korrelation vorliegt, definiert man keine abhängige und auch keine unabhängige Variable. J Im Falle einer Korrelation unterscheidet man nicht nur zwischen zwei verschiedenen Variablen, sondern auch zwischen positiver und negativer Korrelation. Dazu kann man das erste und das letzte Beispiel aus Aufgabe 26 heranziehen: Travail de candidature 7.1. Der Korrelationskoeffizient • Im Allgemeinen steigen die Einnahmen mit der Anzahl der Touristen. Es liegt eine positive Korrelation vor. Steigt nämlich die erste, unabhängige Variable, also die Anzahl der Touristen, so steigt auch die davon abhängige Variable, die Einnahmen. • Im Falle einer negativen Korrelation fällt eine Variable, während die Andere im Gegenzug steigt. Im dritten Beispiel aus Aufgabe 26 fällt die benötigte Zeit des Arztes bis er eine richtige Diagnose stellt, wenn man seine Ausbildungsdauer erhöht. Die abhängige Variable (=„Dauer der Diagnosestellung“) fällt also, während die unabhängige Variable (=„Ausbildungsdauer“) steigt. Der umgekehrte Fall gilt natürlich auch. (Kürzere Ausbildungsdauer impliziert längere Diagnosestellung.) An den vorangegangen Beispielen erkennt man, dass es nicht nur die Zustände „korreliert“ und „nicht korreliert“ gibt, so wie es bei einer Glühbirne „an“ und „aus“ gibt, sondern dass es ein kontinuierlicher Übergang von einem Zustand zum Anderen ist. Man muss also zunächst herausfinden, ob überhaupt ein Zusammenhang, eine Korrelation, zwischen zwei Variablen besteht und wenn, dann möchte man auch wissen, wie stark diese Korrelation ist. Aus diesem Grund definiert man einen Korrelationskoeffizienten zwischen −1 und 1: liegt er nahe 1, sagt man, dass die zwei Variablen stark positiv korreliert sind. Je schwächer die positive Korrelation wird, desto kleiner wird der Korrelationskoeffizient, bis er schließlich 0 ist. Entsprechendes gilt für Korrelationskoeffizienten zwischen −1 und 0. Nahe −1 sind die beiden Variablen stark negativ korreliert und die negative Korrelation wird immer schwächer, je näher der Korrelationskoeffizient an 0 herankommt. Betrachtet man den Korrelationskoeffizienten ohne Vorzeichen, spricht man von • keiner Korrelation, wenn er kleiner als 0,2 ist, • schwacher Korrelation, wenn er zwischen 0,2 und 0,4 liegt, • mittlerer Korrelation, wenn er zwischen 0,4 und 0,7 liegt, • starker Korrelation, wenn er zwischen 0,7 und 0,9 liegt, • sehr starker Korrelation, wenn er zwischen 0,9 und 1 liegt, • perfekter Korrelation, wenn er genau 1 ist. Den Korrelationskoeffizienten berechnet Excel mit der Funktion Travail de candidature 73 74 7. Korrelation „KORREL(X-Werte;Y-Werte) “. Dabei können die beiden Argumente auch vertauscht werden, ohne das Ergebnis zu beeinflussen. Die Einführungsbeispiele werden in der folgenden Aufgabe mit Zahlen unterlegt, um den Korrelationskoeffizienten konkret zu berechnen. . Aufgabe 28 Schreiben Sie die folgenden Daten in ein Tabellenblatt und berechnen Sie den Korrelationskoeffizienten für jedes der drei vorliegenden Beispiele mit der Funktion „KORREL“. 1. Die Anzahl der Touristen und die Höhe der Einnahmen: Land Anzahl Touristen [·106 ] Einnahmen [·109 e] A 4,9 3,5 B 4,1 2 C 5,5 4 D 6,6 5 E 4,4 2,5 2. Das Gewicht eines Menschen und dessen IQ. Gewicht [kg] 70 65 85 90 75 70 80 75 58 48 IQ [Punkte] 120 95 110 100 112 100 105 95 120 98 3. Die Dauer der Ausbildung eines Arztes und die Zeit, die er braucht um eine richtige Diagnose zu erstellen. Ausbildungsdauer [Tage] 2 2 3 3 4 4 5 5 5 6 Zeit bis zur Diagnose [Min] 25 23 17 21 18 20 15 12 13 10 Lösung der Aufgabe Die Berechnung ergibt folgende Werte: 1. Da der Korrelationskoeffizient mit etwa 0,98 nahe 1 liegt, hat man hier eine starke positive Korrelation. 2. Hier liegt keine Korrelation vor, da der Koeffizient etwa 0 (−0, 02) beträgt. 3. Mit einem Korrelationskoeffizienten von etwa −0, 93 liegt eine starke negative Korrelation vor. J Möchte man den Korrelationskoeffizienten selbst nachrechnen, benötigt man zunächst die Mittelwerte der beiden vorliegenden Datenreihen, die mit x1 ; x2 ; ..; xn für Travail de candidature 7.1. Der Korrelationskoeffizient i 1 2 3 4 5 xi x1 = 4, 9 x2 = 4, 1 x3 = 5, 5 x4 = 6, 6 x5 = 4, 4 x = 5, 1 yi xi − x yi − y (xi − x) · (yi − y) y1 = 3, 5 −0, 2 0, 1 −0, 02 y2 = 2, 0 −1, 0 −1, 4 1, 40 y3 = 4, 0 0, 4 0, 6 0, 24 y4 = 5, 0 1, 5 1, 6 2, 40 y5 = 2, 5 −0, 7 −0, 9 0, 63 y = 3, 4 Summe: 4, 65 Tabelle 7.1.: Daten zur Berechnung des Zählers des Korrelationskoeffizienten. die Daten der ersten Variable und mit y1 ; y2 ; ..; yn für die Daten der zweiten Variable dargestellt werden. Zur Veranschaulichung dienen die Daten im ersten Beispiel aus Aufgabe 28. Für den Mittelwert der ersten Datenreihe, also der Anzahl der Touristen, errechnet man x = 5, 1. Der Mittelwert der zweiten Datenreihe, den Einnahmen, ergibt y = 3, 4. Anschließend berechnet man die Differenzen xi − x und yi − y jedes einzelnen Datenwertes zum jeweiligen Mittelwert. Multipliziert man die Differenzen, die von je zwei voneinander abhängigen Daten xi und yi stammen, so stellt deren Summe den Zähler des Korrelationskoeffizienten dar. Alle Zwischenwerte findet man in der Tabelle 7.1 wieder. In diesem Beispiel ist die Summe der Produkte und damit der Zähler des Korrelationskoeffizienten 4,65. Die entsprechende allgemeine Formel des Zählers des Korrelationskoeffizienten ist also (x1 − x) · (y1 − y) + (x2 − x) · (y2 − y) + ... + (xn − x) · (yn − y) = n P (xi − x) · (yi − y). i=1 Um den Nenner des Korrelationskoeffizienten zu erhalten, quadriert man die bereits berechneten Differenzen aus Tabelle 7.1. Die Ergebnisse befinden sich in der Tabelle 7.2. In der letzten Zeile dieser Tabelle stehen die Summen der Quadrate. Zieht man nun die Wurzel des Produktes beider Summen, erhält man den Nenner des Korrelationskoeffizienten: √ 3, 94 · 5, 70 ≈ 4, 74 Travail de candidature 75 76 7. Korrelation i 1 2 3 4 5 x1 x2 x3 x4 x5 yi (xi − x)2 (yi − y)2 y1 = 3, 5 0, 04 0, 01 y2 = 2, 0 1, 00 1, 96 y3 = 4, 0 0, 16 0, 36 y4 = 5, 0 2, 25 2, 56 y5 = 2, 5 0, 49 0, 81 Summe: √ 3, 94 5, 70 Nenner: 3, 94 · 5, 70 ≈ 4, 74 xi = 4, 9 = 4, 1 = 5, 5 = 6, 6 = 4, 4 Tabelle 7.2.: Daten zur Berechnung des Nenners des Korrelationskoeffizienten. Die entsprechende allgemeine Formel des Nenners des Korrelationskoeffizienten lautet somit q (x1 − x)2 + (x2 − y)2 + .. + (xn − y)2 · s = n P q (xi − x)2 · i=1 (y1 − x)2 + (y2 − y)2 + .. + (yn − y)2 n P (yi − y)2 . i=1 Insgesamt ergibt sich der von Excel berechnete Korrelationskoeffizient von etwa 4, 65 ≈ 0, 98. 4, 74 Aus den bisherigen Herleitungen erhält man die allgemeine Formel des Korrelationskoeffizienten: n P (xi − x) · (yi − y) s i=1 n P n P i=1 i=1 (xi − x)2 · (yi − y)2 Diese Zahlen und Formeln sind teilweise etwas abstrakt und die Zusammenhänge lassen sich anschaulicher anhand einer grafischen Darstellung der Daten erklären. Das nächste Unterkapitel verrät, wie man diese Daten grafisch auftragen kann und wie man mit Hilfe dieser Veranschaulichung eine (positive oder negative) Korrelation erkennt. Travail de candidature 7.2. Grafische Darstellung 7.2. Grafische Darstellung Die Datenpaare (xi ; yi ), die je einen Eintrag für die Variable x und y darstellen, stehen zusammen für einen Punkt in einer Ebene: die unabhängige Variable x und die abhängige Variable y stellen jeweils die horizontale, beziehungsweise vertikale Achsen dar, in der man je ein Datenpaar als Punkt mit den Koordinaten (xi ; yi ) eintragen kann. Dadurch erhält man die Streudiagramme, wie sie in der folgenden Aufgabe abgebildet sind. . Aufgabe 29 Erklären Sie mit Hilfe der Erkenntnisse aus den vorherigen Aufgaben, wie man an den folgenden grafischen Darstellungen erkennen kann, ob und welche Korrelation vorliegt. 1. Die Anzahl der Touristen und die Höhe der Einnahmen. Einnahmen [·109 e] 5 4 3 2 1 0 1 2 3 4 5 6 7 Touristen [·106 ] 2. Das Gewicht eines Menschen und dessen IQ. IQ [Pkt] 120 100 80 60 40 20 0 20 40 60 80 Gewicht [kg] 3. Die Dauer der Ausbildung eines Arztes und die Zeit, die er braucht um eine richtige Diagnose zu erstellen. Zeit bis zur Diagnose [Min] 25 20 15 10 5 0 1 2 3 4 5 6 Ausbildungsdauer [Tage] Travail de candidature 77 78 7. Korrelation Lösung der Aufgabe Sind zwei Variablen positiv korreliert, wie im ersten Beispiel, steigt die abhängige Variable y, wenn x ansteigt. Das heißt, wenn man sich auf der Grafik nach rechts bewegt, also x erhöht, müssen die Datenpunkte höher liegen, da y auch ansteigt. Im dritten Beispiel ist es genau umgekehrt. Die Punkte liegen nahe einer (gedachten) Geraden, die von links nach rechts abfällt. Dementsprechend sind die beiden Variablen negativ korreliert. Im zweiten Beispiel gleicht die Ansammlung der Datenpunkte eher einer Wolke, als dass sie an einer Geraden liegen würden. Umkreist man also die Daten in der Grafik, kann man Rückschlüsse auf den Korrelationskoeffizienten ziehen: je deutlicher eine Gerade zu erkennen ist, desto stärker ist die Korrelation und desto näher liegt der Korrelationskoeffizient an 1 oder −1. J . Aufgabe 30 Ordnen Sie den folgenden Grafiken ihrem jeweiligen Korrelationskoeffizienten zu: −0, 90; Grafik A 0, 50; 0, 85; Grafik B −0, 20. Grafik C Grafik D Lösung der Aufgabe Anhand der Erläuterungen in der Lösung der Aufgabe 29 kommt man auf folgende Ergebnisse: Grafik Korrelationskoeffizient A B C D −0, 20 0, 85 0, 50 −0, 90 J Travail de candidature 7.2. Grafische Darstellung Abbildung 7.1.: Erstellung eines Streudiagramms. . Aufgabe 31 In der angehängten Datei1 ist die Länge und die Breite von mehreren Yachten aufgelistet. 1. Tragen Sie die Werte in ein Streudiagramm auf und fügen Sie den „Mittelpunkt“ ein. Die Koordinaten des Mittelpunktes sind die Mittelwerte der jeweiligen Variablen. 2. Schätzen Sie den Korrelationskoeffizienten und überprüfen Sie den Wert mit Hilfe von Excel. Lösung der Aufgabe Um das Streudiagramm zu erstellen, wählt man die Daten in der Tabelle aus und fügt ein Punktediagramm ein, wie es in Abbildung 7.1 gezeigt wird. Nachdem die zwei Mittelwerte x und y der beiden Variablen in einer neuen Zeile berechnet wurden, fügt man diesen Punkt mit den Koordinaten (x; y) hinzu: dazu wählt man nach einem Rechtsklick auf das Diagramm „Daten auswählen“ und fügt die Daten mit „Hinzufügen“ hinzu. Gegebenenfalls kann man den Mittelpunkt hervorheben, indem man ihn einzeln auswählt und farblich markiert. Im Anschluss müssen der Diagrammtitel und die beiden Achsentitel manuell angepasst werden um das Diagramm wie in Abbildung 7.2 zu erhalten. Für den Korrelationskoeffizienten berechnet Excel etwa 0,96. 1 Aufgabe 31: Travail de candidature 79 80 7. Korrelation Abbildung 7.2.: Streudiagramm. Die Diagramme befinden sich in der angehängten Lösungsdatei.2 J . Aufgabe 32 Nennen Sie ein paar Beispiele, in denen der Korrelationskoeffizient genau 1 ist. Geben Sie zusätzlich etwa 5 Zahlenwerte zu jedem Beispiel an und prüfen Sie mit Excel, ob Sie richtig liegen. Lösung der Aufgabe Ist der Korrelationskoeffizient 1, also eine perfekte Korrelation, liegen alle Datenpunkte exakt auf einer Geraden. Steigt die erste Variable beispielsweise um 1, während die zweite Variable um k steigt, so muss mit jeder Erhöhung der ersten Variable um 1 die zweite Variable zwingend um k steigen, da der entsprechende Datenpunkt sonst nicht auf derselben Gerade liegt. Das heißt, es muss eine direkte (lineare) Abhängigkeit zwischen den zwei Variablen existieren. Hier sind einige mögliche Beispiele: 1. Die getankte Spritmenge und der zu zahlende Preis an der Tankstelle. Spritmenge [l] 10 20 30 40 50 Preis [e] 12 24 36 48 60 2. Die Anzahl der Zementsäcke und ihr Gesamtgewicht. Zementsäcke [#] 1 2 3 4 Gewicht [kg] 25 50 75 100 5 125 3. Die Anzahl der Zementsäcke und ihr Gesamtgewicht inklusive der tragenden Palette. Zementsäcke [#] Gewicht [kg] 2 5 10 155 280 15 20 25 405 530 655 Lösung Aufgabe 31: Travail de candidature 7.2. Grafische Darstellung 81 4. Das Gewicht eines Getränkekastens in Abhängigkeit der Anzahl der darin enthaltenen Flaschen. (Die Flaschen müssen alle gleich leer oder voll sein!) 5. Die Höhe des Wasserstandes in einem Schwimmbecken und die Zeit, während der die Pumpe eingeschaltet ist, um das Wasser abzupumpen. 5 20 25 Wasserstand [cm] 150 125 100 075 050 Zeit [min] 10 15 J In der Einführung des Kapitels wurde die Abhängigkeit der Papierlagen von der Anzahl der (mittigen) Faltungen erwähnt. Die folgende Tabelle enthält die entsprechenden Daten: Faltungen (x) [#]: Lagen (y) [#] 0 1 2 3 4 1 2 4 8 16 Hier steigt die Anzahl der Lagen nicht um genau denselben Wert, wenn man die Faltungen um jeweils 1 erhöht. Deswegen liegt keine lineare Korrelation vor. In diesem Fall spricht man von einer exponentiellen Korrelation, denn der Exponent der Variable y erhöht sich mit der Variable x. Man erkennt den Zusammenhang gut, wenn man die Tabelle um eine Spalte mit den Exponenten erweitert: Faltungen Lagen Exponent (Basis 2) 0 1 2 3 4 1 = 20 2 = 21 4 = 22 8 = 23 16 = 24 0 1 2 3 4 Travail de candidature 82 7. Korrelation Abbildung 7.3.: Beispiel exponentieller Korrelation. . Aufgabe 33 Erweitern Sie die Tabelle um ein paar Werte und tragen Sie die Anzahl der Faltungen und die der Lagen in einem Streudiagramm graphisch auf. 1. Wie erkennt man eine exponentielle Korrelation anhand des Streudiagramms? 2. Geben Sie andere Beispiele exponentieller Korrelation. Lösung der Aufgabe Das Streudiagramm der Papierlagen in Abhängigkeit der Anzahl der Faltungen ist in Abbildung 7.3 abgebildet. Anhand der Grafik kann man folgende Schlussfolgerungen ziehen: 1. Eine exponentielle Kurve erkennt man daran, dass Sie immer schneller ansteigt. Mit jedem Schritt auf der Horizontalen nach rechts wird y verdoppelt. 2. Andere Beispiele mit exponentieller Korrelation sind beispielsweise das Wachstums einer Population (trifft in manchen Industriestaaten heute nicht mehr zu) oder der Kontostand, der verzinst wird. J 7.3. Die Regressionsgerade Im vorigen Unterkapitel wurde analysiert, wie man erkennt, ob ein Zusammenhang zwischen zwei Variablen existiert. Besteht eine solche Abhängigkeit einer Variablen zu einer Anderen, kann man die Zweite abschätzen, wenn man die Erste kennt. Wie man eine möglichst genaue Abschätzung erhält, wird in diesem Unterkapitel erläutert. Travail de candidature 7.3. Die Regressionsgerade Im Falle einer (linearen) Korrelation liegen die Datenpaare nahe einer virtuellen Geraden. Deswegen kann man annehmen, dass zukünftige oder nicht bekannte Werte ebenfalls nahe dieser Gerade liegen. Kennt man diese virtuelle Gerade, kann man Prognosen über Werte erstellen, die man noch nicht kennt. Bevor jedoch solche Prognosen aufgestellt werden, werden zunächst die Kernelemente einer Geraden veranschaulicht. . Aufgabe 34 Angenommen y stellt das Gesamtgewicht eines Bierkastens dar, in dem sich x Flaschen befinden. Drücken Sie y mit Hilfe von x aus, wenn der leere Kasten 5 kg und jede Flasche 0,4 kg wiegt. Erstellen Sie ein Diagramm, in das Sie einige Werte graphisch auftragen. (Die horizontale Achse stellt die Anzahl der Flaschen und die vertikale Achse das Gesamtgewicht dar.) Lösung der Aufgabe Man hat folgende Zusammenstellung des Gesamtgewichts: Gewicht der Flaschen: Leergewicht Kasten: Gesamtgewicht: 0, 4 · x 5 y = 0, 4 · x + 5 Anhand der Formel erkennt man, dass sich y um 0,4 erhöht, wenn x um genau eine Einheit (Flasche) erhöht wird. Deswegen wird der Faktor 0,4 als „Steigung“ bezeichnet. Betrachtet man die grafische Darstellung der Werte, liegen die Punkte auf einer Geraden, die die vertikale Achse bei y = 5 schneidet. Deswegen wird dieser Wert als „Achsenabschnitt“ bezeichnet. Rechnerisch lässt sich leicht nachvollziehen, dass der yWert für x = 0 genau 5 ist. Man beachte, dass die Punkte genau über den Zahlenwerten auf der horizontalen Achse liegen. Hierfür muss die Option „Achse positionieren“ der horizontalen Achse, erreichbar durch einen Doppelklick auf die Achse selbst, auf den Wert „Auf Teilstrichen“ gesetzt werden. J Verallgemeinert man die Daten aus der letzten Aufgabe und steht a für das Gewicht einer Flasche und b für das Leergewicht des Kastens, führt es zur allgemeinen Formel einer Geraden: y = a · x + b, wobei • a die Steigung und • b den Achsenabschnitt bezeichnet. Liegen nun Datenpaare (xi ; yi ) vor und geht man von einer (linearen) Korrelation aus, kann man eine Gerade bestimmen, die die Abhängigkeit der beiden Variablen x Travail de candidature 83 84 7. Korrelation Abbildung 7.4.: Grafische Darstellung zur Aufgabe 34. und y beschreibt. Es genügt also, die Steigung und den Achsenabschnitt so festzulegen, dass die Gerade möglichst nah an den gegebenen Datenpunkten liegt. Bestimmt man dann noch einen Punkt, der diese Gerade schneidet, reicht es, entweder die Steigung oder den Achsenabschnitt festzulegen, um die Gerade vollständig zu bestimmen. In den folgenden Aufgaben wird genau so vorgegangen, um zur Regressionsgeraden zu gelangen. . Aufgabe 35 Berechnen Sie den Achsenabschnitt b einer Geraden, die den Mittelpunkt M (x; y) einer Datenmenge schneidet und deren Steigung a frei bestimmbar, also variabel, ist. Lösung der Aufgabe Die Gerade soll den Mittelpunkt schneiden. Deswegen gilt folgende Gleichung für alle Steigungen a: y =a·x+b Stellt man die Gleichung nach b um, erhält man bereits die Formel, mit der man den Achsenabschnitt berechnen kann: b=y−a·x J Travail de candidature 7.3. Die Regressionsgerade . Aufgabe 36 In der angehängten Datei3 befinden sich vorgegebene Datenpaare und eine Gerade, die bereits in ein Diagramm eingetragen wurden. Mit dem Schieberegler können Sie die Steigung der Gerade frei bestimmen. Der Achsenabschnitt wird automatisch so angepasst, dass die Gerade den Mittelpunkt der Datenpunkte schneidet. Finden Sie ein Kriterium, nach dem Sie die Gerade so bestimmen, dass sie möglichst gleichmäßig an allen Datenpunkten liegt. Tipp: Betrachten Sie der Einfachheit halber die vertikalen Distanzen der Punkte zur gesuchten Regressionsgeraden. Lösung der Aufgabe Um den Achsenabschnitt nach Aufgabe 35 zu bestimmen, muss man vorher die Mittelwerte x und y der einzelnen Variablen berechnen. In der Datei aus der Aufgabenstellung ist dies bereits vorbereitet. Die Gerade, dessen Steigung man frei bestimmen kann, ist ebenfalls bereits im Diagramm eingetragen. Die Regressionsgerade soll die möglichst „beste“ Gerade darstellen, auf die sich (zukünftige) Prognosen stützen. Sie soll also so nahe wie möglich an den gegebenen Datenpunkten liegen, um genauere Prognosen sicherzustellen. Deswegen fügt man zunächst eine neue Spalte mit den Differenzen der einzelnen Punkte zur Geraden hinzu. Der Einfachheit halber nimmt man die vertikalen Differenzen. Bei xi befindet sich die Gerade auf der Höhe axi + b. Hier stellt a die frei einstellbare Steigung dar und b wird nach den Berechnungen aus Aufgabe 35 (automatisch) so bestimmt, dass die Gerade den Mittelpunkt schneidet. Die vertikale Differenz der Gerade zum Datenpunkt (xi ; yi ) beträgt demnach ∆i = yi − (axi + b). Der Begriff Differenz wird bewusst verwendet, da ∆i auch negativ sein kann. Da die Gerade möglichst nahe an allen Datenpunkten liegen soll, bietet es sich an, die Summe der vertikalen Differenzen ∆i zu betrachten. Diese Summe ergibt aber in 3 Aufgabe Regressionsgerade: Travail de candidature 85 86 7. Korrelation jedem Fall 0, denn die Gerade schneidet den Mittelpunkt M (x; y): n P = = ∆i i=1 n P (yi − axi − b) i=1 n P yi − i=1 n P axi − i=1 = n·y−a· n P n P b i=1 n P xi − i=1 (y − a · x) i=1 = n·y−a·n·x−n·y+a·n·x = 0 Somit kann man die Summe der Differenzen ∆i nicht direkt als Qualitätskriterium für die Regressionsgerade heranziehen. Ersetzt man die Differenzen ∆i durch deren Absolutbeträge |∆i |, also die (positiven) Abstände der Datenpunkte zur Geraden, kann man versuchen die Summe dieser Abstände n X |∆i | i=1 zu minimieren. Durch das Verändern der frei bestimmbaren Steigung der Gerade in der ExcelDatei bemerkt man, dass diese Summe innerhalb bestimmter Intervalle konstant bleibt! In diesen Intervallen hätte man also unendlich viele Möglichkeiten eine Regressionsgerade auszuwählen. Verfolgt man jedoch das Ziel, die beste Regressionsgerade zu bestimmen, sucht man nach genau einer eindeutig bestimmten Gerade. Die Summe der (positiven) Abstände ist dafür also auch nicht geeignet. Im Eingang des Kapitels wurde erwähnt, dass die Regressionsgerade eine stabile Prognose liefern soll. Die Streuung der Datenpunkte um den prognostizierten Wert auf der Geraden, also um die Regressionsgerade selbst, sollte dementsprechend möglichst gleichmäßig sein. Um diese Gleichmäßigkeit zu erreichen, muss man die Varianz minimieren, denn nach Kapitel 6.2 ist die Varianz ein Maß für die Streuung der Daten. Sie ist also das Kriterium, nach dem man die Regressionsgerade bestimmt. Betrachtet man die Minimierung der Varianz der Differenzen ∆i , erhält man laut Definition der Varianz auf Seite 66: min a,b n 2 1X ∆i − ∆ . n i=1 Nach obigen Anführungen könnte man natürlich auch die Varianz der Abstände |∆i | Travail de candidature 7.3. Die Regressionsgerade minimieren, womit man den Ausdruck n 2 1X min |∆i | − |∆| , a,b n i=1 erhalten würde. Aufgabe 37 greift die Unterschiede zwischen dem Minimieren dieser beiden Ausdrücke auf und erläutert, wieso der Zweite ungeeignet ist. Zur Minimierung der Varianz der Differenzen ∆i und damit der Bestimmung der Regressionsgeraden wird also der Ausdruck n 2 1X ∆i − ∆ n i=1 minimiert. Der Faktor n1 hängt nur von der Anzahl n der Datenpunkte ab und spielt beim Minimieren keine Rolle. Er kann also weggelassen werden. Des Weiteren wurde n P bereits bewiesen, dass ∆i = 0 und damit der (arithmetische) Mittelwert ∆ ebenfalls i=1 0 ergibt: n 1 1X ∆i = · 0 = 0 ∆= n i=1 n Der zu minimierende Ausdruck vereinfacht sich somit zu n X (∆i − 0)2 = n X (∆i )2 . i=1 i=1 Hier erkennt man, dass gleichzeitig auch die Summe der Abstände |∆i | zum Quadrat minimiert wird, da n X i=1 2 (|∆i |) = n X (∆i )2 . i=1 Die Differenzen der Datenpunkte zur Geraden (zum Quadrat) werden also einerseits möglichst klein gewählt, andererseits aber aufgrund der Definition der Varianz auch so gleichmäßig wie möglich verteilt. Eine Veranschaulichung, wieso das Quadrieren zu einer gleichmäßigeren Verteilung um die Regressionsgerade führt, wird in Aufgabe 38 gegeben. Bestimmt man die Gerade nach diesen Herleitungen, so dass die Summe der Differenzen (oder der Abstände) zum Quadrat minimiert wird, sollte man also dieselbe Gerade erhalten, wie diejenige, die Excel als Regressionsgerade einzeichnet. Man fügt sie in das Punktediagramm ein, indem man einen Rechtsklick auf einen der Datenpunkte ausführt, gefolgt von einem Klick auf „Trendlinie hinzufügen“. Es erscheint das Fenster in Abbildung 7.5. Im Grunde ist bereits alles richtig voreingestellt. Einzig Travail de candidature 87 88 7. Korrelation Abbildung 7.5.: Regressionsgerade einfügen. die beiden Einträge unter der Gruppe „Prognose“ kann man gegebenenfalls nach links oder rechts erweitern, wenn man die Regressionsgerade etwas weiter über den ersten, beziehungsweise letzten Datenpunkt hinaus zeichnen möchte. Auf den Sinn und Zweck dieser Maßnahme wird in den weiteren Aufgaben eingegangen. Die Lösungsdatei mit allen berechneten Werten ist in der Fußnote angehängt.4 J Neben dem Einfügen der Regressionsgerade in ein Diagramm kann Excel auch die genauen Werte für die Steigung und den Achsenabschnitt dieser Regressionsgeraden mit folgenden Funktionen direkt berechnen: • „STEIGUNG(Y-Werte; X-Werte)“ und • „ACHSENABSCHNITT(Y-Werte; X-Werte)“ Es ist darauf zu achten, dass die „Y-Werte“ der abhängigen Variable im ersten Argument und die „X-Werte“ der unabhängigen Variable im jeweils zweiten Argument stehen. 4 Lösung Aufgabe Regressionsgerade: Travail de candidature 7.3. Die Regressionsgerade Die entsprechenden Formeln für die Steigung a und den Achsenabschnitt b der Regressionsgeraden lauten5 : n P • a= (xi − x)(yi − y) i=1 n P (xi − x)2 i=1 • b = y − ax Aus der zweiten Gleichung kann man ableiten, dass die Regressionsgerade den Mittelpunkt schneidet, ohne dass man es zusätzlich voraussetzen müsste! In Aufgabe 36 wurden zwei Ausdrücke hergeleitet, die in Frage kamen um die Regressionsgerade zu bestimmen. Einer davon wurde jedoch verworfen, weil er als ungeeignet erklärt wurde. Die nächste Aufgabe zeigt die Unterschiede der Regressionsgeraden zu der Geraden, die man mit dem zweiten, verworfenen Ausdruck erhalten hätte. . Aufgabe 37 Finden Sie mit Hilfe der Datei aus Aufgabe 36 eine Anordnung der Datenpunkte, so dass die Steigung der Geraden, die man durch das Minimieren des Ausdrucks n 2 1X |∆i | − |∆| n i=1 erhält, eine möglichst hohe Differenz zur Steigung der Regressionsgeraden aufweist. Die Regressionsgerade erhält man durch das Minimierung von n n 2 1X 1X (∆i )2 . ∆i − ∆ = n i=1 n i=1 Lösung der Aufgabe Minimiert man die Varianz der Abstände |∆i |, erhält man folgenden Ausdruck: (das Minimum ist unabhängig vom Faktor n1 .) min a,b 5 n X 2 |∆i | − |∆| . i=1 Man erhält die beiden Formeln, indem man die Varianz n X i=1 2 (∆i ) = n X (yi − (axi + b)) 2 i=1 einmal als Funktion f : a 7→ f (a) und einmal als Funktion f : b 7→ f (b) betrachtet und sie dann nach a, beziehungsweise nach b ableitet. Die Nullstellen beider Ableitungen ergeben dann nach einigen Umformungen die oben angegebenen Formeln für a und für b. Travail de candidature 89 90 7. Korrelation Abbildung 7.6.: Minimierung der Varianz der (positiven) Abstände (gelb). Zum Vergleich die Regressionsgerade (schwarz). |∆| stellt hier den Mittelwert der Abstände |∆i | dar. Anhand der Formel erkennt man, dass nicht die Abstände |∆i | selbst minimiert werden, sondern deren Verteilung um den Mittelwert |∆|. Je nachdem wie die Datenpunkte verteilt sind, wird die Gerade deswegen stark in die Richtung eines Ausreißers gezogen, oder die Abstände zu verschiedenen Punkten werden vergrößert, damit sie eben näher an jenem Mittelwert liegen. Abbildung 7.6 zeigt zwei solche Beispiele. Sie enthalten jeweils die Regressionsgerade in schwarz und die gelbe Gerade, die man erhält, wenn man die Varianz der Abstände |∆i | minimiert. Die (gelbe) Gerade ragt relativ weit über die äußeren Punkte hinaus, weil die Ausreißer, also einige Datenpunkte, einen großen (vertikalen) Abstand zum Mittelpunkt und damit auch zur Gerade aufweisen. Durch das Minimieren des obigen Ausdrucks werden die Abstände der (gelben) Gerade zu den anderen Datenpunkten ebenfalls so vergrößert, dass sie näher am Mittelwert |∆| liegen. Die gelbe Gerade ist also genau so bestimmt, dass die (positiven) Abstände der Datenpunkte zur Geraden zwar näher zusammen liegen (also gleichmäßiger verteilt sind) aber eben höhere Werte aufweisen. Im Gegenzug sind Abstände der Datenpunkte zur (schwarzen) Regressionsgerade kleiner und die Regressionsgerade ragt in der Vertikalen auch nicht über den Höchst- beziehungsweise Minimalwert der Datenpunkte hinaus. J In den letzten Aufgaben wurde angeschnitten, dass durch das Minimieren der Quadratsummen die Werte ∆i selbst auch gleichmäßig verteilt werden. Um diesen sehr theoretischen Teil anschaulicher zu gestalten, wird die Idee in der folgenden Aufgabe anhand eines Minimalbeispiels gezeigt. Travail de candidature 7.3. Die Regressionsgerade . Aufgabe 38 Gegeben seien folgende Datenpaare: xi yi 1 2 3 3 0 3 Erstellen Sie das Streudiagramm und berechnen Sie die Differenzen ∆i der Datenpunkte zu einer möglichen Regressionsgeraden. Für welche Gerade wird 3 X (∆i )2 i=1 minimal? (Die Regressionsgerade schneidet den Mittelpunkt.) Lösung der Aufgabe Fügt man die Mittelwerte beider Variablen in die Tabelle ein, erhält man gleichzeitig die Koordinaten des Mittelpunktes. Das Abschätzen des Verlaufs der Regressionsgeraden wird somit um ein Vielfaches vereinfacht. xi y i 1 3 2 0 3 3 Mittelwert: 2 2 Trägt man die Daten in ein Diagramm wie in der Abbildung 7.7 auf, erkennt man, dass der Wert ∆2 = −2 konstant bleibt, da die Gerade den Mittelpunkt direkt über dem zweiten Datenpunkt schneidet. Die Summe 3 X (∆i )2 i=1 kann man also nur über die beiden äußeren Werte ∆1 und ∆3 minimieren. Liegt die Regressionsgerade unterhalb dieser beiden Datenpunkte, bleibt die Summe der Abstände zu den einzelnen Datenpunkten gleich. Verringert man nämlich den Abstand ∆1 oder ∆3 zu einem Punkt um den Wert k, so wird der andere Abstand zum entsprechenden Punkt um genau den gleichen Betrag k vergrößert. In der Summe bleiben die Abstände also erhalten. Anhand der Abbildung 7.7 ist dieses Verhalten gut zu erkennen. Travail de candidature 91 92 7. Korrelation Abbildung 7.7.: Das Ändern des Abstands der Geraden zu einem Datenpunkt verändert automatisch den Abstand der Geraden zu einem anderen Datenpunkt. Betrachtet man nun die Quadrate der Differenzen ∆i und verändert die Steigung der Geraden, so vergrößert man wie eben erwähnt ein ∆i um beispielsweise k, während das Andere um genau k verkleinert wird. Vergleicht man anschließend die so von den Quadraten (∆i )2 erhaltenen Flächen in Abbildung 7.8, erkennt man, dass durch das Vergrößern einer Seitenlänge mehr Fläche gewonnen wird, als durch das Verkleinern verloren geht! In der Abbildung 7.8 ist die Differenz dieser Flächen blau dargestellt. Im Umkehrschluss werden durch das Minimieren die Flächen dieser Quadrate und damit die Seitenlängen der Quadrate einander angeglichen. Die Seitenlängen repräsentieren aber gerade die Abstände der einzelnen Datenpunkte zur Regressionsgeraden. Die Abstände ∆i der Datenpunkte zur Gerade werden also über das Minimieren Ihrer Quadrate angeglichen. Im Allgemeinen kann man innerhalb eines bestimmten Bereiches die Abstände zur Geraden nicht mehr nur verkleinern. Stattdessen muss man einige Distanzen automatisch vergrößern, wenn man Andere verkleinern will. Gleichen sich in einem Bereich also die Änderungen der Differenzen zur Geraden mehr oder weniger aus, dann wird die Steigung der Geraden so bestimmt, dass durch das Minimieren der Quadrate die ∆i sich gleichmäßig um die zu bestimmende Regressionsgerade verteilen. Das Minimieren der Quadratsummen stellt also eine Kombination zwischen Minimierung und Streuung der Datenpunkte um die Regressionsgerade dar. In der unten angehängten Datei6 befindet sich das Minimalbeispiel aus der Aufgabenstellung inklusive aller Berechnungen aus dieser Aufgabe. In dieser Datei kann man beliebig viele Punkte hinzufügen7 und ausprobieren, wie die Summe der Quadrate in 6 7 Lösung Aufgabe 38: Die Formeln müssen gegebenenfalls kopiert werden. Travail de candidature 7.3. Die Regressionsgerade 93 +k ∆i −k Abbildung 7.8.: Auswirkung der Änderung einer Seite auf die Fläche eines Quadrates. verschiedenen Situationen und mit noch mehr Datenpunkten variiert. Beispielsweise kann man den dritten Datenpunkt aus obigem Beispiel um 1 nach rechts verschieben und dann die Steigung der Geraden variieren, um zu analysieren, wie es die Quadratsummen beeinflusst. J Die vorigen Aufgaben erklären die Vorgehensweise, wie man die Regressionsgerade bestimmt. In den folgenden Aufgaben wird darauf eingegangen, wie man anhand dieser Regressionsgerade die prognostizierten Werte grafisch und rechnerisch erhält. Darüber hinaus wird auf die Grenzen dieser Prognosen hingewiesen und Beispiele angeführt, in denen es keinen Sinn macht, die Regressionsgerade zu benutzen. . Aufgabe 39 Im Anhang befindet sich eine Datei8 , die das Gehalt und die davon abhängigen Alltagsausgaben von 50 Arbeitnehmern beinhalten. 1. Erstellen Sie ein Streudiagramm mit den Datenpaaren. Folgern Sie aus diesem Diagramm, ob eine Korrelation zwischen dem Gehalt und den Ausgaben besteht. 8 Aufgabe 39: Travail de candidature 94 7. Korrelation 2. Überprüfen Sie Ihre Vermutung, indem Sie den Korrelationskoeffizienten berechnen. 3. Fügen Sie die Regressionsgerade ein und schätzen Sie anhand des Diagramms ab, wie hoch die Ausgaben wahrscheinlich wären, wenn man 45 000 e im Jahr verdienen würde. 4. Geben Sie die Formel der Regressionsgeraden an und rechnen Sie den abgelesenen Wert nach. 5. Erweitern Sie die Regressionsgerade um die jeweiligen Ausgaben für ein Gehalt von 60 000 e abschätzen zu können. Interpretieren und erläutern Sie das Ergebnis. Rechnen Sie auch hier nach. 6. Wie hoch sind die prognostizierten Ausgaben ohne Gehalt? Interpretieren und erklären Sie das Ergebnis. Lösung der Aufgabe Die Lösungsdatei befindet sich in der Fußnote.9 1. Man erkennt, dass die Punktewolke nahe einer Geraden liegen. Es liegt also eine positive Korrelation zwischen dem Gehalt und der Höhe der Ausgaben vor. 2. Die Berechnung ergibt einen Korrelationskoeffizienten von ungefähr 0, 97. Die Vermutung erweist sich damit als richtig, weil der Korrelationskoeffizient größer als 0, 9 ist. 3. In der Abbildung 7.9 erkennt man, dass bei einem Gehalt von 45 000 e die prognostizierten Ausgaben ungefähr 40 000 e betragen. Der vorhandene Wert in der Tabelle gibt aber einen Wert von ungefähr 37 000 e an. Die Differenz zwischen der Schätzung und dem tatsächlichen Wert ist aber völlig normal, denn es kann sich bei den vorliegenden Daten um eine überdurchschnittlich sparsame Familie handeln. 4. Die Funktionen „STEIGUNG“ und „ACHSENABSCHNITT“ liefern für die Steigung a ≈ 0, 846 und für den Achsenabschnitt b ≈ 1 459. Demnach lautet die Formel der Regressionsgeraden: y ≈ 0, 846 · x + 1 459, 9 Lösung Aufgabe 39: Travail de candidature 7.3. Die Regressionsgerade 95 Abbildung 7.9.: Streudiagramm der Daten aus Aufgabe 39. wobei x das Einkommen und y die davon abhängigen Alltagsausgaben darstellt. Für x = 45 000 e errechnet man somit Alltagsausgaben in Höhe von etwa y ≈ 0, 846 · 45 000 + 1 459 = 39 529 e. Die Rechnung liefert also prognostizierte 39 529 e Ausgaben bei einem Einkommen von 45 000 e. 5. Bei einem Gehalt von 60 000 e erhält man prognostizierte Ausgaben in Höhe von etwa 52 000 e. Der berechnete Wert ergibt ungefähr 52 219 e. Diese Werte sind genauer als die von der Grafik abgelesenen Werte, aber sie sind mit Vorsicht zu genießen, denn sie stellen lediglich eine ungefähre Prognose dar und keinesfalls eine präzisere Vorhersage! Im Allgemeinen lässt sich der letzte Wert nicht so genau abschätzen, denn die Prognose kann man gegebenenfalls nicht beliebig nach links oder rechts fortsetzen. Man sollte die geschätzten Prognosen also mit Vorsicht genießen. 6. Liegt kein Gehalt vor, liest man für die prognostizierten Ausgaben einen Wert von etwa 1 000 e ab. Rechnet man nach, beträgt der Achsenabschnitt ungefähr 1 459 e. Anhand dieser Werte sollte klar sein, dass man die Regressionsgerade je nach Situation nicht beliebig fortsetzen kann und trotz „genauer“ Berechnung auch nur eine (ungenaue) Schätzung liefert. J Durch die folgende Aufgabe sollte es noch klarer werden, dass die Regressionsgerade kein Allheilmittel darstellt, wenn es darum geht, (zukünftige) unbekannte Daten abzuschätzen. Travail de candidature 96 7. Korrelation . Aufgabe 40 Die folgende Tabelle enthält die Sprunghöhe einiger Schüler in Abhängigkeit ihres Alters: Alter [Jahre] Sprunghöhe [m] 6 6 7 8 8 9 9 0,6 0,8 0,9 0,7 1,0 1,1 1,0 11 12 12 1,2 1,4 1,1 1. Berechnen Sie den Korrelationskoeffizienten zwischen dem Alter und der Sprunghöhe und entscheiden Sie, ob es Sinn macht, eine Ausgleichsgerade ins Diagramm einzufügen. 2. Geben Sie die Formel der Ausgleichsgeraden an. 3. Berechnen Sie die Prognose der Sprunghöhe für ein Alter von 10 Jahren, 3 Jahren und für ein Alter von 30 Jahren. Kommentieren Sie die Ergebnisse. Lösung der Aufgabe Nach dem Eintragen aller Daten in eine Excel-Tabelle errechnet man die Werte mit den entsprechenden Funktionen KORREL; STEIGUNG; ACHSENABSCHNITT: 1. Der Korrelationskoeffizient beträgt etwa 0,86. Da der Korrelationskoeffizient über 0,7 liegt, macht es Sinn, von einer positiven Korrelation auszugehen und eine Ausgleichsgerade zu berechnen. 2. Die Formel der Ausgleichsgeraden lautet y ≈ 0, 09 · x + 0, 18. 3. Laut Prognose springt ein Zehnjähriger ungefähr 0, 9 · 10 + 0, 18 = 1, 08 m, ein Dreijähriger etwa 0, 09 · 3 + 0, 18 = 0, 45 m und ein Dreißigjähriger etwa 0, 09 · 30 + 0, 18 = 2, 88 m. Spätestens mit der Berechnung der prognostizierten Sprunghöhe eines Achtzigjährigen sollte klar sein, dass die Prognose zumindest für ein solches Alter keinen Sinn ergibt. Die Prognosen sind in diesem Fall nur auf einen eingeschränkten Bereich anwendbar, der sich von etwa 5 bis 15 Jahren erstreckt, also über den Zeitraum, über den sich die gegebene Datenmenge erstreckt. Über diesen Bereich hinaus macht es keinen Sinn, Prognosen zu erstellen. J Travail de candidature 7.3. Die Regressionsgerade . Aufgabe 41 In der angehängten Datei10 befindet sich eine Tabellen mit den Siegern des „Tour de France“ und ihrer jeweiligen Durchschnittsgeschwindigkeit. 1. Erstellen Sie ein Streudiagramm der Durchschnittsgeschwindigkeiten in Abhängigkeit der Jahrgänge und entscheiden Sie ob eine Korrelation vorliegt. 2. Berechnen Sie den Korrelationskoeffizienten und die Formel der Regressionsgeraden. 3. Welche durchschnittliche Geschwindigkeit könnte man im Jahr 2030 erwarten? 4. Überprüfen Sie den berechneten Wert grafisch, indem Sie die Regressionsgerade bis 2030 erweitern. Lösung der Aufgabe Für die Berechnung des prognostizierten Wertes anhand des Achsenabschnitts und der Steigung werden die genauen Werte aus den Zellen übernommen. Die gerundeten Werte sollten nicht abgeschrieben werden, da der Fehler sonst zu groß wird. Die Datei mit den errechneten Werten befindet sich in der Fußnote11 . J In der Statistik ist die Unterscheidung zwischen Korrelation und Kausalität ein wichtiger Kernpunkt. Oft geht man bei einer Korrelation davon aus, dass tatsächlich eine Kausalität besteht. Deswegen ist es umso wichtiger, den Unterschied zu kennen. Die folgenden Aufgaben erläutern diesen Unterschied anhand konkreter Beispiele. 10 Aufgabe 41: 11 Lösung Aufgabe 41: Travail de candidature 97 98 7. Korrelation . Aufgabe 42 Die folgende Tabelle enthält die Anzahl der Storchenpaare sowie die Anzahl der Geburten in einem gegebenen Land.12 Land Albanien Bulgarien Griechenland Österreich Polen Portugal Rumänien Schweiz Spanien Türkei Ungarn Storchenpaare Geburten 100 5 000 2 500 300 30 000 1 500 5 000 150 8 000 25 000 5 000 83 000 117 000 106 000 87 000 610 000 120 000 23 000 82 000 439 000 1 576 000 124 000 Berechnen Sie die Formel der Regressionsgeraden und schätzen Sie die ungefähre Anzahl an Störchen, die notwendig ist, um 50 000 Geburten zu sichern. Hängt die Anzahl der Geburten tatsächlich von der Anzahl der Storchenpaare ab? Lösung der Aufgabe Es besteht eine Korrelation, denn der Korrelationskoeffizient ist etwa 0,8. Allerdings bedeutet das nicht, dass eine Kausalität zwischen beiden Merkmalen besteht. Eine Korrelation kann dadurch entstehen, dass zu wenig Daten vorliegen und deswegen eine rein durch Zufall entstandene Scheinkorrelation auftritt. Trägt man die Daten grafisch auf, erhält man das Diagramm in Abbildung 7.10. Hier erkennt man, dass es nur zwei Werte gibt, die etwas weiter von allen anderen Werten entfernt liegen. Dadurch erscheint es so, als würden die anderen Datenpunkte nahe einer Geraden liegen. (Siehe Abbildung 7.10.) Allein durch das Hinzufügen der folgenden drei Datenwerte, die in der Aufgabenstellung bewusst weggelassen wurden, sinkt der Korrelationskoeffizient signifikant auf etwa 0,58. Land Deutschland Italien Frankreich 12 Storchenpaare Geburten 3 300 5 140 901 000 551 000 774 000 Siehe [9]. Travail de candidature 7.3. Die Regressionsgerade Abbildung 7.10.: Geburten in Abhängigkeit der Storchenpaare. Man sollte also sehr vorsichtig damit sein, eine Prognose nur aufgrund des Korrelationskoeffizienten aufzustellen. Vor allem dann, wenn nur wenig Daten vorliegen. Einige andere Beispiele für Scheinkorrelationen sind in [6] zu finden. J . Aufgabe 43 Die angehängte Datei13 enthält die Anzahl der Bienenvölker, die Honig produzieren und die Anzahl der Festnahmen von Jugendlichen wegen des Besitzes von Marihuana. 1. Tragen Sie die Daten in ein Streudiagramm auf und entscheiden Sie, ob eine Korrelation zwischen der Anzahl der Bienenvölker und der Anzahl der Festnahmen vorliegt. 2. Überprüfen Sie, ob der Korrelationskoeffizient zwischen beiden Variablen ungefähr −0, 93 beträgt und ob damit eine negative Korrelation vorliegt. 3. Besteht tatsächlich eine Abhängigkeit zwischen beiden Variablen? Lösung der Aufgabe Die Lösungsdatei ist in der Fußnote.14 Hier liegt zwar eine Korrelation vor, aber diese Korrelation impliziert keine Kausalität, denn der gesunde Menschenverstand sagt einem, dass die Anzahl der Bienenvölker die Anzahl der Festnahmen keineswegs derart beeinflusst, dass der Korrelationskoeffizient −0, 93 sein könnte. Es wäre möglich, dass eine Abhängigkeit beider Variablen zu einer unbekannten dritten Variable besteht, was in diesem Fall aber sehr unwahrscheinlich ist. Die starke negative Korrelation liegt wohl eher an der kleinen Datenmenge, die eine zufällige Korrelation erscheinen lässt. 13 Aufgabe 43: 14 Lösung Aufgabe 43: Travail de candidature 99 100 7. Korrelation Andere Korrelationen, die aufgrund einer sehr kleinen Datenmenge auftreten, sind im Internet unter http://www.tylervigen.com veröffentlicht. J Travail de candidature Literaturverzeichnis [1] Amyotte, Luc: Méthodes quantitatives. Editions du Renouveau Pédagogique Inc., Québec, 2002. [2] Bricklin, Dan: Patenting VisiCalc, 2014. http://bricklin.com/patenting.htm. [3] Bricklin, Dan: VisiCalc, 2014. www.bricklin.com/visicalc.htm. [4] Dörnyei, Zoltán: Teaching and researching: motivation. Pearson Longman, Harlow, 2001. [5] Drösser, Christoph: Stimmt’s - Zahlenschwindel. Die Zeit, 18, 2002. http://www.zeit.de/2002/18/200218_stimmts_churchill.xml. [6] Dubben, Hans-Hermann und Hans-Peter Beck-Bornhold: Der Hund, der Eier legt - Erkennen von Fehlinformationen durch Querdenken. Rowohlt Taschenbuch Verlag, Hamburg, 2007. [7] Fourastié, Jacqueline und Sophie Saguery: Exercices résolus de statistiques appliquées à l’économie. Masson, Paris, 1993. [8] Leitenberger, Bernd: Computergeschichte(n): Die ersten Jahre des PC. Books on demand GmbH, Norderstaedt, 2012. [9] Matthews, Robert: Storks Deliver Babies (p = 0, 008). Teaching Statistics, 22(2):36–38, 6 2000. [10] Matthäus, Wolf-Gert und Jörg Schulze: Statistik mit Excel. B.G. Teubner Verlag, Wiesbaden, 2008. [11] Radke, Horst-Dieter: Statisitik mit Excel. Mark+Technik Verlag, München, 2006. [12] Toole, Jim: Program Tackles Large Corporate Spreadsheets. Info World, 9:50ff, 8 1987. Info World. 102 Literaturverzeichnis [13] Vaughan-Nichols, Steven J.: Goodbye, Lotus http://www.zdnet.com/goodbye-lotus-1-2-3-7000015385/. 2013. 1-2-3, [14] Wieland, H. R.: Computergeschichte(n) - Nicht nur für Geeks. Galileo Press, Bonn, 2011. [15] Wiseman, Richard: :59 seconds. Think a little, change a lot. Macmillan, London, 2009. [16] Ziegler, Peter-Michael: Vor 30 Jahren: Mit Visicalc bricht eine neue Ära an. Heise, 10 2009. heise online. [17] Zisman, Alan: Lotus Improv. Our Computer http://www.zisman.ca/Articles/1993/Improv.html. Travail de candidature Player, 6 1993. A. Anhang Der Hund der Eier legt. (Aus dem gleichnamigen Buch von Dubben und Beck-Bornholdt.1 ) 1 Siehe [6]. 104 A. Anhang Abbildung A.1.: Eine Liste erstellen. A.1. Ein Histogramm mit Geogebra erstellen Geogebra ist eine kostenlose Anwendung, die man im Internet herunterladen kann. 2 Nach der Installation aktiviert man die Tabellenansicht, in die man die Daten aus Excel schreibt. Die Tabelle auf Seite 43 kann man aus Excel kopieren und direkt in eine Geogebra-Tabelle einfügen. Um ein Histogramm mit Geogebra zu erstellen, gibt man die Intervallgrenzen als erstes Argument und die Spaltenhöhe als zweites Argument an. Man markiert alle Einträge der ersten Spalte und erstellt eine Liste mit Hilfe eines Rechtsklicks in die Markierung. In der zweiten Spalte markiert man alle Einträge bis auf den Ersten und erstellt eine zweite Liste. Der Vorgang wird in Abbildung A.1 dargestellt. Standardmäßig heißen die neu erstellten Listen „Liste1“ und „Liste2“. Nachdem man in der Eingabeleiste unten den Befehl Histogramm(Liste1,Liste2) eingibt erhält man das Histogramm, wie es in Abbildung A.2 erscheint. Die Farbwahl kann man je nach Belieben anpassen. 2 www.geogebra.org Travail de candidature A.1. Ein Histogramm mit Geogebra erstellen Abbildung A.2.: Histogramm. Möglicherweise muss man mit dem Mausrad rauszoomen, um es vollständig zu erkennen. Travail de candidature 105 106 A. Anhang A.2. Weitere Mittelwerte Im Kapitel 5.3 wurde das arithmetische Mittel im Detail erklärt. Neben diesem Mittelwert gibt es noch: • das harmonische Mittel, • das geometrische Mittel, • das quadratische Mittel und • das kubische Mittel. Beide letzteren benötigt man eher in speziellen Fachgebieten, wie zum Beispiel in der Physik. In der Statistik treten hauptsächlich die beiden Erstgenannten auf, weswegen der Sinn und Zweck von diesen Beiden anhand von einigen Beispielen näher erläutert wird. A.2.1. Das harmonische Mittel Nimmt man der Einfachheit halber an, man würde eine Strecke über einen Kilometer zweimal mit dem Fahrrad zurücklegen und man würde auf dem Hinweg 10 km/h und auf dem Rückweg 15 km/h fahren. Wie hoch schätzen Sie die Durchschnittsgeschwindigkeit ein? a) 12 km/h ? b) 12,5 km/h ? c) 13 km/h ? Natürlich könnte man annehmen, es seien 12,5 km/h, da es schließlich der Mittelwert von 10 und 15 km/h ist. Hier liegt aber ein Denkfehler vor, denn der Durchschnitt der Geschwindigkeiten entspricht nicht notwendigerweise der Durchschnittsgeschwindigkeit! Die Durchschnittsgeschwindigkeit ist die Geschwindigkeit, mit der man dieselbe Distanz in derselben Zeit, aber mit konstanter Geschwindigkeit zurückgelegt hätte. Um zu widerlegen, dass die Durchschnittsgeschwindigkeit nicht 12,5 km/h beträgt, muss man also lediglich die benötigte Zeit für beide Varianten berechnen und die Ergebnisse anschließend vergleichen. Fährt man auf dem Hinweg 10 km/h und auf dem Rückweg 15 km/h, so benötigt man insgesamt für Hin- und Rückweg zusammen, also für 2 km: 1 km 1 km + = 0, 1 h + 0, 06 h = 0, 16 h = 10 min. 10 km/h 15 km/h Travail de candidature A.2. Weitere Mittelwerte Im zweiten Fall, mit einer konstanten Geschwindigkeit von 12,5 km/h, benötigt man lediglich 2 km = 0, 16 h = 9, 6 min. 12, 5 km/h Die Durchschnittsgeschwindigkeit kann also nicht 12,5 km/h betragen. Man berechnet die Durchschnittsgeschwindigkeit also nicht anhand des Mittelwertes beider Geschwindigkeiten, sondern indem man die gesamte Distanz durch die benötigte Gesamtzeit teilt: 2 km = 12 km/h 0, 16 h Demnach wäre also Antwort a) richtig gewesen. Wie kann man sich den Unterschied zwischen der Durchschnittsgeschwindigkeit und dem Durchschnitt der Geschwindigkeiten besser vorstellen? Fährt man beispielsweise während 1 km mit 10 km/h und weitere 99 km mit 50 km/h liegt es auf der Hand, dass die Durchschnittsgeschwindigkeit nicht 30 km/h sein kann, sondern viel näher an 50 km/h liegen muss, da man bedeutend länger mit 50 km/h fährt. Hier ist die Durchschnittsgeschwindigkeit etwa 48 km/h, wohingegen der Durchschnitt der Geschwindigkeiten 30 km/h ist. Mathematisch ausgedrückt entspricht der Durchschnitt der Geschwindigkeiten dem arithmetischen Mittelwert und die Durchschnittsgeschwindigkeit dem harmonischen Mittelwert. Um die Formel des harmonischen Mittelwertes herzuleiten, kann man die obigen Zahlenwerte nehmen: 2 km 2 km = 1 km km 0, 16 h + 151 km/h 10 km/h Fährt man also zweimal dieselbe Strecke oder Distanz einmal mit der Geschwindigkeit a = 10 km/h und einmal mit der Geschwindigkeit b = 15 km/h, berechnet man die Durchschnittsgeschwindigkeit (=harmonisches Mittel) mit der Formel 1 a 2 . + 1b Hat man nun n verschiedene Werte, beziehungsweise Geschwindigkeiten, die man mit x1 , x2 , .., xn bezeichnet (hier wäre x1 = a; x2 = b und n = 2), erhält man die allgemeine Formel für das harmonische Mittel mit n verschiedenen Werten: 1 x1 + 1 x2 n + .. + 1 xn n = P . n 1 i=1 xi Travail de candidature 107 108 A. Anhang Angewendet auf das zweite Beispiel mit 10 km/h und 50 km/h wäre • n = 100, weil man 100 km fährt, • x1 = 10 km/h und • x2 = x3 = .. = x100 = 50 km/h. Da alle Werte gleich gewichtet werden, muss man die Geschwindigkeiten in gleich große Teilstücke einteilen. Deswegen erhält man 99 mal denselben Wert für x2 bis x100 . Für die Durchschnittsgeschwindigkeit erhält man somit n n P i=1 100 = 1 xi 1 10 100 = ≈ 48, 08 km/h. 1 0, 1 + 1, 98 + 99 · 50 Damit liegt die Durchschnittsgeschwindigkeit wie erwartet bedeutend näher an 50 km/h. A.2.2. Das geometrische Mittel Das geometrische Mittel findet meist dort Anwendung, wo ein exponentielles Wachstum vorliegt. Ab Seite 71 werden in der Einführung zum Kapitel die Papierlagen nach einer bestimmten Anzahl an Faltungen erwähnt. Nach 5 Faltungen wurde die Anzahl der Papierlagen verzweiunddreißigfacht. Um auf die Verdopplung mit jeder Faltung zu kommen, muss man die fünfte Wurzel von 32 ziehen: √ 5 32 = 2, da 25 = 32. Genauso verhält es sich mit der Zinsrechnung. In einer Reportage waren folgende Daten über den Preis eines Warenkorbs bekannt: Jahr Warenkorb 1960 2007 13,50 e 31,37 e Nun behauptete der Reporter3 , dass die durchschnittliche Steigerungsrate 2,82% betragen würde. Er hat zunächst die gesamte Steigerungsrate wie folgt berechnet: 31, 37 e ≈ 2, 32. 13, 50 e 3 RTL Radio Montag 17. September 2007 um 8:15. Bericht über einen Beitrag aus dem Stern vom Nr. 37/2007. Travail de candidature A.2. Weitere Mittelwerte Das heißt, der Preis hat sich etwa ver-2,32-facht, womit die Wertsteigerung ungefähr +132% beträgt. Anschließend wurde dieser Prozentsatz durch 47 Jahre geteilt, um auf eine durchschnittliche Rate von etwa 2,82% zu kommen. Der Wert des Warenkorbs hätte sich demnach also jedes Jahr im Schnitt um den Faktor 1,0282 gesteigert. Nach 47 Jahren erhielt man somit eine Multiplikation mit dem Faktor 1, 028247 ≈ 3, 7. Der Warenwert hätte 2007 also etwa 3, 7 · 13, 50 = 49, 9 e betragen müssen. Der Fehler in obiger Rechnung liegt darin, dass man in diesem Fall das geometrische Mittel nehmen muss, da es sich um eine exponentielle Steigerung handelt. Um die durchschnittliche jährliche Steigerung zu erhalten, muss man demnach die 47. Wurzel von 2,32 ziehen, da der Preis sich in 47 Jahren ver-2,32-facht hat. √ 2, 32 ≈ 1, 018. 47 Damit ver-1,018-facht sich der Preis im Schnitt jedes Jahr, was einer jährlichen Steigerung von etwa +1,8% anstatt +2,82% entspricht. Travail de candidature 109 110 A. Anhang A.3. Wörterbuch Folgende Tabelle enthält eine Übersicht der Excel-Funktionen in drei verschiedenen Sprachen. Deutsch Englisch Französisch ABRUNDEN ROUNDDOWN ARRONDI.INF ABS ABS ABS ACHSENABSCHNITT INTERCEPT ORDONNEE.ORIGINE ANZAHL COUNT NB ANZAHL2 COUNTA NBVAL ANZAHLLEEREZELLEN COUNTBLANK NB.VIDE ARBEITSTAG WORKDAY SERIE.JOUR.OUVRE AUFRUNDEN ROUNDUP ARRONDI.SUP DATUM DATE DATE DATWERT DATEVALUE DATEVAL DBANZAHL DCOUNT BDNB DBANZAHL2 DCOUNTA BDNBVAL DBMAX DMAX BDMAX DBMIN DMIN BDMIN EDATUM EDATE MOIS.DECALER ERSETZEN, ERSETZENB REPLACE, REPLACEB REMPLACER, REMPLACERB EUROCONVERT EUROCONVERT EUROCONVERT FAKULTÄT FACT FACT FEHLER.TYP ERROR.TYPE TYPE.ERREUR FINDEN, FINDENB FIND, FINDB TROUVE, TROUVERB GANZZAHL INT ENT GEOMITTEL GEOMEAN MOYENNE.GEOMETRIQUE GERADE EVEN PAIR GLÄTTEN TRIM SUPPRESPACE GROSS UPPER MAJUSCULE GROSS2 PROPER NOMPROPRE HÄUFIGKEIT FREQUENCY FREQUENCE HEUTE TODAY AUJOURDHUI IDENTISCH EXACT EXACT ISOKALENDERWOCHE ISOWEEKNUM ISOWEEKNUM ISTFEHL ISERR ESTERR ISTFEHLER ISERROR ESTERREUR ISTFORMEL ISFORMULA ISFORMULA ISTGERADE ISEVEN EST.PAIR Travail de candidature A.3. Wörterbuch ISTLEER ISBLANK ESTVIDE ISTLOG ISLOGICAL ESTLOGIQUE ISTUNGERADE ISODD EST.IMPAIR ISTZAHL ISNUMBER ESTNUM JAHR YEAR ANNEE JETZT NOW MAINTENANT KALENDERWOCHE WEEKNUM NO.SEMAINE KGRÖSSTE LARGE GRANDE.VALEUR KKLEINSTE SMALL PETITE.VALEUR KLEIN LOWER MINUSCULE KORREL CORREL COEFFICIENT.CORRELATION KOVAR COVAR COVARIANCE KOVARIANZ.P COVARIANCE.P COVARIANCE.PEARSON KOVARIANZ.S COVARIANCE.S COVARIANCE.STANDARD KÜRZEN TRUNC TRONQUE LÄNGE, LÄNGEB LEN, LENB NBCAR, LENB LINKS, LINKSB LEFT, LEFTB GAUCHE, GAUCHEB MAX MAX MAX MAXA MAXA MAXA MEDIAN MEDIAN MEDIANE MIN MIN MIN MINA MINA MINA MINUTE MINUTE MINUTE MITTELABW AVEDEV ECART.MOYEN MITTELWERT AVERAGE MOYENNE MITTELWERTA AVERAGEA AVERAGEA MITTELWERTWENN AVERAGEIF MOYENNE.SI MITTELWERTWENNS AVERAGEIFS MOYENNE.SI.ENS MODALWERT MODE MODE MODUS.EINF MODE.SNGL MODE.SIMPLE MODUS.VIELF MODE.MULT MODE.MULTIPLE MONAT MONTH MOIS MONATSENDE EOMONTH FIN.MOIS NICHT NOT NON NOMINAL NOMINAL TAUX.NOMINAL ODER OR OU PI PI PI POTENZ POWER PUISSANCE PRODUKT PRODUCT PRODUIT Travail de candidature 111 112 A. Anhang PROGNOSE FORECAST PREVISION QUADRATESUMME SUMSQ SOMME.CARRES QUANTIL PERCENTILE CENTILE QUANTIL.EXKL PERCENTILE.EXC CENTILE.EXCLURE QUANTIL.INKL PERCENTILE.INC CENTILE.INCLURE QUANTILSRANG PERCENTRANK RANG.POURCENTAGE QUANTILSRANG.EXKL PERCENTRANK.EXC RANG.POURCENTAGE.EXCLURE QUANTILSRANG.INKL PERCENTRANK.INC RANG.POURCENTAGE.INCLURE QUARTILE QUARTILE QUARTILE QUARTILE.EXKL QUARTILE.EXC QUARTILE.EXCLURE QUARTILE.INKL QUARTILE.INC QUARTILE.INCLURE RANG RANK RANG RANG.GLEICH RANK.EQ EQUATION.RANG RANG.MITTELW RANK.AVG MOYENNE.RANG RECHTS, RECHTSB RIGHT, RIGHTB DROITE, DROITEB RUNDEN ROUND ARRONDI SÄUBERN CLEAN EPURAGE SEKUNDE SECOND SECONDE SPALTE COLUMN COLONNE SPALTEN COLUMNS COLONNES STABW STDEV ECARTYPE STABW.N STDEV.P ECARTYPE.PEARSON STABW.S STDEV.S ECARTYPE.STANDARD STABWA STDEVA STDEVA STABWN STDEVP ECARTYPEP STABWNA STDEVPA STDEVPA STEIGUNG SLOPE PENTE STFEHLERYX STEYX ERREUR.TYPE.XY STUNDE HOUR HEURE SUCHEN, SUCHENB SEARCH, SEARCHB CHERCHE, CHERCHERB SUMME SUM SOMME SUMMENPRODUKT SUMPRODUCT SOMMEPROD SUMMEWENN SUMIF SOMME.SI SUMMEWENNS SUMIFS SOMME.SI.ENS SVERWEIS VLOOKUP RECHERCHEV TAG DAY JOUR TAGE DAYS JOURS TAGE360 DAYS360 JOURS360 TEILERGEBNIS SUBTOTAL SOUS.TOTAL Travail de candidature A.3. Wörterbuch TEXT TEXT TEXTE TREND TREND TENDANCE UND AND ET UNGERADE ODD IMPAIR VAR.P VAR.P VAR.P VAR.S VAR.S VAR.S VARIANZ VAR VAR VARIANZA VARA VARA VARIANZEN VARP VARP VARIANZENA VARPA VARPA VARIATIONEN PERMUT PERMUTATION VERGLEICH MATCH EQUIV VERKETTEN CONCATENATE CONCATENER VERWEIS LOOKUP RECHERCHE VORZEICHEN SIGN SIGNE WENN IF SI WENNFEHLER IFERROR SIERREUR WERT VALUE CNUM WIEDERHOLEN REPT REPT WOCHENTAG WEEKDAY JOURSEM WURZEL SQRT RACINE WVERWEIS HLOOKUP RECHERCHEH ZÄHLENWENN COUNTIF NB.SI ZÄHLENWENNS COUNTIFS NB.SI.ENS ZAHLENWERT NUMBERVALUE NUMBERVALUE ZEILE ROW LIGNE ZEILEN ROWS LIGNES ZEIT TIME TEMPS ZELLE CELL CELLULE ZUFALLSBEREICH RANDBETWEEN ALEA.ENTRE.BORNES ZUFALLSZAHL RAND ALEA FALSCH FALSE FAUX WAHR TRUE VRAI Travail de candidature 113 114 A. Anhang A.4. Aufgabenstellungen Aufgabe 1: Schreiben Sie den Text „Dies ist die Zelle C5“ in die entsprechende Zelle und formatieren Sie die Zelle wie im unten angefügten Bild. Geben Sie ebenfalls den Text aus der folgenden Abbildung in die Zelle D5 ein. Aufgabe 2: Erstellen Sie eine Arbeitsmappe, in der das erste Tabellenblatt wie in der folgenden Abbildung aussieht. Speichern Sie das Dokument für die folgenden Aufgaben ab. Aufgabe 3: Berechnen Sie mit Excel die Umsätze für jede Filiale und jeden Artikel aus den aus Aufgabe 2 vorgegebenen Daten. Schreiben Sie diese Umsätze in die Zellen C5 bis E6. Aufgabe 4: Berechnen Sie den Gesamtumsatz für jede der zwei Filialen aus Aufgabe 2, sowie die Summe aller Umsätze. Travail de candidature A.4. Aufgabenstellungen Aufgabe 5: Die angehängte Datei4 beinhaltet eine Auflistung der aktiven Bevölkerung Luxemburgs, der Anzahl der Erwerbstätigen und die Anzahl der Angestellten, geordnet nach den 12 Kantonen. Berechnen Sie anhand dieser Daten die Anzahl der Freiberufler, der Arbeitslosen und die Arbeitslosenquote für alle Kantone, sowie alle Daten für das ganze Land. Aufgabe 6: In der angehängten Datei5 befinden sich die Einnahmen, die Ausgaben und die Angestelltenlöhne des Luxemburger Staates in den Jahren 1995 bis 2012. Errechnen Sie daraus die Summe, sowie den Mittelwert über alle Jahre. Berechnen Sie anschließend für jedes Jahr den prozentualen Anteil der Ausgaben für Angestelltenlöhne und den Überschuss des jeweiligen Jahres. Hinweis: Den Mittelwert berechnet man mit der Funktion „MITTELWERT(Zellbezug)“. Aufgabe 7: 1. Erstellen Sie aus den Daten in der Datei auf Seite 37 folgendes Kreisdiagramm: 2. Erstellen Sie ebenfalls ein Kreis- und ein Säulendiagramm, in dem die Prozentualwerte der Antworten angezeigt werden. 4 Aufgabe 5: 5 Aufgabe 6: Travail de candidature 115 116 A. Anhang Aufgabe 8: In der angehängten Datei6 befinden sich im ersten Tabellenblatt die Einkommensdaten von 5 000 amerikanischen Haushalten aus dem Jahr 2006 und im zweiten Blatt das Einkommen von 50 Studenten während der Sommermonate. 1. Veranschaulichen Sie die beiden Verteilungen dieser Einkommen anhand jeweils eines Histogramms. Wählen Sie dafür eine geeignete Klasseneinteilung. 2. Vergleichen Sie die Histogramme in beiden Tabellenblättern. Was kann man über die Verteilungen sagen? 3. Erweitern Sie die Tabellen in den beiden Arbeitsblättern um die relativen Häufigkeiten. Man berechnet sie, indem man die Häufigkeit der jeweiligen Klasse durch die Gesamtsumme der Häufigkeiten teilt. 4. Erweitern Sie die beiden Tabellen um eine weitere Spalte, die die kumulierten relativen Häufigkeiten enthält. Das ist die Summe der relativen Häufigkeit der entsprechenden Klasse und allen vorangehenden Klassen. 5. Erstellen Sie eine Liniengrafik der kumulierten relativen Häufigkeiten für beide Arbeitsblätter. Das Ergebnis soll wie in der folgenden Grafik aussehen. Aufgabe 9: In der angehängten Datei7 sind die Benotungen von etwa 120 Schülern. Erstellen Sie eine Tabelle, die die Häufigkeiten jeder Benotung auflistet. Welche Benotung kommt am häufigsten vor? 6 Aufgabe 8: 7 Aufgabe 9: Travail de candidature A.4. Aufgabenstellungen Aufgabe 10: Bestimmen Sie den Modus der Punktzahl der Schüler in der angehängten Datei.8 Aufgabe 11: Folgendes Histogramm repräsentiert die Verteilung der Anzahl der Arbeiter einer Firma in Funktion ihres Dienstalters. Arbeiter [#] 60 50 40 30 20 10 0 5 10 15 20 25 30 35 40 Dienstalter [Jahre] Bestimmen Sie den Modus anhand dieser Daten. Aufgabe 12: Versuchen Sie zunächst ohne Excel den Median der jeweiligen Datenreihe zu bestimmen. Überprüfen Sie anschließend Ihre Ergebnisse mit der Funktion „Median“. Datenreihe Median 0; 1; 0 2; 2; 57; 3; 3 0; 3; 4; 5 Aufgabe 13: In der Fußnote9 befindet sich eine Datei mit der Benotung von etwa 200 Studenten. 1. Bestimmen Sie den Median dieser Daten. 2. Erstellen Sie eine Tabelle mit der Häufigkeitsverteilung der Benotungen. 3. Erweitern Sie diese Tabelle um die relativen Häufigkeiten sowie um die kumulierten relativen Häufigkeiten. 4. Wie kann man den Median aus der Tabelle der kumulierten Häufigkeiten lesen? 8 Aufgabe 10: 9 Aufgabe 13 Travail de candidature 117 118 A. Anhang Aufgabe 14: Die folgende Tabelle enthält die Amtszeiten englischer Monarchen zwischen 827 und 1952. Bestimmen Sie den Median. Was sagt er aus und was kann man daraus schließen? Amtszeit [Jahre] Monarchen [#] [0; 10[ [10; 20[ [20; 30[ [30; 40[ [40; 50[ [50; 60[ [60; 70[ 22 16 11 7 1 2 2 Aufgabe 15: In der angehängten Datei10 sind die Antworten einer Umfrage, in der etwa 100 Haushalte nach der Anzahl der vorhandenen Fernsehgeräte befragt wurden. Bereiten Sie die Daten in einer Häufigkeitstabelle auf, die auch die kumulierten relativen Häufigkeiten enthält und bestimmen Sie den Median. Überprüfen Sie das Ergebnis anhand der Funktion „Median“. Aufgabe 16: Berechnen Sie den Mittelwert der Einkommen der Haushalte aus Aufgabe 8. Wofür steht dieser Mittelwert? Aufgabe 17: Untenstehend die Stundenlöhne (in e) von 10 Angestellten in zwei verschiedenen Unternehmen. Unternehmen 1 10 10 10 10 10 10 15 15 50 50 Unternehmen 2 16 16 17 17 17 17 17 17 18 19 Berechnen Sie das arithmetische Mittel der Stundenlöhne beider Unternehmen. Welche Schlussfolgerungen kann man ziehen, wenn man beide Werte vergleicht? 10 Aufgabe 15: Travail de candidature A.4. Aufgabenstellungen Aufgabe 18: Die folgende Tabelle stellt das Einkommen der Haushalte von 10 kanadischen Provinzen im Jahr 1997 dar: Provinz Einkommen, ø [$] Einkommen, Median [$] Alberta British Columbia Manitoba Neufundland und Labrador New Brunswick Nova Scotia Ontario Prince Edward Island Québec Saskatchewan 47 539 47 041 43 556 37 438 39 549 38 524 52 072 37 914 41 499 40 921 40 403 37 957 36 872 31 125 33 977 32 585 42 753 32 466 33 858 32 974 1. Wieso ist das durchschnittliche Einkommen in allen Provinzen höher als der Median des Einkommens? 2. Berechnen Sie den Mittelwert der Einkommen. Wieso entspricht er nicht den vom kanadischen Statistikamt veröffentlichten Wert von $ 46 556? Aufgabe 19: Nach einer Studie der Uni Kassel im Jahr 2010 verdienen vollzeitbeschäftigte Fachhochschulabsolventen zehn Jahre nach ihrem Abschluss im Schnitt etwa 59 400 e. Nun behauptet ein Freund, dass sein Vater, Hochschulabsolvent, aber 95 000 e im Jahr verdient. Stehen beide Aussagen im Widerspruch? Erläutern Sie Ihre Antwort. Travail de candidature 119 120 A. Anhang Aufgabe 20: Welchen Zentralwert sollte man in jedem der folgenden Beispielen nehmen? 1. Aufteilung der Angestellten nach ihrer Muttersprache. Muttersprache Anzahl Angestellter Luxemburgisch Französisch Deutsch Sonstige 25 81 57 9 2. Aufteilung der Angestellten nach ihrer Zufriedenheit. Zufriedenheit Anzahl Angestellter sehr unzufrieden eher unzufrieden eher zufrieden sehr zufrieden 18 27 60 45 3. Aufteilung der Angestellten nach ihren Krankentagen. Krankentage Angestellte [%] 0 1 2 3 85 12 2 1 4. Die Ergebnisse einer Schulklasse in einer Klausur. 1; 5; 24; 26; 28; 31; 32; 34; 34; 35; 35; 35; 37; 38; 40; 42. Travail de candidature A.4. Aufgabenstellungen Aufgabe 21: In der angehängten Datei11 befinden sich in zwei Tabellenblättern die Testergebnisse der Belastungstests von Beton, sowie die Punktzahl der Bewerber einer Arbeitsstelle. Berechnen Sie mit den Funktionen „MIN(Bereich)“ und „MAX(Bereich)“ die Spannweite beider Datenreihen. Aufgabe 22: Acht Bewerber des vorher erwähnten Einführungstests unterzogen sich einem zweiten Test, dessen Ergebnisse in der Tabelle unten hinzugefügt wurden: Punkte (von 20) 14 17 Test 1: Test 2: 13 14 15 13 5 16 15 7 16 17 10 7 17 14 Berechnen Sie den arithmetischen Mittelwert, die Spannweite und die Standardabweichung der beiden Tests. Vergleichen Sie die Ergebnisse der drei Kennzahlen. Aufgabe 23: Berechnen Sie die Standardabweichung der 5 000 Einkommen aus Aufgabe 8. Aufgabe 24: Folgende Tabelle enthält die Kundenumsätze (in Tsd. e) von vier verschiedenen Firmen. Firma Firma Firma Firma A: B: C: D: 121 132 132 122 134 135 135 125 137 138 138 138 142 141 142 158 162 148 165 160 Schätzen Sie zunächst von welcher Firma die Kundenumsätze die höchste Standardabweichung aufweisen. Überprüfen Sie Ihre Vermutung anschließend mit Hilfe von Excel. Aufgabe 25: Das folgende Histogramm enthält die Verteilung der Umsätze von zwei Firmen. 20 15 10 5 0 100 200 300 400 500 600 Welche der beiden Verteilungen weist die kleinere Standardabweichung auf? 11 Aufgabe 21: Travail de candidature 121 122 A. Anhang Aufgabe 26: Erläutern Sie für die folgenden drei Situationen, ob eine Korrelation, also ein Zusammenhang oder eine Abhängigkeit, besteht. 1. Die Anzahl der Touristen, die eine Stadt besuchen und die Höhe der Einnahmen dieser Stadt. 2. Das Gewicht eines Menschen und dessen Intelligenzquotient (IQ). 3. Die Dauer der Ausbildung eines Arztes und die Zeit, die er benötigt um eine richtige Diagnose zu erstellen. Aufgabe 27: Definieren Sie in den drei Situationen aus Aufgabe 26 jeweils die unabhängige Variable x und die von x abhängige Variable y. Aufgabe 28: Schreiben Sie die folgenden Daten in ein Tabellenblatt und berechnen Sie den Korrelationskoeffizienten für jedes der drei vorliegenden Beispiele mit der Funktion „KORREL“. 1. Die Anzahl der Touristen und die Höhe der Einnahmen: Land Anzahl Touristen [·106 ] Einnahmen [·109 e] A 4,9 3,5 B 4,1 2 C 5,5 4 D 6,6 5 E 4,4 2,5 2. Das Gewicht eines Menschen und dessen IQ. Gewicht [kg] 70 65 85 90 75 70 80 75 58 48 IQ [Punkte] 120 95 110 100 112 100 105 95 120 98 3. Die Dauer der Ausbildung eines Arztes und die Zeit, die er braucht um eine richtige Diagnose zu erstellen. Ausbildungsdauer [Tage] 2 2 3 3 4 4 5 5 5 6 Zeit bis zur Diagnose [Min] 25 23 17 21 18 20 15 12 13 10 Travail de candidature A.4. Aufgabenstellungen Aufgabe 29: Erklären Sie mit Hilfe der Erkenntnisse aus den vorherigen Aufgaben, wie man an den folgenden grafischen Darstellungen erkennen kann, ob und welche Korrelation vorliegt. 1. Die Anzahl der Touristen und die Höhe der Einnahmen. Einnahmen [·109 e] 5 4 3 2 1 0 1 2 3 4 5 6 7 Touristen [·106 ] 2. Das Gewicht eines Menschen und dessen IQ. IQ [Pkt] 120 100 80 60 40 20 0 20 40 60 80 Gewicht [kg] 3. Die Dauer der Ausbildung eines Arztes und die Zeit, die er braucht um eine richtige Diagnose zu erstellen. Zeit bis zur Diagnose [Min] 25 20 15 10 5 0 1 2 3 4 5 6 Ausbildungsdauer [Tage] Travail de candidature 123 124 A. Anhang Aufgabe 30: Ordnen Sie den folgenden Grafiken ihrem jeweiligen Korrelationskoeffizienten zu: −0, 90; 0, 50; 0, 85; −0, 20. Grafik A Grafik B Grafik C Grafik D Aufgabe 31: In der angehängten Datei12 ist die Länge und die Breite von mehreren Yachten aufgelistet. 1. Tragen Sie die Werte in ein Streudiagramm auf und fügen Sie den „Mittelpunkt“ ein. Die Koordinaten des Mittelpunktes sind die Mittelwerte der jeweiligen Variablen. 2. Schätzen Sie den Korrelationskoeffizienten und überprüfen Sie den Wert mit Hilfe von Excel. Aufgabe 32: Nennen Sie ein paar Beispiele, in denen der Korrelationskoeffizient genau 1 ist. Geben Sie zusätzlich etwa 5 Zahlenwerte zu jedem Beispiel an und prüfen Sie mit Excel, ob Sie richtig liegen. Aufgabe 33: Erweitern Sie die Tabelle um ein paar Werte und tragen Sie die Anzahl der Faltungen und die der Lagen in einem Streudiagramm graphisch auf. 1. Wie erkennt man eine exponentielle Korrelation anhand des Streudiagramms? 2. Geben Sie andere Beispiele exponentieller Korrelation. 12 Aufgabe 31: Travail de candidature A.4. Aufgabenstellungen Aufgabe 34: Angenommen y stellt das Gesamtgewicht eines Bierkastens dar, in dem sich x Flaschen befinden. Drücken Sie y mit Hilfe von x aus, wenn der leere Kasten 5 kg und jede Flasche 0,4 kg wiegt. Erstellen Sie ein Diagramm, in das Sie einige Werte graphisch auftragen. (Die horizontale Achse stellt die Anzahl der Flaschen und die vertikale Achse das Gesamtgewicht dar.) Aufgabe 35: Berechnen Sie den Achsenabschnitt b einer Geraden, die den Mittelpunkt M (x; y) einer Datenmenge schneidet und deren Steigung a frei bestimmbar, also variabel, ist. Aufgabe 36: In der angehängten Datei13 befinden sich vorgegebene Datenpaare und eine Gerade, die bereits in ein Diagramm eingetragen wurden. Mit dem Schieberegler können Sie die Steigung der Gerade frei bestimmen. Der Achsenabschnitt wird automatisch so angepasst, dass die Gerade den Mittelpunkt der Datenpunkte schneidet. Finden Sie ein Kriterium, nach dem Sie die Gerade so bestimmen, dass sie möglichst gleichmäßig an allen Datenpunkten liegt. Tipp: Betrachten Sie der Einfachheit halber die vertikalen Distanzen der Punkte zur gesuchten Regressionsgeraden. Aufgabe 37: Finden Sie mit Hilfe der Datei aus Aufgabe 36 eine Anordnung der Datenpunkte, so dass die Steigung der Geraden, die man durch das Minimieren des Ausdrucks n 2 1X |∆i | − |∆| n i=1 erhält, eine möglichst hohe Differenz zur Steigung der Regressionsgeraden aufweist. Die Regressionsgerade erhält man durch das Minimierung von n n 2 1X 1X ∆i − ∆ = (∆i )2 . n i=1 n i=1 13 Aufgabe Regressionsgerade: Travail de candidature 125 126 A. Anhang Aufgabe 38: Gegeben seien folgende Datenpaare: xi y i 1 2 3 3 0 3 Erstellen Sie das Streudiagramm und berechnen Sie die Differenzen ∆i der Datenpunkte zu einer möglichen Regressionsgeraden. Für welche Gerade wird 3 X (∆i )2 i=1 minimal? (Die Regressionsgerade schneidet den Mittelpunkt.) Aufgabe 39: Im Anhang befindet sich eine Datei14 , die das Gehalt und die davon abhängigen Alltagsausgaben von 50 Arbeitnehmern beinhalten. 1. Erstellen Sie ein Streudiagramm mit den Datenpaaren. Folgern Sie aus diesem Diagramm, ob eine Korrelation zwischen dem Gehalt und den Ausgaben besteht. 2. Überprüfen Sie Ihre Vermutung, indem Sie den Korrelationskoeffizienten berechnen. 3. Fügen Sie die Regressionsgerade ein und schätzen Sie anhand des Diagramms ab, wie hoch die Ausgaben wahrscheinlich wären, wenn man 45 000 e im Jahr verdienen würde. 4. Geben Sie die Formel der Regressionsgeraden an und rechnen Sie den abgelesenen Wert nach. 5. Erweitern Sie die Regressionsgerade um die jeweiligen Ausgaben für ein Gehalt von 60 000 e abschätzen zu können. Interpretieren und erläutern Sie das Ergebnis. Rechnen Sie auch hier nach. 6. Wie hoch sind die prognostizierten Ausgaben ohne Gehalt? Interpretieren und erklären Sie das Ergebnis. 14 Aufgabe 39: Travail de candidature A.4. Aufgabenstellungen Aufgabe 40: Die folgende Tabelle enthält die Sprunghöhe einiger Schüler in Abhängigkeit ihres Alters: Alter [Jahre] 6 6 7 8 8 9 9 11 12 12 Sprunghöhe [m] 0,6 0,8 0,9 0,7 1,0 1,1 1,0 1,2 1,4 1,1 1. Berechnen Sie den Korrelationskoeffizienten zwischen dem Alter und der Sprunghöhe und entscheiden Sie, ob es Sinn macht, eine Ausgleichsgerade ins Diagramm einzufügen. 2. Geben Sie die Formel der Ausgleichsgeraden an. 3. Berechnen Sie die Prognose der Sprunghöhe für ein Alter von 10 Jahren, 3 Jahren und für ein Alter von 30 Jahren. Kommentieren Sie die Ergebnisse. Aufgabe 41: In der angehängten Datei15 befindet sich eine Tabellen mit den Siegern des „Tour de France“ und ihrer jeweiligen Durchschnittsgeschwindigkeit. 1. Erstellen Sie ein Streudiagramm der Durchschnittsgeschwindigkeiten in Abhängigkeit der Jahrgänge und entscheiden Sie ob eine Korrelation vorliegt. 2. Berechnen Sie den Korrelationskoeffizienten und die Formel der Regressionsgeraden. 3. Welche durchschnittliche Geschwindigkeit könnte man im Jahr 2030 erwarten? 4. Überprüfen Sie den berechneten Wert grafisch, indem Sie die Regressionsgerade bis 2030 erweitern. 15 Aufgabe 41: Travail de candidature 127 128 A. Anhang Aufgabe 42: Die folgende Tabelle enthält die Anzahl der Storchenpaare sowie die Anzahl der Geburten in einem gegebenen Land.16 Land Albanien Bulgarien Griechenland Österreich Polen Portugal Rumänien Schweiz Spanien Türkei Ungarn Storchenpaare Geburten 100 5 000 2 500 300 30 000 1 500 5 000 150 8 000 25 000 5 000 83 000 117 000 106 000 87 000 610 000 120 000 23 000 82 000 439 000 1 576 000 124 000 Berechnen Sie die Formel der Regressionsgeraden und schätzen Sie die ungefähre Anzahl an Störchen, die notwendig ist, um 50 000 Geburten zu sichern. Hängt die Anzahl der Geburten tatsächlich von der Anzahl der Storchenpaare ab? Aufgabe 43: Die angehängte Datei17 enthält die Anzahl der Bienenvölker, die Honig produzieren und die Anzahl der Festnahmen von Jugendlichen wegen des Besitzes von Marihuana. 1. Tragen Sie die Daten in ein Streudiagramm auf und entscheiden Sie, ob eine Korrelation zwischen der Anzahl der Bienenvölker und der Anzahl der Festnahmen vorliegt. 2. Überprüfen Sie, ob der Korrelationskoeffizient zwischen beiden Variablen ungefähr −0, 93 beträgt und ob damit eine negative Korrelation vorliegt. 3. Besteht tatsächlich eine Abhängigkeit zwischen beiden Variablen? 16 Siehe [9]. 17 Aufgabe 43: Travail de candidature