Mögliche Fragen für mündliche Prüfung aus Statistik und Wahrscheinlichkeitstheorie von Prof. Dutter Was für Kenngrößen von Verteilungen kennst du? Ortsparameter (Arithmetisches Mittel, Median, MedMed, Quantile, IQR) Streumaße (Varianz, Standartabweichung, Schiefe, Kurtosis) Faktor beider: Variationskoeffizient Was ist eine Standartabweichung? Die Standardabweichung ist ein Maß für die Schwankungen oder die Streubreite der Werte in einer Stichprobe. Grob gesagt ist sie die durchschnittliche Entfernung vom arithmetischem Mittel. Was ist der MedMed? Es wird von den Daten der Median berechnet. Danach werden die Abstände zu diesem Median sortiert, und von dieser Liste erneut der Median berechnet. Was ist die Varianz? Die Varianz ist das durchschnittliche Abstandquadrat zu einem Ortsparamter (meist verwendet: Arithmetisches Mittel) Warum teilt man bei der Varianz durch n-1? Dadurch dass der Mittelwert schon etwas Informationsgehalt über die einzelnen Werte enthält, wird bei der Berechnung ein Freiheitsgrad weggenommen. Die Momente: *m1(0) Erwartungswert *m2(µ) Varianz *m3(µ) Schiefe *m4(µ) Wölbung Was ist ein Ereignis? Ein Ereignis ist die Beschreibung eines Resultats eines Experiments (zB Würfeln). Es kann entweder eintreten oder nicht eintreten. Wenn Omega die Menge aller möglichen Versuchsausgänge bezeichnet, so ist ein Ereignis die Teilmenge von Omega. Was ist ein Elementarereignis? Ein Elementarereignis ist ein einzelner Versuchsausgang, also ein Element der Menge Omega. Was gibt es für Ereignisoperationen? Durchschnitt, Vereinigung, Komplement Was ist eine Ereignisalgebra? Es ist eine Teilmenge von Omega, die alle Durchschnitte, Vereinigungen von Ereignissen, sowie das unmögliche und sichere Ereignis beinhalten. (=Ereignisraum Altdeutsch-A) Seite 1 Oliver Zendel, Patrick Kastner SS 05 Was ist eine Borel´sche Sigma-Algebra? Sie ist die kleinste Ereignisalgebra die alle interessanten (für die Beobachtung relevant) Ereignisse beinhaltet. Was ist die Wahrscheinlichkeit eines Ereignisses? = Anzahl der günstigen Elementarereignisse Anzahl der möglichen Elementarereignisse Was ist eine bedingte Wahrscheinlichkeit? Bedingt durch ein bekanntes Vorwissen, ändert sich die Wahrscheinlichkeit für ein Ereignis. Was ist die Binomialverteilung? Die Binomialverteilung gibt die Wahrscheinlichkeit des Ausganges, dass von nunabhängigen Versuchen k gut und 1-k schlecht ausgehen. Was ist eine Zufallsvariable? Jedem Versuchsergebnis aus Omega wird eine reelle Zahl zugeordnet. X ist die Abbildung von Omega in die reellen Zahlen. Für jede reelle Zahl muss die Urbildmenge in Omega enthalten sein. Was ist eine diskrete / kontinuierlich stetige Zufallsvariable? Diskrete Zufallsvariablen haben höchstens abzählbar viele verschiedene Werte. Kontinuierlich stetige Zufallsvariablen können jeden beliebigen Wert in ihrem Definitionsbereich annehmen. Was ist eine Dichtefunktion? Die Ableitung der Verteilungsfunktion ist die Dichtefunktion. Was ist eine Verteilungsfunktion einer Zufallsvariablen? Verteilungsfunktion an der Stelle x = Wahrscheinlichkeit dass Zufallsvariable X kleiner gleich x. Was ist eine Normalverteilung? Eine Normalverteilung charakterisiert sich durch die Gaußsche Glockenkurve. Man kann sie transformieren über Z = (X - µ)/sigma und erhält die N(0,1) Standartnormalverteilung. Was ist ein Wahrscheinlichkeitsnetz? Es ist ein Wahrscheinlichkeitspapier bei dem die Ordinate zwischen 0 und 1 nicht in gleich große Intervalle teilt, sondern proportional zur inversen Verteilungsfunktion aufgetragen ist, zB Standardnormalverteilung. Was ist die Chi-Quadrat-Verteilung? Die Chi-Quadrat-Verteilung mit n-Freiheitsgraden ist die Summe aus n unabhängigen quadrierten Standardnormalverteilungen. Was ist die Poissonverteilung? Die Poisson-Verteilung lässt sich aus der Binomialverteilung herleiten, wenn N gegen Unendlich und P gegen Null geht, wobei man das Produkt N mal P mit Lamba = konstant annimmt. Seite 2 Oliver Zendel, Patrick Kastner SS 05 Was ist die f-Verteilung? Die F-Verteilung wird verwendet um festzustellen, ob die Grundgesamtheiten zweier Stichproben die gleiche Varianz haben. F(m,n) = Chi-Quadrat(m)/m Chi-Quadrat(n)/n Was ist die t-Verteilung? Standardisierte normalverteilte Daten sind nicht mehr normalverteilt, wenn die Varianz des Merkmals unbekannt ist und mit der Stichprobenvarianz geschätzt werden muss. Daher nimmt man hier die t-Verteilung. T(m) = N(0,1) SQRT (Chi-Quadrat (m) / m) Was ist die Mathematische Erwartung? Der Erwartungswert ist die Summe über aller Werte der Ereignisse multipliziert mit ihrer Häufigkeit. Wie lässt sich die Bioniomialverteilung durch die Normalverteilung annähern? Indem man die Parameter µ durch n*p und Sigma² durch np(1-p) annähert. Was ist eine mehrdimensionale Zufallsvariable (Multivariant)? Ein p-dimensionale Zufallsvektor, dessen Elemente auch Zufallsvariable sind. Was ist eine Randverteilung? Die Randverteilung sind die einzelnen Elemente des Zufallsvektors, die durch Summation über alle möglichen Zustände der anderen gefunden wird. Wann sind zwei Zufallsvariablen voneinander unabhängig? Wenn gilt: p(i,j) = p(i) * p(j) Was besagt der zentrale Grenzwertsatz? Bei genügend großem Stichprobenumfang und endlicher Varianz ist die Verteilung arithmetischer Mittel von Zufallsstichproben approximativ normal. Was ist eine Stichprobe? Sie stellt eine Untermenge einer ganzen Population dar. Die Stichprobe ist eine mit einer bestimmten Methode erzeugte Teilmenge einer als Grundgesamtheit bezeichneten Menge. Was ist ein Schätzer? Ein Schätzer ist eine Schätzfunktion, die aus der Stichprobe eine gewisse Kenngröße näherungsweise bestimmt. Was bedeutet erwartungstreuer Schätzer? Wenn der Erwartungswert vom Schätzer dem Parameter entspricht, so ist dies ein erwartungstreuer oder unverzerrter Schätzer. Was bedeutet konsistenter Schätzer? Wenn eine Folge von Schätzfunktionen gegen den gesuchten Parameter geht so heißt der Schätzer konsistent. Seite 3 Oliver Zendel, Patrick Kastner SS 05 Was ist die Likelihood-Funktion? Dazu werden aller Dichten der Stichprobenwerte multipliziert. Was ist die Maximum-Likelihood-Methode? Es ist ein Verfahren, um brauchbare Schätzer für Parameter einer Verteilung zu finden. Dazu wird die Likelihood-Funktion maximiert (Nach dem Parameter abgeleitet und 0-gesetzt). Was ist ein Konfidenzintervall? Das Konfidenzintervall ist ein Intervall, das mit einer gewissen Wahrscheinlichkeit (meist zu 95%) den wahren Parameter einschließt. Was ist eine Hypothese in der Statistik? Eine Hypothese ist eine Annahme über eine Verteilung einer Zufallsvariablen. Was ist eine Nullhypothese? Auf die Nullhypothese bezieht sich der Grundgedanke des Test. Schlägt der Test fehl, muß die 1-Hypothese (Gegenhypothese) angenommen werden und die Nullhypothese verworfen werden. Wozu braucht man den 1-Stichproben-t-Test? Der 1-Stichproben-t-Test testet, ob die Stichprobe zur Normalverteilung mit einem bestimmten µ = µ(0) passt (Annahme: Varianz ist unbekannt!). Liegt ein Wert innerhalb des kritischen Bereich des Testes, muss die Hypothese verworfen werden. Was ist ein Fehler Erster/Zweiter Art? Ein Fehler erster Art (Alpha) erfolgt, wenn man die 0-Hypothese verwirft, obwohl sie zutrifft. Ein Fehler zweiter Art (Beta) erfolgt, wenn man die 0-Hypothese annimmt, obwohl sie falsch ist. Hypothese falsch, und abgelehnt: 1 - Beta : Macht des Tests Was gilt für das Konfidenzintervall der Varianz? Die Ungleichung der wahnsinnigen Formel muß erfüllt sein. Was ist der 2-Stichproben-t-Test? Mit dem 2-Stichproben-t-Test vergleicht man die Mittel zweier Populationen. Wozu braucht man den Chi-Quadrat-Anpassungstest? Um zu testen, ob eine in Klassen eingeteilte Stichprobe (diskrete Werte je Klasse), einer gewissen Verteilung zuzuordnen ist. Wozu verwendet man den Kolmogorov-Smirnov-Test? Ob eine gewisse Stichprobe einer stetigen Verteilungsfunktion zuzuordnen ist. Was ist eine Varianzanalyse? Von k Stichproben (jede Stichprobe hat j Werte) wird überprüft, ob der Mittelwert jeder Stichprobe gleich ist. Das Verfahren untersucht, ob (und gegebenenfalls wie) sich der Erwartungswert einer metrischen Zufallsvariablen in verschiedenen Seite 4 Oliver Zendel, Patrick Kastner SS 05 Gruppen unterscheidet. In Prüfgrößen des Verfahrens wird getestet, ob die Varianz zwischen den Gruppen größer ist als die Varianz innerhalb der Gruppen. Dadurch kann ermittelt werden, ob die Gruppeneinteilung sinnvoll ist oder nicht bzw. ob sich die Gruppen signifikant unterscheiden oder nicht. Was ist eine Varianzanalyse-Tafel? In der Varianzanalysetafel werden die einzelnen Kenngrößen (Freiheitsgrade, Quadratsumme, mittlere Quadratsumme= Varianz) für zwischen den Gruppen und innerhalb der Gruppen aufgeschlüsselt und der Test-Parameter F errechnet. Was ist Regression? Regression liegt dann vor, wenn die Verteilung einer Zufallsvariable von der Verteilung einer anderen Zufallsvariable abhängt. Was ist das Regressionsproblem? Das Regressionsproblem behandelt die Frage, ob Regression vorliegt. Wie testet man auf Abhängigkeit einer Variable x? Man nimmt als Nullhypothese an, dass keine Regression vorliegt. Also H(0): b=0 ; Schlägt der Test fehl, ist die Variable abhängig. Was ist die Korrelation? Korrelation liegt dann vor, wenn es einen beliebigen Zusammenhang zwischen zwei Messgrößen gibt. Also wenn es keine Abhängigkeiten gibt, aber einen Zusammenhang. Was ist das Korrelationsproblem? Das Korrelationsproblem behandelt die Frage, ob eine Korrelation vorliegt. Was ist die Kovarianz? Als Maß der Abhängigkeit dient die Kovarianz. Das ist der Erwartungswert des Kreuzproduktes der Abstände zweier Zufallsvariablen von ihren Mittelwerten. Was ist die empirische Kovarianz? Kovarianz direkt aus den Stichprobenwerten errechnet (Schätzer für Kovarianz). Was ist der Korrelationskoeffizient? Der Korrelationskoeffizient ist die Kovarianz durch die Multiplikation der zwei Varianzen. Er liegt zwischen -1 und 1. Bei Unabhängigkeit beträgt er 0. Wie testet man auf Unkorrelliertheit? Man nimmt als 0-Hypothese an, dass der Korrelationskoeffizient 0 ist (also dass er unabhängig ist). Was ist das Klassifizierungsproblem? Es wird getestet ob eine in Klassen eingeteilte Stichprobe einer Verteilung entspricht (ChiQuadratTest). Was ist eine Kontingenztafel? Eine Tafel mit zweifacher Klassifizierung. Seite 5 Oliver Zendel, Patrick Kastner SS 05