Induktive Statistik - Formeln und Konventionen (II) Unabhängigkeitshypothese für das gemeinsame Vorkommen zweier Wörter:P(w1w2)= P(w1)P(w2) P(w): Wahrscheinlichkeit für das Vorkommen eines bestimmten Wortes x −µ t-Test: t= s² / N µ: Mittelwert der Grundgesamtheit x : Mittelwert eines untersuchten Samples s²: Standardabweichung eines untersuchten Samples N: Größe des Samples Unterschiedlichkeitstest (vereinfachte Formel): t= C v 1 w−C v²w C v 1 wC v²w v: Wörter, deren Kollokationen, die sie mit w eingehen, verglichen werden C(x): Häufigkeit, mit der x im Korpus vorliegt O i , j −E i , j ² Ei , j i, j i: Spalten in der χ-Matrix j: Zeilen in der χ-Matrix O: observierter Wert E: erwarteter Wert χ²-Test: X² =∑ N O 11 O 22 −O 12 O 21 ² O 11 O 12 O 11 O 21 O 12 O 22 O 21 O 22 Indizes der observierten Werte (O) geben Zeilen/Spalten der Matrix an. vereinfachte Formel für 2*2-Matrizen: X² = Wahrscheinlichkeitsverhältnisse: Unabhängigkeit: P(w²|w1) = p = P(w²|¬w1) Abhängigkeit: P(w²|w1) = p1 ≠ p2 = P(w²|¬w1) log λ=log Lc 12 , c 1 , plog Lc 2−c 12 , N −c 1 , p−log Lc 12 , c 1 , p1 −log Lc 2−c 12 , N −c 1 , p 2 wobei Lk , n , x= x k 1− xn−k und p= c2 c c −c ; p1= 12 ; p 2= 2 12 N c1 N −c 1