Induktive Statistik - Formeln und Konventionen (II)

Werbung
Induktive Statistik - Formeln und Konventionen (II)
Unabhängigkeitshypothese für das gemeinsame Vorkommen zweier Wörter:P(w1w2)= P(w1)P(w2)
P(w): Wahrscheinlichkeit für das Vorkommen eines bestimmten Wortes
x −µ
t-Test: t=
 s² / N
µ: Mittelwert der Grundgesamtheit
x : Mittelwert eines untersuchten Samples
s²: Standardabweichung eines untersuchten Samples
N: Größe des Samples
Unterschiedlichkeitstest (vereinfachte Formel): t=
C v 1 w−C v²w 
 C v 1 wC v²w
v: Wörter, deren Kollokationen, die sie mit w eingehen, verglichen werden
C(x): Häufigkeit, mit der x im Korpus vorliegt
O i , j −E i , j  ²
Ei , j
i, j
i: Spalten in der χ-Matrix
j: Zeilen in der χ-Matrix
O: observierter Wert
E: erwarteter Wert
χ²-Test:
X² =∑
N O 11 O 22 −O 12 O 21  ²
O 11 O 12 O 11 O 21 O 12 O 22 O 21 O 22 
Indizes der observierten Werte (O) geben Zeilen/Spalten der Matrix an.
vereinfachte Formel für 2*2-Matrizen:
X² =
Wahrscheinlichkeitsverhältnisse:
Unabhängigkeit: P(w²|w1) = p = P(w²|¬w1)
Abhängigkeit: P(w²|w1) = p1 ≠ p2 = P(w²|¬w1)
log λ=log Lc 12 , c 1 , plog Lc 2−c 12 , N −c 1 , p−log Lc 12 , c 1 , p1 −log Lc 2−c 12 , N −c 1 , p 2 
wobei Lk , n , x= x k 1− xn−k und p=
c2
c
c −c
; p1= 12 ; p 2= 2 12
N
c1
N −c 1
Herunterladen