2. Für jede Fehlerreduktion der Art FR(z. x)= F(x)

Werbung
Nagl, Einführung in die Statistik
Seite 178
5 Prädiktion mit mehreren Prädiktoren
In diesem Kapitel sollen für die Prädiktion eines Merkmals mehr als eine Variable betrachtet werden. Diese
Prädiktionsart wird auch multiple Prädiktion (von mehrfach) genannt. Im allgemeinen kann durch die Hinzunahme zusätzlicher Merkmale als Prädiktoren die Prädiktion verbessert werden.
Zu dieser ‚multiplen’ Fragestellung (um wieviel besser ist die Prädiktion insgesamt?) tritt die spezielle auf
einzelne Merkmale bezogene ‚partielle’ Fragestellung hinzu (um wieviel besser ist die Prädiktion durch Erweiterung der bereits vorhandenen Prädiktoren um etwa ein einziges zusätzliches Merkmal?).
Die Regeln, die mehrere Merkmale simultan berücksichtigen, sind meist kompliziertere Formulierungen. Auch
wenn SPINOZA's Erkenntnis, daß die Natur einfach ist (natura enim simplex est) nicht zum Wahrheitskriterium
erhoben wird, sprechen schlicht ökonomische Gründe dafür, die für den Prädiktionsfall eventuell entstehenden
Kosten klein zu halten. Einige solcher Kosten sind:



Erhebungskosten (je mehr Merkmale eine Regel berücksichtigt, desto höher sind i.a. die Kosten des
Untersuchens bzw. Erfassens der Merkmale).
Speicherkosten ( komplizierte Regeln erfordern i.a.mehr Lern-, Merk- oder Schreibaufwand als einfache ).
Verarbeitungskosten (die Anwendung einfacher Regeln ist in der 'Praxis' weniger fehleranfällig und
billiger).
Schon diese möglichen Kosten reichen als Begründung aus, dass mit großer Sorgfalt darauf geachtet werden
sollte, bei der Datenanalyse möglichst einfache Regeln mit wenig Merkmalen zu formulieren, falls solche
Regeln nicht allzu viele Prädiktionsfehler erwarten lassen.
Bei gleicher Anzahl von Merkmalen können mehr oder weniger einfache Formulierungen gefunden werden. Bei
den in logischer Form formulierten Regeln für qualitative Merkmale können Verfahren angewandt werden, solche Regeln zu vereinfachen bzw. sie übersichtlich darzustellen. Bei quantitativen Merkmalen werden möglichst
einfache Funktionen (meist lineare) gesucht, die Verbindung zum Prädikanden herzustellen.
Als Maß für die Güte der multiplen Prädiktion sollen multiple PREmaße eingeführt werden. Die Bewertung
einzelner Merkmale können in diesem Rahmen jeweils durch ihre Fehlerreduktion im Kontext der anderen Variablen bewertet werden (jeweils unter ‚Konstanthaltung’ der andern Variablen).
Eine weitere zentrale Frage ist die nach der Konstanz bzw. Stabilität des Zusammenhangs zwischen zwei Merkmalen (x und y). Im Rahmen der multiplen Fragestellung kann auch diese Frage analysiert werden: Inwiefern
bleibt trotz der Berücksichtigung einer oder mehrerer Drittvariablen der Zusammenhang zwischen zwei betrachteten Variablen (x und y) stabil? Für LAZARSFELD ist diese Stabilität eine der wichtigsten Voraussetzungen
dafür, dass zwischen x und y eine ‚kausale’ Beziehung besteht.
In diesem Kapitel soll die multiple Analyse zuerst für qualitative Prädiktoren betrachtet werden, bei der durch
mehrere Prädiktoren Gruppen gebildet werden. Diese Prädiktionsmodelle werden hier Gruppenmodelle genannt.
Die Gruppenmodelle werden zuerst für die Prädiktion eines qualitativen Merkmals untersucht, danach für die
Prädiktion eines quantitativen Prädikanden mit Hilfe der Mittelwertregel (im Rahmen der Varianzanalyse mit
zwei Prädiktoren). Die Weiterentwicklung des Gruppenmodells für Mittelwerte führt zum linearen Modell der
Varianzanalyse, das in vielen Fällen eine etwas sparsamere Beschreibung der Mittelwerte erlaubt als das Gruppenmodell. In weiteren Schritten werden für quantitative Prädiktoren lineare Modelle (Regressionsmodell) eingeführt, das über die Logitüberlegungen auch für qualitative Prädikanden anwendbar ist. Schon bei der Behandlung dieser Modelle wurden Beispiele der Erweiterung gezeigt.
5.1 Gruppenmodelle für qualitative Prädikanden
Zuerst soll die multiple Fragestellung an Hand eines Beispiels besprochen werden. Die Konzepte werden an
Hand der Lambda-Maße entwickelt und verallgemeinert, zudem auch auf die PRU-Maße angewandt.
5.1.1 Modalregel-Prädiktion
Zuerst soll als multiple Regel die Modalregel und als Fehlermaß die Anzahl (bzw. der Anteil) der Fehlprädiktionen verwendet werden. Diese Konzeption führt zur Erweiterung von Lambda auf ein multiples Lambda.
Nagl, Einführung in die Statistik
Der Prädikand sei ein qualitatives Merkmal.
Als m Prädiktoren dienen im Gruppenmodell
mehrere qualitative Merkmale x1, x2, ... , xm.
Erstellen der (m+1)-dimensionalen Häufigkeitstabelle:
Da die x-Merkmale qualitativ sind, können
die diversen Kombinationen der Ausprägungen der Merkmale vorerst wie die Ausprägungen einer einzigen KombinationsVariablen (=x) interpretiert werden.
Seite 179
Beispiel: Multiple Prädiktion des Merkmals ‚Angst vor neuen Aufgaben’ auf
Grund der ersten 50 UEen der Studentenuntersuchung. Die Prädiktoren sind drei
dichotomisierte Merkmale, die mit mit den drei Buchstaben m (=x1) a (=x2) und s
(=x3) abgekürzt werden. Das Ergebnis kann in Form einer vierdimensionalen
Häufigkeits-Kreuztabelle dargestellt werden:
Ausbildung der
Mutter (m)
höher als VS(h)
Arbeiten
zu Hause
(a)
viel (v)
wenig(w)
volksschule (v)
viel(v)
wenig(w)
Mit dieser Interpretation können die Häufigkeiten in der gleichen Art wie bei einer
Kreuztabelle mit nur einem x- und yMerkmal dargestellt werden.
Modal-Prädiktionsregeln
Für jede Kombinationsausprägung kann auch
eine Modal-Prädiktionsregel gefunden werden (in der gleichen Art wie bei einer Kreuztabelle mit nur einem x und y-Merkmal).
Die Regel R(x1,x2,...,xm) unter Berücksichtigung der verschiedenen x-Merkmale kann
wiederum kurz in Tabellenform dargestellt
werden bzw. ausführlicher in aussagenlogischer Form (die Merkmalsausprägungen
werden pro Zeile mit ‚’ verknüpft).
Für jede der und-verknüpften Bedingung
kann eine Konditionalaussage formuliert
werden.
Bei zwei Ausprägungen des Prädikanden
genügt es, nur die Bedingungen für eine der
beiden Ausprägungen zu charakterisieren.
Die Bedingung für eine bestimmte Ausprägung kann auch in Form eines Mengendiagramms (VENN-Diagramm) dargestellt werden.
Die und-Verknüpfung() entspricht dem
Mengenschnitt (), die oder-Verknüpfung
() entspricht der Mengen-Vereinigung().
Berufliche
Sicherheit ist
wichtig (s)
ja (j)
nein(n)
ja (j)
nein(n)
ja (j)
nein(n)
ja (j)
nein(n)
y: Angst vor
neuen Aufgaben
ja
nein
0
1
2
8
2
0
3
9
2
0
4
2
3
1
5
8
21
1
10
2
12
2
6
4
13
29
50
In den Zellen der Kreuztabelle steht die Anzahl der UEen, für die alle entsprechenden Zeilen-Ausprägungen als auch die Spaltenausprägung zutrifft.
Die Modalregeln werden pro Zeile (Kombinationsausprägung der x-Merkmale)
für die Prädiktion von y erstellt (siehe oben).
Darstellung der Regeln in Tabellenform und als Konditionalaussagen:
R(mas)
m
a
s
h
h
h
h
v
v
v
v
v
v
w
w
v
v
w
w
j
n
j
n
j
n
j
n
y








n
n
j
n
j
j
j
n
F(mas):
Fehleranzahl
0
2
0
3
0
2
1
5
13
R(mas)
(m=h)  (a=v)  (s=j)
(m=h)  (a=v)  (s=n)
(m=h)  (a=w)  (s=j)
(m=h)  (a=w)  (s=n)
(m=v)  (a=v)  (s=j)
(m=v)  (a=v)  (s=n)
(m=v)  (a=w)  (s=j)
(m=v)  (a=w)  (s=n)








(y=n)
(y=n)
(y=j)
(y=n)
(y=j)
(y=j)
(y=j)
(y=n)
Prädiktion von y=j, wenn
(m=h)  (a=w)  (s=j) oder (m=v)  (a=v)  (s=j)
oder (m=v)  (a=v)  (s=n) oder (m=v)  (a=w)  (s=j);
sonst Prädiktion von y=n
VENN-Diagramm
für die Bedingung,
für die y=j
prädiziert wird:
s=j
a=w
Jedes Teilsegment ist
hier der Schnitt jeweils
dreier Bedingungen.
m=v
Vereinfachen der Regel: Der logische Ausdruck kann meist zudem vereinfacht werden
(unter Verwendung der Gesetze der boolschen Algebra). Eine große Hilfe dabei ist das
Mengendiagramm
Auf Grund des obigen VENN-Diagramms kann leicht nachgeprüft werden, dass
die folgende Beschreibung der Bedingung äquivalent zur ursprünglichen komplizierteren Beschreibung ist:
(a=w)  (s=j) oder (a=v)  (m=v);
in Worten(mit Prädiktion):
Wer wenig arbeitet und Sicherheit wünscht oder wer viel arbeitet und eine
Mutter mit Volksschulausbildung hat, hat Angst vor neuen Aufgaben
5.1.1.1 Multiples Lambda
Die Prädiktion wird wiederum über die Fehlerreduktion bewertet:
Die Anzahl der Fehlprädiktionen für ein Prädiktionsscenario ist gleich der AnAls Fehler MIT x1,x2,... und xm, abgekürzt
durch F(x1,x2,...,xm), wird die Anzahl in den zahl der UEen in den nicht prädizierten Zellen. Der Wert wurde bereits in der
Tabelle oben (im vorigen Abschnitt) berechnet:
nicht prädizierten Zellen(=Fehlerzellen)
F(m,a,s)=13 bzw. kurz F(mas)=13
verwendet werden.
Nagl, Einführung in die Statistik
Regel und Fehler OHNE x-Werte: Die
Regel OHNE die x-Werte wird wiederum auf
Grund der y-Randverteilung gefunden (der
Modalwert der Randverteilung). Der Fehler
selbst ist die Anzahl der UEen außerhalb der
Modalzelle der Randverteilung, abgekürzt:
F(-) bzw. F(OHNE)
Multiple Fehlerreduktion durch mehrere xMerkmale
FR(x1,x2,...,xm) = F(-) - F(x1,x2,...,xm)
Das multiple Lambda ist das ‚multiple’
PRE-Maß, das die Gesamtfehlerreduktion
durch mehrere Merkmale anteilig auf den
OHNE-Fehler bezieht:
λ y|x1,x 2 ,,x m =
F( )F( x1 , x 2 ,, x m )
F( )
FR ( x1 , x 2 ,, x m )
=
F( )
= 1
Seite 180
Die OHNE-x Modalregel auf Grund der
Randverteilung von y lautet: ‚Niemand hat
Angst vor neuen Aufgaben’. Für jeden
Einzelfall wird daher (y=n) prädiziert.
Dadurch entsteht bei den UEen eine
Fehlprädiktion, die nicht dem prädizierten
Wert entspricht (y=j).
y: Angst vor neuen
Aufgaben
ja
nein
21
29
50
F(-) = 21.
Die multiple Fehlerreduktion durch die Einführung der Regel, die alle drei
Merkmale berücksichtigt, ist:
FR(mas) = F(-) - F(mas) = 21-13 = 8
Das multiple Lambda berechnet die anteilige Fehlerreduktion, die simultan durch
alle drei Prädiktoren erreicht werden kann:
y|mas= 8/21 = (21- 13)/21 = 1 – 13/21  0.381.
Der Prädiktionsfehler kann durch die Modalregel, die alle drei Merkmale als
Prädiktoren berücksichtigt, um 38.1% reduziert werden.
F( x1 , x 2 ,, x m )
F( )
5.1.1.2 Fehlerreduktion durch einzelne Prädiktoren
Für jedes Merkmal kann untersucht werden, wie groß sein Fehlerreduktionsbeitrag im Kontext der anderen
Merkmale ist. Eventuell ist es gar nicht erforderlich, viele Merkmale simultan für die Prädiktion zu berücksichtigen, da vielleicht der Prädiktionsfehler bei weniger Merkmalen etwa gleich groß oder nur unerheblich kleiner.
Deshalb sollen auch die Regeln mit den entsprechenden Fehleranteilen für weniger Prädiktoren untersucht werden.
Erzeugen von kleiner-dimensionalen Häu- Eliminieren des Merkmals Sicherheit
figkeitstabellen: Eliminieren von Prädiktoren erbringt folgende Häufigkeitstabelle:
in der (m+1)-dimensionalen Häufigkeitstabely
le.
j
n
m
a
Die Spaltentexte der entsprechenden Merk11
h
v
2
9
male werden gestrichen. Manche Zeilen ha14
w
5
9
ben danach gleiche Texte; die Häufigkeiten
8
v
v
6
2
dieser Zeilen sind zu addieren und als eine
17
w
8
9
einzige Zeile in die neu zu bildende kleiner21
29
50
dimensionale Häufigkeitstabelle eingetragen.
Auch für die kleinerdimensionalen Häufigkeitstabellen können Modalprädiktionsregeln
erstellt und die entsprechenden Fehlermaße
berechnet werden.
Bei m Merkmalen können insgesamt (unter
Berücksichtigung der Konstellation ohne
Merkmal (-) und der Konstellation aller
Merkmaln) 2m verschiedene Merkmalskombinationen gebildet werden.
Für jede der Merkmalskombinationen kann
wiederum eine Häufigkeitstabelle erzeugt,
entsprechende Prädiktionsregeln erstellt und
der Prädiktions-Fehler berechnet werden.
Eliminieren des Merkmals Sicherheit
und Arbeitsaufwand erbringt folgende
Häufigkeitstabelle:
y
m
h
v
Die Modalzellen sind oben markiert.
Der Fehler, der m und a berücksicht,
wird mit F(ma) abgekürzt:
F(ma)=2+5+2+8=17
j
7
14
n
18
11
25
25
21
29
50
Der Fehler für die Regel, die nur m
berücksichtigt ist
F(m)=7+11=18
F(-)= 21
m
a
s
F(m)=18
F(a)=21
F(s)=16
ma
F(ma)=17
ms
F(ms)=16
as
F(as)=16
mas
F(mas)=13
Die Fehler bei Berücksichtigung der jeweils angegebenen Merkmale wurden auf
Grund der entsprechenden Häufigkeitsverteilungen berechnet. Bei 3 Merkmalen
gibt es 2*2*2=8 verschiedene Merkmalskombinationen.
Nagl, Einführung in die Statistik
Seite 181
5.1.1.2 Sequentiell inkrementelle Teilfehlerreduktion
Die sequentiell inkrementelle Fehlerreduktion dient als Fehlerübersicht bei sequentiellem Hinzufügen von zusätzlichen Merkmalen. Dadurch wird der Fehlerreduktionsbeitrag des einzelnen Merkmals innerhalb einer solchen Sequenz berechnet, wonach die prädiktive Relevanz des Merkmals bewertet werden kann. Eine solche
Sequenz beginnt beim Fehler ohne ein Merkmal (-) und endet dann, wenn alle m Merkmale berücksichtigt sind.
Sequentiell inkrementelle
Sequentielle
Fehler
Teil-Fehlerreduktion durch ein Merkmal
Fehler
Fehlerreduktion:
F(-)
F(-) = 21
F(x1)
FR(x1) = F(-) - F(x1)
F(m)=18
FR(m) = 21-18
=3
F(x1,x2)
FR(x2 . x1)= F(x1) - F(x1,x2)
F(ma)=17
FR(a. m) =18-17
=1
..............
............
F(mas)=13 FR(s. ma) = 17-13 = 4
FR(xm. x1,x2,..,xm-1)= F(x1,x2,...,xm-1)- F(x1,x2,..,xm)
F(x1,x2,...,xm-1,xm)
Bemerkung: Bei der inkrementellen Fehlerreduktion eines Merkmals wird jeweils untersucht, um wie viel der Fehler reduziert werden kann
durch das Hinzufügen des Merkmals zur Menge der schon vorhandenen Merkmale. Daher wird diese Fehlerreduktion jeweils als Unterschied
zwischen dem Fehler, der das Merkmal enthält, und dem Fehler, der besagtes Merkmal nicht enthält, berechnet. In der Bezeichnung wird
hinter die Merkmalsbezeichnung ein Punkt gesetzt und danach die Liste der bereits vorhandenen Variablen eingefügt.
Die Summe der Fehlerreduktionen einer Sequenz ist gleich der multiplen Reduktion
Die multiple Fehlerreduktion ist die Differenz des Fehlers, der bei Berücksichtigung aller Merkmale bei der
Prädiktion anfällt, zum Fehler, der kein Merkmal berücksichtigt.
Da die Teilfehlerreduktionen innerhalb einer Sequenz jeweils die sukzessiven Differenzen der Fehler sind, muss
die Summe dieser sukzessiven Differenzen gleich der Multiplen Differenzen sein.
Denn z.B. für m=3:
Beispiel:
Multiple Fehlerreduktion:
FR(x1) + FR(x2 . x1)+FR(x3 . x1 x2) =
FR(mas) = 8
FR(x1,x2,...,xm) = F(-) - F(x1,x2,...,xm) =
F(-) - F(x1) + (F(x1) - F(x1,x2)) +
= FR(m) +FR(a. m) +FR(s. ma)
Summe der Teil-Fehlerreduktionen einer
(F(x1,x2) - F(x1,x2,x3))
= 3
+ 1
+ 4
Sequenz: FR(x1) + FR(x2 . x1)+ FR(x3 . x1 x2)+ = F(-) - F(x1,x2,x3).
wzzw
= 8
Da die mittleren Summanden jeweils
... + FR(xm. x1,x2,..,xm-1)
wegfallen. Dieses Argument kann auf
beliebiges m übertragen werden.
Vielfalt von Sequenzen
In manchen Anwendungen ist die Reihenfolge aus inhaltlichen Gründen vorgezeichnet; generell gibt es aber
viele mögliche Reihenfolgen (m!) solch inkrementeller Fehlerreduktionen (im vorliegenden Beispiel sind das jeweils alle
OHNE(-) nach
Wege von
FR(m)
‚mas’ im nachfolgenden Diagramm auf den eingetragenen Linien).
-
-
F(-)
21
FR(a)
FR(s)
3
0
5
a
m
a
s
m
a
s
F(m)
F(a)
F(s)
18
21
16
FR(a. m)
FR(m. a)
FR(s . m)
FR(m. s)
FR(s. a)
FR(a. s)
1
a
4
2
0
5
0
a
ma
ms
as
ma
ms
as
F(ma)
F(ms)
F(as)
17
16
16
FR(s. ma)
FR(a . ms)
mas
F(mas)
FR(m. as)
4
3
s
a
mas
m
3
13
Der Fehlerreduktionsbeitrag des einzelnen Merkmals ist i. a. sequenzabhängig
Der Fehlerreduktionsbeitrag eines bestimmten Beispiel: Das Merkmal a bringt 0 als Fehlerreduktion FR(a), andererseits 1
Merkmals kann in verschiedenen Sequenzen nach Einführung von m (FR(a . m)) und 3 (=FR(a . ms)) nach Einführung von
m und s.
unterschiedlich groß sein
Nagl, Einführung in die Statistik
Seite 182
Diese Sequenzabhängigkeit der prädiktiven Relevanz eines Merkmals hat große Konsequenzen in der Datenanalyse. Folgende beiden idealtypischen Situationen sind möglich:
 Auch wenn ein einzelnes Merkmal allein keinen Beitrag zur Erklärung des Prädikanden leisten kann,
kann es dies eventuell in Kombination mit anderen sehr wohl (z.B. a im Beispiel).
 Ein einzelnes Merkmal allein leistet einen großen Beitrag zur Erklärung des Prädikanden, in Kombination mit anderen ist die prädiktive Relevanz des Merkmals klein.
Diese Thematik kann auch als Scheinunabhängigkeit bzw. Scheinabhängigkeit abgehandelt werden.
Die prädiktive Relevanz eines Merkmals ist sequenzunabhängig, falls die Prädiktoren wechselseitig unabhängig
(im Anteilssinn) sind.
5.1.1.3 Semipartielle und partielle Reduktion des Fehlers
Der Fehlerreduktionsbeitrag des einzelnen Merkmals innerhalb einer Sequenz wurde oben definiert. Die Reduktion soll nun auch anteilig (prozentual) dargestellt werden. Als Basis der Prozentuierung kommen allerdings
mehrere Fehlerwerte in Frage, im wesentlichen aber zwei Fehlerwerte:
1. Globale Basis der Anteilsbildung: Für alle Fehlerreduktionen der Fehlerwert ohne Merkmal (F(-)). Diese Art der Anteilsbildung wird manchmal die semipartielle genannt.
2. Für jede Fehlerreduktion der Art FR(z. x)= F(x)-F(x,z) wird als Anteilsbasis F(x) gewählt. Diese Art
der Anteilsbildung wird auch partielle genannt.
Bei dieser Gelegenheit werden Koeffizienten nur im Sinne der anteiligen Fehlerreduktion gebildet. Das partielle
Lambda kann später noch in einem anderen Sinn interpretiert werden.
Damit die Koeffizienten in jedem Kontext interpretiert werden können, wird bei der Bezeichnung auch der Prädikand beigefügt, jeweils unterschiedlich beim semipartiellen und beim partiellen. Dadurch können die Koeffizienten schon formal ohne weiteren Zusatz unterschieden werden.
Semipartielles Lambda
Basis der Anteilsbildung ist der Fehler
ohne jedes Merkmal.
Globalanteilige Reduktion des Fehlers
durch ein Merkmal
‚unter Konstanthaltung’ anderer Merkmale
 y(z. x1x 2 ...x k ) =
FR (z. x1x 2 ...x k )
F(-)
F( x1x 2 ...x k )-F( zx1x 2 ...x k )
=
F(-)
Sprich: Semipartielles Lambda zwischen
y und z unter Konstanthaltung von
x1,x2,...,xm.
Beachte die Bezeichnung mit dem Klammerausdruck: y( z. x 1 x 2 ...x k ) .
Beispiel:
FR (s. ma)
F(ma)-F(mas)
=
= 17 - 13 =0.1905
21
F(-)
F(-)
Unter Konstanthaltung von m und a kann die Prädiktion von y
durch s um 19.05% global verbessert werden
FR (a. m)
F( m)-F( ma)
=
= 18 - 17 =0.0467
 y(a. m) = F(-)
21
F(-)
Unter Konstanthaltung von m kann die Prädiktion von y durch a
um 4.67% global verbessert werden
FR ( m . )
F( )-F( m)
= 21 - 18 =0.1429
 y(m) = F(-) =
21
F(-)
 y(s. ma ) =
Dieser letzte semipartielle Koeffizient ist zugleich der einfache Koeffizient für die Prädiktion von y auf Grund von m
Partielles Lambda
Basis der Anteilsbildung ist der Fehler an
der Stelle, an der das
Merkmal hinzugefügt
wird.
Anteilige Reduktion
des Fehlers durch ein
Merkmal ‚unter Konstanthaltung’ anderer
Merkmale
 yz. x1x 2 ...x k =
FR (z. x1x 2 ...x k )
F( x1x 2 ...x k )
Beispiel:
FR (s. ma)
F(ma)-F(mas)
=
= 17 - 13 =0.2353
17
F( ma)
F(ma)
Unter Konstanthaltung von m und a kann die Prädiktion von y
durch s um 23.53% verbessert werden
FR (a. m)
F( m)-F( ma)
Sprich: Partielles Lambda zwischen y und 
=
= 18 - 17 =0.0556
ya. m = F( m)
18
F( m)
z unter Konstanthaltung von
Unter
Konstanthaltung
von
m
kann
die
Prädiktion
von y durch a
x1,x2,...,xm.
um 5.56% verbessert werden
FR ( m . )
F( )-F( m)
Beachte die Bezeichnung ohne Klammer:
= 21 - 18 =0.1429
 ym = F(-) =
21
F(-)
yz. x 1 x 2 ...x k .
Dieser letzte partielle Koeffizient ist zugleich der einfache Koeffizient für die Prädiktion von y auf Grund von m
F( x1x 2 ...x k )-F( zx1x 2 ...x k )
=
F( x1x 2 ...x k )
 ys. ma =
Beachte: Partielle Lambdas sind größer (eventuell gleich) als semipartielle, weil die partiellen Koeffizienten
durch einen kleineren Fehler dividiert werden als die semipartiellen!
Nagl, Einführung in die Statistik
Seite 183
5.1.1.4 Additive bzw. multiplikative Zerlegung des multiplen Lambda
Das multiple Lambda kann selbst additiv durch semipartielle Lambdas eine Sequenz dargestellt werden, andererseits multiplikativ durch partielle Lambdas einer Sequenz.
Additive Zerlegung
Die additive Zerlegung ist leicht nachvollziehbar, da schon bereits besprochen wurde, dass die Summe der
Fehlerreduktionen einer Sequenz ist gleich der multiplen Reduktion ist. Die einzelnen Fehlerreduktionen einer
Sequenz sind jeweils nach Division durch den Faktor F(-) nach Definition die semipartiellen Lambdas. Andererseits ist das multiple Lambda definiert als multiple Reduktion durch den gleichen Faktor (F(-)):
Multiples Lambda=
λ y|x1,x 2 ,,x m =  y( x1 ) +  y( x 2 . x1 )
λ y|mas =  y(m)
+  y(a. m) +  y(s. ma )
0.381 = 0.1429 + 0.0467
+ 0.1905.
Beispiel:
+  y(x3. x1x 2 )
0. 4
0. 3
0. 2
λ y|mas
0. 1
+ ... +  y(x m . x1x 2 ...x m1)
0
Multiplikative Zerlegung
Die multiplikative Zerlegung des multiplen Lambda in partielle Lambdas als Faktoren ist für die Fehlerkomponenten eher nachvollziehbar. Daher soll zuerst der multiple Fehleranteil in Faktoren zerlegt werden:
Beispiel:
Multipler Fehleranteil=
F( x1 , x 2 ,, x m )
F( )
=
F( x1 )
F( )
.
F( x1 , x 2 )
F( x1 )
.
F( x1 , x 2 , x 3 )
F( x1 , x 2 )
F( x , x ,, x )
. ... . F( x 1,x 2,, x m )
1 2
m 1
Die Produkte auf der rechten Seite sind so aufgebaut,
dass sukzessiv gekürzt werden kann; als Ergebnis des
Kürzens ist gleich der linken Seite.
Fehlerverhältnis:
1-Lambda:
F(m)/F(-)
*F(ma)/F(m)
18/21
*17/18
=1-ym
=1-ya. m
=1-0.1429
=1-0.0556
*F(mas)/F(ma)
*13/17
=1-ys. ma
=1-0.2353
=1-y|.mas
=1-0.381
=
=
F(mas)/F(-)
13/21
=1 - 8/21
Der trotz der 1.Variablen
verbleibende Fehleranteil
wird multipliziert jeweils
mit dem Fehlerverhältnis
der weiteren Variablen
als Faktor(= 1- partielle
Lambda)
Ergebnis: Der trotz aller
3 Variablen verbleibende
Fehleranteilsverhältnis
Da die entsprechenden Fehleranteilsverhältnisse jeweils 1- multiplem Lambda bzw. 1- partiellem Lambda entsprechen, folgt:
1- Multiples Lambda =
1 - λ y|x1,x 2 ,,x m = (1-  y( x1 ) )*(1-  y( x 2 . x1 ) )*(1-  y( x3. x1x 2 ) )* ... *(1-  y( x m . x1x 2 ...x m1 ) )
Bemerkung ‚Energiesparmaßnahmen’: Diese multiplikative Zerlegung ist wohl manchem geläufig aus dem Zusammenhang mit Überlegungen zu Heizkosteneinsparungen: Wie viel Prozent kann durch eine Sequenz von
Maßnahmen insgesamt gespart werden (Die anteilsmäßige Ersparnis einer einzelnen Maßnahme entspricht dem
partiellen Koeffizienten; die Gesamtersparnis dem multiplen Koeffizienten). Bei der Sequenz von Maßnahmen
müssen jeweils (1-Ersparnisanteil ) der Einzelmaßnahmen multipliziert werden, damit der nach der Serie von
Maßnahmen verbleibenden Anteil des ursprünglichen Energieverbrauchs errechnet wird (was 1- dem multiplen
Koeffizienten entspricht).
Weiterhin ist dabei auch verständlich, dass manche Maßnahme (entspricht einem Merkmal) in Kombination mit
anderen mehr oder weniger bringen kann (entspricht: die Relevanz eines Merkmals als Prädiktor kann nicht
isoliert von den andern Merkmalen betrachtet werden, die auch Prädiktoren sind). Daher spielt auch hier die
Sequenz eine Rolle. Leider sind in vielen Prospekten diese Interdependenzen nicht berücksichtigt.
Beispiel: Laut Prospekt wird durch folgende Maßnahmen in dieser Reihenfolge wird jeweils der Energiebedarf um x % gesenkt:
Einbau von Doppelfenstern (um 20 Prozent); Isolationen bei den Fenstern( um 10 Prozent); Einbau einer Wärmepumpe( um 30 Prozent);
Einbau von Solarzellen ( um 50 Prozent).
Wieviel Prozent kann dadurch insgesamt an Energie gespart werden? Gesucht ist die multiple Ersparnis. Gegeben sind die partiellen Einsparungen, da wohl jedes Mal die Einsparung bezüglich des gerade erreichten Zustandes gemeint ist. Gestartet wird mit einem Zustand von
100% Kosten (als Anteil = 1):
(a)
Kostenanteil vor Maßnahme
1
0.80
0.72
0.504
Maßnahme
Einbau von Doppelfenstern
Isolationen bei den Fenstern
Einbau einer Wärmepumpe
Einbau von Solarzellen
(b)
Ersparnis
0.20
0.10
0.30
0.50
(c)=1 - (b)
Faktor
0.80
0.90
0.70
0.50
(a)*(c)
Kostenanteil nach Maßnahme
0.80
0.72
0.504
0.252
Der verbleibende Kostenanteil ist 0.252. Daher wurde insgesamt 1-0.252 = 0.748 gespart (vom ursprünglichen Stand aus gesehen).
Nagl, Einführung in die Statistik
Seite 184
5.1.1.5 Teilgruppen-Lambdas und partielles Lambda
Die partiellen Lambdas können auch als gewichtete Mittelwerte der Teilgruppenlambdas berechnet werden. So
wird beim partiellen Lambda (etwa zwischen y und x unter Konstanthaltung von z) die Begrifflichkeit des ‚Konstanthaltens’ oder auch das in ‚partiell’ enthaltene Wort ‚Teil’ besser verständlich.
Die Konstanthaltung bezieht sich auf das z-Merkmal, dessen prädiktive Bedeutung insofern neutralisiert wird,
als der Zusammenhang zwischen y und x für jede Teilgruppe berechnet wird. Einerseits ist zwar der Vergleich
der verschiedenen Teilgruppenlambdas interessant, um zu überprüfen, welchen ‚Einfluß’ die z-Variable auf den
Zusammenhang zwischen x und y hat. Im partiellen Lambda wird andererseits durch eine einzige Maßzahl der
gewichtete Durchschnitt dieser Teilgruppenlambdas beschrieben. Eine einzige Maßzahl ist besonders dann aussagekräftig, wenn die Teilgruppenlambdas ungefähr gleich groß sind.
5.1.1.5.1 Übersicht über die Berechnung der Fehler bei drei Variablen
Hier wird die Kreuztabelle der Häufigkeiten mit den Bezeichnungen für die Merkmale am Beispiel zweier xVariablen x1 und x2 dargestellt. Die Bezeichnungen sind so
gewählt, dass eine Verallgemeinerung auf m x-Merkmale
einfach möglich ist.
In der Kreuztabelle werden auch die Summenhäufigkeiten
dargestellt; dabei wird die bekannte Punktnotation für die
Indizes verwendet, über welche summiert wird.
y
1
2
J
i1
i2
y1
y2
.
yJ
x1
x2
1
x11 1 x 21
n111
n112 . n 11J
n11
x 22
1
x11
2
..
…
.
...
x 2I2
n11
1
x11
I2
1
x11

n121
n 12J
n122
.
...
...
.
...
…
n 1I21
n 1I 2 2
.
n 1I2J
n1I2 
n12
.
n1J
n1
Beispiel: Das y-Merkmal sei wiederum ‚Angst vor neuen
Aufgaben’. Die beiden x-Merkmale sind m und s.
In der Kreuztabelle sind zusätzlich die Maxima der Häufigkeiten markiert, bei denen jeweils y-Modalwert liegt.
Teilgruppen
y
1
1.
n22
2.
m
i2
s
j
n
1
1
1
h
h
h
1
2
j
n
2
5
1
17
7
18
3
22
25
2
2
v
v
1
2
5
9
1
10
6
19
2
v

14
11
25

21
29
50

n211
n212
.
n21J
n21
2
x 21
x 22
n221
n222
.
n22J
n22
.
...
...
...
.
...
…
x12
I2
x 2I 2
n 2I21
n 2I 2 2
.
n 2I2J
n 2I 2 
2
x12

n21
n22
n2J
n2
…
..
…
n I111
...
...
1
…
x 2i 2
...
I1
…
x 1I1
n I112
.
n I11J
n I11
1 h 1 j n111 n112 n11
1 h 2 n n121 n122 n12
I1
x 1I1
2
x 2i 2
n I1 21
n I1 22
.
n I1 2J
n I1 2
1 h 
.
...
2
x12
1
2
x12
.
…
2
..
…
.
...
...
...
I1
x 1I1
I2
x 2I 2
n I1I21
n I1I 2 2
. n I1I2J
n I1I2 
I1
x 1I1

n I11
n I1 2
.
n I1J
n I1

n 1
n 2
.
n  J
n 

…
Bezeichnungen:
Fehler pro Bedingung (vollständige x-Konfiguration):
F( x 1  x 1i1 , x 2  x 2i 2 )= n i1i 2  - max (n i1i 2 j )
j
Fehler für x-Randsummen:
 x1 –Randsumme: F( x 1  x 1i1 ) = n i1 - max (n i1  j )
j

x2 –Randsumme F( x 2  x 2i 2 ) = n i 2  - max (n i 2 j )
j

Total-Randsumme: F(-) = n  - max (n  j )
j
2
i1

j
n
Darstellung der Tabelle mit Häufigkeitssymbolen; pro Zeile
wurden auch die Fehlerbezeichnungen eingefügt:
in
y
i1 m i2 s
1
2
j
n
n11 n12 n1
2 v 1 j n211 n212 n21
2 v 2 n n221 n222 n22
2 v 
n21 n22 n2

n1 n2 n

Fehlerbezeichnungen Zahlen
F(m=h, s=j)= n11- n111
F(m=h, s=j)= n12- n122
F(m=h)= n1- n12
=1
=5
=7
F(m=v, s=j)= n21- n211 =1
F(m=v, s=n)= n22- n222 =9
F(m=v)= n2- n21
=11
F(-)= n- n2
=21
Die Prädiktionsfehler wurden oben pro Bedingung (jeweils
eine Zeile in der vorliegenden Darstellung) eingetragen.
Die Fehlerbezeichnungen enthalten jeweils zwei Argumente
zur Charakterisierung der Bedingung, wenn beide Variablen
berücksichtigt werden z.B. F(m=h, s=j).
Falls die Bedingung nur ein Argument enthält z.B. F(m=h),
bezieht sich die Bedingung nur auf eine Variable, was auch
bedeutet, dass der Fehler für Häufigkeitsrandsummen berechnet wird.
Für den Randsummenfehler muß keine Bedingung angegeben
werden (F(-)). Dieser Fehler ist zugleich der Fehler OHNE
irgendein Merkmal.
Nagl, Einführung in die Statistik
Seite 185
Auf Grund der Fehler pro Bedingung können die merkmalsspezifischen Fehler berechnet werden:
F(x1, x2)=
i111 i22 1 F(x 1  x 1i1 , x 2  x 2i2 )
I
F(x1)= i11 F( x 1  x 1i1 )
1
I2
F(x2)= i 1 F( x 2  x 2i 2 )
2
I
I
Der Fehler mit m und s = F(m, s)=
F(m=h, s=j)+ F(m=h, s=j)+ F(m=v, s=j) + F(m=v, s=n)=
1
+
5
+
1
+
9
= 16.
Der Fehler mit m = F(m)= F(m=h)+ F(m=v) = 7+ 11=18.
Auch F(s) (der Fehler mit s) kann auf gleiche Art berechnet
werden; dafür ist zusätzlich die Tabelle erforderlich, bei der
Variable m eliminiert wird.
Der Fehler OHNE jede x-Variable ist F(-) =21.
5.1.1.5.2 Lambda in Gesamtgruppe, Lambdas der Teilgruppen und partielles Lambda
Lambda für den Zusammenhang zwischen x2 und y werde
für die Gesamtgruppe (ohne Aufgliederung in Teilgruppen)
berechnet.
Zu untersuchen: Bleibt der Zusammenhang erhalten in den
Teilgruppen? Wird er größer / kleiner?
Gesamt
21
wobei F( x 1  x 1i1 , x 2 )  
29
50
Fehler
F(a) =
F(-) =
Lambda
16
21
ys= 5/21
=
0.238
ys für die Prädiktion von y auf Grund von s beträgt: 0.238.
Für die Darstellung der Formeln für die Lambdas der Teilgruppen kann wieder die Bedingungsschreibweise der Fehler verwendet werden. Lambda für den Zusammenhang
zwischen x2 und y in der i1. Teilgruppe (durch eine Ausprägung von x1 gebildet):
F( x 1  x 1i1 , x 2 )
,
 yx2 (x1  x1i1 ) = 1 
F( x 1  x 1i1 )
I2
F( x 1
i 2 1
y
j
n
9
7 2
14 27 41
s
j
n
 x 1i1 , x 2  x 2i 2 ) dem
Fehler MIT x2 und F(x 1  x 1i1 ) dem Fehler OHNE x2 in der
i1. Teilgruppe entspricht.
Fehler der
Teilgruppen
Teilgrup
pen
1.
m
h
s
j
n
2.
m
v
s
j
n
Lambdas der
Teilgruppen
y
j n
2 1 3
ys(m=h) =
5 17 22 F(m=h, s) =6
1 - 6/7 =
7 18 25
F(m=h) =7 1/7= 0.143
j n
5 1 6
ys(m=v) =
9 10 19 F(m=v, s) =10 1 - 10/11=
14 11 25
F(m=v) =11 1/11=0.091
Die Lamdas der Teilgruppen sind annähernd gleich groß aber
kleiner als das Lambda für die Gesamtgruppe.
Oben wurden bereits berechnet: F(m, s) = 16. F(m) = 18.
Das partielle Lambda zwischen y und x2 unter Konstanthaltung der Variablen x1 wurde bereits im vorigen Abschnitt
F( x 1 , x 2 )
F( x 1 )  F( x 1 , x 2 )
definiert als:  yx2 . x1  1 
=
F( x 1 )
F( x 1 )
Daher ist das partielle Lambda zwischen y und s unter Konstanthaltung von m =
ys. m = 1 – (16/18) = (18 - 16)/18 = 2/18 = 0.1111.
5.1.1.5.3 Partielles Lambda als gewichteter Mittelwert der Teilgruppen-Lambdas
Die partiellen Lamdas sind nicht einfach ein Mittelwert über die verschiedenen Teilgruppen-Lambdas, sondern
ein gewichteter Mittelwert. Die Gewichte sind die OHNE-Fehler der Teilgruppen.
Das partielle Lambda zwischen y und x2 unter Konstanthaltung von x1, dargestellt als gewichtete Summe der Teilgruppen-Lambdas:
 yx2 . x1 =  yx2 (x 1  x 11 )
F( x1  x11 )
F( x1 )
+
 yx2 (x 1  x 12 )
F( x1  x12 )
F( x1 )
+ ... +
 yx2 (x 1  x 1I1 )
F( x1  x1I1 )
F( x1 )
Schema für die Berechnung des partiellen Lambda auf Grund
der Teilgruppenlambdas:
MIT s Fehler OHNE Fehler
TeilLambdas der (1)*(2)
in Teilgrup- in Teilgrupgrup
Teilgruppen (2) / F(m)
pen
pen (1)
pen m
1. h F(m=h, s) =6 F(m=h) =7 ys(m=h) = 1/7 1/18
2.
,
wobei: F(x 1  x 1i1 ) der Fehler OHNE x2 in der i1. Teil-
v F(m=v, s) =10 F(m=v) =11 ys(m=v) =1/11 1/18
F(m) = 18
2/18
= ys.m
Die Summe der Gewichte ist gleich 1. Daher kann sowohl von
I
gruppe ist; F(x1)= i11 F( x 1  x 1i1 ) ; einem gewichteten Mittelwert als auch von einer gewichteten
Summe gesprochen werden.
1
Lambda für die i1. Teilgruppe  yx2 ( x 1
x
1i1
)
Nagl, Einführung in die Statistik
Seite 186
Denn: Jedes Teilgruppen-Lambda  yx2 ( x 1
x
1i1
) ist gleich 1  F(x1  x1i1 , x 2 ) / F(x1  x1i1 ) . Multiplizieren des Teilgrup-
penlambdas mit dem Gewicht liefert pro Summand (F(x 1  x 1i )  F(x 1  x 1i , x 2 )) / F(x 1 ) .
1
1
Die Summe über alle x1-Teilgruppen lautet:
= F(x1) und zusätzlich auch
1
F( x1 )
i111 F(x 1  x 1i1 )  F(1x1 ) i111 F(x 1  x 1i1 , x 2 ) .
I
I
i111 F(x 1  x 1i1 , x 2 )  F(x 1 , x 2 )
I
aber gleich der Definition für das partielle Lambda
 yx2 . x1 .
1
folgt, dass die Summe gleich
i111 F(x 1  x 1i1 )
I
Da
F( x1 , x 2 )
ist. Dieser Ausdruck ist
F( x1 )
Wzzw
Die Mittelung über Teilgruppen-Lambdas ist nicht beschränkt auf Teilgruppen, die durch die Ausprägungen
eines einzigen Merkmals gebildet werden, die Teilgruppen können auch durch die Kombination der Ausprägungen mehrerer Merkmale entstehen. Insofern ist die Idee der gewichteten Mittelung von Teilgruppen-Lambdas
zum partiellen Lambda generalisierbar auf partielle Lambdas, bei denen mehr als ein Merkmal konstant gehalten
wird.
5.1.2 Erweiterung auf PRU und tau
Die Konzepte der multiplen Analyse konnten an Hand von Lambda wurde dadurch erleichtert, dass beim Lambda ein sehr einfaches Fehlermaß (Fehleranzahl bzw. Fehleranteil) verwendet werden kann. Hier soll gezeigt
werden, wie die Konzepte auch auf andere PRE-Maße erweitert werden können. Die Berechnung der entsprechenden Fehlermaße ist etwas komplizierter. Dabei sollen die Fehlermaße im Einklang mit den Definitionen bei
den zweidimensionalen Kreuztabellen hier ebenfalls auf der Basis der bedingten und der Randanteile berechnet
werden. Für das PRU-Maß wird die Entropie in nits (also mit natürlichem Logarithmus) angegeben.
5.1.2.1 Berechnung der Fehlermaße
Schreibweise: Generell können zwar m x-Variable
betrachtet werden, der Übersicht halber wird das
Schema für die bedingten Anteile und die diversen
Randanteile hier nur für 2 Merkmale x1 und x2 dargestellt.
Anteile
y
1
2
y2
p
.
11 J
p11
p
. p 12 J
p22
i1
x1
i2
x2
1
x11
1
x 21
y1
p
p
111
1
x11
2
x 22
..
…
.
...
I2
x 2I2
p
1
x 21
p
p
1
2
x11
x12
2
x12
2
x 22
.
…
.
...
p
2
x12
I2
x 2I 2
…
…
..
…
I1 x 1I1
1
x 2i 2
p
x 1I1
2
x 2i 2
p
..
…
.
...
I1
x 1I1
I2
x 2I 2
I1
Beispiel
12 1
...
1I 2 1
211
22 1
...
2I21
11 2
p
p
…
I11 1
I1 2 1
I1I 2 1
21 2
222
...
2I2 2
.
.
p
p
p
yJ
p
...
. p 21 J
p21
. p 22 J
p22
.
...
. p 2I2J
...
…
p 2I 2 
...
I11 2
. p I11 J
p I11
I1 2 2
. p I1 2 J
p I1 2
...
.
I1I 2 2
. p I1I 2 J
...
n
1
1
2
2
2
5
5
9
1
17
1
10
3
22
6
19
1 h 1 j n111 n112 n11
1 h 2 n n121 n122 n12
21
29
50

…
p I1I2 
h
h
v
v
1
2
1
2

y
j
n
j
n

y
1
2
1
2
n
j
i1 m i2 s
h
h
v
v
j
i1 m i2 s
Anteile
1
1
2
2
2
i1 m i2 s
y
2
…
p1I2 
1
1

. p1I 2J
...
...
p
1I 2 2
p
p
12 2
...
J
Häufigkeiten
Häufigkeiten
j
n
j
n

1
2
j
n
2/3
1/3 3/50
5/22 17/22 22/50
5/6
1/6 6/50
9/19 10/19 19/50
21/50 29/50 50/50
2 v 1 j n211 n212 n21
2 v 2 n n221 n222 n22

n1 n2 n
Auf Grund der Häufigkeiten
werden einerseits die Randanteile gebildet werden. Die
Summe der Randanteile aller
x-Konfigurationen ist gleich 1.
Pro x-Konfiguration (Zeile)
werden die bedingten Anteile
gebildet, die pro Zeile als
Summe 1 haben.
x-Randanteile: p i1i 2   n i1i 2  / n  für alle i1 , i 2
y-Zeilenanteile für jede x-Konfiguration (Zeile) heißen
auch bedingte Anteile für y-Ausprägungen (Bedingung ist die x-Konfiguration):
p
 n i1i 2 j / n i1i 2  für alle i1 , i, 2 , j
i1i 2 j
BEACHTE:
Summe in solchem Rundeck ist =1
p 1
p 2 . p  J
1
Diese Darstellung ist auf m x-Merkmale erweiterbar, indem die i-Indices nicht nur aus zwei, sondern aus m
Elementen bestehen.
Nagl, Einführung in die Statistik
Seite 187
Auf der Basis der bedingten y-Anteile und der x-Randanteile können die PRE-Maße wie im schon früher behandelten Fall berechnet werden, wenn nur eine x-Variable vorliegt; an die Stelle der Ausprägungen der einen xVariablen treten die x-Konfigurationen als ‚Ausprägungen’ der m x-Variablen. Als abkürzendes Symbol für die
ausführlicher Beschreibung des Fehlers F(x 1  x 1i1 , x 2  x 2i 2 ) in einer Konfiguration wird F(x 1i1 , x 2i 2 ) verwendet.
Entropie(x1 ,x2): Entropie in nits bei Berücksichtigung zweier Merkmale x1 und x2
Beispiel: Für die vier Konfigurationen (gebildet durch die Ausprägungen von
I1 I 2
ist die nach
s) wird die mittlere Entropie für die bedingten Anteile berechnet; mit
F
(
x
,
x
)
F
(x
,x
)=
,
1
2
dem Randan  1i1 2i 2 mdemundx-Randanteil
multipliziert (1)*(2) (=Spalte 3) ist der Wert der Fehler
i

1
i

1
1
2
teil der xder Konfiguration F(x 1i , x 2i ) .
1
2
KonfiguratioAnteile
(1)
(2) (3)
y
nen gewichwobei F(x 1i1 , x 2i 2 )
1
2
J
tete Summe
h
= p i1i 2  h i1i 2 ( y) und
  p i i j ln(p i i j ) i1i 2 (1)
der mittleren
*(2)
12
12
n p i1i 2 
i1 m i2 s j
(y)
j1
Entropie jeder
J
1 h 1 j 2/3 1/3
3/50
-2/3*ln(2/3) -1/3*ln(1/3) 0.637 0.0382
h i1i 2 ( y)   p
ln( p )
bedingten yi1i 2 j
i1i 2 j
-5/22*ln(5/22) j

1
1
h
2
n
5/22
17/22
22/50
0.536 0.2358
Verteilung .
17/22*ln(17/22)
(=mittlere Entropie in der i1 i2.
2 v 1 j 5/6 1/6
6/50
-5/6*ln(5/6) - 1/6*ln(1/6) 0.451 0.0541
-9/19*ln(9/19) Konfiguration, die durch die
2 v 2 n 9/19 10/19 19/50
0.692 0.2629
10/19*ln(10/19)
Ausprägungen von x1 und x2
F(m s)= 0.591
gebildet wird)
Qualitative Varianz als Fehlermaß bei Berücksichtigung zweier Merkmale x1 und x2
Beispiel: Für die vier Konfigurationen (gebildet durch die Ausprägungen von
I1 I 2
ist die nach
dem Randan- F (x1 ,x2)=   F( x 1i1 , x 2i 2 ) , m und s) wird die qualitative Varianz für die bedingten Anteile berechnet;
mit dem x-Randanteil multipliziert (1)*(2) (=Spalte 3) ist der Wert der
i1 1 i 2 1
teil der xFehler der Konfiguration F(x 1i , x 2i ) . Diese Fehler werden summiert.
1
2
KonfiguratioAnteile
(1)
(2) (3)
y
nen gewichwobei F(x 1i1 , x 2i 2 ) =
J
1
2
tete Summe
v
(1)
p i1i 2  v i1i 2 ( y) und
 p i1i2 j (1  p i1i2 j ) i1i 2 *(2)
der qualitatin p i1i 2 
i1 m i 2 s j
(y)
j1
J
ven Varianv i1i 2 ( y)   p (1  p )
1 h 1 j 2/3 1/3
3/50 2/3*(1-2/3) +1/3*(1-1/3)
0.444 0.027
zen jeder
ii j
i1i 2 j
5/22* (1-5/22)
j1 1 2
1 h 2 n 5/22 17/22 22/50
0.351 0.155
bedingten y+17/22* (1-17/22)
(=qualitative Varianz in der
Verteilung .
2 v 1 j 5/6 1/6
6/50
5/6* (1-5/6) + 1/6* (1-1/6) 0.278 0.033
i1 i2. Konfiguration, die durch
9/19* (1-9/19) +
2 v 2 n 9/19 10/19 19/50
0.499 0.189
10/19* (1-10/19)
die Ausprägungen von x1 und
F(m s)= 0.404
x2 gebildet wird)
Auch der Fehler für Lambda kann als Anteil im Rahmen des vorliegenden Schemas berechnet werden.
Fehleranteil für Modalregeln als Fehlermaß für Lambda bei Berücksichtigung zweier Merkmale x1 und x2.
Beispiel: Für die vier Konfigurationen (gebildet durch die Ausprägungen von
I1 I 2
ist die nach
dem Randan- F (x1 ,x2)=   F( x 1i1 , x 2i 2 ) , m und s) wird der Modalregelfehler für die bedingten Anteile berechnet; mit
dem x-Randanteil multipliziert (1)*(2) (=Spalte 3) ist der Wert der Fehler
i1 1 i 2 1
teil der xder Konfiguration F(x 1i , x 2i ) .
1
2
Konfigurationen gewichwobei F(x 1i1 , x 2i 2 ) =
Anteile
(1)
(2)
(3)
y
tete Summe
1
2
1 max p i i j d i1i 2
p i1i 2  d i1i 2 ( y) und
(1)
12
des Modalrej
*(2)
n pi i 
i1 m i2 s j
(y)
1
2
gelfehlers
d i1i 2 ( y)  1  max p
i1i 2 j
1 h 1 j 2/3 1/3
3/50
1 - 2/3
1/3
1/50
j
jeder beding1 h 2 n 5/22 17/22 22/50
1 - 17/22
5/22
5/50
ten y(=der Modalregelfehler in der
2 v 1 j 5/6 1/6
6/50
1 - 5/6
1/6
1/50
Verteilung
i1 i2. Konfiguration, die durch
2 v 2 n 9/19 10/19 19/50
1 - 10/19
9/19
9/50
die Ausprägungen von x1 und
F(m
s)=
16/ 50
x2 gebildet wird)
Nagl, Einführung in die Statistik
Seite 188
5.1.2.2 Multiple und partielle Konzepte gelten für alle PRE-Maße
Bei der Einführung der Konzepte für die multiple Analyse an Hand von Lambda wurden bei der Definition der
sequentiell inkrementellen Fehlerreduktion, der multiplen und partiellen Lambdas keine speziellen Eigenschaften
verwendet, die auf Lambda beschränkt sind. Die Konzepte beruhen ausschließlich auf den Überlegungen der
anteiligen Fehlerreduktion (proportional Reduction of Error), daher diese Definitionen auf alle PRE-Maße ausgedehnt werden. Bei PRU, tau und anderen PRE-Maßen sind nur entsprechend andere Fehlermaße involviert.
Für die verschiedenen Teiltabellen ist jeweils das Fehlermaß für die Prädiktion von y zu berechnen. Die verschiedenen multiplen, partiellen und semipartiellen PRE-Maße werden auf Grund der entsprechenden Fehlerreduktionen definiert.
Für das mas-Beispiel, für das oben bereits behandelt wurde: Entropie in nits als Fehler und Fehlerreduktion bei PRU-Maßen
FR(m)
-
-
F(-)
0.68
0.041
FR(s)
FR(a)
0
0.059
a
m
a
s
m
a
s
F(m)
F(a)
F(s)
0.64
0.68
0.622
FR(a. m)
FR(m. a)
FR(s . m)
FR(m. s)
0.027
FR(a. s)
FR(s. a)
a
0.048
0.068
0.063
0.031
0.004
a
ma
ms
as
ma
ms
as
F(ma)
F(ms)
F(as)
0.612
0.59
0.617
FR(s. ma)
FR(a . ms)
FR(m. as)
0.082
FR(mas)
mas
0.061
s
a
mas
m
0.088
0.151
0.53
F(mas)
Wegen Rundungsproblemen leichte Inkonsistenzen!
Das multiple PRE-Maß stellt die anteilige Fehlerreduktion
durch alle m x-Variablen dar
PRE y|x1,x2,...,xm= (F(-) - F(x1,x2,...,xm))/F(-)
Das semipartielle PRE-Maß zwischen y und xs unter Konstanthaltung von x1,x2,...,xk stellt die anteilige Fehlerreduktion durch Hinzunahme das Merkmals xs zu x1,x2,...,xk dar:
PRE y (xs . x1,x2,...,xk) =
(F(x1,x2,...,xk)- F(x1,x2,...,xk,xs))/ F(-)
Das partielle PRE-Maß zwischen y und xs unter Konstanthaltung von x1,x2,...,xk stellt die anteilige Fehlerreduktion
durch Hinzunahme das Merkmals xs zu x1,x2,...,xk dar:
PRE yxs . x1,x2,...,xk =
(F(x1,x2,...,xk)- F(x1,x2,...,xk,xs)) / F(x1,x2,...,xk)
Beispiel: für PRU
PRU y|mas = (0.68 - 0.53) / 0.68 = 0.151/ 0.68 = 0.22
Die Unsicherheit (gemessen in Entropie) kann durch die
Kenntnis von mas insgesamt um 22% reduziert werden
z.B.
PRU y (m . as) = (0.617 - 0.53) / 0.68 = 0.088/ 0.68 = 0.13
Die Unsicherheit (gemessen in Entropie) kann durch die
Kenntnis von m (zusätzlich zu as) um 13% (bezogen auf die
Anfangsunsicherheit) her reduziert werden
z.B.
PRU ym . as = (0.617 - 0.53) / 0.617 = 0.088/ 0.617 = 0.143
Die Unsicherheit (gemessen in Entropie) kann durch die
Kenntnis von m (zusätzlich zu as) um 13% (bezogen auf die
Unsicherheit bei as) her reduziert werden
Für alle PRE-Maße gilt auch die additive Zerlegung des multiplen PRE-Maßes in semipartielle und die multiplikative in partielle PRE-Maße; für den Beweis dieser Sachverhalte beim Lambda wurden ebenfalls wieder
nur PRE-Eigenschaften verwendet.
Für alle Gruppenmodelle gilt zudem, dass das partielle PRE-Maß als gewichteter Mittelwert der Teilgruppen-PRE-Maße dargestellt werden kann.
PRE yx2 . x1 = PRE yx2 (x 1  x 11 )
PRE yx2 (x1  x12 )
PRE yx2 (x 1  x 1I1 )
F( x1  x11 )
F( x1 )
F( x1  x12 )
F( x1 )
MIT s Fehler OHNE Fehler
TeilLambdas der (1)*(2)
in Teilgrup- in Teilgrupgrup
Teilgruppen (2) / F(m)
pen
pen (1)
pen m
1. h F(m=h, s) =6 F(m=h) =7 ys(m=h) = 1/7 1/18
+ ... +
F( x1  x1I1 )
F( x1 )
Schema für die Berechnung des partiellen Lambda auf Grund
der Teilgruppenlambdas:
+
,
2.
wobei: F(x 1  x 1i1 ) der Fehler OHNE x2 in der i1. Teilgruppe ist; F(x1)= i11 F( x 1  x 1i1 ) .
I
1
Das PRE-Maß für die i1. Teilgruppe PRE yx2 ( x 1
x
1i1
)
v F(m=v, s) =10 F(m=v) =11 ys(m=v) =1/11 1/18
F(m) = 18
2/18
= ys.m
Die Summe der Gewichte ist gleich 1. Daher kann sowohl von
einem gewichteten Mittelwert als auch von einer gewichteten
Summe gesprochen werden.
Nagl, Einführung in die Statistik
Seite 189
5.1.3 Schätzung und Hypothesen-Tests
5.1.3.1 Population und Stichproben
Die Population kann durch die Anteile (x-Randanteile und bedingte y-Anteile) beschrieben werden. Sie werden
wie üblich als die Populationsparameter bezeichnet. Die gemeinsamen Anteile in der Population für m xMerkmale und ein y-Merkmal heißen  i1i 2 ...i m j . Auf dieser Bezeichnung aufbauend können bedingte Anteile und
Randanteile gebildet werden.
Im Beispiel
Für 2 x-Merkmale x1 und x2 dargestellt:
Pop.-Anteile
1
i1
x1
i2
x2
1
x11
1
1
x11
..
…
1
…
x11
 i1i 2 j sind die
y
2
y2

.
x 21
y1

11 J
11
2
x 22


. 12 J
22
.
...
I2
x 2I2
…
..
…
I1 x 1I1
1
x 2i 2
I1
x 1I1
2
x 2i 2
..
…
.
...
I1
x 1I1
I2
x 2I 2
111

12 1
...
1I 2 1
11 2

1I 2 2
…


.
I11 1
I1 2 1

I1I 2 1
 1
...
1I 2 
.  I11 J
 I11
I1 2 2
.  I1 2 J
 I1 2
...
.
I1I 2 2
.  I1I 2 J
 2
.
...
  J
durch die Summation über die J
y-Ausprägungen
aus den gemeinsamen Anteilen.
...
y
1
i1 m i2 s
Die Randsummen
(  i1i 2  ) entstehen
…
I11 2


...
. 1I 2J
...
...

12 2
...
.
yJ

Pop.Anteile
gemeinsamen
Anteile für die
zwei x-Merkmale
und für y
J
2
j
1 h
1 j

1 h
2 n

2 v
1 j

2 v
2 n



111
12 1
211
22 1
 1
n

11 2



11
12 2
22
21 2
21
222
22
 2
1
y-Zeilenanteile für jede x-Konfiguration bedingten
Anteile für y-Ausprägungen (Bedingung ist die xKonfiguration):

  i1i 2 j /  i1i 2  für alle i1 , i, 2 , j
…
 I1I2 
1
i1i 2 j
Ziehen der Stichproben. Grundsätzlich können mindestens zwei Arten des Ziehens von Stichproben unterschieden werden:
1. Eine einzige Zufallsstichprobe (Einfache Zufallsstichprobe).
2. Für jede x-Konfiguration kann eine Zufallsstichprobe gezogen werden (geschichtete Zufallsstichprobe).
Dabei wird von vornherein geplant, wie groß die einzelnen Stichproben sein sollen.
Die erste Arten wird auch als 1. Stichprobenschema, die zweite Art als 2. Stichprobenschema bezeichnet.
5.1.3.2 Schätzen der Anteile und Maximale Ln-Likelihood
Die Anteile können mit Hilfe der ML-Methode geschätzt werden. Die vollen gemeinsamen Anteile  i1i 2 ...i m j
können und müssen verständlicherweise nur dann geschätzt werden, wenn eine einzige Zufallsstichprobe vorliegt. Die bedingten Anteile für y-Ausprägungen (= 
) können sowohl bei geschichteter Zufallsstichprobe
i1i 2 j
als auch bei einer einfachen Zufallsstichprobe ML-geschätzt werden als: ˆ i i
1 2 ... i m j
zugleich die bisher mit p i i
1 2 ... i m j
 n i1i 2 ... i m j / n i1i 2 ... i m  . Sie sind
abgekürzten Abedingten Anteile der Stichprobe. Die x-Randanteile sind bei
einfachen Zufallsstichproben als ML-Schätzer darstellbar: ˆ i1i 2 ...i m   n i1i 2 ...i m  / n , bei geschichteten Stichproben sind die Randanteile bekannt. p i1i 2 ...i m   n i1i 2 ...i m  / n .
Für die ML-geschätzten Anteile können die Standardfehler berechnet werden, die je nach Stichprobenschema
leicht unterschiedlich sind.
Bezeichnung und Berechnung der maximalen Ln-Likelihood bei Berücksichtigung der Variablen x1 ,x2,
…,xm. Das Supremum des natürlichen Logarithmus der Likelihood an der Stelle der ML-geschätzten bedingten
y-Anteile unter Berücksichtigung aller Variablen x1 ,x2, …,xm beträgt:
Nagl, Einführung in die Statistik
Seite 190
ln L( x 1 , x 2 ,  , x m ) 
I1
I2


i 2 1 i 2 1
Im
J
  n i1i2 ...im j ln(ˆ i1i2 ...im j )
i 2 1 j1
Bei Berücksichtigung der beiden Merkmale x1 ,x2: ln L(x1 ,x2)
Beispiel: Für die vier Konfigurationen (gebildet durch die Ausprägungen von
ist die nach
ln L(x1 ,x2)=
m und s) wird der Logarithmus der Likelihood für die ML-Schätzer der
I1 I 2 J
dem Randanbedingten Anteile berechnet
teil der x   n i1i2 j ln(ˆ i1i2 j ) , Anteile
y
i 2 1 i 2 1 j1
Konfiguratio1
2
J
nen gewich- dabei sind ̂
die MLn i1i 2 j ln( ˆ i i j )
i1i 2 j

tete Summe
n i1i 21 n i1i2 2
12
j
n
i1 m i2 s
j

1
der mittleren Schätzer der bedingten Popula1
h
1
j
2/3
1/3
2
1
2*ln(2/3) + 1*ln(1/3) =
-1.9
Entropie jeder tionsanteile, die mit den be1
h
2
n
5/22
17/22
5
17
5*ln(5/22)
+
17*ln(17/22)
=
-11.8
bedingten y- dingten Stichprobenanteilen
2
v
1
j
5/6
1/6
5
1
5*ln(5/6) + 1*ln(1/6) =
-2.7
p i i j identisch sind
Verteilung .
1 2
2
v
2
n
9/19
10/19
9
10
9*ln(9/19) + 10*ln(10/19) = -13.1
ln L(m ,s)=-29.5
Kein x-Merkmal wird berücksichtigt: ln L(-)
J
Für den yln L(-) =  n  j ln( ˆ  j )
Randanteil
j1
(OHNE Aufgliederung)
Die ML-Schätzer ˆ  j der
wird die Likebedingten Populationsanteile,
lihood besind mit den bedingten Stichrechnet
probenanteilen p  j identisch.
Beispiel: Für die y-Randtabelle wird der Logarithmus der Likelihood für die
ML-Schätzer der bedingten Anteile berechnet
Anteile
y
1
2
i1
i2
j
n


21/50
29/50
J
 n  j ln(ˆ  j )
n 1 n 2
21
29
j1
21*ln(21/50) + 29*ln(29/50) = -34
(Die Summationspunkte könnten auch
entfallen, falls nur die Randtabelle
betrachtet wird)
ln L(-)=-34
Für die folgende Übersicht werden jeweils die Logarithmen der Likelihoods an der Stelle des ML-Schätzers
berechnet für Modelle, die mehr oder weniger x-Merkmale als Prädiktoren berücksichtigen. In der Übersicht
werden die Werte –2*ln L eingetragen:
mas-Beispiel: für alle Teiltabellen wurden die Likelihoods berechnet. Dargestellt wird jeweils -2lnL
-
-
-2lnL(-)
68
a
m
a
s
m
a
s
-2lnL(m)
-2lnL(a)
-2lnL(s)
64
68
62.2
ma
ms
as
ma
ms
as
-2lnL(ma)
-2lnL(ms)
-2lnL(as)
61.2
59
61.7
a
a
s
mas
a
mas
m
53
-2lnL(mas)
Mit lnL(-) wird die Likelihood für die y-Randverteilung bezeichnet, bei der nach keiner x-Variablen aufgegliedert wird.
Ein Vergleich mit der Formel für die Entropie in nits zeigt, dass gilt:
-ln L(x1 ,x2, …,xm) = n * Entropie(x1 ,x2, …,xm)
Nagl, Einführung in die Statistik
Seite 191
5.1.3.3 Testen von Hypothesen
Im Rahmen der multiplen Analyse sind viele Hypothesen möglich; grundsätzlich sollen zwei Typen von Hypothesen unterschieden werden. Die Hypothesen können mit Hilfe des verallgemeinerten Likelihood-Ratio-Test
geprüft werden, da die Schätzer ML-Schätzer sind.
5.1.3.3.1 Globale multiple Nullhypothese
Die globale multiple Nullhypothese behauptet, dass die bedingten Anteile für jedes j der y-Ausprägung in allen
x-Konfigurationen gleich sind. Diese Hypothese kann in einer Form etwas leichter formuliert werden, in der
behauptet wird, dass alle Werte gleich einem bestimmten Wert sind, also dass die bedingten y-Anteile aller xKonfigurationen gleich einem bestimmten Wert sind:
H0:  i i ... i j  a j für alle i 1i 2 ...i m und j  1,..., J - 1 .
m
12
Diese Formulierung beinhaltet für jedes j (I1*I2*...*Im)- 1 Einzelhypothesen (da aj nur eine Formulierungshilfsgröße ist). Wenn alle Anteile gleich sind, müssen die y-Randanteile genau diese Größen sein. Daher kann
obige Hypothese auch so formuliert werden:
H0:  i i ... i j   ... j für alle i 1i 2 ...i m und j  1,..., J - 1
12
m
Das Modell einmal unter Geltung dieser eingeschränkten H0-Hypothese (0-Raum) und einmal ohne diese Restriktion geschätzt werden (im uneingeschränkten -Raum). Für beide Varianten müssen die Likelihoods mit den
entsprechenden ML-Schätzern berechnet werden. Der Vergleich dieser beiden Likelihoods liefert die Teststatistik.
Maximaler Likelihoodfunktionswert unter
Geltung der
Nullhypothese
Unter Geltung der Hypothese sind die gruppenspezifischen Schätzer für  i i ...i j gleich dem Schät12
m
zer für den y-Randanteil:
ˆ i i ...i j  ˆ ... j für alle i1i 2 ...i m
12
m
sup ln L(  i i
1 2 ... i m j
0
und j
; n i1i 2 ... i m j )=: lnL(-)
Die Dim(0) gibt an, wie viele lin. unabhängige Parameter
vorhanden sind: J-1
Beispiel : Der Ausgangspunkt der Überlegungen
sei das Beispiel mit drei x-Variablen: mas.
Daher müssen so drei Indizes berücksichtigt
werden; unter Geltung der Nullhypothese sind die
ML-Schätzer für die bedingten Pop-Anteile in
allen x-Konfigurationen gleich:
ˆ i i i j  ˆ  j für alle i1i 2 i 3 und j
12 3
Die Berechnung der Likelihood lnL(-) entspricht
genau der Situation der hier vorgelegten Hypothese:
sup lnL(  i i i j ; n i1i 2i3 j ) = lnL(-) = -34.
1 2 3
0
Dim(0) = 2 – 1 = 1
Maximaler Likelihoodfunktionswert im
NICHTrestringierten
Raum 
Ohne Restriktion (-Raum) sind die gruppenspezifischen ML-Schätzer für  i i ...i j gleich den be12
m
dingten Stichprobenanteilen unter Berücksichtigung
aller m Prädiktoren:
ˆ i i ...i j  p i i ...i j für alle i1i 2 ...i m
und j.
12
m
12
Daher gilt:
sup ln L(  i i
m
1 2 ... i m j
; n i1i 2 ... i m j )=: lnL(x1,x2, ...,xm)
Beispiel (Fortsetzung): Unter Berücksichtigung
der 3 x-Variablen: mas sind die ML-Schätzer für
die bedingten Pop-Anteile in den Konfigurationen
gleich den Stichprobenanteilen:
ˆ i i i j  p i i i j für alle i1i 2 i 3 und j.
12 3
12 3
Die Berechnung der Likelihood lnL(mas) entspricht genau dieser unrestringierten Situation:
sup lnL(  i i i j ; n i1i 2i3 j ) = lnL(mas) = -53.
1 2 3

Die Dimension von  ist durch 8 Konfigurationen (=2*2*2) bestimmt. Für jede Konfiguration
wird ein bedingter Anteil geschätzt (Der zweite
Die Dim() gibt an, wie viele lin. unabhängige Parameter durch Anteil ergibt sich, weil die Summe der Anteile
dieses Modell geschätzt wird: I1*I2*...*Im*(J-1).
jeweils 1 ist). Daher Dim() = 2*2*2*1 = 8

Approximativ
2 verteilter
Testwert
Freiheitsgrade
Entscheidung
Nach dem generalisierten LR-Test-Prinzip ist die
Differenz -2( lnL(-) - lnL(x1,x2, ...,xm) )
= -2lnL(-) - (-2lnL(x1,x2, ...,xm))
( :=LR2 (x1,x2, ...,xm) ) approximativ 2 verteilt.
Anzahl der Freiheitsgrade= Dim()-Dim(0) =
Anzahl der durch die Nullhypothese gesetzten Parameter =( I1*I2*...*Im – 1)*(J-1).
H0 ablehnen, wenn Testwert im KB (kritischen
Bereich) liegt.
LR2 (mas):= -2( lnL(-) - lnL(mas) )
= -2lnL(-) - (-2lnL(mas)
=
68
53
= 15
Df = (8-1)(2-1) = 7
KB: LR2 (mas)  14.07 (= kritischer chi**2Wert aus Tabelle bei df=7 und =0.05). H0 wird
abgelehnt
Nagl, Einführung in die Statistik
Seite 192
Der eben vorgestellte LR2 (x1,x2, ...,xm)-Test entspricht dem LR2-Test für eine zweidimensionale Kreuztabelle, bei der als globales x-Merkmal die Kombination der Ausprägungen der einzelnen x-Merkmale betrachtet
wird.
Die formulierte globale multiple Nullhypothese bedeutet zugleich, dass das y-Merkmal von den x-Merkmalen
unabhängig ist.
Die Teststatistik LR2 (x1,x2, ...,xm) kann im Rahmen der Modelle, die unterschiedlich viele Merkmale berücksichtigen, sehr gut deutlich gemacht werden; sie charakterisiert den Unterschied zwischen dem vollständigen
Modell mit allen Merkmalen als Prädiktoren und dem OHNE-Modell.
mas-Beispiel: Die Differenzen zwischen den -2lnL –Werten der verschiedenen Modelle sind LR2 verteilte Werte
-
-
-2lnL(-)
LR2 (m)
LR2 (a)
68 1
4
LR2 (s)
m
a
s
-2lnL(m)
-2lnL(a)
-2lnL(s)
LR2 (a . s)
LR2 (m . s) LR2 (s . a)
LR2 (a . m)
LR2 (m . a) LR2 (s . m)
ma
ms
as
-2lnL(ma)
-2lnL(ms)
-2lnL(as)
0
m
a
64 2
68 2
2.8
5
6.8
s
62.2 2
ma
ms
61.2 4
59 4
as
61.7 4
6
LR2 (m . as)
mas
9
8.2
LR2 (mas)
0.5
6.3
3.2
LR2 (a . ms)
LR2 (s . ma)
6.2
a
15
mas
53 8
-2lnL(mas)
z
= Dim(Raum des Modells) =Anzahl lin. unabh. Parameter
5.1.3.3.2 Partielle Nullhypothesen
Neben der globalen multiplen Nullhypothese gibt es jene auf bestimmte einzelne Variablen bezogenen Hypothese, die behaupten, dass die Aufgliederung durch eine bestimmte zusätzliche Variable (z) insofern nicht nötig sei,
als die y-Anteile in der Population nur von den anderen bereits berücksichtigten Variablen abhängt. Durch diese
Art der Hypothesen wird untersucht, inwiefern noch zusätzliche Variablen berechtigterweise zur Erklärung der
y-Anteile eingeführt werden können.
Hier können nur einige Beispiele von Formulierungen solcher Hypothesen dargestellt werden. Die Hypothesenforderung wird auch als bedingteUnabhängigkeitsforderung (bzw. lokale Unabhängigkeitsforderung) bezeichnet. Damit klar ist, dass mit dieser Unabhängigkeit die stochastische Unabhängigkeit gemeint ist, wird auch
speziell von lokal stochastischer Unabhängigkeit gesprochen.
H0 (x1 . x2x3...xm)
x1 ist irrelevant unter Berücksichtigung aller
andern Merkmale;
Anders formuliert: x1 und y sind bedingt unabhängig; dh. Für jede durch die restlichen Variablen gebildeten Konfigurationen ist x1 und y
unabhängig;
Beispiel: Angenommen, man beschränkr sich auf zwei Merkmale.
Das 1. Merkmal sei m, das 2. Merkmal sei s. Dann ist die Form der
bedingten Anteile
y
i i j .
in
12
j
n
m s
y
Pop s
Die Tabelle mit den
h j 0.67 0.33
j
n
= j 0.78 0.22
Stichprobenanteilen
n 0.23 0.77
lautet:
v j 0.83 0.17
= n 0.34 0.66
n 0.47 0.53
Die Hypothese, daß m irrelevant ist für die y-Anteile, lautet:
Anders formuliert: Die bedingten y-Anteile in
der Population sind gleich für die verschiedenen
Ausprägungen von x1 (unter Konstanthaltung
der andern Merkmale) :
 i i ...i j   i ...i
für alle i1i 2 ...i m und alle j
12
m
2
für alle
möglichen
Indizes, dh.:
12
2j
y
m
s
j
n
h
j
111
11 2
n
121
12 2
j
 211
 21 2
n
 221  22 2
mj
v
LR2 kann wiederum nach den LR-Prinzipien
konstruiert werden
 i i j =  i
in
Pop
=
=
y
s
j
n
j
 1 1
 1 2
n
 2 1
 2 2
LR2 (m . s) = -2lnL(s) - (-2lnL(ms)) = 62.2 – 59 = 3.2
bei 4-2 (= 2) Freiheitsgraden
Nagl, Einführung in die Statistik
Andere Darstellungsformen der Nullhypothese der bedingten
Unabhängigkeit.
Seite 193
Die Hypothese der bedingten (gegeben
s) Unabhängigkeit zwischen m und y
besagt, daß die y-Anteile der
Teiltabelle sy gleich sind in beiden
nach m gebildeten Teilgruppen (links);
oder auch (rechts): für die Teilgruppen
nach s gilt: Die y-Anteile sind in beiden
m Ausprägungen gleich.
y
m
h
v
s
j
n
j
n
j
0.67
0.23
0.83
0.47
n
0.33
0.77
0.17
=
0.53
in
Pop
=
y
s
j
m
h
v
n h
v
j
0.67
0.83
0.83
0.47
n
0.33
0.17
0.17
=
0.53
in
Pop
=
=
Grundsätzlich könnten auch mehrere Variablen in einem Schritt in die Hypothese einbezogen werden, z.B. die
erste und zweite Variable:
H0 (x1 x2. x3...xm)
x1 und x2 sind irrelevant unter Berücksichtigung der andern Merkmale
y ist von x1 und x2 sind bedingt unabhängig; dh. y ist unabhängig von x1 und x2 für alle Konfigurationen, die
durch die restlichen Variablen gebildet werden
Die bedingten y-Anteile in der Population sind gleich für die verschiedenen Ausprägungen von x1 (unter Konstanthaltung der andern Merkmale) :
 i i i ...i j   i ...i
für alle i1i 2 ...i m und alle j
123
m
3
mj
5.1.4 Modellauswahl mit nichtmonotonen Informationskriterien
Alle bisher in diesem Kapitel besprochenen Fehlermaße haben folgende Monotonitätseigenschaft: innerhalb
einer Sequenz von Variablen wird der Fehler kleiner (bzw. gleich) bleiben durch das Berücksichtigen zusätzlicher Variablen. Das trifft entsprechend auch für die Likelihood zu: das Berücksichtigen einer zusätzlichen Variablen führt zu einer Erhöhung der Likelihood (an der Maximumsstelle).
Der Grund für diese Monotonitätseigenschaft liegt darin, dass die gesuchten Regeln genau nur für die vorliegenden Daten optimiert werden. Je mehr Details in diesen Regeln berücksichtigt werden, desto weniger Fehler werden bei einer Prädiktionsaufgabe gemacht; allerdings nur so lange, als die Regeln nur auf die vorliegende Stichprobe angewandt werden. Würden die Regeln auf andere Stichproben angewandt, könnte sich herausstellen, dass
die Regeln zu spezielle Datenkonstellationen einer Stichprobe in das Regelwerk mit aufgenommen wurde.
Diese Erkenntnis stammt u.a. von H. AKAIKE (1975). Er hat daher versucht, die Regeln im Hinblick auf andere
unabhängig gezogene Stichproben zu optimieren. Diese Optimierung bestand für ihn darin, für eine in der vorliegenden Stichprobe gefundene Regel ein Maß zu definieren, das den Fehler bei der Regelanwendung im
Schnitt über andere unabhängige Stichproben minimiert (und daher nicht einfach den Fehler bei Regelanwendung in der vorliegenden Stichprobe). Die Grundidee dieses Kriteriums ist daher der Transfer der Regeln auf
andere Stichproben. H. AKAIKE (1975) nannte sein Kriterium ‚An Information Criterion’ (=AIC). Es ist anwendbar auf alle ML-Schätzverfahren. Es soll hier im Hinblick auf die verschiedenen Gruppenmodelle formuliert werden, die unterschiedlich viele Variablen berücksichtigen.
Ursprünglich hat H. AKAIKE (1973) sein Kriterium aus Prinzipien der Informationstheorie abgeleitet.
H. AKAIKE’s
AIC(x1,x2,x3,... ,xm) =
Informationskri-2 lnL(x1,x2,x3,... ,xm)
terium AIC für
+ 2 (Anzahl lin. unabh. Parameter),
m Prädiktoren
wobei lnL(x1,x2,x3,... ,xm) die oben eingeführte
Likelihood an der Maximumsstelle für das Modell
ist, das die Variablen x1,x2,x3,... ,xm berücksichtigt
Beispiel : Wenn alle drei Variablen mas berücksichtigt werden, lautet die Formel:
AIC(mas) =
-2 lnL(mas)
+ 2 (Anzahl lin. unabh. Parameter für mas).
Bereits oben wurde -2 lnL(mas) berechnet: 53.
Die Anzahl lin. unabh. Parameter für mas wurde
ebenfalls schon oben festgestellt: 8.
Daher: AIC(mas) = 53 + 2*8 = 69
Als bestes Modell wird jenes ausgewählt, das den kleinsten AIC-Wert hat.
Nagl, Einführung in die Statistik
Seite 194
Im Anschluss an die Entwicklung des AIC wurden Verbesserungen vorgeschlagen, von denen vor allem das von
G. SCHWARZ(1978) entwickelte SBC (=SCHWARZ-BAYES’sche Kriterium ) Beachtung verdient. Bei diesem
Kriterium wird auch die Stichprobengröße berücksichtigt. Es ist nicht nur erwartungstreu wie das AIC, sondern
auch zusätzlich konsistent. Das AIC führt in großen Stichproben tendenziell zur Entscheidung für zu komplizierte Regeln, daher sollte SBC bevorzugt werden.
G. SCHWARZ’s
SBC(x1,x2,x3,... ,xm) =
Informationskri-2 lnL(x1,x2,x3,... ,xm)
terium SBC für
+ ln(n) (Anzahl lin. unabh. Parameter),
m Prädiktoren
wobei lnL(x1,x2,x3,... ,xm) die oben eingeführte
Likelihood an der Maximumsstelle für das Modell
ist, das die Variablen x1,x2,x3,... ,xm berücksichtigt,
und n die Stichprobengröße
Beispiel : Wenn alle drei Variablen mas berücksichtigt werden, lautet die Formel:
SBC(mas) =
-2 lnL(mas)
+ ln (Anzahl lin. unabh. Parameter für mas).
Daher: SBC(mas) = 53 + ln(50)*8 = 84.3
mas-Beispiel: SBC für alle Teilmodelle: Jeweils -2lnL + ln(n)Dim(Raum des Modells)
-
-
SBC(-)
71.9
m
a
s
m
a
s
SBC(m)
SBC(a)
SBC(s)
71.8
75.9
70
ma
ms
as
ma
ms
as
SBC(ma)
SBC(ms)
SBC(as)
76.8
74.7
77.4
mas
mas
SBC(mas)
84.3
Als bestes Modell wird jenes ausgewählt, das den kleinsten SBC-Wert hat (Im vorliegenden Beispiel ist dies das Modell, das nur s berücksichtigt).
Vor allem in Situationen, in denen keine klar formulierten Hypothesen vorhanden sind, ist die Modellauswahl
mit Hilfe der Informationskriterien zu empfehlen.
Beide Informationskriterien (SBC und AIC) sind wiederum als Fehlermaße interpretierbar; sie sind aber nicht
monoton (ein zusätzliches Merkmal kann zu einer Erhöhung des Fehlers führen).
PRE-Maß-Normierung der Informationskriterien
Die Informationskriterien sind nicht normiert. Da normierte Maße leichter interpretierbar sind, ist auch bei den
Informationskriterien eine Normierung erstrebenswert. Die Informationskriterien selbst entsprechen Fehlermaßen, für die eine PRE-Normierung möglich ist. Sie können durch das Anfangsfehlermaß (z.B. SBC(-)) dividiert
werden. Zusätzlich können auch die Reduktionen als Maß verwendet werden. Manche Reduktionen können nun
aber negativ werden, da bei Hinzunahme eines weiteren Prädiktors der Informationskriterienwert auch steigen
kann.
5.1.5 Logistisches Modell für mehrere Prädiktoren
Die Analyse qualitativer y-Variablen kann mit Hilfe des logistischen Modells sowohl auf qualitative wie auch
für quantitative x-Variablen erweitert werden.
Nagl, Einführung in die Statistik
Seite 195
Übungsaufgaben (5.1)
1.
Ein berühmter Datensatz (Präsidentenwahlen in den USA 1940; Veränderung der Meinung zu Willkie (gegen vs. für) und Parteipräferenz (Demokraten vs. Reps) zu 2 Zeitpunkten. Diesen Datensatz hat LAZARSFELD wiederholt analysiert.
Parteipräferenz
1. Zeitp.
a
Dem (d)
Meinung
zu Willkie
1. Zeitp.
b
gegen (g)
für(f)
Rep (r)
gegen (g)
für(f)
a.
b.
c.
d.
e.
2.
y: Meinung zu
Willkie 2. Zeitp.
Gegen(g) Für(f)
68
1
11
0
1
23
2
3
2
1
12
1
0
11
1
129
Erstellen Sie die Modalregeln zur Prädiktion von y, die alle drei Prädiktoren berücksichtigen
Versuchen Sie die Modalregel-Bedingung für die Präferenz des Nordens zu vereinfachen (etwa mit
Hilfe des Venn-Diagramm)
Berechnen Sie das Multiple Lambda
Berechnen Sie für die Sequenz der Variablen a, b, c die semipartiellen Koeffizienten
Berechnen Sie für die Sequenz der Variablen a, b, c die partiellen Koeffizienten.
Laut Prospekt wird durch folgende Maßnahmen in dieser Reihenfolge wird jeweils der Energiebedarf um x
% gesenkt: Einbau von Doppelfenstern (um 20 Prozent); Isolationen bei den Fenstern( um 10 Prozent);
Einbau einer Wärmepumpe( um 30 Prozent); Einbau von Solarzellen ( um 50 Prozent).
a.
b.
3.
Parteipräferenz
2. Zeitp.
c
Dem (d)
Rep (r)
Dem (d)
Rep (r)
Dem (d)
Rep (r)
Dem (d)
Rep (r)
Wieviel Prozent kann dadurch insgesamt an Energie gespart werden?
Wie groß sind die semipartiellen Sparanteile der einzelnen Maßnahmen?
Es seien für 4 Gruppen (Einteilung in Gruppen auf Grund der Variablen z) sowohl die PRE-Maße zur Prädiktion von y auf Grund der Variablen x als auch die Fehler OHNE x gegeben:
Gruppen (nach z)
1. z=1
2. z=2
3. z=3
4. z=4
PREyx
.70
.40
.10
0
Fehler OHNE
0.2
0.2
0.3
0.7
Wie groß ist das partielle PRE-Maß PREyx . z?
4.
Für die Willkie-Daten:
a. Berechnen Sie für alle möglichen Teiltabellen Entropie-Maße und stellen Sie die Entropie-Maße
übersichtlich in einem ‚Modell’-Diamanten dar (Entropie in nits).
b. Berechnen Sie nur das multiple PRU
c. Stellen Sie die additive Zerlegung des multiplen PRU im Rahmen der additiven Zerlegung dar
d. Berechnen Sie nun alle –2lnL werte für die verschiedenen Teiltabellen und tragen Sie –2lnL Werte
wiederum in einen ‚Modell-Diamanten’ ein.
e. Prüfen Sie die Hypothese, dass alle bedingten Anteile gleich sind.
f. Prüfen Sie die Hypothese, dass nach Berücksichtigung von a und b, c keinen ‚Einfluß’ auf y hat.
g. Prüfen Sie die Hypothese, dass nach Berücksichtigung von a, b und c keinen ‚Einfluß’ auf y hat.
h. Prüfen Sie die Hypothese, dass a und y bedingt unabhängig sind (Bedingung sei c und b).
5.
Wählen Sie für die Willkie-Daten mit Hilfe von SBC das beste Modell aus.
a. Berechnen Sie SBC für alle Modelle.
b. Wählen Sie das Modell aus, das den kleinsten SBC-Wert hat.
Herunterladen