4. Ein Überblick über alternative Ansätze der strukturellen

Werbung
4. Ein Überblick über alternative Ansätze der strukturellen Modellierung
4.1. Ausgangspunkte für die Entwicklung alternativer Identifikationsmethoden
Die im Kapitel 3 dargestellte Untersuchung zu Ursachen neuer Probleme führte zu dem
Schluß, daß es notwendig ist, spezielle Strukturselektionskriterien zu entwickeln.
Deshalb werden in dem nachfolgenden Überblick nur die alternativen Identifikationsschemata
betrachtet, die in Verbindung mit der Entwicklung von Strukturselektionskriterien stehen, die
unter den speziellen Bedingungen angewandt werden können, die in den Kapiteln 2 und 3
beschriebenen wurden. Auf die Darstellung anderer Aspekte der Modellierung wird
verzichtet.
Unter dieser Einschränkung lassen sich die Phasen der Entwicklung von Identifikationsmethoden wie in Abb. 4.1.a. gezeigt darstellen.
Aus dieser Darstellung geht hervor, daß bei der Erarbeitung neuer Herangehensweisen eine
stürmische Entwicklung zu verzeichnen ist. Leider sind die Zusammenhänge und die
Verflechtungen der Ideen und Methoden vieler unabhängig entwickelter, aber oftmals
ähnlicher Richtungen der strukturellen Identifikation noch nicht sichtbar. Das betrifft
insbesondere die Richtungen, die einerseits in der englischsprachigen und andererseits in der
russischsprachigen Literatur beschrieben werden. Offensichtlich ist eine solche Erscheinung
charakteristisch für die Phase der induktiven Entwicklung im Unterschied zur ausgereiften
deduktiven Phase.
Im Kapitel 4 wird eine kurze Beschreibung der grundlegenden neuen theoretischen
Richtungen in der strukturellen Identifikation gegeben, die zu unterschiedlichen speziellen
Strukturselektionskriterien geführt haben.
Im Kapitel 5 werden die Zusammenhänge zwischen diesen Richtungen auf der Basis eines
hier vorgeschlagenen optimierungstheoretischen Konzepts analysiert.
Schließlich wird im Kapitel 5 auch eine praktische Klassifikation der Kriterien vorgeschlagen.
4-1
Erster Zyklus:
Induktive
Phase
•
•
•
•
•
Frühe
Deduktion
Þ
Laplace
Legendre
Gauß
Bernoulli
Lambert
•
•
•
Reife
Deduktion
Þ
Gauß
Markov
Fisher
•
•
•
•
•
•
•
•
Erweiterung des
Aufgabenfeldes
und der
Þ
Rechnermöglichkeiten
Fisher
Rao
Zypkin
Eykhoff
Draper / Smith
Wiener
Reibman
Box / Jenkins/
Cox u.a.
(Versagen der
traditionellen
Herangehensweise)
Neuer Zyklus:
Überdenken der
traditionellen Þ
Prinzipien
•
•
•
•
Tukey
Gabor
Ivachnenko
Efron
Induktive Phase Þ
. . . . . . . . . . . ..
•
•
•
•
•
•
•
•
•
•
•
•
Mallows
Ezekiel / Haitovsky
/ Allen / Aitkin /
Rothman / Helms
Kovanic
Wilcoxon
Box
Seber
Findley
Furnivale
Daniel / Wood
Hampel
Hober
Hoerl / Kennard /
Trenkler
• Walsh
• Bellman
• Ivachneko
• Tamura / Kondo /
Sawaragi
• Unbehauen / Haber
/ Kortmann
• Shibate
• Broersen
• Vapnik
• Akaike u.a.
Abb. 4.1.a: Entwicklungszyklen der Identifikationstheorie (unter dem Aspekt der Entwicklung
von Strukturselektionskriterien)
4-2
4.2. Die strukturelle Minimierung des empirischen Risikos
Von Vapnik wurden zwei Herangehensweisen für die "in den Parametern lineare" strukturelle
Modellierung bei kleinen Stichproben vorgeschlagen, und zwar die Methode der strukturellen Minimierung des empirischen Risikos [VAP 79] [VAP 84] und die Methode der
gleitenden Kontrolle [VAP 84].
Die Besonderheit der Methode der Minimierung des empirischen Risikos besteht darin, daß
sie zu einem Strukturselektionskriterium führt, das nicht nur die Interpolationsgenauigkeit,
d.h. die RQS berücksichtigt, sondern auch das Verhältnis des Umfangs der Stichprobe zur
Komplexität der Struktur. Außerdem erfaßt dieses Kriterium den Wert des Konfidenzniveaus
(1-η) quantitativ derart, daß alle konkurrierenden Strukturen unabhängig von ihrer
Komplexität ein und dasselbe Konfidenzniveau (1-qη) besitzen, wobei q die Anzahl der
Kompliziertheitsstufen der zu vergleichenden Modelle angibt.
Die Methode kann als robust bezeichnet werden. Sie ist für Stichproben begrenzten Umfangs
geeignet, in denen große Abweichungen, also Störungen des Ausreißer-Typs (vgl. Abschn.
3.1.2.) die Modellauswahl stark beeinflussen können.
Das Schema dieser Methode soll nachfolgend in leicht modifizierter Form vorgestellt werden:
1. Die Methode basiert im Unterschied zu den klassischen Methoden darauf, daß die Aufgabe
der strukturellen Modellierung unabhängig vom Prozeß der Parameterschätzung betrachtet
wird.
2. Das Strukturselektionskriterium Q wird als mathematische Erwartung der Funktion
H
H
R ( yd , a ) betrachtet, wobei a die Parameter der konkurrierenden Modelle und R das
Quadrat der Abweichungen zwischen den Ausgängen des Modells und des Objektes ist.
H
Q = M (R ) = ò R ( y, a )p( y )dy
H
H 2
R ( y, a ) = [ y − F ( x, a )]
wobei p( y ) die "wahre" Dichte der beobachteten Variablen yδ ist.
(4.2.a)
(4.2.b)
Es ist also erforderlich, eine Methode der Bearbeitung der empirischen Daten
y δ1 , y δ 2 ,..., y δ l zu entwickeln, die das Ziel verfolgt, mit einer gegebenen
H
Wahrscheinlichkeit die Funktion R(y, a *) zu bestimmen, die zu einem Wert des
H
Funktionals Q führt, der nahe dem Minimum ist. Hier sind a * die Parameter einer fixierten
Funktion, d.h. der Struktur (s. Gl. 1.2.a).
4-3
3. Ohne a priori Information über die Verteilungsdichte p( y ) kann kein Wert für Q ermittelt
werden. Das Funktional (4.2.a) erreicht genau dann seinen minimalen Wertt, wenn die
H
Ausgangsgröße F ( x , a ) des Modells gleich der mathematischen Erwartung der
Ausgangsgröße des Objektes M ( yδ ) ist. Die mathematische Erwartung der Ausgangsgröße
des Objektes ist jedoch nicht bekannt, noch weniger die Verteilungsdichte p( y ) . Sie
können nur aus einer Stichprobe begrenzten Umfangs geschätzt werden.
4. Aus den oben aufgeführten Gründen wird vorgeschlagen, bei der Anwendung der
Tschebyscheff-Formel zur Berechnung von Schranken für Q nicht die absolute Dispersion
τ 2abs
H
τ 2abs := Sup
R (y, a )
(4.2.c)
H
a, y
zu verwenden, sondern die relative Dispersion τ 2abs .
Für alle a gilt:
H
H
H
H 2
H
D[R (y, a )]
M[R 2 (y, a )] − [M(R (y, a ))]
M[R 2 (y, a )]
D[R (y, a )]
2
≤ τ := Sup
= Sup
H 2 = Sup
H 2 −1
a {M[R (y, a )]}
a
a [M (R (y, a ))]
{M[R (y, aH )]}2 rel
[M(R (y, aH ))]2
(4.2.d)
Das hat den Vorteil, daß jede Verteilung, die zu einem gegebenen linearen Verteilungstyp
gehört, unabhängig von den konkreten Parametern eine konstante relative Dispersion
besitzt. Diese relativen Dispersionen sind z.B. für die Normalverteilung τ 2rel = 2 , für die
Gleichverteilung τ 2rel = 0, 8 und für die Laplace-Verteilung τ 2rel = 5 . Für alle drei
Verteilungsgesetze gilt also τ rel < 2, 24 .
In [VAP 84] wird diese Tatsache ausgenutzt. Für die Berechnung des empirischen Risikos
Qe wird anstelle des allgemein üblichen geschätzten Funktionals
Ie =
(
H
1 l
R y δi , a
å
l i =1
)
(4.2.e)
mit p̂(y ) als aus der Datenstichprobe y δ1 , y δ 2 ,..., y δ l rekonstruierten
Verteilungsdichte
die Größe
Qe =
Ie
C kor
(4.2.f)
vorgeschlagen,
- der Umfang der Stichprobe und
wobei l
Ckor - ein Korrekturfaktor ist, der unter Berücksichtigung der ggf. vorliegenden
a priori Information über τ rel gewählt wird.
4-4
5. Beim Vergleich mit Q wird in [VAP 84] vom Minimax-Ansatz ausgegangen, d.h. für ein
gegebenes κ > 0 wird anstelle der Bedingung
{
}
H
H
p Q( a ) − Q ( a ) > κ → 0
e
l →∞
H
für alle a
(4.2.g)
die Bedingung
ìï
üï
H
H
p ísup Q( a ) − Q ( a ) > κý → 0
e
ïî a
ïþ
l →∞
(4.2.h)
angesetzt.
Für kleine Stichproben ist aber nicht nur diese Konvergenz wichtig, sondern auch die
Bewertung der Konvergenzgeschwindigkeit, so daß
H
H
p κ = p ìísup Q(a ) − Qe (a ) > κ üý < η(l , κ )
î a
þ
wobei (1-η)
κ
pκ
(4.2.i)
- dem klassischen Vertrauensniveau,
- der Vertrauensgrenze und
- der Vertrauenswahrscheinlichkeit
entspricht.
6. Im Strukturselektionskriterium ist also die Konvergenzgeschwindigkeit zu berücksichtigen.
Dazu wird zunächst der Begriff "Strukturumfang" eingeführt:
•
Strukturen:
S1 ⊂ S2 ⊂ ... ⊂ Si ⊂ ... ⊂ Sq
•
Strukturumfänge:
h1 < h 2 < ... < hi < ... < h q
Von wenig Daten spricht man in Übereinstimmung mit [VAP 84] dann, wenn das
Verhältnis des Stichprobenumfangs zum Strukturumfang l h < 10.
7. Auf der Basis der oben genannten Korrekturfaktoren wird das Strukturselektionskriterium
hergeleitet. Das Minimum dieses Kriteriums entspricht der Struktur, die die obere
Schätzung des empirischen Risikos Qe minimiert und dabei für jede i-te Struktur mit dem
Umfang hi den Ansatz
æ l − ln η ö
÷
f çç ,
l ÷ø
è hi
(4.2.j)
macht, wobei f ein Summand oder Multiplikator ist, der von der Stichprobenlänge l, der
relativen Stichprobenlänge l hi und von η abhängt und der für kurze Stichproben in der
Form
4-5
æ l − ln η ö
H
H
÷
p(a ) ≤ v(a ) + f 1 çç ,
l ÷ø
è hi
bzw.
æ l − ln η ö
H
H
÷
I (a ) ≤ I e (a ) + f 2 çç ,
l ÷ø
è hi
berücksichtigt werden muß.
Dabei verringert sich mit der Zunahme von i (d.h. des Strukturumfangs) die Größe I ei ,
während die Größe C kori , wächst und die Schätzungen Q ei mit einer Wahrscheinlichkeit
(1 − qη) für alle q zu vergleichenden Strukturen obere Schranken bilden.
8. Unter Verzicht auf weitere mathematische Feinheiten kann das Kriterium von Vapnik
endgültig wie folgt angegeben werden:
H
I e (a )
H
Q(a ) =
1 - τ rel
æ
h ⋅ (ln(2 ⋅ l h ) + 1) − ln (η 12) ö
÷
⋅ V çç 2 ⋅
÷
l
è
ø
(4.2.k)
wobei
V (κ ) = κ ⋅ 1 −
ln κ
,
2
κ=
1
η
(4.2.l)
Ergebnisse der simulativen Untersuchung dieses Kriteriums werden in kurzer Form in der
Anlage beschrieben.
4-6
4.3. Der gnostische Ansatz
Die gnostische Identifikationstheorie, die in äußerst abstrakter und komplizierter Form in
[STE 70], [JUM 75], [JUM 80a], [JUM 80b], [KOV 84a], [KOV 84b], [KOV 84c],
[KOV 84d], [KOV 86a], [KOV 86b], [KOV 87], [KOV 89] dargestellt ist, läßt sich nur sehr
schwer in Kurzform wiedergeben, ohne in Gefahr zu laufen, wichtige Glieder der logischen
Kette zu verlieren. Das Problem besteht darin, daß die gnostische Theorie den bereits nicht
trivialen mathematischen Apparat1 mit solchen fundamentalen Begriffen der Physik verbindet,
die bereits traditionell zu den kompliziertesten gezählt werden.
Trotzdem erscheint es wegen der Originalität und Eleganz dieser Theorie und insbesondere
auf Grund der großen Erfolge, die man in der Wirtschaft der Tschechischen Republik und
Kanadas bei ihrer praktischen Anwendung für Aufgaben mit kleinen Stichproben, verzeichnet
hat,
erforderlich,
diese
Theorie
zu
betrachten;
die
Untersuchung
der
Strukturselektionskriterien wäre sonst unvollständig.
In der Tabelle 4.3.a. werden in stark vereinfachter Form die Grundbegriffe der gnostischen
Theorie aufgeführt und die Parallelen verallgemeinert, die sich zwischen den Begriffen der
Gnostik, der Thermodynamik, der Relativitätstheorie und der Identifikationstheorie ergeben.
Dabei beschränkt sich die Darstellung nur auf die Beziehungen, die die Grundideen illustrieren; auf alle mathematischen Beweise und Herleitungen der Wechselbeziehungen
zwischen den Größen wurde verzichtet.
Leider ist es im Rahmen dieser Arbeit nicht möglich, die komplizierten und äußerst
umfangreichen Darstellungen aus [KOV 84d] wiederzugeben, die zu den gnostischen
Gleichungen führen, aus denen Kriterien für die Modellierung gebildet werden können.
Herleitungen zur Bildung eines Modellierungskriteriums mittlerer Empfindlichkeit und eines
robusten Modellierungskriteriums sowie Ergebnisse der Untersuchung dieser Kriterien sind
iin der Anlage enthalten.
1
Wie bekannt, ist der in seiner Anwendung unkomplizierte mathematische Apparat der
Relativitätstheorie dadurch kompliziert, daß die mathematischen Ideen den physikalischen
gleichgesetzt werden, d.h. die Mathematik erscheint nicht in ihrer dem Ingenieur vertrauten
Rolle, nicht als Mittel zur Berechnung, sondern als Quelle von Ideen, die die anfänglichen
Erfahrungswerte ersetzen, die gewöhnlich die Entwicklung neuer Theorien in der
traditionellen Physik stimulieren.
4-7
Theorie
Interessierende
Erscheinung
wichtigste
unabhängige
Größen
Spezielle Relativitätstheorie
Wechselwirkung zwischen physikalischen
Körpern und deren Umwelt
Eigenzeit des i-ten physikalischen Körpers
Thermodynamik
Wärmeaustausch
Gnostische Theorie
Informationsaustausch bei der Identifikation und
Messung von Daten
Bei der Gewinnung der Information (bei der
Veränderung der Entropie des i-ten Systems:
Messung u.ä.) wird eine Unschärfe eingebracht.
∆τ i = τ i − τ i
Q
Q
i
i
2
1
∆Si = Si − Si =
−
Der Abstand Ω zwischen den gemessenen und
2
1
τ i2 , τ i1 - sind die Momente der Eigenzeit des iTij Tik
den wahren Werten der Meßgröße entsteht
ten Körpers
mit Tij , Tik - Temperaturen des j-ten und des kwegen der vorhandenen Unschärfe.
∆τ i ist eindeutig mit den physik. Prozessen im
ten Körpers des i-ten Systems, die In der gnostischen Theorie sind die sogenannte
Inneren des i-ten Objektes verbunden. Es
sich im Wärmeaustausch befinden Eigenzeit Ω und die Entropie des i-ten
i
bestimmt die Kausalkette der Ereignisse des
Tij > Tik
Informationselements Si invariante Größen.
Eigenprozesses (z.B. Atomzerfall).
∆Si ist eindeutig mit Qi , Tij und Tik verbunden.
Die Änderung der Entropie beim Informationsaustausch ∆Si ist eindeutig verbunden mit der
Unschärfe des i-ten Informationselements
(
)
∆S i = ϕ( Ω i ) im i-ten Datenpunkt.
1) Der Wärmeaustausch in den Systemen erfolgt 1) Jede i-te Unschärfe maximiert die Zeit Ω
1) Trägheitsgesetz
i
(Gesetz der kleinsten Wirkung):
so, daß die Entropie wächst, wobei
des gegebenen Informationselements und die
Jeder physik. Körper strebt eine solche
∆Si → max.
Änderung seiner Entropie:
Bewegung an, bei der die Eigenzeit maximiert 2) Sonderfälle:
Ωi → max.;
∆Si → max.
wird:
a. Wärmeaustausch bei 0oK: lim ∆Sio = 0
T1 ,T2 → 0 K
2) Grenzfall:
∆τ → max.
Informationsaustausch im idealen
b. Wärmeaustausch im idealen geschlossenen
(umkehrbaren) s.g. gnostischen Zyklus:
Carnot-Zyklus:
2) Sonderfall - Bewegung des Lichts:
Die Trägheit des Lichts ist gleich Null:
dS → min .
dS = 0
∆τ = τ 1 − τ 2 ≡ 0
3) ∆Si ist immer nichtnegativ, d.h. die Entropie 3) ∆Si ist immer nichtnegativ, d.h. die Entropie
ist eindeutig gerichtet und die Prozesse des
3) ∆τ ist immer nichtnegativ, d.h. die Kausalitätsist eindeutig gerichtet und der reale Prozeß des
Informationsaustauschs sind irreversibel.
kette ist irreversibel.
Wärmeaustauschs ist unumkehrbar.
Koordinatensystem, in dem die Bewegung des i- Art des Stoffes und Typ der Vorrichtung, die den Art der Grundgesamtheit und der konkreten
Invariante
ten Körpers beschrieben wird
Carnot-Zyklus realisiert.
Stichprobe.
Jedem Datenpunkt entspricht ein eigenes
Koordinatensystem.
Tab. 4.3.a: Vergleichende Analyse der Grundideen der speziellen Relativitätstheorie, der Thermodynamik und der gnostischen Schätztheorie (Anfang)
von den
Invarianten
unabhängige
Eigenschaften der
Eigenwerte
ò
ò
4-8
Theorie
Mathematische
Mittel zur
Darstellung der
Invariante
Spezielle Relativitätstheorie
Thermodynamik
1) In der traditionellen Kinematik werden Gleichung der Nernst-Entropie für den CarnotEuklidische Koordinatensysteme verwendet (4- Zyklus:
bzw. 2-dimensionale: eine Zeit- und eine
Raumachse). Die beschriebenen Eigenschaften
P Adiabate
dS, dQ
1
Adiabate
der Körper sind vom Koordinatensystem
T=T 1
unabhängig (vgl. [KEL 81]). Alle Achsen des
Euklidischen Systems sind gleichberechtigt.
A
Isotherme
2) Die Eigenzeit ist eindeutig gerichtet und
B
dQ=0
dQ=0
unumkehrbar. Die Zeitachse und die
Isotherme
Raumachse sind nicht austauschbar.
-dS, dQ
D
2
C
Das Euklidische System ist ungeeignet.
T=T
2
3) Die Eigenzeit wird im Minkowski-Raum
V
ausgedrückt:
Carnot-Zyklus
(∆τ)2 = x 2 − y 2 = x 2 − (Ct )2
mit t - Raumkoordinate,
C - Lichtgeschwindigkeit
4) Die Niveaulinien für die Gleichung der Eigenzeit sind hyperbolisch:
x 2 − (Ct ) = 1, x 2 − (Ct ) = −1
2
2
5) Die Verzerrung im Minkowski-Raum um den
Winkel Ω ist in Abb.4.3.a. dargestellt, wobei Ct
und x die ursprünglichen Achsen sind und Ct'
und x' die Achsen des um den Winkel
Ω gedrehten Koordinatensystems.
Der Carnot-Zyklus besteht aus zwei sich
ergänzenden Phasen:
1) AB + BC - isothermische + adiabatische
Expansion
2) CD + DA - isothermische + adiabatische
Verdichtung
Gnostische Theorie
1) Der gnostische Zyklus besteht aus zwei
Hauptphasen:
- der Phase der Informationserfassung
- der Phase der Identifikation
2) Für die mathematische Darstellung des
unumkehrbaren Prozesses der Informationserfassung (Messung) werden die geometrischen
Darstellungen
des
Minkowski-Raums
verwendet. Das gestattet, jeden Punkt
unabhängig von den anderen zu betrachten. Die
Veränderung der Entropie in dieser Phase ist
vergleichbar mit der Phase (AB) im CarnotZyklus.
3) Die ergänzende Phase der Identifikation wird
im Euklidischen Raum beschrieben. Die Veränderung der Entropie entspricht hier der Phase
(CD) im Carnot-Zyklus.
4) Im Unterschied zum Carnot-Zyklus ist die
Summe der Änderungen der Entropie und
dementsprechend
der
Information
im
gnostischen Zyklus (Abb.4.3.b.) nicht gleich
Null [KOV 84a]. Die Informationsänderung ist
immer eine negative Größe (Informationsverlust) ähnlich der Kullback-Information
[KUL 67].
Tab. 4.3.a: Vergleichende Analyse der Grundideen der speziellen Relativitätstheorie, der Thermodynamik und der gnostischen Schätztheorie (Fortsetzung)
4-9
Theorie
Rolle der
invarianten
Größe in der
Theorienentwicklung
Spezielle Relativitätstheorie
Bei Kenntnis der Koordinatenzeit kann man die
Eigenzeit berechnen. Die Gesetze der Wechselwirkung, die die Eigenzeit maximieren, hängen
aber nicht vom Koordinatensystem ab. Alle
Bezüge der Relativitätstheorie [EIN 38] wurden
ausgehend von den Eigenschaften der invarianten
Größen entwickelt (deren wichtigste Größe die
Eigenzeit ist).
Thermodynamik
Auf der Basis der Kenntnis der allgemeinen
Eigenschaft - der Zunahme der Entropie eines
Systems beim Wärmeaustausch - wird die NernstGleichung für die Entropie in Abhängigkeit von
• der Temperatur T,
• dem Volumen V,
• dem Druck P,
• der inneren Energie U,
• der Arbeit W,
• der Wärmemenge im Wärmevolumen Q und
• der Art des Stoffes
aufgestellt.
Bei Kenntnis der Art des Stoffes kann man die
Entropie berechnen, aber das Gesetz der
Zunahme der Entropie hängt nicht von der Art
des Stoffes ab. Das Carnot-Theorem beweist, daß
man die minimale Entropieveränderung im
geschlossenen Carnot-Zyklus erhält [FEY 63].
Gnostische Theorie
Durch Ausnutzung der Unschärfeeigenschaft und
Maximierung
der
Entropieänderung
und
dementsprechend
der
Eigenzeit
des
Informationselements wird die Gleichung für die
Abhängigkeit der Entropie S von folgenden
Faktoren aufgestellt:
• s.g.
Unwahrheit
des
Prozesses
der
Informationsgewinnung fq (vgl. mit der
Dispersion des Prozesses oder bzgl. eines
Punktes mit der quadratischen Abweichung der
gemessenen Werte vom wahren Wert)
• s.g. Unwahrheit des Identifikationsprozesses fe
(vgl.
quadratische
Abweichung
der
identifizierten Größe von der wahren Größe)
• hq - Asymmetrie des Prozesses der
Informationsgewinnung (vgl. Asymmetrie der
Verteilungsdichte)
• he - Asymmetrie der Identifikation (vgl. Nichterwartungstreue der Schätzung)
Es kann bewiesen werden, daß der geschlossene
gnostische Zyklus (Messung - Identifikation) die
Entropieänderung minimiert. Dabei läßt sich ∆S
im Zyklus ausgehend von unterschiedlichen
Charakteristika ( f q , f e , hq , he ) minimieren,
wobei man eine Schätzung des unterschiedlichen
Grades der Robustheit (Empfindlichkeit)
bekommen kann.
Tab. 4.3.a: Vergleichende Analyse der Grundideen der speziellen Relativitätstheorie, der Thermodynamik und der gnostischen Schätztheorie (Fortsetzung)
4-10
Theorie
Spezielle Relativitätstheorie
Thermodynamik
Gnostische Theorie
Schlußfolgerungen I. Erkennen neuer physik. Grenzen:
I. Erkennen neuer physik. Grenzen:
I. Erkennen neuer physik. Grenzen:
- Unmöglichkeit der Bewegung von Körpern
- Unmöglichkeit eines Prozesses, dessen
- Unmöglichkeit der vollständigen Wiederaus den
mit Geschwindigkeiten oberhalb der Lichteinzigstes Resultat die Aufhebung eines
herstellung der Information bei der Identifikatheoretischen
Beschreibungen für
geschwindigkeit
Körpers und seine Wandlung in Arbeit wäre.
tion
technische
Anwendungen
II. Berechnung neuer Grenzwerte:
II. Berechnung neuer oberer Effizienzsgrenzen aus den physik. Grenzen:
II. Berechnung neuer oberer Effizienzsgrenzen
1. Die gnostische Theorie nutzt die Kenntnis der
1. in der neuen Kinematik
aus den physik. Grenzen:
Eigenschaften der Entropieänderung bei der
Ermittlung von Informationen über das Objekt
2. in der neuen Dynamik und in den neuen
1. Die maximale Arbeit wird durch die
( ∆S → max.) für die Bildung eines möglichst
Erhaltungssätzen (Impulserhaltungssatz u.a.)
Bildung möglichst geschlossener Zyklen
geschlossenen Zyklus der Informationsverarerreicht:
beitung mit minimalen Verlusten. Dieser Zyklus
dS → min.
besteht aus zwei einander ergänzenden Phasen,
(Für den idealen Carnot-Zyklus gilt: dS = 0 .)
der
Phase
der
Informationsgewinnung
( dS → min. ) und der Phase der Identifikation
2. Aus der Relation des Carnot-Zyklus wird
der oberer Grenzwert des Wirkungsgrades
( dI → max.), wobei I die durch die Identifika(Effizienz) des Wärmemotors berechnet:
tion zu regenerierende Information ist.
2. Aus den Relationen des gnostischen Zyklus
T1o − T2o
WG max =
werden 7 (bzw. 8) Arten der Schätzung der geT1o
messenen Größe abgeleitet. Jede Schätzung
o
besitzt einen anderen Grad der Robustheit. Die
mit T1 - Temperatur der isothermischen
gnostische Robustheit wird dabei im allgemeinExpansion
üblichen Sinn verstanden (vgl. [MIL 64], [MIL
T2o - Temperatur der isothermischen
68], [HOY 68], [HUB 70], [HAM 73], [HAM
Verdichtung
74], [MIL 74], [TUK 75], [HAM 86] ). In
allgemeinster Formulierung bedeutet Robustheit
der Schätzung eine geringe Empfindlichkeit
gegenüber Anomalien in den Ursprungsdaten.
Für die Schätzung der Regressionsparameter
und auch für die Schätzung
der
Verteilungsparameter werden robuste Methoden
empfohlen. Für den Hypothesentest werden
empfindliche Schätzungen empfohlen.
Tab. 4.3.a: Vergleichende Analyse der Grundideen der speziellen Relativitätstheorie, der Thermodynamik und der gnostischen Schätztheorie (Ende)
(
)
4-11
Das robuste Kriterium ließ sich aus der gnostischen Gleichung nur in impliziter Form
herleiten und wird deshalb im Programm mittels eines numerischen Algorithmus berechnet.
Das empfindliche Kriterium, das für die Strukturselektion geeignet ist, hat folgende Form:
å (y
l
Q Gno = 4
i =1
l
å (y
i =1
δi
− yi
1
δi
− yi
)
2
)
2
=
l
4
RSS
1
å (y
i =1
δi
(4.3.a)
− yi
ct
)
2
ct'
Ω
1
l l1
1
l
1l
Ω
x
Abb. 4.3.a: Informationsverlust bei Messungen als unumkehrbarer Prozeß
(Darstellung im Minkowski-Raum)
4-12
y
y'
1(x',y')
Q
E
A
x'
E
1(x',y')
Q
Ω
Ω
Q
E
- Quantification (Messung)
- Estimation (Schätzung)
- Attenuation (Verminderung)
1(x,y) - entspricht der idealen Einheit z0
x
1(x,y)
1(x',y')
Abb. 4.3.b: Gnostischer Informationszyklus (QEA)
4-13
4.4. Die Maximierung der Negentropie
Durch den japanischen Wissenschaftler Akaike wurde eine weitere Identifikationsmethode
vorgeschlagen, die die thermodynamische Definition der Entropie nach Boltzmann benutzt
(vgl. [AKA 71], [AKA 72], [AKA 73], [AKA 74], [AKA 75], [AKA 76a], [AKA 76b],
[AKA 77], [AKA 78a], [AKA 78b], [AKA 78c], [AKA 78d], [AKA 79a], [AKA 79b],
[AKA 79c], [AKA 79d], [AKA 80], [AKA 81], [BHA 77], [SAW 79], [KAR 82]).
Wie auch die Methode von Vapnik wurde auch die Methode von Akaike im Gegensatz zur
gnostischen Theorie speziell für die Bestimmung der Struktur des Modells entwickelt.
Nachfolgend sollen in verkürzter Form die Hauptetappen der Herleitung des Strukturselektionskriteriums von Akaike gezeigt und interpretiert werden. Eine ausführliche Darstellung findet man in [AKA 72].
1. Akaike geht davon aus, daß die Schätzung mit der Likelihood-Methode eine nichterwartungstreue Schätzung des Mittels für das wahre Modell ist, da die Struktur der
geschätzten Zeitreihen immer vereinfacht ist.
Deshalb ist es wünschenswert, ein Strukturselektionskriterium zu besitzen, das die
Verzerrung kompensiert.
2. Im Unterschied zu Vapnik, der bei der Identifikation auf die Wiedergewinnung der
Verteilungsdichte verzichtet und mit einer Minimierung der oberen Grenze des
empirischen Risikos auskommt, betrachtet Akaike die Wiedergewinnung der
Wahrscheinlichkeitsverteilung der Eingangsgröße als Ziel der Identifikation. Deshalb
wählt er als Maß der Qualität des gewählten Modells den mittleren Grad der
Übereinstimmung der aufgrund des Modells geschätzten Wahrscheinlichkeitsverteilung mit ihrer tatsächlichen Form.
Als Maß der Übereinstimmung der Verteilungsdichten p( y ) und p̂( y ) wird die Größe
æ p( y ) ö
÷÷ dy
B( p, pˆ ) = − ò p( y ) ⋅ lnçç
è pˆ ( y ) ø
(4.4.a)
gewählt, wobei
pˆ ( y ) = pˆ [F ( x, a )] - die aufgrund der Eingangsdaten und des Modells gewonnene
p( y )
Verteilungsdichte von y und
- die wahre Verteilungsdichte von y ist.
4-14
Diese Größe wird Negentropie (oder Kullback-Information [KUL 67]) genannt. Sie ist
immer eine nichtpositive Größe und nur dann gleich Null, wenn beide
Verteilungsdichten identisch sind.
3. Die Prozedur der Identifikation wird hier auf die Suche der Verteilung pˆ ( y, y l ) als
Funktion der Datenstichprobe yl der Länge l zurückgeführt. Die Verteilung pˆ ( y, y l ) ist
dabei die Schätzung der wahren Verteilung p( y ) anhand von yl .
4. Des weiteren wird der Begriff der stochastischen Struktur als eines die Daten yl
erzeugenden Systems eingeführt. Die Effizienz der Identifikation wird mit Hilfe des
Kriteriums
M{B[ p, p( y : y l )]}
(4.4.b)
beurteilt, wobei M die mathematische Erwartung bezüglich der yl erzeugenden
stochastischen Struktur ist.
5. Bei mehreren zu vergleichenden Strukturen wird die Struktur mit dem kleinsten Wert
von (4.4.b) ausgewählt. Dabei ist die Dichte zunächst noch unbekannt.
H
6. Die zwei Etappen der Identifikation, die Schätzung des Parametervektors a j ( y l ) für
jede Struktur j und die Auswahl der "besten" Strukrur, können in einem Ausdruck
zusammengefaßt werden. Durch Annahme von
H
H
pˆ ( y : y l ) = pˆ ( y a ( y l )) = pˆ ( y a )
ergibt sich die Entropie zu
H
H
B ( p : pˆ ( y a )) = ò p ( y ) ⋅ ln pˆ ( y a )dy − ò p ( y ) ⋅ ln p ( y )dy
(4.4.c)
Bei einer fixierten Wahrscheinlichkeitsdichte ist die zweite Komponente im Ausdruck
4.4.c konstant, so daß nur die erste Komponente berücksichtigt werden muß. Sie ist aber
nichts anderes als das Mittel des Logarithmus der Likelihood-Funktion:
H
H
M y {ln pˆ ( y a )} = ò p ( y ) ⋅ ln pˆ ( y a )dy
Hier läßt Akaike eine Annahme zu, die von ihrem Sinn her der Annahme von Vapnik
beim Übergang zum empirischen Funktional
Ie =
H
1 l
R( y i , a )
å
l i
ähnlich ist (vgl. [VAP 84] u. Abschn. 4.2.).
4-15
H
Akaike betrachtet nämlich die Größe ln pˆ ( y a ) als natürliche Schätzung für
H
M y {ln pˆ ( y a )} sogar für den Fall, daß die Verteilungsdichte p( y ) nicht bekannt ist.
Damit bekommt die Likelihood-Schätzung auch dann einen Sinn, wenn die Formen der
H
Verteilungen pˆ ( y a ) und p( y ) nicht identisch sind.
7. Wie auch Vapnik ist sich Akaike klar darüber, daß eine solche Annahme zur Verzerrung
H
H
pˆ ( y a ( y l )) und zur nichterwartungstreuen Schätzung M y {ln pˆ ( y a ( y l ))} führt. Wie auch
bei Vapnik wird eine Korrektur dieser Verzerrung gesucht.
8. Ohne hier auf die mathematische Herleitung einzugehen sei bemerkt, daß die Korrektur
der Verzerrung auf der Basis der asymptotischen Beziehungen des Grenzübergangs
l → ∞ (was ein Nachteil bei kleinen Stichproben ist) und der Eigenschaften der
Likelihood-Schätzungen bei Nutzung der χ 2 -Verteilung mit (M+1) Freiheitsgraden
entwickelt wird. Hier ist (M+1) die Anzahl der Parameter des Modells.
9. Im Ergebnis entstanden folgende Kriterien, die eine Korrektur der Verzerrung
einschließen:
•
FPE - Criterion of Final Prediction Error [AKA 70], [OTO 72]:
FPE = l ⋅ ln (RQS) + l ⋅ ln
•
l + M +1
,
l − M −1
AIC - Akaike's Information Criterion [AKA 72], [BHA 77]:
AIC = l ⋅ ln (RQS) + l ⋅ (M + 1) ,
•
AIC* [SAW 79], [KAR 82]:
AIC* = l ⋅ ln (RQS) + 2(M + 1) + C
mit C - Konstante.
Weiterentwicklungen von AIC kann man z.B. auch in [FIN 85] finden.
Die Vielfalt der Kriterien zeigt, daß diese Herangehensweise noch nicht in ihr Reifestadium
getreten ist und deshalb eine Weiterentwicklung erfordert. Gerade die Vielfalt der Korrekturen
der RQS (bzw. der Likelihood-Schätzung) stellt die größte Schwäche dieses Ansatzes dar. Die
Ursache dafür ist in der Annahme zu sehen, auf die im Punkt 6 hingewiesen wurde. Wie im
4-16
Kapitel 5 gezeigt werden wird, besteht gerade darin die allgemeine, zur Zeit noch ungelöste
Schwierigkeit bei vielen modernen Methoden der strukturellen Identifikation.
In der Anlage werden Ergebnisse von Untersuchungen einer Gruppe modifizierter Kriterien
vorgestellt, die entsprechend der im Abschn. 5.6. vorgeschlagenen Klassifikation auch
Akaike-Kriterien enthält.
4-17
4.5. Eine Erweiterung der Methodik von Fisher
Die Entwicklung neuartiger Strukturselektionskriterien begann mit dem "Kriterium des
korrigierten Determinationskoeffizienten2: Rm2 " (vgl. [EZE 59], [HAI 69], [EDW 69]).
4.5.1. Strukturselektion als statistischer Test
Wie bekannt, kann die Aufgabe der Strukturselektion nicht nur unter dem Blickwinkel der
statistischen Schätztheorie betrachten werden, sondern auch aus Sicht der klassischen Theorie
der statistischen Tests von Hypothesen, die von Fisher entwickelt wurde.
Die Methodik ist auf die Prüfung der statistischen Sicherheit der Modelle gerichtet. Ihr Ziel
besteht darin, die Effekte, die durch zufällige Faktoren erklärt werden können, von denen zu
unterscheiden, die durch die Änderung der unabhängigen Eingangsvariablen hervorgerufen
werden.
Es wird geprüft ob die Ergebnisse der Experimente (Datentabelle) der angenommenen
Nullhypothese widersprechen. Als Nullhypothese H0 wird hier die Hypothese gewählt, daß
H
H H
alle Abweichungen von y zufälliger Natur sind, d.h. a = 0 . H1 ist dann die alternative
Hypothese.
Bei der Prüfung der Hypothesen sind zwei Fehlerarten möglich:
1. Fehler 1.Art:
Die Nullhypothese H0 wird verworfen, obwohl sie richtig ist. Die Wahrscheinlichkeit eines
solchen Fehlers bezeichnen wir mit η. η (bzw. sein maximaler Wert auf H0 ) heißt
Signifikanzniveau des Tests.
2. Fehler 2. Art:
Die Nullhypothese H0
wird
angenommen,
obwohl
sie
falsch
ist.
Die
Wahrscheinlichkeit dieses Fehlers sei mit β bezeichnet.
In der klassischen Testtheorie wird der Test als optimal bezeichnet, bei dem bei gegebenem
Signifikanzniveau η die Fehlerwahrscheinlichkeit β (bzw. ihr maximaler Wert auf H1 )
minimiert wird (Neyman-Pearson-Aufgabe).
Eine solche Definition der Optimalität erscheint zwar natürlich, aber sie bleibt nicht ohne
Widerspruch. Die neueren Methoden der strukturellen Identifikation, die im Kapitel 5
ausführlicher beschrieben werden, zeichnen sich durch verschiedene Abweichungen von ihr
aus.
2
auch Bestimmtheitsmaß genannt
4-18
Der Neyman-Pearson-Definition eines optimalen Tests liegt zugrunde, daß es prinzipiell nicht
möglich ist, gleichzeitig beide Fehlerarten zu minimieren, da diese Minimierungen ihrem
Wesen nach entgegengesetzten Charakters sind (vgl.: Beispiel der Anwendung des StudentKriteriums (t-Test) für die verbessernde Auswahl von Modellgliedern im Abschn. 5.2.).
Im Prinzip stößt die Anwendung der Testtheorie für die Strukturselektion auf die gleichen
Schwierigkeiten, wie auch die Schätztheorie. Unterschiede liegen nur in den mathematischen
Formulierungen.
Neben den Schwierigkeiten, die mit der besonderen Form der Formulierung der
Optimierungsaufgabe zusammenhängen, was charakteristisch für alle neuen statistischen
Herangehensweisen an die Struktursuche ist (vgl. Kap. 5), weist die Anwendung der
Testtheorie und dabei die Nutzung der Fisher-Verteilung (bzw. Student-Verteilung) für die
Struktursuche einen weiteren Nachteil auf.
In den modernen Algorithmen der Struktursuche sind folgende Strukturselektionskriterien
üblich, die aus der klassischen Testtheorie abgeleitet wurden:
•
das Student-Kriterium (t-Test) , vgl. z.B. [WER 89];
• das Fisher-Kriterium (F-Test) , vgl. z.B. [KOR 87], [KOR 88a];
• der Determinationskoeffizient (multiple determination coefficient) vgl. [DRA 81],
[KOR 87], [KOR 88a].
Das Fisher-Kriterium und der Determinationskoeffizient basieren auf der Analyse folgender
Beziehungen:
1. Die Streuung der Daten yδ1 ,..., yδl um ihren Mittelwert yl
l
(
S1 = å y δi − y l
i =1
)
2
(4.5.a)
charakterisiert die Nichtkonstanz der Ausgangsvariablen ("Stichprobenvarianz").
4-19
2. Die Streuung der Daten um die Regressionskurve, gegeben durch
y = Fl ( x , a ), yi = Fl ( xi , a )
(
l
S 2 = å y δi − yˆ i
i =1
)
2
= RSS
(4.5.b)
charakterisiert die Genauigkeit der Approximation der Daten durch das Modell
("nichterklärte Varianz").
3. Die Streuung der Regressionskurve um den Mittelwert der Daten
l
H 2
S 3 = å ( yˆ i − y )
(4.5.c)
i =1
charakterisiert die Existenz des linearen Trends ("erklärte Varianz").
Bei linearer Regression mit Kleinst-Quadrat-Schätzung von a gilt:
S1 = S2 + S3
(4.5.d)
Nachfolgend sollen das Fisher-Kriterium und das Determinationskriterium mit und ohne
Korrektur bezüglich ihrer Anwendung für die Strukturselektion verglichen werden.
Das Fisher-Kriterium lautet:
QF =
wobei
MS 2 =
MS 3
MS 2
(4.5.e)
S2
S
; MS 3 = 3
l−m
m−1
Falls die Störungen normalverteilt sind, ist QF F-verteilt mit ( m − 1, l − m − 1) Freiheitsgraden.
Auf der Basis dieses Vergleiches von QF mit den tabellierten Werten F( m −1),(l −m −1),(1−η) wird die
Hypothese H0 : ai = 0 angenommen oder verworfen.
Die Irrtumswahrscheinlichkeit η wird für QF gewöhnlich unter Berücksichtigung der
Besonderheiten der Anwenderaufgabe gewählt, die jedoch bei der Modellierung von
Systemen unter der Bedingung geringer a priori Information nicht immer klar sind (Genaueres
dazu - s. Abschn. 5.2.). Die Verteilung der Störung der Information ist gewöhnlich ebenfalls
nicht bekannt.
4-20
4.5.2. Das Kriterium des korrigierten Determinationskoeffizienten
Seit langer Zeit wird als Strukturselektionskriterium das Determinationskriterium
QR 2 =
S3
S1
(4.5.f)
angewandt (vgl. [DRA 81], [KOR 87], [KOR 88a]), wobei anstelle des Ausdrucks QR 2 in der
Literatur gewöhnlich R 2 verwendet wird.
Dieses Kriterium gibt an, welcher Teil der Streuung der gemessenen Daten um ihren
Mittelwert durch das Modell erklärt wird.
Dieses Kriterium besitzt jedoch folgenden Nachteil. Wie aus Abb. 1.5.2.a. ersichtlich ist,
bildet das Modell mit der komplizierteren Struktur die Störungen besser nach, d.h. es
beschreibt mehr die Störung als den eigentlich interessierenden Kurvenverlauf. Im Beispiel
beschreibt die übermodellierte Struktur (hier ein Polynom 5. Grades) gut die Streuung der
Daten (es besitzt einen guten Wert QR 2 ). Man trifft hier also auf die gleiche Schwäche wie bei
der RQS in ihrer Anwendung als Strukturselektionskriterium. Diese Verbindung mit der RQS
ist auch aus den mathematischen Beziehungen ersichtlich: die Maximierung von QR 2 ist
(
)
identisch mit der Minimierung von Q(1− R 2 ) , d.h. mit der Minimierung von 1 − R 2 :
(1 − R ) = 1 − SS
2
3
1
=
S1 − S 3
S1
Mit der Beziehung 4.5.d. ergibt sich
(1 − R ) = SS
2
2
1
=
RQS
S1
(4.5.g)
d.h., die Maximierung des Determinationskoeffizienten (multiple correlation coefficient) ist
gleichbedeutend mit der Minimierung der Restquadratsumme.
Zur Vermeidung dieser Schwäche des Determinationskoeffizienten kann man eine Korrektur
einführen, die die Komplexität der Struktur (die Anzahl der Summanden) berücksichtigt, d.h.
nicht jede Struktur, die den Determinationskoeffizienten vergrößert (also die komplexeste)
wird als gut gewertet, sondern diejenige, die bei begrenzter Komplexität den Wert des
Determinationskoeffizienten erhöht.
Als Beispiel für ein solches Kriterium kann das von Aitkin [AIT 74] zum Vergleich zweier
Modelle genannt werden: Es vergleicht ein "vollständiges" mit einem "reduzierten" Modell.
4-21
Q Ait =
mit
m +1
s = m + 1− r
Rm2 +1 − Rs2
(1 − Rm2 +1 ) (l − m − 1)
(4.5.h)
- Anzahl der Glieder des vollständigen Modells
- Anzahl der Glieder des reduzierten Modells
Die Nullhypothese H0 :( ai = 0 für m +1- r < i ≤ m +1) wird genau dann angenommen, wenn:
Q Ait < m ⋅ Fm ,(n − m −1),(1−η )
(4.5.i)
Dieses Aitkin-Kriterium stellt einen Test der Signifikanz der Verringerung von R 2 (bzw. der
Vergrößerung der RQS) bei der Reduktion des Modells dar. Wie aus der Beziehung 4.5.i.
ersichtlich ist, treten bei der Anwendung von QAit ebenso Probleme im Zusammenhang mit
der Unsicherheit bei der Wahl von η und der Unkenntnis des Verteilungsgesetzes der
Störungen auf, wie auch beim F-Test. Deshalb ist folgende Korrektur des
Determinationskoeffizienten, die von Ezekiel bereits 1930 vorgeschlagen wurde (vgl. [EZE
59]), günstiger:
l
Q R 2 = 1 − (1 − Rm2 +1 ) ⋅
(4.5.j)
l − m −1
2
wobei Rm+1
- der gewöhnliche Determinationskoeffizient für die Struktur mit ( m + 1)
Gliedern
ist.
Hier erfolgt die Korrektur von R 2 unter Berücksichtigung der Komplexität der Struktur, die
durch das Verhältnis von l und m ausgedrückt wird.
In [HAI 69] und [EDW 69] wurde gezeigt, daß nur dann
Rm2 +1 > Rm2 +1− r
ist, wenn F ≥ 1, wobei F folgende ist:
F=
Rm2 +1 − Rm2 +1−r l − m − 1
⋅
r
1 − Rm2 +1
(4.5.k)
Im allgemeinen Fall kann ∆R 2 = Rm2 +1 > Rm2 +1−r auch einen negativen Wert annehmen, und
insbesondere dann, wenn das Verhältnis l (m + 1) zu klein ist (vgl. auch die im Abschn. 4.2.
(Punkte 6 und 7) dargestellten Aussagen von Vapnik zum Verhältnis des Stichprobenumfangs zum Strukturumfang).
R 2 wächst bei der Erweiterung des Modells um neue Glieder genau dann, wenn F > 1.
4-22
Diese Beziehung drückt die Bedingung "viel oder wenig Daten" aus, unter der die
Modellierung erfolgt. (Vgl. auch die im Abschn. 4.2. nach [VAP 84] zitierte Grenze l h < 10,
hier ist h = m + 1.)
Im Ausdruck 4.5.k. ist η nicht explizit enthalten, was die praktische Anwendung dieser
Beziehung in Strukturselektionsalgorithmen wesentlich erleichtert.
Das Kriterium des korrigierten Determinationskoeffizienten wurde zum Ausgangspunkt für
alle modernen Strukturselektionskriterien mit Ausnahme der gnostischen Kriterien und der
Verhaltenskriterien.
Im Anhang 1 werden Ergebnisse der Untersuchung des Kriteriums von Mallows [MAL 73],
vorgestellt, das in der vorliegenden Arbeit für den Fall kurzer Datenstichproben modifiziert
wurde. Das Kriterium von Mallows basiert im Gegensatz zu den genannten Kriterien QR 2 und
QF nicht auf der statistischen Testtheorie, sondern auf der statistischen Schätztheorie. Im
Endeffekt führt es aber zu ähnlichen Ergebnissen wie auch das hier betrachtete Kriterium des
korrigierten Determinationskoeffizienten.
4-23
4.6. Berücksichtigung der Verzerrung
Bei der Bildung von Modellen, die für die Prognose bestimmt sind, ist die mathematische
Erwartung des Objektausgangs M ( y ) die interessierende Größe.
Die normierte mathematische Erwartung der Summe der Quadrate der Abweichungen des
Modellausgangs von M ( y ) läßt sich im allgemeinen Fall wie folgt ausdrücken:
∆
h
=
[
( )] üý =
1
ì l (h)
M
íå yˆ i − M y δi
σ 2 î i =1
2
þ
(
( )) üý
l
1 ì l
( h)
ˆ
var
y
+
M ( yˆ i( h ) ) − M y δi
í
å i å
σ 2 î i =1
i =1
2
þ
(4.6.a)
wobei yi(h) - die Schätzung des Ausganges des aus h Gliedern bestehenden unvollständigen
Modells im Punkt i ist.
Die Existenz des zweiten Summanden im Ausdruck (4.6.a) ist darauf zurückzuführen, daß i.a.
M y i( h ) ≠ M y δi gilt, d.h. darauf, daß das unvollständige Modell eine nichterwartungstreue
( )
( )
Schätzung des Modellausgangs (der sog. Vorhersage, der Prognose) liefert.
An dieser Stelle sei auch an Abschn. 3.1.1. erinnert, in dem im Unterschied zu den
gegenwärtigen Betrachtungen nicht die Verzerrung der Ausgangsgröße sondern die
H
Verzerrung des Koeffizientenvektors aT des reduzierte Modells im Vergleich zum
H
Koeffizientenvektor a des vollständigen Modells berechnet wurde.
Die Verzerrung der Schätzung der Prognose (wie auch die Verzerrung des Vektors der
geschätzten Koeffizienten im Abschn. 3.1.1.) entsteht auf Grund der Vereinfachung des
Modells. Die Schätzung y ist immer dann verschoben, d.h. nicht erwartungstreu, wenn das
verwendete Modell wenigstens ein Glied weniger enthält als das echte Modell. Da die Größe
dieser Verzerrung unbekannt ist und beliebig groß sein kann, ist es nicht sinnvoll, die Größe
å [yˆ
l
i =1
i
( )]
− M y δi
2
mittels
å (yˆ
l
i =1
i
− y δi
)
2
= RSS
zu schätzen.
Man kann beliebige Ergebnisse bekommen, die vollständig vom Regressionseffekt (vgl.
Abschn. 3.1.3.) und nicht von den Prognoseeigenschaften der gegebenen Struktur des Modells
abhängen.
Die RQS (bzw. RSS) könnte man zur Auswahl der Struktur des Modells dann verwenden,
wenn es gelänge, die Verzerrung der Schätzung der Ausgangsgröße, also den zweiten
4-24
Summanden in (4.6.a), der nachfolgend SSBh = Sum Square of Bias genannt werden soll, zu
schätzen.
Mallows [MAL 73] schlug vor, die gesamte normierte Summe der Quadrate
∆
h
=
[
( )] üý
1
ì l ( h)
M
íå yˆ i − M y δi
σ 2 î i =1
2
þ
mittels folgender Stichprobenfunktion Ch zu schätzen:
Ch =
RSS h
+ 2h − l
σ 2M +1
(4.6.b)
wobei h
- die Anzahl der Glieder des reduzierten Modells und
2
σ M +1 - die Schätzung der Dispersion der Störung ist, die mit Hilfe des vollständigen
Modells mit (M+1) Gliedern ermittelt wurde.
Wenn für die Störung die Gauß-Markov-Bedingung erfüllt ist, so läßt sich aus Ch die
Schätzung der Verzerrung ableiten:
∧
RSS
SSB h = 2 h + (h − l )σˆ 2M +1
σˆ M +1
(4.6.c)
Tatsächlich gilt in diesem Fall:
å D(yˆ ) = tr Cov(yˆ ) = tr Cov(P
l
i =1
mit
(
( h)
i
(h)
i
)
( )
h
H
⋅ y) = σ 2 ⋅ h
(4.6.d)
( )
−1
H
Ph = X h X T X X Th , yˆ ( h ) = yˆ i( h ) , y = y δi
H
H
Cov( y ) - Kovarianzmatrix des Vektors y
Dann ist
∆h = h +
1
SSB h
= 2 h ⋅ σ 2M +1 + SSB h
2
σ
σ
oder
(4.6.e)
(∆ h − h)σ 2 = SSBh
Wenn man für SSB h die Schätzung
SSBh = RSS h + σˆ 2M +1 (h − l )
verwendet, die außer RSS h eine Korrektur σˆ 2M +1 (h − l ) für die Vereinfachung der Struktur
enthält, bekommt man für die Gesamtsumme
4-25
∆ˆ h =
[
]
∧
RSS h
1 é
1
ù
2
2
2
ˆ
ˆ
ˆ
(
)
h
⋅
σ
+
SSB
=
h
⋅
σ
+
RSS
+
σ
h
−
l
=
+ 2h − l = C h
M
h
M
h
M
+
+
+
1
1
1
2
êë
úû σˆ
σˆ
σ 2M +1
M +1
2
M +1
R. Kennard und E. Hoerl, die als erste die Idee der Ridge-Schätzungen (Kammlinienregression) in die Identifikation einbrachten (vgl. [HOE 70a], [HOE 70b]), wiesen auf den
deutlichen Zusammenhang zwischen dem korrigierten Determinationskoeffizienten
é l ù
R h2 = 1 − R h2 ê
ú und der Stichprobenfunktion Mallows hin.
ël − h û
[
]
Tatsächlich gilt:
1 − Rh2
1− R
2
M +1
=
RSS h ⋅ (l − M − 1)
RSS h
=
(l − h) ⋅ RSS M +1 RSS M +1
Andererseits ist
Ch =
(4.6.f)
RSS h ⋅ (l − M − 1)
− l + 2h
RSS M +1
da sich bei Gauß-Markov-Störungen am Ausgang die Schätzung für σ 2 wie folgt ergibt:
σˆ 2 =
RSS M +1
= RQS M +1
(l − M − 1)
Deshalb ist
1+
(C h − h ) RSS h ⋅ (l − M − 1) RSS h
=
=
(l − h )
RSS M +1 ⋅ (l − h )
RSS M +1
1+
(C h − h ) 1 − Rh2
=
(l − h) 1 − RM2 +1
(4.6.g)
(4.6.h)
Die Ausdrücke (C h − h ) und 1 − Rh2 bestimmen das Maß der Verzerrung SSB h . Bei l h >> 10
sind die Stichprobenfunktionen (C h − h ) und 1 − Rh2 äquivalent.
Wie im Abschnitt 4.5. gezeigt wurde, beruht die Begründung des korrigierten Determinationskriteriums auf der Anwendung des F-Signifikanztests auf das nichtkorrigierte Determinationskriterium. Das bedeutet, daß im Prinzip eine a priori Information über die Verteilung der
Störung und über die Entscheidungsfindung bezüglich des Vertrauensniveaus (1 − η) benötigt
wird, was aber gerade unter Unsicherheitsbedingungen eine besonders offene Frage ist.
4-26
Im Mallows-Kriterium ist es dagegen erforderlich, daß die Störungen den Gauß-MarkovBedingungen genügen.
Aus diesen Gründen wurden weder das Kriterium des korrigierten Determinationskoeffizienten noch die Stichprobenfunktion von Mallows in ihrer ursprünglichen Form
betrachtet. Anstelle dessen werden in der Anlage Kriterien des WPC-Typs (weak parameter
criteria) [BRO 84], [BRO 85] in durch den Autor der vorliegenden Arbeit für kleine
Stichproben modifizierten Form untersucht.
Diese WPC bauen auf der Mallows'schen Stichprobenfunktion auf und stellen deren
mathematische Umformulierung für einzelne Parameter des vollständigen Modells dar. D.h.,
aus dem vollständigen Modell werden die sogenannten schwachen Parameter entfernt. Dabei
zählt ein Parameter als schwach, wenn für ihn folgende Ungleichung erfüllt ist:
aˆ i2 < 2 D(aˆ i )
(4.6.i)
Ähnlich wie im Abschnitt 4.5. das Kriterium des korrigierten Determinationskoeffizienten auf
der Untersuchung der Differenz R M2 +1 − Rh2 basierte, stützt sich das WPC auf die
(
Untersuchung der Differenz (C M +1 − C h ) .
)
Diese Differenz ist positiv, wenn
(RSS
M +1
)
− RSS h < 2(M + 1 − h ) ⋅ σ 2M +1 ,
(4.6.k)
was identisch mit der Ungleichung (4.6.i) ist. Aber auch diese Beziehungen für WPC sind
erneut nur dann gültig, wenn die Störungen den Gauß-Markov-Bedingungen genügen.
Deshalb sind bei kleinen Datenmengen weder (4.6.i) noch (4.6.k) anwendbar.
Es wird deshalb vorgeschlagen, für die Berechnung von var(a i ) nicht den Ausdruck
∧
H
−1
Cov aˆ = RQS (X T X ) zu verwenden, sondern eine numerische Methode, die in der Anlage
()
beschrieben werden wird.
In der Anlage wird das Kriterium CNS (Criterion of Nonlinear Sum) [LAN 88c], [LAN 90]
untersucht, das zu den nachfolgend aufgeführten Kriterien entsprechend ihrer Reihenfolge
enge logische Verbindungen besitzt: zum korrigierten Determinationskoeffizienten, zum
Mallows-Kriterium, zum WPC.
Wie aus den Darlegungen in den Abschnitten 4.5. und 4.6. hervorgeht, hängen sie alle mit
einer Korrektur der RQS bei nichterwartungstreuen Schätzungen an reduzierten Modellen und
mit der Signifikanz der Veränderung der RQS bei der Reduktion (oder Aggregation) der
Modelle zusammen.
4-27
4.7. Verhaltensstrukturkriterien
Wie in den vorhergehenden Abschnitten gezeigt wurde, verlangt die Mehrzahl der modernen
Verfahren zur Bildung von Strukturselektionskriterien (mit Ausnahme der gnostischen Herangehensweise) die Kenntnis bestimmter statistischer Kenngrößen der Störungen oder auch das
Zulassen bestimmter Annahmen bezüglich dieser statistischen Kenngrößen (s. auch Kap. 5).
Die Kenntnis dieser Kenngrößen (bis hin zum Verteilungsgesetz) erfordert entweder umfangreiche a priori Information oder eine hinreichend große Anzahl an Daten. Die Verwendung
von Annahmen ohne entsprechende a priori Information bzw. ohne Analyse der Daten führt
oft zu falschen Schlußfolgerungen und, was noch schwerwiegender ist, zu einer nicht
berechtigten Sicherheit bezüglich der Richtigkeit der Ergebnisse.
In den 70-iger und 80-iger Jahren tauchten viele neue Ideen auf (obwohl die ersten davon
bereits 1950 von Tukey (vgl. [EFR 83] entwickelt wurden), die alle in eine Klasse zusammengefaßt werden können. Diese Ideen entwickelten sich fast unabhängig voneinander sowohl in
der Statistik als auch in den angewandten Aufgaben der Systemanalyse. Typisch für diese
Ideen ist die Bildung experimenteller Charakteristika bei Vorhandensein von nur wenig
Daten, wobei vorgeschlagen wird, diese Charakteristika als lokale statistische Charakteristika
zu bezeichnen und die auf ihrer Basis gebildeten Kriterien als Verhaltenskriterien.
In der Statistik erhebt eine solche Herangehensweise keinen Anspruch auf die statistische
Sicherheit der Schlüsse über die Grundgesamtheit, aber sie vermittelt eine durchaus nützliche
Vorstellung über die konkrete Stichprobe, über das Gewicht der konkreten Punkte in der
Stichprobe.
Für die strukturelle Modellierung kann das als Prinzip der Stichprobenteilung formuliert
werden:
Wenn die Struktur richtig gewählt wurde, so werden sich die Ergebnisse der
H
H
Schätzung der Parameter a (1) und a ( 2) aus verschiedenen Unterstichproben, die
aus der primären Stichprobe x1i , x 2i ,..., x mi ; y i , i = 1,2,..., l gebildet wurden, nur
(
)
gering voneinander unterscheiden. Des weiteren folgt aus der Nähe der Parameter
H
H
H
H
a (1) und a ( 2) zueinander, daß auch die Ausgänge y (1) und y ( 2) nahe zueinander
H
H
liegen müssen, die mit den entsprechenden Koeffizientenvektoren a (1) und a ( 2)
geschätzt wurden. Das ist aber nicht gleichbedeutend mit dem Schluß von der
H
H
H
Nähe der Ausgangswerte y (1) und y ( 2) auf die Nähe der Koeffizientenvektoren a (1)
H
und a ( 2) (s. Kap. 5). In den Fällen, in denen nicht das wahre (physikalische)
Modell interessiert (d.h. wenn die Regressionsparameter nicht unbedingt eine
physikalische Interpretation haben), sondern nur die Prognosefähigkeit des
Modells, wird die Struktur gesucht, die die stabilste Prognose liefert, d.h. die
4-28
H
H
H
H
Struktur, bei der a (1) und a ( 2) nahe Prognosen y (1) und y ( 2) ergeben, wobei die
H
H
Nähe von a (1) und a ( 2) nicht untersucht wird.
Nachfolgend sollen die Ideen Jackknife (Tukye 1950, vgl. [EFR 83]), Bootstrap [SIN 81],
[FRE 81], [EFR 82], [BUN 83], [ABR 85], [BER 85], [DUC 86], [QUE 86], [DAU 88],
[DAU 89] und die Kriterien der heuristischen Selbstorganisation (die die sog.
Crossvalidation-Criteria) [IVA 70], [TAM 77], [SAW 79], [LAN 82], [ LAN 83], [VAP 84],
[AJW 85a], [AJW 85b], [LAN 87a], [LAN 87b], [LAN 88a], [LAN 88b], [LAN 88c],
[LAN 89a], [LAN 89b], [LAN 90] unter einem einheitlichen Blickwinkel am Beispiel der
Bildung von Strukturselektionskriterien betrachtet werden.
Bei der Modellierung komplizierter Systeme mit modernen Methoden geht man in der
Mehrzahl der Fälle von bestimmten statistischen Annahmen aus. Dabei besteht in der Regel
die wesentlichste Annahme darin, daß die zur Verfügung stehende Datenmenge hinreichend
groß ist. Gerade auf dieser Annahme basiert gewöhnlich die Bewertung verschiedener
Methoden zur Schätzung der Koeffizienten und der Struktur von Modellen aus experimentell
ermittelten Daten anhand solcher Eigenschaften wie der Erwartungstreue und der Effizienz.
Streng mathematisch ist ein Grenzübergang l → ∞ erforderlich, wobei l die Anzahl der
Punkte der Datentabelle ist. Praktisch sind Werte l > C ausreichend, für die man die Annahme
des Grenzübergangs als erfüllt betrachten kann. In der Praxis ist es jedoch unklar, wie groß in
jedem konkreten Fall der Umfang C der Datenmenge sein muß.
Im Abschn. 3.1.4. wurde gezeigt, daß dieser Wert von vielen Faktoren abhängt, z.B. vom
Wert der echten Koeffizienten, von der Art und der Intensität der Störungen u a.
In [LAN 87a] und in der Anlage werden zwei Kriterien vorgeschlagen, die zur Bestimmung
des Vorhandensein von Unsicherheit für die jeweils konkrete Aufgabe dient.
Umfangreiche Simulationsbeispiele (vgl. [UMB 86], [NEH 87]) zeigen, daß das Verhalten der
RQS-Werte bei Vergrößerung des Umfanges der experimentellen Information in der Mehrzahl
der Fälle an einen Einschwingprozeß erinnert (s. z.B. Abb. 4.7.a).
Die Punkte in Abb. 4.7.a zeigen die RQS-Werte, die sich bei der Identifikation der
Koeffizienten des Modells aus jeweils l Datenpunkten ergaben, wobei die Zahl der verwendeten Datenpunkte schrittweise um jeweils einen Punkt erhöht wurde.
4-29
p(â)
â
âc
k >> 1
l
i
= l
ac
li
lmin
l
li = C
min
i
= kC
l
- Regressionskoeffizient (aus li = k ⋅ C Punkten geschätzt)
- Anzahl der Punkte in der i-ten Datenstichprobe,
- minimale Anzahl der Punkte in der Stichprobe (l min ≥ M + 1; k >> 1)
Abb. 4.7.a: Änderung der Koeffizientenverteilung in Abhängigkeit von der
Stichprobenlängen
RQS
l i = l min
li = A
li = B
li = C
l i= k C
l
Abb. 4.7.b: Verhalten der RQS bei schrittweiser Erhöhung der Anzahl der Datenpunkte
4-30
Bei l = li > C , wenn ∆RQS ∆ l → 0, kann man annehmen, daß die Entscheidungsfindung
unter "stationären" Bedingungen erfolgt. Unter "stationären" Bedingungen können die Methoden der Systemanalyse angewandt werden, die auf der klassischen Regressionsanalyse
basieren.
Im Bereich l = li ≤ C führt die RQS (als Schätzung der Dispersion der Störung σ 2 ), die den
Fehler 2. Art minimiert, bei ihrer Verwendung als Strukturkriterium zu schlechten Ergebnissen bei der Modellierung.
Bei der Modellierung komplizierter Systeme, z.B. in der Ökologie, in der Ökonomie und auch
bei nichtlinearen technischen Systemen, kann man nicht sicher sein, ob man mit der vorhandenen Information bereits den "stationären Bereich" erreicht hat. Wie in [LAN 83], [LAN 87a],
[LAN 89a] gezeigt wurde und wie auch aus den Beispielen in Abb. 4.7.b. ersichtlich ist, kann
aus der absoluten Größe von l nicht erkannt werden, in welchem Bereich die Identifikation
ausgeführt werden muß.
Wie sich aus Abb.4.7.a. ergibt, besitzt die Größe
[
(
K i = RQS li − M RQS li
)]
2
(4.7.a)
mit RQS li als zufälligem Wert der Schätzung von σ 2 , der aus der Stichprobe von li Punkten
bestimmt wurde, für jedes i einen unterschiedlichen Wert.
Es wäre möglich, die Dispersion der Entscheidungsfindung, d.h. nicht nur die Qualität des
Modells selbst, sondern auch die Qualität des Strukturkriteriums, mit dem das Modell
bestimmt wurde, zu berechnen, wenn M (RQS ) und M RQS li bekannt wären, d.h. alle
(
)
möglichen Stichproben für jeden möglichen Stichprobenumfang. Diese Dispersion könnte
durch die Formel
[ (
)
]
D = M M RQS li − M (RQS ) =
2
å [M (RQS ) − M (RQS )] p
li = kC
li = l min
2
li
i
(4.7.b)
ausgedrückt werden, wobei
M RQS li - der wahrscheinlichste Wert der RQS aus den Stichproben des Umfanges l = li
(
pi
)
und
- die Häufigkeit dieses Wertes ist.
Berechnet man RQS für jedes Modell aus einer Stichprobe des Umfanges l = li Punkte, so
bekommt man nur einen Zufallswert der RQS-Schätzung und folglich einen zufälligen
H
Koeffizientenvektor a . Im Bereich l = li > C hat das keine besonders schlechten Folgen, da
das Verteilungsgesetz für RQS in diesem Bereich im Unterschied zum Bereich l = li < C eine
4-31
hinreichend gestauchte Form (vgl. Abb. 4.7.a.) und eine im Vergleich mit dem Bereich
l = li < C kleine Dispersion hat.
Statt der in (4.7.b) dargestellten Dispersion könnte man auch eine "dynamische" Dispersion
Dd =
mit
å [M (RQS ) − M (RQS )] p
li = C
li = l min
2
li
d
i
(4.7.c)
M d (RQS ) - wahrscheinlichster Wert der RQS aus den Stichproben des Umfanges
l≤C
und eine "stationäre" Dispersion
Ds =
mit
å [M (RQS ) − M (RQS )] p
li = kC
li = C +1
2
li
s
i
(4.7.d)
M s (RQS ) - wahrscheinlichster Wert der RQS aus den Stichproben der Länge
C < l ≤ kC
unterscheiden.
Für die Schätzung wäre es wünschenswert, daß die Stichprobenlänge im "stationären" Bereich
liegt. Oftmals muß aber damit gerechnet werden, daß dies nicht der Fall ist wobei des
weiteren unklar ist, wie weit die Stichprobenlänge vom "stationären" Bereich entfernt ist.
In der Literatur drückte sich die Unzufriedenheit im Zusammenhang mit der Anwendung der
RQS zunächst in weiteren statistischen Untersuchungen aus, später in der strukturellen
Modellierung als einem Anwendungsgebiet der Statistik in Form der Entwicklung der heuristischen Selbstorganisation der Schätzungen mit Teilung der Stichproben. Diese
Schätzungen lassen sich in drei Gruppen anhand der Zunahme an Information, die aus einer
Stichprobe experimenteller Daten gewinnbar ist, unterteilen. Die Unterteilung entspricht auch
der zeitlichen Entstehung dieser heuristischen Schätzungen und ebenso dem erforderlichen
Rechenaufwand:
a) Schätzungen mit einmaliger Teilung der Stichprobe
b) Schätzungen mit Verwerfen jeweils eines Punktes → l Teilungen
c) Bootstrap-Schätzungen mit einer sehr großen Anzahl von Teilungen (und
Wiederholungen), die nur durch die rechentechnischen Möglichkeiten eingeschränkt
wird.
Die Eignung dieser Schätzungen läßt sich wie folgt erklären:
1. Bei der Verwendung von Strukturkriterien mit einmaliger Teilung der Stichprobe
H
H
[IVA 68] werden 2 Koeffizientenvektoren a 1 und a 2 aus zwei Unterstichproben N(1)
4-32
und N(2) der Stichprobe des Umfangs l = li Punkte geschätzt. Dabei kann die
ursprüngliche Stichprobe sowohl halbiert als auch anders geteilt werden. Danach
werden die Ergebnisse der Schätzungen verglichen. Das kann auf unterschiedliche
Weise erfolgen. Zum Beispiel können RQS (1) und RQS ( 2) für die gesamte Stichprobe
H
aus l = li Punkten bestimmt werden, wobei RQS (1) der RQS mit den Koeffizienten a 1
H
und RQS ( 2) der RQS mit den Koeffizienten a 2 entspricht (vgl. [IVA 75]).
Die Strukturen, d.h. die Modelle, für die
RQS = RQS (1) − RQS ( 2) → min.
(4.7.e)
werden als die besten betrachtet.
Auf diese Art und Weise bekommt man aus einer Stichprobe des Umfanges l = li
Punkte nicht nur eine zufällige Schätzung RQS, sondern auch eine (wenn auch stark
eingeschränkte Information über die "Dynamik" der Schätzung im Intervall lmin , li .
Diese Information ist deshalb sehr eingeschränkt, weil die Stichprobe aus l = li Punkten
schon bei Teilung in gleiche Teile auf
N=
li !
(li 2 )!⋅ (li 2)!
unterschiedliche Art und Weisen erfolgen kann. Außerdem ist natürlich die
ursprüngliche Stichprobe aus der Grundgesamtheit selbst zufällig.
2. Kriterien, die die sog. Jackknife-Idee verwenden (vgl. [IVA 75], [TAM 77], [IHA 77],
[LAN 82], [LAN 83], [VAP 84], [LAN 87a]), die 1949 von M. Kenew vorgeschlagen,
1950 von Tukey verbessert und von Mallows, Jackel, Miller untersucht wurde (vgl.
[EFR 83]), basieren auf einem li - maligen Verwerfen jeweils eines Punktes, so daß eine
H
li -fache Schätzung des Koeffizientenvektors a aus Unterstichproben des Umfangs
H
l = li − 1 Punkte durchgeführt wird. Für jede dieser Schätzungen a * wird der Wert der
quadratischen Differenz zwischen dem am Objekt gemessenen Wert des Ausgangsignals
und dem mit dem Modell berechneten Wert des Ausgangssignal in dem Punkt, der bei
der Schätzung nicht berücksichtigt wurde, ermittelt. Danach werden die li Differenzen
summiert. Das Modell mit der minimalen Summe gilt als das beste.
Durch die Berechnung von li Schätzern liefert dieses Kriterium bereits eine recht gute
Information über die "Dynamik" bei der Entscheidungsfindung bzgl. der Struktur des
Modells im Punkt l = li − 1 (s. Abb.4.7.a, z.B. li = a − 1). Aber auch diese Information ist
begrenzt, da sie nur in der Nähe des Punktes l = li eine Vorstellung über die "Dynamik"
liefert und weil die Stichprobe aus li Punkten selbst zufällig ist.
4-33
3. Die Bootstrap-Idee [EFR 82] findet in letzter Zeit immer breitere Anwendung in der
Statistik. Für Entscheidungen über die Struktur von Modellen wird sie aber erst in
jüngster Zeit verwandt [LAN 87a]).
Nachfolgend soll die Bootstrap-Idee aus der Sicht der hier vorgeschlagenen "Dynamik" der
Information über das Objekt und über die Entscheidungsfindung bezüglich der Modellstruktur
beschrieben werden.
Zunächst sei jedoch darauf verwiesen, daß als Vorgänger der Bootstrap-Idee folgende Idee
genannt werden kann [WAS 74]: Aus den Daten einer Stichprobe aus l = li Punkten werden
mit Hilfe eines Zufallszahlengenerators N B Unterstichproben gebildet, d.h. Unterstichproben
aus l = lmin , l = lmin + 1, l = lmin + 2 usw. Punkten. Die Zahl N B hängt von den rechentechnischen Möglichkeiten ab. Danach werden für jede Struktur N B -mal die KoeffizientenH
vektoren ai (i = 1, 2,..., N B ) geschätzt.
Die verschiedenen Möglichkeiten der Verwendungen dieser mehrfachen Schätzungen für die
strukturelle Modellierung werden noch diskutiert.
Zunächst soll aber betrachtet werden, welche Information man prinzipiell durch Bootstrap
erhalten kann, bei dem die Schätzung der Koeffizienten viele Male durchgeführt wird, und
zwar nicht nur für Stichproben aus l = li − 1 Punkten wie bei den Jackknife-Kriterien, sondern
auch für Stichproben aus l = li − 2 Punkten, aus l = li − 3 Punkten usw. Für jedes Modell gibt
H
es also N B Schätzungen für den Vektor der Parameter ai und entsprechende andere
Zufallsgrößen (z.B. R QSi (i = 1, 2,..., N B ) ). Folglich entsteht die Möglichkeit, aus einer
Stichprobe die Information über die "Dynamik" im ganzen Bereich links des Punktes l = li
(s. Abb. 4.7.a) zu gewinnen und zu berechnen, wie sich die Schätzungen bei verschiedenen
Reduzierungen der Information verändern. Das ist zweifellos mehr, als die Information über
eine Zufallsgröße (wie bei den RQS- Strukturkriterien) oder über die Veränderung einer
Zufallsgröße in einem der Punkte des Abschnittes l = lmin ÷ li (wie bei den Kriterien des Typs
[IVA 75]) oder über die Schätzung der Veränderung der Zufallsgröße im Punkt l = li − 1
(Kriterien des Typs [TAM 77], [LAN 83], [VAP 84], [LAN 87a]).
Im betrachteten Fall können natürlich wie auch bei allen anderen oben betrachteten Kriterien
die Folgen nicht ausgeschlossen werden, die sich aus der Tatsache ergeben, daß die
ursprüngliche Stichprobe aus l = li Punkten aus der Grundgesamtheit selbst zufällig ist und
daß die ursprüngliche Stichprobe sehr klein ist, nämlich l = li << C , was auch für die obigen
Betrachtungen angenommen wurde. Jedoch gibt die Bootstrap-Herangehensweise im
Vergleich zu den anderen betrachteten die meiste Information über die zu schätzenden Größen
- über die Parameter (Koeffizienten), über die Struktur des Modells, und auch über die
4-34
Stichprobe selbst, was besonders wichtig ist, und zwar über die Zuverlässigkeit der aus ihr
vorgenommenen Schätzungen und über die obere Grenze des konkreten Strukturkriteriums für
die konkrete Stichprobe.
Im Sinne des Ergebnisses und der Menge an aus der Stichprobe gewinnbaren Information ist
Bootstrap mit der oben beschriebenen Idee identisch, jedoch einfacher in seiner Rechnerrealisierung und andererseits weniger plausibel in seiner Erklärung. Der Berechnungsalgorithmus
weist folgende Unterschiede gegenüber der oben beschriebenen Prozedur auf. Der Zufallszahlengenerator bildet N B Stichproben aus der ursprünglichen Stichprobe in l = li Punkten.
Dabei besteht jede der neuen Unterstichproben aus li Punkten. Das erreicht man, indem bei
der Bildung jeder neuen Bootstrap-Stichprobe einige Punkte der ursprünglichen Stichprobe
weggelassen werden und einige Punkte wiederholt werden. Der Unterschied zur vorherigen
Idee besteht in Folgendem. Wenn man jeden Punkt der Information bedingt als "Experte"
bezeichnet, so werden bei der ersten Idee aus jeder Unterstichprobe einige Experten
ausgeschlossen, während bei Bootstrap sowohl einige ausgeschlossen werden, aber andere ein
mehrfaches Gewicht erhalten. Diese Gewichte ändern sich von Stichprobe zu Stichprobe im
Bereich von 0 (d.h., der Experte ist ausgeschlossen) bis 1 (d.h., der Experte entscheidet
völlig selbständig). Bezüglich der Gewinnung von Information über die "Dynamik" der
Schätzungen sind beide Ideen gleichwertig.
Bei kurzen Stichproben lassen sich die Dispersion und die mathematische Erwartung leider
nicht auf der Basis von Datenteilungen nach Bootstrap, Jack-Knife oder anderer schätzen.
Aber anhand der Information, die man mit Hilfe von Bootstrap, Jack-Knife oder einfachen
Datenteilungen erhält, kann man über den Abstand bis zum Punkt li=C oder über den
Grad der Dynamik der Daten urteilen, d.h. über den Abstand bis zum "stationären"
Bereich, bei der man die strukturelle Identifikation mit traditionellen Methoden durchführen
kann.
Strukturselektionskriterien, die auf einer einmaligen Teilung der Stichprobe basieren,
wurden ausführlich in [LAN 83] untersucht. Die Ergebnisse dieser Untersuchungen decken
sich mit der Feststellung aus Abschn. 4.7.1., daß eine einmalige Teilung der Stichprobe nur
zu einer stark begrenzten Information über die Struktur führt. Deshalb werden diese Kriterien
in der vorliegenden Arbeit nicht mehr betrachtet.
Strukturselektionskriterien, die auf einer l-fachen Teilung der Stichprobe aus l Punkten
beruhen (Jackknife-Idee), werden in der Anlage untersucht.
4-35
Die Anwendung der Bootstrap-Idee in der strukturellen Modellierung wird ebenfalls in der
Anlage untersucht. Dabei werden mittels der Bootstrap-Idee drei in ihren Anwendungszielen
verschiedene Kriterien gebildet:
a) Kriterien zur Identifikation der Unsicherheit (hier: CIU = Criterion for Identification of
Uncertainty),
b) Kriterien zur Struktursuche (hier: CNS = Criterion of Non-linear Sum),
c) Strukturselektionskriterien für die Intervallschätzung, d.h. Bildung von Maßen zur
praktischen Bewertung der Qualität des Strukturselektionskriteriums.
4-36
Herunterladen