4. Ein Überblick über alternative Ansätze der strukturellen Modellierung 4.1. Ausgangspunkte für die Entwicklung alternativer Identifikationsmethoden Die im Kapitel 3 dargestellte Untersuchung zu Ursachen neuer Probleme führte zu dem Schluß, daß es notwendig ist, spezielle Strukturselektionskriterien zu entwickeln. Deshalb werden in dem nachfolgenden Überblick nur die alternativen Identifikationsschemata betrachtet, die in Verbindung mit der Entwicklung von Strukturselektionskriterien stehen, die unter den speziellen Bedingungen angewandt werden können, die in den Kapiteln 2 und 3 beschriebenen wurden. Auf die Darstellung anderer Aspekte der Modellierung wird verzichtet. Unter dieser Einschränkung lassen sich die Phasen der Entwicklung von Identifikationsmethoden wie in Abb. 4.1.a. gezeigt darstellen. Aus dieser Darstellung geht hervor, daß bei der Erarbeitung neuer Herangehensweisen eine stürmische Entwicklung zu verzeichnen ist. Leider sind die Zusammenhänge und die Verflechtungen der Ideen und Methoden vieler unabhängig entwickelter, aber oftmals ähnlicher Richtungen der strukturellen Identifikation noch nicht sichtbar. Das betrifft insbesondere die Richtungen, die einerseits in der englischsprachigen und andererseits in der russischsprachigen Literatur beschrieben werden. Offensichtlich ist eine solche Erscheinung charakteristisch für die Phase der induktiven Entwicklung im Unterschied zur ausgereiften deduktiven Phase. Im Kapitel 4 wird eine kurze Beschreibung der grundlegenden neuen theoretischen Richtungen in der strukturellen Identifikation gegeben, die zu unterschiedlichen speziellen Strukturselektionskriterien geführt haben. Im Kapitel 5 werden die Zusammenhänge zwischen diesen Richtungen auf der Basis eines hier vorgeschlagenen optimierungstheoretischen Konzepts analysiert. Schließlich wird im Kapitel 5 auch eine praktische Klassifikation der Kriterien vorgeschlagen. 4-1 Erster Zyklus: Induktive Phase • • • • • Frühe Deduktion Þ Laplace Legendre Gauß Bernoulli Lambert • • • Reife Deduktion Þ Gauß Markov Fisher • • • • • • • • Erweiterung des Aufgabenfeldes und der Þ Rechnermöglichkeiten Fisher Rao Zypkin Eykhoff Draper / Smith Wiener Reibman Box / Jenkins/ Cox u.a. (Versagen der traditionellen Herangehensweise) Neuer Zyklus: Überdenken der traditionellen Þ Prinzipien • • • • Tukey Gabor Ivachnenko Efron Induktive Phase Þ . . . . . . . . . . . .. • • • • • • • • • • • • Mallows Ezekiel / Haitovsky / Allen / Aitkin / Rothman / Helms Kovanic Wilcoxon Box Seber Findley Furnivale Daniel / Wood Hampel Hober Hoerl / Kennard / Trenkler • Walsh • Bellman • Ivachneko • Tamura / Kondo / Sawaragi • Unbehauen / Haber / Kortmann • Shibate • Broersen • Vapnik • Akaike u.a. Abb. 4.1.a: Entwicklungszyklen der Identifikationstheorie (unter dem Aspekt der Entwicklung von Strukturselektionskriterien) 4-2 4.2. Die strukturelle Minimierung des empirischen Risikos Von Vapnik wurden zwei Herangehensweisen für die "in den Parametern lineare" strukturelle Modellierung bei kleinen Stichproben vorgeschlagen, und zwar die Methode der strukturellen Minimierung des empirischen Risikos [VAP 79] [VAP 84] und die Methode der gleitenden Kontrolle [VAP 84]. Die Besonderheit der Methode der Minimierung des empirischen Risikos besteht darin, daß sie zu einem Strukturselektionskriterium führt, das nicht nur die Interpolationsgenauigkeit, d.h. die RQS berücksichtigt, sondern auch das Verhältnis des Umfangs der Stichprobe zur Komplexität der Struktur. Außerdem erfaßt dieses Kriterium den Wert des Konfidenzniveaus (1-η) quantitativ derart, daß alle konkurrierenden Strukturen unabhängig von ihrer Komplexität ein und dasselbe Konfidenzniveau (1-qη) besitzen, wobei q die Anzahl der Kompliziertheitsstufen der zu vergleichenden Modelle angibt. Die Methode kann als robust bezeichnet werden. Sie ist für Stichproben begrenzten Umfangs geeignet, in denen große Abweichungen, also Störungen des Ausreißer-Typs (vgl. Abschn. 3.1.2.) die Modellauswahl stark beeinflussen können. Das Schema dieser Methode soll nachfolgend in leicht modifizierter Form vorgestellt werden: 1. Die Methode basiert im Unterschied zu den klassischen Methoden darauf, daß die Aufgabe der strukturellen Modellierung unabhängig vom Prozeß der Parameterschätzung betrachtet wird. 2. Das Strukturselektionskriterium Q wird als mathematische Erwartung der Funktion H H R ( yd , a ) betrachtet, wobei a die Parameter der konkurrierenden Modelle und R das Quadrat der Abweichungen zwischen den Ausgängen des Modells und des Objektes ist. H Q = M (R ) = ò R ( y, a )p( y )dy H H 2 R ( y, a ) = [ y − F ( x, a )] wobei p( y ) die "wahre" Dichte der beobachteten Variablen yδ ist. (4.2.a) (4.2.b) Es ist also erforderlich, eine Methode der Bearbeitung der empirischen Daten y δ1 , y δ 2 ,..., y δ l zu entwickeln, die das Ziel verfolgt, mit einer gegebenen H Wahrscheinlichkeit die Funktion R(y, a *) zu bestimmen, die zu einem Wert des H Funktionals Q führt, der nahe dem Minimum ist. Hier sind a * die Parameter einer fixierten Funktion, d.h. der Struktur (s. Gl. 1.2.a). 4-3 3. Ohne a priori Information über die Verteilungsdichte p( y ) kann kein Wert für Q ermittelt werden. Das Funktional (4.2.a) erreicht genau dann seinen minimalen Wertt, wenn die H Ausgangsgröße F ( x , a ) des Modells gleich der mathematischen Erwartung der Ausgangsgröße des Objektes M ( yδ ) ist. Die mathematische Erwartung der Ausgangsgröße des Objektes ist jedoch nicht bekannt, noch weniger die Verteilungsdichte p( y ) . Sie können nur aus einer Stichprobe begrenzten Umfangs geschätzt werden. 4. Aus den oben aufgeführten Gründen wird vorgeschlagen, bei der Anwendung der Tschebyscheff-Formel zur Berechnung von Schranken für Q nicht die absolute Dispersion τ 2abs H τ 2abs := Sup R (y, a ) (4.2.c) H a, y zu verwenden, sondern die relative Dispersion τ 2abs . Für alle a gilt: H H H H 2 H D[R (y, a )] M[R 2 (y, a )] − [M(R (y, a ))] M[R 2 (y, a )] D[R (y, a )] 2 ≤ τ := Sup = Sup H 2 = Sup H 2 −1 a {M[R (y, a )]} a a [M (R (y, a ))] {M[R (y, aH )]}2 rel [M(R (y, aH ))]2 (4.2.d) Das hat den Vorteil, daß jede Verteilung, die zu einem gegebenen linearen Verteilungstyp gehört, unabhängig von den konkreten Parametern eine konstante relative Dispersion besitzt. Diese relativen Dispersionen sind z.B. für die Normalverteilung τ 2rel = 2 , für die Gleichverteilung τ 2rel = 0, 8 und für die Laplace-Verteilung τ 2rel = 5 . Für alle drei Verteilungsgesetze gilt also τ rel < 2, 24 . In [VAP 84] wird diese Tatsache ausgenutzt. Für die Berechnung des empirischen Risikos Qe wird anstelle des allgemein üblichen geschätzten Funktionals Ie = ( H 1 l R y δi , a å l i =1 ) (4.2.e) mit p̂(y ) als aus der Datenstichprobe y δ1 , y δ 2 ,..., y δ l rekonstruierten Verteilungsdichte die Größe Qe = Ie C kor (4.2.f) vorgeschlagen, - der Umfang der Stichprobe und wobei l Ckor - ein Korrekturfaktor ist, der unter Berücksichtigung der ggf. vorliegenden a priori Information über τ rel gewählt wird. 4-4 5. Beim Vergleich mit Q wird in [VAP 84] vom Minimax-Ansatz ausgegangen, d.h. für ein gegebenes κ > 0 wird anstelle der Bedingung { } H H p Q( a ) − Q ( a ) > κ → 0 e l →∞ H für alle a (4.2.g) die Bedingung ìï üï H H p ísup Q( a ) − Q ( a ) > κý → 0 e ïî a ïþ l →∞ (4.2.h) angesetzt. Für kleine Stichproben ist aber nicht nur diese Konvergenz wichtig, sondern auch die Bewertung der Konvergenzgeschwindigkeit, so daß H H p κ = p ìísup Q(a ) − Qe (a ) > κ üý < η(l , κ ) î a þ wobei (1-η) κ pκ (4.2.i) - dem klassischen Vertrauensniveau, - der Vertrauensgrenze und - der Vertrauenswahrscheinlichkeit entspricht. 6. Im Strukturselektionskriterium ist also die Konvergenzgeschwindigkeit zu berücksichtigen. Dazu wird zunächst der Begriff "Strukturumfang" eingeführt: • Strukturen: S1 ⊂ S2 ⊂ ... ⊂ Si ⊂ ... ⊂ Sq • Strukturumfänge: h1 < h 2 < ... < hi < ... < h q Von wenig Daten spricht man in Übereinstimmung mit [VAP 84] dann, wenn das Verhältnis des Stichprobenumfangs zum Strukturumfang l h < 10. 7. Auf der Basis der oben genannten Korrekturfaktoren wird das Strukturselektionskriterium hergeleitet. Das Minimum dieses Kriteriums entspricht der Struktur, die die obere Schätzung des empirischen Risikos Qe minimiert und dabei für jede i-te Struktur mit dem Umfang hi den Ansatz æ l − ln η ö ÷ f çç , l ÷ø è hi (4.2.j) macht, wobei f ein Summand oder Multiplikator ist, der von der Stichprobenlänge l, der relativen Stichprobenlänge l hi und von η abhängt und der für kurze Stichproben in der Form 4-5 æ l − ln η ö H H ÷ p(a ) ≤ v(a ) + f 1 çç , l ÷ø è hi bzw. æ l − ln η ö H H ÷ I (a ) ≤ I e (a ) + f 2 çç , l ÷ø è hi berücksichtigt werden muß. Dabei verringert sich mit der Zunahme von i (d.h. des Strukturumfangs) die Größe I ei , während die Größe C kori , wächst und die Schätzungen Q ei mit einer Wahrscheinlichkeit (1 − qη) für alle q zu vergleichenden Strukturen obere Schranken bilden. 8. Unter Verzicht auf weitere mathematische Feinheiten kann das Kriterium von Vapnik endgültig wie folgt angegeben werden: H I e (a ) H Q(a ) = 1 - τ rel æ h ⋅ (ln(2 ⋅ l h ) + 1) − ln (η 12) ö ÷ ⋅ V çç 2 ⋅ ÷ l è ø (4.2.k) wobei V (κ ) = κ ⋅ 1 − ln κ , 2 κ= 1 η (4.2.l) Ergebnisse der simulativen Untersuchung dieses Kriteriums werden in kurzer Form in der Anlage beschrieben. 4-6 4.3. Der gnostische Ansatz Die gnostische Identifikationstheorie, die in äußerst abstrakter und komplizierter Form in [STE 70], [JUM 75], [JUM 80a], [JUM 80b], [KOV 84a], [KOV 84b], [KOV 84c], [KOV 84d], [KOV 86a], [KOV 86b], [KOV 87], [KOV 89] dargestellt ist, läßt sich nur sehr schwer in Kurzform wiedergeben, ohne in Gefahr zu laufen, wichtige Glieder der logischen Kette zu verlieren. Das Problem besteht darin, daß die gnostische Theorie den bereits nicht trivialen mathematischen Apparat1 mit solchen fundamentalen Begriffen der Physik verbindet, die bereits traditionell zu den kompliziertesten gezählt werden. Trotzdem erscheint es wegen der Originalität und Eleganz dieser Theorie und insbesondere auf Grund der großen Erfolge, die man in der Wirtschaft der Tschechischen Republik und Kanadas bei ihrer praktischen Anwendung für Aufgaben mit kleinen Stichproben, verzeichnet hat, erforderlich, diese Theorie zu betrachten; die Untersuchung der Strukturselektionskriterien wäre sonst unvollständig. In der Tabelle 4.3.a. werden in stark vereinfachter Form die Grundbegriffe der gnostischen Theorie aufgeführt und die Parallelen verallgemeinert, die sich zwischen den Begriffen der Gnostik, der Thermodynamik, der Relativitätstheorie und der Identifikationstheorie ergeben. Dabei beschränkt sich die Darstellung nur auf die Beziehungen, die die Grundideen illustrieren; auf alle mathematischen Beweise und Herleitungen der Wechselbeziehungen zwischen den Größen wurde verzichtet. Leider ist es im Rahmen dieser Arbeit nicht möglich, die komplizierten und äußerst umfangreichen Darstellungen aus [KOV 84d] wiederzugeben, die zu den gnostischen Gleichungen führen, aus denen Kriterien für die Modellierung gebildet werden können. Herleitungen zur Bildung eines Modellierungskriteriums mittlerer Empfindlichkeit und eines robusten Modellierungskriteriums sowie Ergebnisse der Untersuchung dieser Kriterien sind iin der Anlage enthalten. 1 Wie bekannt, ist der in seiner Anwendung unkomplizierte mathematische Apparat der Relativitätstheorie dadurch kompliziert, daß die mathematischen Ideen den physikalischen gleichgesetzt werden, d.h. die Mathematik erscheint nicht in ihrer dem Ingenieur vertrauten Rolle, nicht als Mittel zur Berechnung, sondern als Quelle von Ideen, die die anfänglichen Erfahrungswerte ersetzen, die gewöhnlich die Entwicklung neuer Theorien in der traditionellen Physik stimulieren. 4-7 Theorie Interessierende Erscheinung wichtigste unabhängige Größen Spezielle Relativitätstheorie Wechselwirkung zwischen physikalischen Körpern und deren Umwelt Eigenzeit des i-ten physikalischen Körpers Thermodynamik Wärmeaustausch Gnostische Theorie Informationsaustausch bei der Identifikation und Messung von Daten Bei der Gewinnung der Information (bei der Veränderung der Entropie des i-ten Systems: Messung u.ä.) wird eine Unschärfe eingebracht. ∆τ i = τ i − τ i Q Q i i 2 1 ∆Si = Si − Si = − Der Abstand Ω zwischen den gemessenen und 2 1 τ i2 , τ i1 - sind die Momente der Eigenzeit des iTij Tik den wahren Werten der Meßgröße entsteht ten Körpers mit Tij , Tik - Temperaturen des j-ten und des kwegen der vorhandenen Unschärfe. ∆τ i ist eindeutig mit den physik. Prozessen im ten Körpers des i-ten Systems, die In der gnostischen Theorie sind die sogenannte Inneren des i-ten Objektes verbunden. Es sich im Wärmeaustausch befinden Eigenzeit Ω und die Entropie des i-ten i bestimmt die Kausalkette der Ereignisse des Tij > Tik Informationselements Si invariante Größen. Eigenprozesses (z.B. Atomzerfall). ∆Si ist eindeutig mit Qi , Tij und Tik verbunden. Die Änderung der Entropie beim Informationsaustausch ∆Si ist eindeutig verbunden mit der Unschärfe des i-ten Informationselements ( ) ∆S i = ϕ( Ω i ) im i-ten Datenpunkt. 1) Der Wärmeaustausch in den Systemen erfolgt 1) Jede i-te Unschärfe maximiert die Zeit Ω 1) Trägheitsgesetz i (Gesetz der kleinsten Wirkung): so, daß die Entropie wächst, wobei des gegebenen Informationselements und die Jeder physik. Körper strebt eine solche ∆Si → max. Änderung seiner Entropie: Bewegung an, bei der die Eigenzeit maximiert 2) Sonderfälle: Ωi → max.; ∆Si → max. wird: a. Wärmeaustausch bei 0oK: lim ∆Sio = 0 T1 ,T2 → 0 K 2) Grenzfall: ∆τ → max. Informationsaustausch im idealen b. Wärmeaustausch im idealen geschlossenen (umkehrbaren) s.g. gnostischen Zyklus: Carnot-Zyklus: 2) Sonderfall - Bewegung des Lichts: Die Trägheit des Lichts ist gleich Null: dS → min . dS = 0 ∆τ = τ 1 − τ 2 ≡ 0 3) ∆Si ist immer nichtnegativ, d.h. die Entropie 3) ∆Si ist immer nichtnegativ, d.h. die Entropie ist eindeutig gerichtet und die Prozesse des 3) ∆τ ist immer nichtnegativ, d.h. die Kausalitätsist eindeutig gerichtet und der reale Prozeß des Informationsaustauschs sind irreversibel. kette ist irreversibel. Wärmeaustauschs ist unumkehrbar. Koordinatensystem, in dem die Bewegung des i- Art des Stoffes und Typ der Vorrichtung, die den Art der Grundgesamtheit und der konkreten Invariante ten Körpers beschrieben wird Carnot-Zyklus realisiert. Stichprobe. Jedem Datenpunkt entspricht ein eigenes Koordinatensystem. Tab. 4.3.a: Vergleichende Analyse der Grundideen der speziellen Relativitätstheorie, der Thermodynamik und der gnostischen Schätztheorie (Anfang) von den Invarianten unabhängige Eigenschaften der Eigenwerte ò ò 4-8 Theorie Mathematische Mittel zur Darstellung der Invariante Spezielle Relativitätstheorie Thermodynamik 1) In der traditionellen Kinematik werden Gleichung der Nernst-Entropie für den CarnotEuklidische Koordinatensysteme verwendet (4- Zyklus: bzw. 2-dimensionale: eine Zeit- und eine Raumachse). Die beschriebenen Eigenschaften P Adiabate dS, dQ 1 Adiabate der Körper sind vom Koordinatensystem T=T 1 unabhängig (vgl. [KEL 81]). Alle Achsen des Euklidischen Systems sind gleichberechtigt. A Isotherme 2) Die Eigenzeit ist eindeutig gerichtet und B dQ=0 dQ=0 unumkehrbar. Die Zeitachse und die Isotherme Raumachse sind nicht austauschbar. -dS, dQ D 2 C Das Euklidische System ist ungeeignet. T=T 2 3) Die Eigenzeit wird im Minkowski-Raum V ausgedrückt: Carnot-Zyklus (∆τ)2 = x 2 − y 2 = x 2 − (Ct )2 mit t - Raumkoordinate, C - Lichtgeschwindigkeit 4) Die Niveaulinien für die Gleichung der Eigenzeit sind hyperbolisch: x 2 − (Ct ) = 1, x 2 − (Ct ) = −1 2 2 5) Die Verzerrung im Minkowski-Raum um den Winkel Ω ist in Abb.4.3.a. dargestellt, wobei Ct und x die ursprünglichen Achsen sind und Ct' und x' die Achsen des um den Winkel Ω gedrehten Koordinatensystems. Der Carnot-Zyklus besteht aus zwei sich ergänzenden Phasen: 1) AB + BC - isothermische + adiabatische Expansion 2) CD + DA - isothermische + adiabatische Verdichtung Gnostische Theorie 1) Der gnostische Zyklus besteht aus zwei Hauptphasen: - der Phase der Informationserfassung - der Phase der Identifikation 2) Für die mathematische Darstellung des unumkehrbaren Prozesses der Informationserfassung (Messung) werden die geometrischen Darstellungen des Minkowski-Raums verwendet. Das gestattet, jeden Punkt unabhängig von den anderen zu betrachten. Die Veränderung der Entropie in dieser Phase ist vergleichbar mit der Phase (AB) im CarnotZyklus. 3) Die ergänzende Phase der Identifikation wird im Euklidischen Raum beschrieben. Die Veränderung der Entropie entspricht hier der Phase (CD) im Carnot-Zyklus. 4) Im Unterschied zum Carnot-Zyklus ist die Summe der Änderungen der Entropie und dementsprechend der Information im gnostischen Zyklus (Abb.4.3.b.) nicht gleich Null [KOV 84a]. Die Informationsänderung ist immer eine negative Größe (Informationsverlust) ähnlich der Kullback-Information [KUL 67]. Tab. 4.3.a: Vergleichende Analyse der Grundideen der speziellen Relativitätstheorie, der Thermodynamik und der gnostischen Schätztheorie (Fortsetzung) 4-9 Theorie Rolle der invarianten Größe in der Theorienentwicklung Spezielle Relativitätstheorie Bei Kenntnis der Koordinatenzeit kann man die Eigenzeit berechnen. Die Gesetze der Wechselwirkung, die die Eigenzeit maximieren, hängen aber nicht vom Koordinatensystem ab. Alle Bezüge der Relativitätstheorie [EIN 38] wurden ausgehend von den Eigenschaften der invarianten Größen entwickelt (deren wichtigste Größe die Eigenzeit ist). Thermodynamik Auf der Basis der Kenntnis der allgemeinen Eigenschaft - der Zunahme der Entropie eines Systems beim Wärmeaustausch - wird die NernstGleichung für die Entropie in Abhängigkeit von • der Temperatur T, • dem Volumen V, • dem Druck P, • der inneren Energie U, • der Arbeit W, • der Wärmemenge im Wärmevolumen Q und • der Art des Stoffes aufgestellt. Bei Kenntnis der Art des Stoffes kann man die Entropie berechnen, aber das Gesetz der Zunahme der Entropie hängt nicht von der Art des Stoffes ab. Das Carnot-Theorem beweist, daß man die minimale Entropieveränderung im geschlossenen Carnot-Zyklus erhält [FEY 63]. Gnostische Theorie Durch Ausnutzung der Unschärfeeigenschaft und Maximierung der Entropieänderung und dementsprechend der Eigenzeit des Informationselements wird die Gleichung für die Abhängigkeit der Entropie S von folgenden Faktoren aufgestellt: • s.g. Unwahrheit des Prozesses der Informationsgewinnung fq (vgl. mit der Dispersion des Prozesses oder bzgl. eines Punktes mit der quadratischen Abweichung der gemessenen Werte vom wahren Wert) • s.g. Unwahrheit des Identifikationsprozesses fe (vgl. quadratische Abweichung der identifizierten Größe von der wahren Größe) • hq - Asymmetrie des Prozesses der Informationsgewinnung (vgl. Asymmetrie der Verteilungsdichte) • he - Asymmetrie der Identifikation (vgl. Nichterwartungstreue der Schätzung) Es kann bewiesen werden, daß der geschlossene gnostische Zyklus (Messung - Identifikation) die Entropieänderung minimiert. Dabei läßt sich ∆S im Zyklus ausgehend von unterschiedlichen Charakteristika ( f q , f e , hq , he ) minimieren, wobei man eine Schätzung des unterschiedlichen Grades der Robustheit (Empfindlichkeit) bekommen kann. Tab. 4.3.a: Vergleichende Analyse der Grundideen der speziellen Relativitätstheorie, der Thermodynamik und der gnostischen Schätztheorie (Fortsetzung) 4-10 Theorie Spezielle Relativitätstheorie Thermodynamik Gnostische Theorie Schlußfolgerungen I. Erkennen neuer physik. Grenzen: I. Erkennen neuer physik. Grenzen: I. Erkennen neuer physik. Grenzen: - Unmöglichkeit der Bewegung von Körpern - Unmöglichkeit eines Prozesses, dessen - Unmöglichkeit der vollständigen Wiederaus den mit Geschwindigkeiten oberhalb der Lichteinzigstes Resultat die Aufhebung eines herstellung der Information bei der Identifikatheoretischen Beschreibungen für geschwindigkeit Körpers und seine Wandlung in Arbeit wäre. tion technische Anwendungen II. Berechnung neuer Grenzwerte: II. Berechnung neuer oberer Effizienzsgrenzen aus den physik. Grenzen: II. Berechnung neuer oberer Effizienzsgrenzen 1. Die gnostische Theorie nutzt die Kenntnis der 1. in der neuen Kinematik aus den physik. Grenzen: Eigenschaften der Entropieänderung bei der Ermittlung von Informationen über das Objekt 2. in der neuen Dynamik und in den neuen 1. Die maximale Arbeit wird durch die ( ∆S → max.) für die Bildung eines möglichst Erhaltungssätzen (Impulserhaltungssatz u.a.) Bildung möglichst geschlossener Zyklen geschlossenen Zyklus der Informationsverarerreicht: beitung mit minimalen Verlusten. Dieser Zyklus dS → min. besteht aus zwei einander ergänzenden Phasen, (Für den idealen Carnot-Zyklus gilt: dS = 0 .) der Phase der Informationsgewinnung ( dS → min. ) und der Phase der Identifikation 2. Aus der Relation des Carnot-Zyklus wird der oberer Grenzwert des Wirkungsgrades ( dI → max.), wobei I die durch die Identifika(Effizienz) des Wärmemotors berechnet: tion zu regenerierende Information ist. 2. Aus den Relationen des gnostischen Zyklus T1o − T2o WG max = werden 7 (bzw. 8) Arten der Schätzung der geT1o messenen Größe abgeleitet. Jede Schätzung o besitzt einen anderen Grad der Robustheit. Die mit T1 - Temperatur der isothermischen gnostische Robustheit wird dabei im allgemeinExpansion üblichen Sinn verstanden (vgl. [MIL 64], [MIL T2o - Temperatur der isothermischen 68], [HOY 68], [HUB 70], [HAM 73], [HAM Verdichtung 74], [MIL 74], [TUK 75], [HAM 86] ). In allgemeinster Formulierung bedeutet Robustheit der Schätzung eine geringe Empfindlichkeit gegenüber Anomalien in den Ursprungsdaten. Für die Schätzung der Regressionsparameter und auch für die Schätzung der Verteilungsparameter werden robuste Methoden empfohlen. Für den Hypothesentest werden empfindliche Schätzungen empfohlen. Tab. 4.3.a: Vergleichende Analyse der Grundideen der speziellen Relativitätstheorie, der Thermodynamik und der gnostischen Schätztheorie (Ende) ( ) 4-11 Das robuste Kriterium ließ sich aus der gnostischen Gleichung nur in impliziter Form herleiten und wird deshalb im Programm mittels eines numerischen Algorithmus berechnet. Das empfindliche Kriterium, das für die Strukturselektion geeignet ist, hat folgende Form: å (y l Q Gno = 4 i =1 l å (y i =1 δi − yi 1 δi − yi ) 2 ) 2 = l 4 RSS 1 å (y i =1 δi (4.3.a) − yi ct ) 2 ct' Ω 1 l l1 1 l 1l Ω x Abb. 4.3.a: Informationsverlust bei Messungen als unumkehrbarer Prozeß (Darstellung im Minkowski-Raum) 4-12 y y' 1(x',y') Q E A x' E 1(x',y') Q Ω Ω Q E - Quantification (Messung) - Estimation (Schätzung) - Attenuation (Verminderung) 1(x,y) - entspricht der idealen Einheit z0 x 1(x,y) 1(x',y') Abb. 4.3.b: Gnostischer Informationszyklus (QEA) 4-13 4.4. Die Maximierung der Negentropie Durch den japanischen Wissenschaftler Akaike wurde eine weitere Identifikationsmethode vorgeschlagen, die die thermodynamische Definition der Entropie nach Boltzmann benutzt (vgl. [AKA 71], [AKA 72], [AKA 73], [AKA 74], [AKA 75], [AKA 76a], [AKA 76b], [AKA 77], [AKA 78a], [AKA 78b], [AKA 78c], [AKA 78d], [AKA 79a], [AKA 79b], [AKA 79c], [AKA 79d], [AKA 80], [AKA 81], [BHA 77], [SAW 79], [KAR 82]). Wie auch die Methode von Vapnik wurde auch die Methode von Akaike im Gegensatz zur gnostischen Theorie speziell für die Bestimmung der Struktur des Modells entwickelt. Nachfolgend sollen in verkürzter Form die Hauptetappen der Herleitung des Strukturselektionskriteriums von Akaike gezeigt und interpretiert werden. Eine ausführliche Darstellung findet man in [AKA 72]. 1. Akaike geht davon aus, daß die Schätzung mit der Likelihood-Methode eine nichterwartungstreue Schätzung des Mittels für das wahre Modell ist, da die Struktur der geschätzten Zeitreihen immer vereinfacht ist. Deshalb ist es wünschenswert, ein Strukturselektionskriterium zu besitzen, das die Verzerrung kompensiert. 2. Im Unterschied zu Vapnik, der bei der Identifikation auf die Wiedergewinnung der Verteilungsdichte verzichtet und mit einer Minimierung der oberen Grenze des empirischen Risikos auskommt, betrachtet Akaike die Wiedergewinnung der Wahrscheinlichkeitsverteilung der Eingangsgröße als Ziel der Identifikation. Deshalb wählt er als Maß der Qualität des gewählten Modells den mittleren Grad der Übereinstimmung der aufgrund des Modells geschätzten Wahrscheinlichkeitsverteilung mit ihrer tatsächlichen Form. Als Maß der Übereinstimmung der Verteilungsdichten p( y ) und p̂( y ) wird die Größe æ p( y ) ö ÷÷ dy B( p, pˆ ) = − ò p( y ) ⋅ lnçç è pˆ ( y ) ø (4.4.a) gewählt, wobei pˆ ( y ) = pˆ [F ( x, a )] - die aufgrund der Eingangsdaten und des Modells gewonnene p( y ) Verteilungsdichte von y und - die wahre Verteilungsdichte von y ist. 4-14 Diese Größe wird Negentropie (oder Kullback-Information [KUL 67]) genannt. Sie ist immer eine nichtpositive Größe und nur dann gleich Null, wenn beide Verteilungsdichten identisch sind. 3. Die Prozedur der Identifikation wird hier auf die Suche der Verteilung pˆ ( y, y l ) als Funktion der Datenstichprobe yl der Länge l zurückgeführt. Die Verteilung pˆ ( y, y l ) ist dabei die Schätzung der wahren Verteilung p( y ) anhand von yl . 4. Des weiteren wird der Begriff der stochastischen Struktur als eines die Daten yl erzeugenden Systems eingeführt. Die Effizienz der Identifikation wird mit Hilfe des Kriteriums M{B[ p, p( y : y l )]} (4.4.b) beurteilt, wobei M die mathematische Erwartung bezüglich der yl erzeugenden stochastischen Struktur ist. 5. Bei mehreren zu vergleichenden Strukturen wird die Struktur mit dem kleinsten Wert von (4.4.b) ausgewählt. Dabei ist die Dichte zunächst noch unbekannt. H 6. Die zwei Etappen der Identifikation, die Schätzung des Parametervektors a j ( y l ) für jede Struktur j und die Auswahl der "besten" Strukrur, können in einem Ausdruck zusammengefaßt werden. Durch Annahme von H H pˆ ( y : y l ) = pˆ ( y a ( y l )) = pˆ ( y a ) ergibt sich die Entropie zu H H B ( p : pˆ ( y a )) = ò p ( y ) ⋅ ln pˆ ( y a )dy − ò p ( y ) ⋅ ln p ( y )dy (4.4.c) Bei einer fixierten Wahrscheinlichkeitsdichte ist die zweite Komponente im Ausdruck 4.4.c konstant, so daß nur die erste Komponente berücksichtigt werden muß. Sie ist aber nichts anderes als das Mittel des Logarithmus der Likelihood-Funktion: H H M y {ln pˆ ( y a )} = ò p ( y ) ⋅ ln pˆ ( y a )dy Hier läßt Akaike eine Annahme zu, die von ihrem Sinn her der Annahme von Vapnik beim Übergang zum empirischen Funktional Ie = H 1 l R( y i , a ) å l i ähnlich ist (vgl. [VAP 84] u. Abschn. 4.2.). 4-15 H Akaike betrachtet nämlich die Größe ln pˆ ( y a ) als natürliche Schätzung für H M y {ln pˆ ( y a )} sogar für den Fall, daß die Verteilungsdichte p( y ) nicht bekannt ist. Damit bekommt die Likelihood-Schätzung auch dann einen Sinn, wenn die Formen der H Verteilungen pˆ ( y a ) und p( y ) nicht identisch sind. 7. Wie auch Vapnik ist sich Akaike klar darüber, daß eine solche Annahme zur Verzerrung H H pˆ ( y a ( y l )) und zur nichterwartungstreuen Schätzung M y {ln pˆ ( y a ( y l ))} führt. Wie auch bei Vapnik wird eine Korrektur dieser Verzerrung gesucht. 8. Ohne hier auf die mathematische Herleitung einzugehen sei bemerkt, daß die Korrektur der Verzerrung auf der Basis der asymptotischen Beziehungen des Grenzübergangs l → ∞ (was ein Nachteil bei kleinen Stichproben ist) und der Eigenschaften der Likelihood-Schätzungen bei Nutzung der χ 2 -Verteilung mit (M+1) Freiheitsgraden entwickelt wird. Hier ist (M+1) die Anzahl der Parameter des Modells. 9. Im Ergebnis entstanden folgende Kriterien, die eine Korrektur der Verzerrung einschließen: • FPE - Criterion of Final Prediction Error [AKA 70], [OTO 72]: FPE = l ⋅ ln (RQS) + l ⋅ ln • l + M +1 , l − M −1 AIC - Akaike's Information Criterion [AKA 72], [BHA 77]: AIC = l ⋅ ln (RQS) + l ⋅ (M + 1) , • AIC* [SAW 79], [KAR 82]: AIC* = l ⋅ ln (RQS) + 2(M + 1) + C mit C - Konstante. Weiterentwicklungen von AIC kann man z.B. auch in [FIN 85] finden. Die Vielfalt der Kriterien zeigt, daß diese Herangehensweise noch nicht in ihr Reifestadium getreten ist und deshalb eine Weiterentwicklung erfordert. Gerade die Vielfalt der Korrekturen der RQS (bzw. der Likelihood-Schätzung) stellt die größte Schwäche dieses Ansatzes dar. Die Ursache dafür ist in der Annahme zu sehen, auf die im Punkt 6 hingewiesen wurde. Wie im 4-16 Kapitel 5 gezeigt werden wird, besteht gerade darin die allgemeine, zur Zeit noch ungelöste Schwierigkeit bei vielen modernen Methoden der strukturellen Identifikation. In der Anlage werden Ergebnisse von Untersuchungen einer Gruppe modifizierter Kriterien vorgestellt, die entsprechend der im Abschn. 5.6. vorgeschlagenen Klassifikation auch Akaike-Kriterien enthält. 4-17 4.5. Eine Erweiterung der Methodik von Fisher Die Entwicklung neuartiger Strukturselektionskriterien begann mit dem "Kriterium des korrigierten Determinationskoeffizienten2: Rm2 " (vgl. [EZE 59], [HAI 69], [EDW 69]). 4.5.1. Strukturselektion als statistischer Test Wie bekannt, kann die Aufgabe der Strukturselektion nicht nur unter dem Blickwinkel der statistischen Schätztheorie betrachten werden, sondern auch aus Sicht der klassischen Theorie der statistischen Tests von Hypothesen, die von Fisher entwickelt wurde. Die Methodik ist auf die Prüfung der statistischen Sicherheit der Modelle gerichtet. Ihr Ziel besteht darin, die Effekte, die durch zufällige Faktoren erklärt werden können, von denen zu unterscheiden, die durch die Änderung der unabhängigen Eingangsvariablen hervorgerufen werden. Es wird geprüft ob die Ergebnisse der Experimente (Datentabelle) der angenommenen Nullhypothese widersprechen. Als Nullhypothese H0 wird hier die Hypothese gewählt, daß H H H alle Abweichungen von y zufälliger Natur sind, d.h. a = 0 . H1 ist dann die alternative Hypothese. Bei der Prüfung der Hypothesen sind zwei Fehlerarten möglich: 1. Fehler 1.Art: Die Nullhypothese H0 wird verworfen, obwohl sie richtig ist. Die Wahrscheinlichkeit eines solchen Fehlers bezeichnen wir mit η. η (bzw. sein maximaler Wert auf H0 ) heißt Signifikanzniveau des Tests. 2. Fehler 2. Art: Die Nullhypothese H0 wird angenommen, obwohl sie falsch ist. Die Wahrscheinlichkeit dieses Fehlers sei mit β bezeichnet. In der klassischen Testtheorie wird der Test als optimal bezeichnet, bei dem bei gegebenem Signifikanzniveau η die Fehlerwahrscheinlichkeit β (bzw. ihr maximaler Wert auf H1 ) minimiert wird (Neyman-Pearson-Aufgabe). Eine solche Definition der Optimalität erscheint zwar natürlich, aber sie bleibt nicht ohne Widerspruch. Die neueren Methoden der strukturellen Identifikation, die im Kapitel 5 ausführlicher beschrieben werden, zeichnen sich durch verschiedene Abweichungen von ihr aus. 2 auch Bestimmtheitsmaß genannt 4-18 Der Neyman-Pearson-Definition eines optimalen Tests liegt zugrunde, daß es prinzipiell nicht möglich ist, gleichzeitig beide Fehlerarten zu minimieren, da diese Minimierungen ihrem Wesen nach entgegengesetzten Charakters sind (vgl.: Beispiel der Anwendung des StudentKriteriums (t-Test) für die verbessernde Auswahl von Modellgliedern im Abschn. 5.2.). Im Prinzip stößt die Anwendung der Testtheorie für die Strukturselektion auf die gleichen Schwierigkeiten, wie auch die Schätztheorie. Unterschiede liegen nur in den mathematischen Formulierungen. Neben den Schwierigkeiten, die mit der besonderen Form der Formulierung der Optimierungsaufgabe zusammenhängen, was charakteristisch für alle neuen statistischen Herangehensweisen an die Struktursuche ist (vgl. Kap. 5), weist die Anwendung der Testtheorie und dabei die Nutzung der Fisher-Verteilung (bzw. Student-Verteilung) für die Struktursuche einen weiteren Nachteil auf. In den modernen Algorithmen der Struktursuche sind folgende Strukturselektionskriterien üblich, die aus der klassischen Testtheorie abgeleitet wurden: • das Student-Kriterium (t-Test) , vgl. z.B. [WER 89]; • das Fisher-Kriterium (F-Test) , vgl. z.B. [KOR 87], [KOR 88a]; • der Determinationskoeffizient (multiple determination coefficient) vgl. [DRA 81], [KOR 87], [KOR 88a]. Das Fisher-Kriterium und der Determinationskoeffizient basieren auf der Analyse folgender Beziehungen: 1. Die Streuung der Daten yδ1 ,..., yδl um ihren Mittelwert yl l ( S1 = å y δi − y l i =1 ) 2 (4.5.a) charakterisiert die Nichtkonstanz der Ausgangsvariablen ("Stichprobenvarianz"). 4-19 2. Die Streuung der Daten um die Regressionskurve, gegeben durch y = Fl ( x , a ), yi = Fl ( xi , a ) ( l S 2 = å y δi − yˆ i i =1 ) 2 = RSS (4.5.b) charakterisiert die Genauigkeit der Approximation der Daten durch das Modell ("nichterklärte Varianz"). 3. Die Streuung der Regressionskurve um den Mittelwert der Daten l H 2 S 3 = å ( yˆ i − y ) (4.5.c) i =1 charakterisiert die Existenz des linearen Trends ("erklärte Varianz"). Bei linearer Regression mit Kleinst-Quadrat-Schätzung von a gilt: S1 = S2 + S3 (4.5.d) Nachfolgend sollen das Fisher-Kriterium und das Determinationskriterium mit und ohne Korrektur bezüglich ihrer Anwendung für die Strukturselektion verglichen werden. Das Fisher-Kriterium lautet: QF = wobei MS 2 = MS 3 MS 2 (4.5.e) S2 S ; MS 3 = 3 l−m m−1 Falls die Störungen normalverteilt sind, ist QF F-verteilt mit ( m − 1, l − m − 1) Freiheitsgraden. Auf der Basis dieses Vergleiches von QF mit den tabellierten Werten F( m −1),(l −m −1),(1−η) wird die Hypothese H0 : ai = 0 angenommen oder verworfen. Die Irrtumswahrscheinlichkeit η wird für QF gewöhnlich unter Berücksichtigung der Besonderheiten der Anwenderaufgabe gewählt, die jedoch bei der Modellierung von Systemen unter der Bedingung geringer a priori Information nicht immer klar sind (Genaueres dazu - s. Abschn. 5.2.). Die Verteilung der Störung der Information ist gewöhnlich ebenfalls nicht bekannt. 4-20 4.5.2. Das Kriterium des korrigierten Determinationskoeffizienten Seit langer Zeit wird als Strukturselektionskriterium das Determinationskriterium QR 2 = S3 S1 (4.5.f) angewandt (vgl. [DRA 81], [KOR 87], [KOR 88a]), wobei anstelle des Ausdrucks QR 2 in der Literatur gewöhnlich R 2 verwendet wird. Dieses Kriterium gibt an, welcher Teil der Streuung der gemessenen Daten um ihren Mittelwert durch das Modell erklärt wird. Dieses Kriterium besitzt jedoch folgenden Nachteil. Wie aus Abb. 1.5.2.a. ersichtlich ist, bildet das Modell mit der komplizierteren Struktur die Störungen besser nach, d.h. es beschreibt mehr die Störung als den eigentlich interessierenden Kurvenverlauf. Im Beispiel beschreibt die übermodellierte Struktur (hier ein Polynom 5. Grades) gut die Streuung der Daten (es besitzt einen guten Wert QR 2 ). Man trifft hier also auf die gleiche Schwäche wie bei der RQS in ihrer Anwendung als Strukturselektionskriterium. Diese Verbindung mit der RQS ist auch aus den mathematischen Beziehungen ersichtlich: die Maximierung von QR 2 ist ( ) identisch mit der Minimierung von Q(1− R 2 ) , d.h. mit der Minimierung von 1 − R 2 : (1 − R ) = 1 − SS 2 3 1 = S1 − S 3 S1 Mit der Beziehung 4.5.d. ergibt sich (1 − R ) = SS 2 2 1 = RQS S1 (4.5.g) d.h., die Maximierung des Determinationskoeffizienten (multiple correlation coefficient) ist gleichbedeutend mit der Minimierung der Restquadratsumme. Zur Vermeidung dieser Schwäche des Determinationskoeffizienten kann man eine Korrektur einführen, die die Komplexität der Struktur (die Anzahl der Summanden) berücksichtigt, d.h. nicht jede Struktur, die den Determinationskoeffizienten vergrößert (also die komplexeste) wird als gut gewertet, sondern diejenige, die bei begrenzter Komplexität den Wert des Determinationskoeffizienten erhöht. Als Beispiel für ein solches Kriterium kann das von Aitkin [AIT 74] zum Vergleich zweier Modelle genannt werden: Es vergleicht ein "vollständiges" mit einem "reduzierten" Modell. 4-21 Q Ait = mit m +1 s = m + 1− r Rm2 +1 − Rs2 (1 − Rm2 +1 ) (l − m − 1) (4.5.h) - Anzahl der Glieder des vollständigen Modells - Anzahl der Glieder des reduzierten Modells Die Nullhypothese H0 :( ai = 0 für m +1- r < i ≤ m +1) wird genau dann angenommen, wenn: Q Ait < m ⋅ Fm ,(n − m −1),(1−η ) (4.5.i) Dieses Aitkin-Kriterium stellt einen Test der Signifikanz der Verringerung von R 2 (bzw. der Vergrößerung der RQS) bei der Reduktion des Modells dar. Wie aus der Beziehung 4.5.i. ersichtlich ist, treten bei der Anwendung von QAit ebenso Probleme im Zusammenhang mit der Unsicherheit bei der Wahl von η und der Unkenntnis des Verteilungsgesetzes der Störungen auf, wie auch beim F-Test. Deshalb ist folgende Korrektur des Determinationskoeffizienten, die von Ezekiel bereits 1930 vorgeschlagen wurde (vgl. [EZE 59]), günstiger: l Q R 2 = 1 − (1 − Rm2 +1 ) ⋅ (4.5.j) l − m −1 2 wobei Rm+1 - der gewöhnliche Determinationskoeffizient für die Struktur mit ( m + 1) Gliedern ist. Hier erfolgt die Korrektur von R 2 unter Berücksichtigung der Komplexität der Struktur, die durch das Verhältnis von l und m ausgedrückt wird. In [HAI 69] und [EDW 69] wurde gezeigt, daß nur dann Rm2 +1 > Rm2 +1− r ist, wenn F ≥ 1, wobei F folgende ist: F= Rm2 +1 − Rm2 +1−r l − m − 1 ⋅ r 1 − Rm2 +1 (4.5.k) Im allgemeinen Fall kann ∆R 2 = Rm2 +1 > Rm2 +1−r auch einen negativen Wert annehmen, und insbesondere dann, wenn das Verhältnis l (m + 1) zu klein ist (vgl. auch die im Abschn. 4.2. (Punkte 6 und 7) dargestellten Aussagen von Vapnik zum Verhältnis des Stichprobenumfangs zum Strukturumfang). R 2 wächst bei der Erweiterung des Modells um neue Glieder genau dann, wenn F > 1. 4-22 Diese Beziehung drückt die Bedingung "viel oder wenig Daten" aus, unter der die Modellierung erfolgt. (Vgl. auch die im Abschn. 4.2. nach [VAP 84] zitierte Grenze l h < 10, hier ist h = m + 1.) Im Ausdruck 4.5.k. ist η nicht explizit enthalten, was die praktische Anwendung dieser Beziehung in Strukturselektionsalgorithmen wesentlich erleichtert. Das Kriterium des korrigierten Determinationskoeffizienten wurde zum Ausgangspunkt für alle modernen Strukturselektionskriterien mit Ausnahme der gnostischen Kriterien und der Verhaltenskriterien. Im Anhang 1 werden Ergebnisse der Untersuchung des Kriteriums von Mallows [MAL 73], vorgestellt, das in der vorliegenden Arbeit für den Fall kurzer Datenstichproben modifiziert wurde. Das Kriterium von Mallows basiert im Gegensatz zu den genannten Kriterien QR 2 und QF nicht auf der statistischen Testtheorie, sondern auf der statistischen Schätztheorie. Im Endeffekt führt es aber zu ähnlichen Ergebnissen wie auch das hier betrachtete Kriterium des korrigierten Determinationskoeffizienten. 4-23 4.6. Berücksichtigung der Verzerrung Bei der Bildung von Modellen, die für die Prognose bestimmt sind, ist die mathematische Erwartung des Objektausgangs M ( y ) die interessierende Größe. Die normierte mathematische Erwartung der Summe der Quadrate der Abweichungen des Modellausgangs von M ( y ) läßt sich im allgemeinen Fall wie folgt ausdrücken: ∆ h = [ ( )] üý = 1 ì l (h) M íå yˆ i − M y δi σ 2 î i =1 2 þ ( ( )) üý l 1 ì l ( h) ˆ var y + M ( yˆ i( h ) ) − M y δi í å i å σ 2 î i =1 i =1 2 þ (4.6.a) wobei yi(h) - die Schätzung des Ausganges des aus h Gliedern bestehenden unvollständigen Modells im Punkt i ist. Die Existenz des zweiten Summanden im Ausdruck (4.6.a) ist darauf zurückzuführen, daß i.a. M y i( h ) ≠ M y δi gilt, d.h. darauf, daß das unvollständige Modell eine nichterwartungstreue ( ) ( ) Schätzung des Modellausgangs (der sog. Vorhersage, der Prognose) liefert. An dieser Stelle sei auch an Abschn. 3.1.1. erinnert, in dem im Unterschied zu den gegenwärtigen Betrachtungen nicht die Verzerrung der Ausgangsgröße sondern die H Verzerrung des Koeffizientenvektors aT des reduzierte Modells im Vergleich zum H Koeffizientenvektor a des vollständigen Modells berechnet wurde. Die Verzerrung der Schätzung der Prognose (wie auch die Verzerrung des Vektors der geschätzten Koeffizienten im Abschn. 3.1.1.) entsteht auf Grund der Vereinfachung des Modells. Die Schätzung y ist immer dann verschoben, d.h. nicht erwartungstreu, wenn das verwendete Modell wenigstens ein Glied weniger enthält als das echte Modell. Da die Größe dieser Verzerrung unbekannt ist und beliebig groß sein kann, ist es nicht sinnvoll, die Größe å [yˆ l i =1 i ( )] − M y δi 2 mittels å (yˆ l i =1 i − y δi ) 2 = RSS zu schätzen. Man kann beliebige Ergebnisse bekommen, die vollständig vom Regressionseffekt (vgl. Abschn. 3.1.3.) und nicht von den Prognoseeigenschaften der gegebenen Struktur des Modells abhängen. Die RQS (bzw. RSS) könnte man zur Auswahl der Struktur des Modells dann verwenden, wenn es gelänge, die Verzerrung der Schätzung der Ausgangsgröße, also den zweiten 4-24 Summanden in (4.6.a), der nachfolgend SSBh = Sum Square of Bias genannt werden soll, zu schätzen. Mallows [MAL 73] schlug vor, die gesamte normierte Summe der Quadrate ∆ h = [ ( )] üý 1 ì l ( h) M íå yˆ i − M y δi σ 2 î i =1 2 þ mittels folgender Stichprobenfunktion Ch zu schätzen: Ch = RSS h + 2h − l σ 2M +1 (4.6.b) wobei h - die Anzahl der Glieder des reduzierten Modells und 2 σ M +1 - die Schätzung der Dispersion der Störung ist, die mit Hilfe des vollständigen Modells mit (M+1) Gliedern ermittelt wurde. Wenn für die Störung die Gauß-Markov-Bedingung erfüllt ist, so läßt sich aus Ch die Schätzung der Verzerrung ableiten: ∧ RSS SSB h = 2 h + (h − l )σˆ 2M +1 σˆ M +1 (4.6.c) Tatsächlich gilt in diesem Fall: å D(yˆ ) = tr Cov(yˆ ) = tr Cov(P l i =1 mit ( ( h) i (h) i ) ( ) h H ⋅ y) = σ 2 ⋅ h (4.6.d) ( ) −1 H Ph = X h X T X X Th , yˆ ( h ) = yˆ i( h ) , y = y δi H H Cov( y ) - Kovarianzmatrix des Vektors y Dann ist ∆h = h + 1 SSB h = 2 h ⋅ σ 2M +1 + SSB h 2 σ σ oder (4.6.e) (∆ h − h)σ 2 = SSBh Wenn man für SSB h die Schätzung SSBh = RSS h + σˆ 2M +1 (h − l ) verwendet, die außer RSS h eine Korrektur σˆ 2M +1 (h − l ) für die Vereinfachung der Struktur enthält, bekommt man für die Gesamtsumme 4-25 ∆ˆ h = [ ] ∧ RSS h 1 é 1 ù 2 2 2 ˆ ˆ ˆ ( ) h ⋅ σ + SSB = h ⋅ σ + RSS + σ h − l = + 2h − l = C h M h M h M + + + 1 1 1 2 êë úû σˆ σˆ σ 2M +1 M +1 2 M +1 R. Kennard und E. Hoerl, die als erste die Idee der Ridge-Schätzungen (Kammlinienregression) in die Identifikation einbrachten (vgl. [HOE 70a], [HOE 70b]), wiesen auf den deutlichen Zusammenhang zwischen dem korrigierten Determinationskoeffizienten é l ù R h2 = 1 − R h2 ê ú und der Stichprobenfunktion Mallows hin. ël − h û [ ] Tatsächlich gilt: 1 − Rh2 1− R 2 M +1 = RSS h ⋅ (l − M − 1) RSS h = (l − h) ⋅ RSS M +1 RSS M +1 Andererseits ist Ch = (4.6.f) RSS h ⋅ (l − M − 1) − l + 2h RSS M +1 da sich bei Gauß-Markov-Störungen am Ausgang die Schätzung für σ 2 wie folgt ergibt: σˆ 2 = RSS M +1 = RQS M +1 (l − M − 1) Deshalb ist 1+ (C h − h ) RSS h ⋅ (l − M − 1) RSS h = = (l − h ) RSS M +1 ⋅ (l − h ) RSS M +1 1+ (C h − h ) 1 − Rh2 = (l − h) 1 − RM2 +1 (4.6.g) (4.6.h) Die Ausdrücke (C h − h ) und 1 − Rh2 bestimmen das Maß der Verzerrung SSB h . Bei l h >> 10 sind die Stichprobenfunktionen (C h − h ) und 1 − Rh2 äquivalent. Wie im Abschnitt 4.5. gezeigt wurde, beruht die Begründung des korrigierten Determinationskriteriums auf der Anwendung des F-Signifikanztests auf das nichtkorrigierte Determinationskriterium. Das bedeutet, daß im Prinzip eine a priori Information über die Verteilung der Störung und über die Entscheidungsfindung bezüglich des Vertrauensniveaus (1 − η) benötigt wird, was aber gerade unter Unsicherheitsbedingungen eine besonders offene Frage ist. 4-26 Im Mallows-Kriterium ist es dagegen erforderlich, daß die Störungen den Gauß-MarkovBedingungen genügen. Aus diesen Gründen wurden weder das Kriterium des korrigierten Determinationskoeffizienten noch die Stichprobenfunktion von Mallows in ihrer ursprünglichen Form betrachtet. Anstelle dessen werden in der Anlage Kriterien des WPC-Typs (weak parameter criteria) [BRO 84], [BRO 85] in durch den Autor der vorliegenden Arbeit für kleine Stichproben modifizierten Form untersucht. Diese WPC bauen auf der Mallows'schen Stichprobenfunktion auf und stellen deren mathematische Umformulierung für einzelne Parameter des vollständigen Modells dar. D.h., aus dem vollständigen Modell werden die sogenannten schwachen Parameter entfernt. Dabei zählt ein Parameter als schwach, wenn für ihn folgende Ungleichung erfüllt ist: aˆ i2 < 2 D(aˆ i ) (4.6.i) Ähnlich wie im Abschnitt 4.5. das Kriterium des korrigierten Determinationskoeffizienten auf der Untersuchung der Differenz R M2 +1 − Rh2 basierte, stützt sich das WPC auf die ( Untersuchung der Differenz (C M +1 − C h ) . ) Diese Differenz ist positiv, wenn (RSS M +1 ) − RSS h < 2(M + 1 − h ) ⋅ σ 2M +1 , (4.6.k) was identisch mit der Ungleichung (4.6.i) ist. Aber auch diese Beziehungen für WPC sind erneut nur dann gültig, wenn die Störungen den Gauß-Markov-Bedingungen genügen. Deshalb sind bei kleinen Datenmengen weder (4.6.i) noch (4.6.k) anwendbar. Es wird deshalb vorgeschlagen, für die Berechnung von var(a i ) nicht den Ausdruck ∧ H −1 Cov aˆ = RQS (X T X ) zu verwenden, sondern eine numerische Methode, die in der Anlage () beschrieben werden wird. In der Anlage wird das Kriterium CNS (Criterion of Nonlinear Sum) [LAN 88c], [LAN 90] untersucht, das zu den nachfolgend aufgeführten Kriterien entsprechend ihrer Reihenfolge enge logische Verbindungen besitzt: zum korrigierten Determinationskoeffizienten, zum Mallows-Kriterium, zum WPC. Wie aus den Darlegungen in den Abschnitten 4.5. und 4.6. hervorgeht, hängen sie alle mit einer Korrektur der RQS bei nichterwartungstreuen Schätzungen an reduzierten Modellen und mit der Signifikanz der Veränderung der RQS bei der Reduktion (oder Aggregation) der Modelle zusammen. 4-27 4.7. Verhaltensstrukturkriterien Wie in den vorhergehenden Abschnitten gezeigt wurde, verlangt die Mehrzahl der modernen Verfahren zur Bildung von Strukturselektionskriterien (mit Ausnahme der gnostischen Herangehensweise) die Kenntnis bestimmter statistischer Kenngrößen der Störungen oder auch das Zulassen bestimmter Annahmen bezüglich dieser statistischen Kenngrößen (s. auch Kap. 5). Die Kenntnis dieser Kenngrößen (bis hin zum Verteilungsgesetz) erfordert entweder umfangreiche a priori Information oder eine hinreichend große Anzahl an Daten. Die Verwendung von Annahmen ohne entsprechende a priori Information bzw. ohne Analyse der Daten führt oft zu falschen Schlußfolgerungen und, was noch schwerwiegender ist, zu einer nicht berechtigten Sicherheit bezüglich der Richtigkeit der Ergebnisse. In den 70-iger und 80-iger Jahren tauchten viele neue Ideen auf (obwohl die ersten davon bereits 1950 von Tukey (vgl. [EFR 83] entwickelt wurden), die alle in eine Klasse zusammengefaßt werden können. Diese Ideen entwickelten sich fast unabhängig voneinander sowohl in der Statistik als auch in den angewandten Aufgaben der Systemanalyse. Typisch für diese Ideen ist die Bildung experimenteller Charakteristika bei Vorhandensein von nur wenig Daten, wobei vorgeschlagen wird, diese Charakteristika als lokale statistische Charakteristika zu bezeichnen und die auf ihrer Basis gebildeten Kriterien als Verhaltenskriterien. In der Statistik erhebt eine solche Herangehensweise keinen Anspruch auf die statistische Sicherheit der Schlüsse über die Grundgesamtheit, aber sie vermittelt eine durchaus nützliche Vorstellung über die konkrete Stichprobe, über das Gewicht der konkreten Punkte in der Stichprobe. Für die strukturelle Modellierung kann das als Prinzip der Stichprobenteilung formuliert werden: Wenn die Struktur richtig gewählt wurde, so werden sich die Ergebnisse der H H Schätzung der Parameter a (1) und a ( 2) aus verschiedenen Unterstichproben, die aus der primären Stichprobe x1i , x 2i ,..., x mi ; y i , i = 1,2,..., l gebildet wurden, nur ( ) gering voneinander unterscheiden. Des weiteren folgt aus der Nähe der Parameter H H H H a (1) und a ( 2) zueinander, daß auch die Ausgänge y (1) und y ( 2) nahe zueinander H H liegen müssen, die mit den entsprechenden Koeffizientenvektoren a (1) und a ( 2) geschätzt wurden. Das ist aber nicht gleichbedeutend mit dem Schluß von der H H H Nähe der Ausgangswerte y (1) und y ( 2) auf die Nähe der Koeffizientenvektoren a (1) H und a ( 2) (s. Kap. 5). In den Fällen, in denen nicht das wahre (physikalische) Modell interessiert (d.h. wenn die Regressionsparameter nicht unbedingt eine physikalische Interpretation haben), sondern nur die Prognosefähigkeit des Modells, wird die Struktur gesucht, die die stabilste Prognose liefert, d.h. die 4-28 H H H H Struktur, bei der a (1) und a ( 2) nahe Prognosen y (1) und y ( 2) ergeben, wobei die H H Nähe von a (1) und a ( 2) nicht untersucht wird. Nachfolgend sollen die Ideen Jackknife (Tukye 1950, vgl. [EFR 83]), Bootstrap [SIN 81], [FRE 81], [EFR 82], [BUN 83], [ABR 85], [BER 85], [DUC 86], [QUE 86], [DAU 88], [DAU 89] und die Kriterien der heuristischen Selbstorganisation (die die sog. Crossvalidation-Criteria) [IVA 70], [TAM 77], [SAW 79], [LAN 82], [ LAN 83], [VAP 84], [AJW 85a], [AJW 85b], [LAN 87a], [LAN 87b], [LAN 88a], [LAN 88b], [LAN 88c], [LAN 89a], [LAN 89b], [LAN 90] unter einem einheitlichen Blickwinkel am Beispiel der Bildung von Strukturselektionskriterien betrachtet werden. Bei der Modellierung komplizierter Systeme mit modernen Methoden geht man in der Mehrzahl der Fälle von bestimmten statistischen Annahmen aus. Dabei besteht in der Regel die wesentlichste Annahme darin, daß die zur Verfügung stehende Datenmenge hinreichend groß ist. Gerade auf dieser Annahme basiert gewöhnlich die Bewertung verschiedener Methoden zur Schätzung der Koeffizienten und der Struktur von Modellen aus experimentell ermittelten Daten anhand solcher Eigenschaften wie der Erwartungstreue und der Effizienz. Streng mathematisch ist ein Grenzübergang l → ∞ erforderlich, wobei l die Anzahl der Punkte der Datentabelle ist. Praktisch sind Werte l > C ausreichend, für die man die Annahme des Grenzübergangs als erfüllt betrachten kann. In der Praxis ist es jedoch unklar, wie groß in jedem konkreten Fall der Umfang C der Datenmenge sein muß. Im Abschn. 3.1.4. wurde gezeigt, daß dieser Wert von vielen Faktoren abhängt, z.B. vom Wert der echten Koeffizienten, von der Art und der Intensität der Störungen u a. In [LAN 87a] und in der Anlage werden zwei Kriterien vorgeschlagen, die zur Bestimmung des Vorhandensein von Unsicherheit für die jeweils konkrete Aufgabe dient. Umfangreiche Simulationsbeispiele (vgl. [UMB 86], [NEH 87]) zeigen, daß das Verhalten der RQS-Werte bei Vergrößerung des Umfanges der experimentellen Information in der Mehrzahl der Fälle an einen Einschwingprozeß erinnert (s. z.B. Abb. 4.7.a). Die Punkte in Abb. 4.7.a zeigen die RQS-Werte, die sich bei der Identifikation der Koeffizienten des Modells aus jeweils l Datenpunkten ergaben, wobei die Zahl der verwendeten Datenpunkte schrittweise um jeweils einen Punkt erhöht wurde. 4-29 p(â) â âc k >> 1 l i = l ac li lmin l li = C min i = kC l - Regressionskoeffizient (aus li = k ⋅ C Punkten geschätzt) - Anzahl der Punkte in der i-ten Datenstichprobe, - minimale Anzahl der Punkte in der Stichprobe (l min ≥ M + 1; k >> 1) Abb. 4.7.a: Änderung der Koeffizientenverteilung in Abhängigkeit von der Stichprobenlängen RQS l i = l min li = A li = B li = C l i= k C l Abb. 4.7.b: Verhalten der RQS bei schrittweiser Erhöhung der Anzahl der Datenpunkte 4-30 Bei l = li > C , wenn ∆RQS ∆ l → 0, kann man annehmen, daß die Entscheidungsfindung unter "stationären" Bedingungen erfolgt. Unter "stationären" Bedingungen können die Methoden der Systemanalyse angewandt werden, die auf der klassischen Regressionsanalyse basieren. Im Bereich l = li ≤ C führt die RQS (als Schätzung der Dispersion der Störung σ 2 ), die den Fehler 2. Art minimiert, bei ihrer Verwendung als Strukturkriterium zu schlechten Ergebnissen bei der Modellierung. Bei der Modellierung komplizierter Systeme, z.B. in der Ökologie, in der Ökonomie und auch bei nichtlinearen technischen Systemen, kann man nicht sicher sein, ob man mit der vorhandenen Information bereits den "stationären Bereich" erreicht hat. Wie in [LAN 83], [LAN 87a], [LAN 89a] gezeigt wurde und wie auch aus den Beispielen in Abb. 4.7.b. ersichtlich ist, kann aus der absoluten Größe von l nicht erkannt werden, in welchem Bereich die Identifikation ausgeführt werden muß. Wie sich aus Abb.4.7.a. ergibt, besitzt die Größe [ ( K i = RQS li − M RQS li )] 2 (4.7.a) mit RQS li als zufälligem Wert der Schätzung von σ 2 , der aus der Stichprobe von li Punkten bestimmt wurde, für jedes i einen unterschiedlichen Wert. Es wäre möglich, die Dispersion der Entscheidungsfindung, d.h. nicht nur die Qualität des Modells selbst, sondern auch die Qualität des Strukturkriteriums, mit dem das Modell bestimmt wurde, zu berechnen, wenn M (RQS ) und M RQS li bekannt wären, d.h. alle ( ) möglichen Stichproben für jeden möglichen Stichprobenumfang. Diese Dispersion könnte durch die Formel [ ( ) ] D = M M RQS li − M (RQS ) = 2 å [M (RQS ) − M (RQS )] p li = kC li = l min 2 li i (4.7.b) ausgedrückt werden, wobei M RQS li - der wahrscheinlichste Wert der RQS aus den Stichproben des Umfanges l = li ( pi ) und - die Häufigkeit dieses Wertes ist. Berechnet man RQS für jedes Modell aus einer Stichprobe des Umfanges l = li Punkte, so bekommt man nur einen Zufallswert der RQS-Schätzung und folglich einen zufälligen H Koeffizientenvektor a . Im Bereich l = li > C hat das keine besonders schlechten Folgen, da das Verteilungsgesetz für RQS in diesem Bereich im Unterschied zum Bereich l = li < C eine 4-31 hinreichend gestauchte Form (vgl. Abb. 4.7.a.) und eine im Vergleich mit dem Bereich l = li < C kleine Dispersion hat. Statt der in (4.7.b) dargestellten Dispersion könnte man auch eine "dynamische" Dispersion Dd = mit å [M (RQS ) − M (RQS )] p li = C li = l min 2 li d i (4.7.c) M d (RQS ) - wahrscheinlichster Wert der RQS aus den Stichproben des Umfanges l≤C und eine "stationäre" Dispersion Ds = mit å [M (RQS ) − M (RQS )] p li = kC li = C +1 2 li s i (4.7.d) M s (RQS ) - wahrscheinlichster Wert der RQS aus den Stichproben der Länge C < l ≤ kC unterscheiden. Für die Schätzung wäre es wünschenswert, daß die Stichprobenlänge im "stationären" Bereich liegt. Oftmals muß aber damit gerechnet werden, daß dies nicht der Fall ist wobei des weiteren unklar ist, wie weit die Stichprobenlänge vom "stationären" Bereich entfernt ist. In der Literatur drückte sich die Unzufriedenheit im Zusammenhang mit der Anwendung der RQS zunächst in weiteren statistischen Untersuchungen aus, später in der strukturellen Modellierung als einem Anwendungsgebiet der Statistik in Form der Entwicklung der heuristischen Selbstorganisation der Schätzungen mit Teilung der Stichproben. Diese Schätzungen lassen sich in drei Gruppen anhand der Zunahme an Information, die aus einer Stichprobe experimenteller Daten gewinnbar ist, unterteilen. Die Unterteilung entspricht auch der zeitlichen Entstehung dieser heuristischen Schätzungen und ebenso dem erforderlichen Rechenaufwand: a) Schätzungen mit einmaliger Teilung der Stichprobe b) Schätzungen mit Verwerfen jeweils eines Punktes → l Teilungen c) Bootstrap-Schätzungen mit einer sehr großen Anzahl von Teilungen (und Wiederholungen), die nur durch die rechentechnischen Möglichkeiten eingeschränkt wird. Die Eignung dieser Schätzungen läßt sich wie folgt erklären: 1. Bei der Verwendung von Strukturkriterien mit einmaliger Teilung der Stichprobe H H [IVA 68] werden 2 Koeffizientenvektoren a 1 und a 2 aus zwei Unterstichproben N(1) 4-32 und N(2) der Stichprobe des Umfangs l = li Punkte geschätzt. Dabei kann die ursprüngliche Stichprobe sowohl halbiert als auch anders geteilt werden. Danach werden die Ergebnisse der Schätzungen verglichen. Das kann auf unterschiedliche Weise erfolgen. Zum Beispiel können RQS (1) und RQS ( 2) für die gesamte Stichprobe H aus l = li Punkten bestimmt werden, wobei RQS (1) der RQS mit den Koeffizienten a 1 H und RQS ( 2) der RQS mit den Koeffizienten a 2 entspricht (vgl. [IVA 75]). Die Strukturen, d.h. die Modelle, für die RQS = RQS (1) − RQS ( 2) → min. (4.7.e) werden als die besten betrachtet. Auf diese Art und Weise bekommt man aus einer Stichprobe des Umfanges l = li Punkte nicht nur eine zufällige Schätzung RQS, sondern auch eine (wenn auch stark eingeschränkte Information über die "Dynamik" der Schätzung im Intervall lmin , li . Diese Information ist deshalb sehr eingeschränkt, weil die Stichprobe aus l = li Punkten schon bei Teilung in gleiche Teile auf N= li ! (li 2 )!⋅ (li 2)! unterschiedliche Art und Weisen erfolgen kann. Außerdem ist natürlich die ursprüngliche Stichprobe aus der Grundgesamtheit selbst zufällig. 2. Kriterien, die die sog. Jackknife-Idee verwenden (vgl. [IVA 75], [TAM 77], [IHA 77], [LAN 82], [LAN 83], [VAP 84], [LAN 87a]), die 1949 von M. Kenew vorgeschlagen, 1950 von Tukey verbessert und von Mallows, Jackel, Miller untersucht wurde (vgl. [EFR 83]), basieren auf einem li - maligen Verwerfen jeweils eines Punktes, so daß eine H li -fache Schätzung des Koeffizientenvektors a aus Unterstichproben des Umfangs H l = li − 1 Punkte durchgeführt wird. Für jede dieser Schätzungen a * wird der Wert der quadratischen Differenz zwischen dem am Objekt gemessenen Wert des Ausgangsignals und dem mit dem Modell berechneten Wert des Ausgangssignal in dem Punkt, der bei der Schätzung nicht berücksichtigt wurde, ermittelt. Danach werden die li Differenzen summiert. Das Modell mit der minimalen Summe gilt als das beste. Durch die Berechnung von li Schätzern liefert dieses Kriterium bereits eine recht gute Information über die "Dynamik" bei der Entscheidungsfindung bzgl. der Struktur des Modells im Punkt l = li − 1 (s. Abb.4.7.a, z.B. li = a − 1). Aber auch diese Information ist begrenzt, da sie nur in der Nähe des Punktes l = li eine Vorstellung über die "Dynamik" liefert und weil die Stichprobe aus li Punkten selbst zufällig ist. 4-33 3. Die Bootstrap-Idee [EFR 82] findet in letzter Zeit immer breitere Anwendung in der Statistik. Für Entscheidungen über die Struktur von Modellen wird sie aber erst in jüngster Zeit verwandt [LAN 87a]). Nachfolgend soll die Bootstrap-Idee aus der Sicht der hier vorgeschlagenen "Dynamik" der Information über das Objekt und über die Entscheidungsfindung bezüglich der Modellstruktur beschrieben werden. Zunächst sei jedoch darauf verwiesen, daß als Vorgänger der Bootstrap-Idee folgende Idee genannt werden kann [WAS 74]: Aus den Daten einer Stichprobe aus l = li Punkten werden mit Hilfe eines Zufallszahlengenerators N B Unterstichproben gebildet, d.h. Unterstichproben aus l = lmin , l = lmin + 1, l = lmin + 2 usw. Punkten. Die Zahl N B hängt von den rechentechnischen Möglichkeiten ab. Danach werden für jede Struktur N B -mal die KoeffizientenH vektoren ai (i = 1, 2,..., N B ) geschätzt. Die verschiedenen Möglichkeiten der Verwendungen dieser mehrfachen Schätzungen für die strukturelle Modellierung werden noch diskutiert. Zunächst soll aber betrachtet werden, welche Information man prinzipiell durch Bootstrap erhalten kann, bei dem die Schätzung der Koeffizienten viele Male durchgeführt wird, und zwar nicht nur für Stichproben aus l = li − 1 Punkten wie bei den Jackknife-Kriterien, sondern auch für Stichproben aus l = li − 2 Punkten, aus l = li − 3 Punkten usw. Für jedes Modell gibt H es also N B Schätzungen für den Vektor der Parameter ai und entsprechende andere Zufallsgrößen (z.B. R QSi (i = 1, 2,..., N B ) ). Folglich entsteht die Möglichkeit, aus einer Stichprobe die Information über die "Dynamik" im ganzen Bereich links des Punktes l = li (s. Abb. 4.7.a) zu gewinnen und zu berechnen, wie sich die Schätzungen bei verschiedenen Reduzierungen der Information verändern. Das ist zweifellos mehr, als die Information über eine Zufallsgröße (wie bei den RQS- Strukturkriterien) oder über die Veränderung einer Zufallsgröße in einem der Punkte des Abschnittes l = lmin ÷ li (wie bei den Kriterien des Typs [IVA 75]) oder über die Schätzung der Veränderung der Zufallsgröße im Punkt l = li − 1 (Kriterien des Typs [TAM 77], [LAN 83], [VAP 84], [LAN 87a]). Im betrachteten Fall können natürlich wie auch bei allen anderen oben betrachteten Kriterien die Folgen nicht ausgeschlossen werden, die sich aus der Tatsache ergeben, daß die ursprüngliche Stichprobe aus l = li Punkten aus der Grundgesamtheit selbst zufällig ist und daß die ursprüngliche Stichprobe sehr klein ist, nämlich l = li << C , was auch für die obigen Betrachtungen angenommen wurde. Jedoch gibt die Bootstrap-Herangehensweise im Vergleich zu den anderen betrachteten die meiste Information über die zu schätzenden Größen - über die Parameter (Koeffizienten), über die Struktur des Modells, und auch über die 4-34 Stichprobe selbst, was besonders wichtig ist, und zwar über die Zuverlässigkeit der aus ihr vorgenommenen Schätzungen und über die obere Grenze des konkreten Strukturkriteriums für die konkrete Stichprobe. Im Sinne des Ergebnisses und der Menge an aus der Stichprobe gewinnbaren Information ist Bootstrap mit der oben beschriebenen Idee identisch, jedoch einfacher in seiner Rechnerrealisierung und andererseits weniger plausibel in seiner Erklärung. Der Berechnungsalgorithmus weist folgende Unterschiede gegenüber der oben beschriebenen Prozedur auf. Der Zufallszahlengenerator bildet N B Stichproben aus der ursprünglichen Stichprobe in l = li Punkten. Dabei besteht jede der neuen Unterstichproben aus li Punkten. Das erreicht man, indem bei der Bildung jeder neuen Bootstrap-Stichprobe einige Punkte der ursprünglichen Stichprobe weggelassen werden und einige Punkte wiederholt werden. Der Unterschied zur vorherigen Idee besteht in Folgendem. Wenn man jeden Punkt der Information bedingt als "Experte" bezeichnet, so werden bei der ersten Idee aus jeder Unterstichprobe einige Experten ausgeschlossen, während bei Bootstrap sowohl einige ausgeschlossen werden, aber andere ein mehrfaches Gewicht erhalten. Diese Gewichte ändern sich von Stichprobe zu Stichprobe im Bereich von 0 (d.h., der Experte ist ausgeschlossen) bis 1 (d.h., der Experte entscheidet völlig selbständig). Bezüglich der Gewinnung von Information über die "Dynamik" der Schätzungen sind beide Ideen gleichwertig. Bei kurzen Stichproben lassen sich die Dispersion und die mathematische Erwartung leider nicht auf der Basis von Datenteilungen nach Bootstrap, Jack-Knife oder anderer schätzen. Aber anhand der Information, die man mit Hilfe von Bootstrap, Jack-Knife oder einfachen Datenteilungen erhält, kann man über den Abstand bis zum Punkt li=C oder über den Grad der Dynamik der Daten urteilen, d.h. über den Abstand bis zum "stationären" Bereich, bei der man die strukturelle Identifikation mit traditionellen Methoden durchführen kann. Strukturselektionskriterien, die auf einer einmaligen Teilung der Stichprobe basieren, wurden ausführlich in [LAN 83] untersucht. Die Ergebnisse dieser Untersuchungen decken sich mit der Feststellung aus Abschn. 4.7.1., daß eine einmalige Teilung der Stichprobe nur zu einer stark begrenzten Information über die Struktur führt. Deshalb werden diese Kriterien in der vorliegenden Arbeit nicht mehr betrachtet. Strukturselektionskriterien, die auf einer l-fachen Teilung der Stichprobe aus l Punkten beruhen (Jackknife-Idee), werden in der Anlage untersucht. 4-35 Die Anwendung der Bootstrap-Idee in der strukturellen Modellierung wird ebenfalls in der Anlage untersucht. Dabei werden mittels der Bootstrap-Idee drei in ihren Anwendungszielen verschiedene Kriterien gebildet: a) Kriterien zur Identifikation der Unsicherheit (hier: CIU = Criterion for Identification of Uncertainty), b) Kriterien zur Struktursuche (hier: CNS = Criterion of Non-linear Sum), c) Strukturselektionskriterien für die Intervallschätzung, d.h. Bildung von Maßen zur praktischen Bewertung der Qualität des Strukturselektionskriteriums. 4-36