Analyse von Eingabedaten 5 Analyse von Eingabedaten

Werbung
Analyse von Eingabedaten
„
„
„
„
5.1 Deterministische und Stochastische Eingabedaten
5.2 Sammlung der Daten
5.3 Verwendung der Daten
5.4 Keine Daten?
Otto-von-Guericke-Universität Magdeburg
Produktionssimulation
Thomas Schulze
1
5 Analyse von Eingabedaten
„
„
„
„
Modellierungsaspekte
Strukturelle Aspekte
– Basislogik
– Benötigte Objekte und ihr Verhalten
Quantitative Aspekte
– Festlegung des Verteilungstyps und seiner Parameterwerte
– Festlegung von nicht-zufälligen Werten
Wie kann diese Aufgabe gelöst werden?
– Beobachtung des Systems
– Empirische Sammlung von Daten
– Datensammlung aus existierenden Informationssystemen
Otto-von-Guericke-Universität Magdeburg
Produktionssimulation
Thomas Schulze
2
1
5.1 Deterministische und Stochastische
Eingabegrößen
„
„
„
„
Klassifikation von Eingabegrößen
Deterministisch: feste, nicht zufällige Werte
– Anzahl der Kapazitätseinheiten einer Ressource
– Bearbeitungszeiten (?)
– Ankunftszeiten von Entitäten(?)
– Transportzeiten (?)
Zufällig (random , stochastic): Werte werden auf der Basis einer
Verteilungsfunktion ermittelt
– Transport- und Zwischenankunftszeiten
Welche Verteilungsfunktion soll verwendet werden? Mit welchen
Parameterwerten?
– Random Input – Random Output (RIRO)
Otto-von-Guericke-Universität Magdeburg
Produktionssimulation
Thomas Schulze
3
Modelle ohne Zufälligkeiten?
„
„
Einfaches (theoretisches) Bediensystem
– Zwischenankunftszeit exakt 1 Minute
– Bearbeitungszeit auf der Maschine 59 Sekunden
– Wenn die Maschine frei ist, wenn das erste Teil ankommt, dann
wird nie eine Warteschlange entstehen.
Reales Bediensystem
– Zwischenankunftszeit EXPO(60)
– Bedienzeit EXPO(59)
– mittlere Wartschlangenlänge von 58 Teilen
Otto-von-Guericke-Universität Magdeburg
Produktionssimulation
Thomas Schulze
4
2
5.2 Sammlung von Daten
„
„
„
Datensammlung ist oft ein zeitintensiver Vorgang (Kosten)
Probleme :
– Daten sind verfügbar, aber sie beschreiben nicht den zu
modellierenden Prozess
» Prozesszeiten: „reine“ Prozesszeit oder Prozesszeit mit der
Wartezeit und Ausfallzeiten der Maschine
– Das System existiert noch nicht
» Vorsichtige Schätzungen
Datenquellen
– Empirische Beobachtungen
– Interviews
– Informationssysteme
Otto-von-Guericke-Universität Magdeburg
Produktionssimulation
Thomas Schulze
5
Methoden zur Unterstützung einer guten
Datensammlung
„
„
„
Sensitivitätsanalyse der Ergebnisse in Abhängigkeit von den
Eingabedaten
– Wie sensitiv sind Ergebnisse von den Eingabeparametern?
– Bei hoher Sensitivität muss der entsprechende Eingabeparameter
sorgfältig modelliert werden
Detaillierungsgrad im Modell und die Qualität der Daten
– Hoher Detaillierungsgrad und keine entsprechenden Daten
– Passe den Detaillierungsrad den Eingangsdaten an
Kosten für die Datensammlung
– Schlechte Schätzungen für nicht sensitive Daten sind
gegebenenfalls erlaubt
– Berücksichtige diesen Kostenfaktor bei der Kalkulation für das
Projekt
Otto-von-Guericke-Universität Magdeburg
Produktionssimulation
Thomas Schulze
6
3
Vertrauen in die Ergebnisse
„
Garbage In, Garbage Out (GIGO)
– Die Zuverlässigkeit der Ergebnisse und Empfehlungen aus dem
Projekt sind abhängig von einer korrekten Modellierung und „guten“
Daten
– Erwecken Sie kein unerschütterliches Vertrauen in die Ergebnisse,
wenn die Daten nicht zu den modellierten Abläufen passen.
Bringen Sie die Zuverlässigkeit der Ergebnisse basierend auf den
verwendeten Daten zum Ausdruck
Otto-von-Guericke-Universität Magdeburg
Produktionssimulation
Thomas Schulze
7
Alternative Nutung der gesammelten Daten
„
„
„
Zwei unterschiedliche Vorgehensweisen
– Direkte Nutzung der Rohdaten
– Verwendung von abgeleiteten Verteilungsfunktionen
Die Entscheidung ist sowohl nach praktischen als auch theoretischen
Überlegungen zu treffen
Direkte Nutzung der Daten in der Simulation
– Die Daten werden direkt aus den Informationsquellen in das Modell
eingelesen (Fertigungspläne, Fahrpläne, ... )
– Alle Werte sind legal und real
– Der Wertebereich der verwendeten Daten ist an die existierenden
Daten gebunden
– Vielfach sind nicht genügend Daten für längere Simulationsläufe
vorhanden
Otto-von-Guericke-Universität Magdeburg
Produktionssimulation
Thomas Schulze
8
4
Alternative Nutung der gesammelten Daten
„
„
Verwendung von Verteilungsfunktionen
– Ableitung von „passenden“ Verteilungsfunktionen aus denen dann
die benötigten Daten generiert werden
– Der Wertebereich der generierten Daten kann außerhalb der
gesammelten Daten liegen
– Theoretische Verteilungsfunktionen werden häufig genutzt
– Der ARENA-Input Analyzer unterstützt formal den Prozess des
Findens einer geeigneten Verteilungsfunktion. Bringen Sie das
Expertenwissen mit ein
Voraussetzung für die Ableitung von Verteilungsfunktionen:
– Die empirischen Daten müssen unabhängig sein und einer
identischen Verteilung entsprechen
Otto-von-Guericke-Universität Magdeburg
Produktionssimulation
Thomas Schulze
9
Einteilung von Wahrscheinlichkeitsverteilungen
„
„
„
Theoretische und Empirische Verteilungen
– Theoretische Verteilungen : mathematischen Beschreibung der
Funktion
– Empirische Verteilungen : Einteilung der empirischen Daten in
Klassen mit der Angabe entsprechender Wahrscheinlichkeiten
Kontinuierliche Verteilungen (Exponential- , Normalverteilung)
– Ergebnis : beliebiger reeller Wert aus dem entsprechenden
Wertebereich
– Beispiel : Fertigungs-, Transportzeiten
Diskrete Verteilungen (Poissonverteilung)
– Ergebnis : Nur vorher festgelegte, abzählbare Werte
– Beispiel : Teilespektrum
Otto-von-Guericke-Universität Magdeburg
Produktionssimulation
Thomas Schulze
10
5
Ausprägungen von Dichtefunktionen
Theoretisch
Diskret
Kontinuierlich
Poisson-Verteilung
Anzahl LKW pro h
Dreiecks-Verteilung
Bearbeitungszeit
Otto-von-Guericke-Universität Magdeburg
Empirisch
Anzahl pro Teiletyp
Am Tag
Einnahmen über
der Zeit
Produktionssimulation
Thomas Schulze
11
Grundprinzipien Input Analyzer (IA)
„
„
Automatisches Fitting
– IA schätzt für unterschiedliche Verteilungsfunktionen die
entsprechenden Parameter (Maximum likelihood-Methode,
Methode der kleinsten Quadrate, ...)
– Bewertung der Güte des „fittings“ mittels Tests ( Mittlerer
quadratischer Fehler, Chi-Quadrat und Komogoroff-Smirnow-Test)
» H0: die ermittelte Funktion repräsentiert adäquat die
empirischen Daten
» IA berechnet einen p –Wert , je größer dieser p-Wert desto
besser ist die Abbildung
“Best” fit durch den Modellierer aus verschiedenen Funktionen
Otto-von-Guericke-Universität Magdeburg
Produktionssimulation
Thomas Schulze
12
6
Input Analyzer
„
Daten müssen als ASCII-File vorliegen
– Speration der einzelnen Daten durch white space (blanks, tabs, linefeeds)
– Otherwise free format
Otto-von-Guericke-Universität Magdeburg
Produktionssimulation
Thomas Schulze
13
Thomas Schulze
14
Standardaufbereitung
Otto-von-Guericke-Universität Magdeburg
Produktionssimulation
7
Fit für das Beispiel
Otto-von-Guericke-Universität Magdeburg
Produktionssimulation
Thomas Schulze
15
Güte der Anpassung
„
„
„
Mean Square Error (Mittlerer Quadratischer Fehler)
– Quadrat der Differenz zwischen den empirischen relativen Häufigkeiten der
Originaldaten mit den berechneten Häufigkeiten der theoretischen
Verteilungsfunktion pro Klasse
Basis für das Ranking.
Mittlerer quadratischer Fehler für die untersuchten Verteilungsfunktionen
– Gamma - 0.00387
– Weibull - 0.00443
– Beta - 0.00444
– Erlang - 0.00487
– Normal - 0.00633
– Lognormal - 0.00871
– Triangular - 0.0246
– Uniform - 0.0773
– Exponential - 0.0806
Otto-von-Guericke-Universität Magdeburg
Produktionssimulation
Thomas Schulze
16
8
Güte der Anpassung
„
„
Chi-quadrat- und Kolmogorov-Smirnov Test
– Zusammenfassung in dem p-value (zwischen 0 and 1)
» Probability of getting a data set that’s more inconsistent with the
fitted distribution than the data set you actually have, if the the
fitted distribution is truly “the truth”
» (Wahrscheinlichkeit dafür, einen noch schlechter passenden
Satz von empirischen Daten zu finden, wenn die vewendete
Funktion, die wahre Funktion ist)
» “Klein” p (< 0.05 or so): schlechte Anpassung (Versuch es
normal mit einer anderen Funktion oder „give up“)
Interpretation
– Je größer dieser Wert ist, desto besser „passt“ die ermittelte
theoretische Verteilungsfunktion
Otto-von-Guericke-Universität Magdeburg
Produktionssimulation
Thomas Schulze
17
Richtige Auswahl
„
„
Erste Entscheidung : theoretische oder empirische Verteilung
– Ist der p-Value für einen oder beide Test größer als 0,10 , dann die
Verwendung von theoretischen Funktionen
– Gegenteiliger Fall : Verwendung von empirischen Funktionen
Input-Analyzer schlägt ein Ranking auf der Basis der kleinsten Fehler
vor
– Ist die „best“ distribution wirklich die beste Verteilungsfunktion?
– Berücksichtigung des entsprechenden p-Value
– Verändern Sie die Klassenanzahl
Otto-von-Guericke-Universität Magdeburg
Produktionssimulation
Thomas Schulze
18
9
Richtige Auswahl (bei theoretischen Funktionen)
„
„
begrenzte und oder unbegrenzte Verteilungsfunktion
– Normalverteilung (unbegrenzt) NORM (10,4) kann auch negative
Werte liefern
» Negative Bearbeitungszeiten auftreten?
– Dreiecksverteilung (begrenzt) TRIA (1,10,20) keine negative Werte
Praktischen Verwendbarkeit und Interpretation der Funktion
– Parameter einer Funktion müssen verändert werden, so müssen
die Parameter der Funktion auch entsprechend interpretierbar sein
– Weibull-Verteilung mit den Parameter shape und scale
– Exponentialverteilungen mit dem Parameter Mittelwert
Otto-von-Guericke-Universität Magdeburg
Produktionssimulation
Thomas Schulze
19
Thomas Schulze
20
Bimodale Verteilungen
Otto-von-Guericke-Universität Magdeburg
Produktionssimulation
10
Keine Daten?
„
„
Leider ist dies zu oft Realität in den Projekten
Was ist in diesem Fall zu empfehlen?
– Interview “experts”
» Nur Minimum und Maximum: Uniform
» Mittelwert und Schwankungen um diesen: Uniform
» Minimum, Mode und Maximum: Triangular
• Mode und Mittelwert können unterschiedlich sein
– Zwischenankunftszeit — Ankünfte sind unabhängig und stationär
» Exponential
– Anzahl von zufälligen Ereignissen bei der Ankunft: Poisson
– Summe von unabhängigen „Teilen“ : Normal
– Produkt von unabhängigen „Teilen”: Lognormal
Otto-von-Guericke-Universität Magdeburg
Produktionssimulation
Thomas Schulze
21
Achtung bei der Normalverteilung
„
„
„
„
„
„
„
Problem bei der Nutzung der Normalverteilung
Nach „links“ und „rechts“ ist die Verteilung nicht begrenzt
Es können somit auch negative Werte abgeleitet werden
Was passiert bei einer negativen Bearbeitungszeit? Kann die
Simulationszeit zurück springen?
– Arena ersetzt negative Verzögerungen mit dem Wert Null
Wann kann dieser Zustand eintrezen?
– Mittelwert µ ist relativ groß relativ zur Standardabweichung σ, dann
ist die Wahrscheinlichkeit für einen negativen Wert sehr klein
(1/1000000)
Aber dieser Fall kann bei der Simulation eintreten
Moral von der Geschichte – Vermeide die Nutzung der
Normalverteilung
Otto-von-Guericke-Universität Magdeburg
Produktionssimulation
Thomas Schulze
22
11
NichtNicht-stationärer Ankunftsprozess
Intensität in Pax/h
Zeit
„
„
„
Die Intensität von Ankunftsprozessen variiert oft über der Zeit
– Mittagessen in der Mensa
– Rush-hour im Straßenverkehr
– Anrufe in einem Call-Center
– Temperaturabhängiger täglicher Bedarf an Getränken
Kann der Mittelwert über der Zeit verwendet werden?
– Nein, das Ignorieren der Höhen und Tiefen führt zu nicht korrekten
Resultaten
Lösung: Nonstationary Poisson process
Otto-von-Guericke-Universität Magdeburg
Thomas Schulze
Produktionssimulation
23
NichtNicht-stationärer Ankunftsprozess
„
„
Grundsätzliche Vorgehensweise:
– Verwendung einer rate function
Ableitung dieser Funktion als piecewise-constant
– Zerlegung der Zeit in Teilintervalle, in denen die Intensitätsrate als
konstant angenommen wird
– Berechne die Ankunftszeiten für jedes Intervall getrennt
Intensität in Pax/h
Zeit
Otto-von-Guericke-Universität Magdeburg
Produktionssimulation
Thomas Schulze
24
12
Herunterladen