Analyse von Eingabedaten 5.1 Deterministische und Stochastische Eingabedaten 5.2 Sammlung der Daten 5.3 Verwendung der Daten 5.4 Keine Daten? Otto-von-Guericke-Universität Magdeburg Produktionssimulation Thomas Schulze 1 5 Analyse von Eingabedaten Modellierungsaspekte Strukturelle Aspekte – Basislogik – Benötigte Objekte und ihr Verhalten Quantitative Aspekte – Festlegung des Verteilungstyps und seiner Parameterwerte – Festlegung von nicht-zufälligen Werten Wie kann diese Aufgabe gelöst werden? – Beobachtung des Systems – Empirische Sammlung von Daten – Datensammlung aus existierenden Informationssystemen Otto-von-Guericke-Universität Magdeburg Produktionssimulation Thomas Schulze 2 1 5.1 Deterministische und Stochastische Eingabegrößen Klassifikation von Eingabegrößen Deterministisch: feste, nicht zufällige Werte – Anzahl der Kapazitätseinheiten einer Ressource – Bearbeitungszeiten (?) – Ankunftszeiten von Entitäten(?) – Transportzeiten (?) Zufällig (random , stochastic): Werte werden auf der Basis einer Verteilungsfunktion ermittelt – Transport- und Zwischenankunftszeiten Welche Verteilungsfunktion soll verwendet werden? Mit welchen Parameterwerten? – Random Input – Random Output (RIRO) Otto-von-Guericke-Universität Magdeburg Produktionssimulation Thomas Schulze 3 Modelle ohne Zufälligkeiten? Einfaches (theoretisches) Bediensystem – Zwischenankunftszeit exakt 1 Minute – Bearbeitungszeit auf der Maschine 59 Sekunden – Wenn die Maschine frei ist, wenn das erste Teil ankommt, dann wird nie eine Warteschlange entstehen. Reales Bediensystem – Zwischenankunftszeit EXPO(60) – Bedienzeit EXPO(59) – mittlere Wartschlangenlänge von 58 Teilen Otto-von-Guericke-Universität Magdeburg Produktionssimulation Thomas Schulze 4 2 5.2 Sammlung von Daten Datensammlung ist oft ein zeitintensiver Vorgang (Kosten) Probleme : – Daten sind verfügbar, aber sie beschreiben nicht den zu modellierenden Prozess » Prozesszeiten: „reine“ Prozesszeit oder Prozesszeit mit der Wartezeit und Ausfallzeiten der Maschine – Das System existiert noch nicht » Vorsichtige Schätzungen Datenquellen – Empirische Beobachtungen – Interviews – Informationssysteme Otto-von-Guericke-Universität Magdeburg Produktionssimulation Thomas Schulze 5 Methoden zur Unterstützung einer guten Datensammlung Sensitivitätsanalyse der Ergebnisse in Abhängigkeit von den Eingabedaten – Wie sensitiv sind Ergebnisse von den Eingabeparametern? – Bei hoher Sensitivität muss der entsprechende Eingabeparameter sorgfältig modelliert werden Detaillierungsgrad im Modell und die Qualität der Daten – Hoher Detaillierungsgrad und keine entsprechenden Daten – Passe den Detaillierungsrad den Eingangsdaten an Kosten für die Datensammlung – Schlechte Schätzungen für nicht sensitive Daten sind gegebenenfalls erlaubt – Berücksichtige diesen Kostenfaktor bei der Kalkulation für das Projekt Otto-von-Guericke-Universität Magdeburg Produktionssimulation Thomas Schulze 6 3 Vertrauen in die Ergebnisse Garbage In, Garbage Out (GIGO) – Die Zuverlässigkeit der Ergebnisse und Empfehlungen aus dem Projekt sind abhängig von einer korrekten Modellierung und „guten“ Daten – Erwecken Sie kein unerschütterliches Vertrauen in die Ergebnisse, wenn die Daten nicht zu den modellierten Abläufen passen. Bringen Sie die Zuverlässigkeit der Ergebnisse basierend auf den verwendeten Daten zum Ausdruck Otto-von-Guericke-Universität Magdeburg Produktionssimulation Thomas Schulze 7 Alternative Nutung der gesammelten Daten Zwei unterschiedliche Vorgehensweisen – Direkte Nutzung der Rohdaten – Verwendung von abgeleiteten Verteilungsfunktionen Die Entscheidung ist sowohl nach praktischen als auch theoretischen Überlegungen zu treffen Direkte Nutzung der Daten in der Simulation – Die Daten werden direkt aus den Informationsquellen in das Modell eingelesen (Fertigungspläne, Fahrpläne, ... ) – Alle Werte sind legal und real – Der Wertebereich der verwendeten Daten ist an die existierenden Daten gebunden – Vielfach sind nicht genügend Daten für längere Simulationsläufe vorhanden Otto-von-Guericke-Universität Magdeburg Produktionssimulation Thomas Schulze 8 4 Alternative Nutung der gesammelten Daten Verwendung von Verteilungsfunktionen – Ableitung von „passenden“ Verteilungsfunktionen aus denen dann die benötigten Daten generiert werden – Der Wertebereich der generierten Daten kann außerhalb der gesammelten Daten liegen – Theoretische Verteilungsfunktionen werden häufig genutzt – Der ARENA-Input Analyzer unterstützt formal den Prozess des Findens einer geeigneten Verteilungsfunktion. Bringen Sie das Expertenwissen mit ein Voraussetzung für die Ableitung von Verteilungsfunktionen: – Die empirischen Daten müssen unabhängig sein und einer identischen Verteilung entsprechen Otto-von-Guericke-Universität Magdeburg Produktionssimulation Thomas Schulze 9 Einteilung von Wahrscheinlichkeitsverteilungen Theoretische und Empirische Verteilungen – Theoretische Verteilungen : mathematischen Beschreibung der Funktion – Empirische Verteilungen : Einteilung der empirischen Daten in Klassen mit der Angabe entsprechender Wahrscheinlichkeiten Kontinuierliche Verteilungen (Exponential- , Normalverteilung) – Ergebnis : beliebiger reeller Wert aus dem entsprechenden Wertebereich – Beispiel : Fertigungs-, Transportzeiten Diskrete Verteilungen (Poissonverteilung) – Ergebnis : Nur vorher festgelegte, abzählbare Werte – Beispiel : Teilespektrum Otto-von-Guericke-Universität Magdeburg Produktionssimulation Thomas Schulze 10 5 Ausprägungen von Dichtefunktionen Theoretisch Diskret Kontinuierlich Poisson-Verteilung Anzahl LKW pro h Dreiecks-Verteilung Bearbeitungszeit Otto-von-Guericke-Universität Magdeburg Empirisch Anzahl pro Teiletyp Am Tag Einnahmen über der Zeit Produktionssimulation Thomas Schulze 11 Grundprinzipien Input Analyzer (IA) Automatisches Fitting – IA schätzt für unterschiedliche Verteilungsfunktionen die entsprechenden Parameter (Maximum likelihood-Methode, Methode der kleinsten Quadrate, ...) – Bewertung der Güte des „fittings“ mittels Tests ( Mittlerer quadratischer Fehler, Chi-Quadrat und Komogoroff-Smirnow-Test) » H0: die ermittelte Funktion repräsentiert adäquat die empirischen Daten » IA berechnet einen p –Wert , je größer dieser p-Wert desto besser ist die Abbildung “Best” fit durch den Modellierer aus verschiedenen Funktionen Otto-von-Guericke-Universität Magdeburg Produktionssimulation Thomas Schulze 12 6 Input Analyzer Daten müssen als ASCII-File vorliegen – Speration der einzelnen Daten durch white space (blanks, tabs, linefeeds) – Otherwise free format Otto-von-Guericke-Universität Magdeburg Produktionssimulation Thomas Schulze 13 Thomas Schulze 14 Standardaufbereitung Otto-von-Guericke-Universität Magdeburg Produktionssimulation 7 Fit für das Beispiel Otto-von-Guericke-Universität Magdeburg Produktionssimulation Thomas Schulze 15 Güte der Anpassung Mean Square Error (Mittlerer Quadratischer Fehler) – Quadrat der Differenz zwischen den empirischen relativen Häufigkeiten der Originaldaten mit den berechneten Häufigkeiten der theoretischen Verteilungsfunktion pro Klasse Basis für das Ranking. Mittlerer quadratischer Fehler für die untersuchten Verteilungsfunktionen – Gamma - 0.00387 – Weibull - 0.00443 – Beta - 0.00444 – Erlang - 0.00487 – Normal - 0.00633 – Lognormal - 0.00871 – Triangular - 0.0246 – Uniform - 0.0773 – Exponential - 0.0806 Otto-von-Guericke-Universität Magdeburg Produktionssimulation Thomas Schulze 16 8 Güte der Anpassung Chi-quadrat- und Kolmogorov-Smirnov Test – Zusammenfassung in dem p-value (zwischen 0 and 1) » Probability of getting a data set that’s more inconsistent with the fitted distribution than the data set you actually have, if the the fitted distribution is truly “the truth” » (Wahrscheinlichkeit dafür, einen noch schlechter passenden Satz von empirischen Daten zu finden, wenn die vewendete Funktion, die wahre Funktion ist) » “Klein” p (< 0.05 or so): schlechte Anpassung (Versuch es normal mit einer anderen Funktion oder „give up“) Interpretation – Je größer dieser Wert ist, desto besser „passt“ die ermittelte theoretische Verteilungsfunktion Otto-von-Guericke-Universität Magdeburg Produktionssimulation Thomas Schulze 17 Richtige Auswahl Erste Entscheidung : theoretische oder empirische Verteilung – Ist der p-Value für einen oder beide Test größer als 0,10 , dann die Verwendung von theoretischen Funktionen – Gegenteiliger Fall : Verwendung von empirischen Funktionen Input-Analyzer schlägt ein Ranking auf der Basis der kleinsten Fehler vor – Ist die „best“ distribution wirklich die beste Verteilungsfunktion? – Berücksichtigung des entsprechenden p-Value – Verändern Sie die Klassenanzahl Otto-von-Guericke-Universität Magdeburg Produktionssimulation Thomas Schulze 18 9 Richtige Auswahl (bei theoretischen Funktionen) begrenzte und oder unbegrenzte Verteilungsfunktion – Normalverteilung (unbegrenzt) NORM (10,4) kann auch negative Werte liefern » Negative Bearbeitungszeiten auftreten? – Dreiecksverteilung (begrenzt) TRIA (1,10,20) keine negative Werte Praktischen Verwendbarkeit und Interpretation der Funktion – Parameter einer Funktion müssen verändert werden, so müssen die Parameter der Funktion auch entsprechend interpretierbar sein – Weibull-Verteilung mit den Parameter shape und scale – Exponentialverteilungen mit dem Parameter Mittelwert Otto-von-Guericke-Universität Magdeburg Produktionssimulation Thomas Schulze 19 Thomas Schulze 20 Bimodale Verteilungen Otto-von-Guericke-Universität Magdeburg Produktionssimulation 10 Keine Daten? Leider ist dies zu oft Realität in den Projekten Was ist in diesem Fall zu empfehlen? – Interview “experts” » Nur Minimum und Maximum: Uniform » Mittelwert und Schwankungen um diesen: Uniform » Minimum, Mode und Maximum: Triangular • Mode und Mittelwert können unterschiedlich sein – Zwischenankunftszeit — Ankünfte sind unabhängig und stationär » Exponential – Anzahl von zufälligen Ereignissen bei der Ankunft: Poisson – Summe von unabhängigen „Teilen“ : Normal – Produkt von unabhängigen „Teilen”: Lognormal Otto-von-Guericke-Universität Magdeburg Produktionssimulation Thomas Schulze 21 Achtung bei der Normalverteilung Problem bei der Nutzung der Normalverteilung Nach „links“ und „rechts“ ist die Verteilung nicht begrenzt Es können somit auch negative Werte abgeleitet werden Was passiert bei einer negativen Bearbeitungszeit? Kann die Simulationszeit zurück springen? – Arena ersetzt negative Verzögerungen mit dem Wert Null Wann kann dieser Zustand eintrezen? – Mittelwert µ ist relativ groß relativ zur Standardabweichung σ, dann ist die Wahrscheinlichkeit für einen negativen Wert sehr klein (1/1000000) Aber dieser Fall kann bei der Simulation eintreten Moral von der Geschichte – Vermeide die Nutzung der Normalverteilung Otto-von-Guericke-Universität Magdeburg Produktionssimulation Thomas Schulze 22 11 NichtNicht-stationärer Ankunftsprozess Intensität in Pax/h Zeit Die Intensität von Ankunftsprozessen variiert oft über der Zeit – Mittagessen in der Mensa – Rush-hour im Straßenverkehr – Anrufe in einem Call-Center – Temperaturabhängiger täglicher Bedarf an Getränken Kann der Mittelwert über der Zeit verwendet werden? – Nein, das Ignorieren der Höhen und Tiefen führt zu nicht korrekten Resultaten Lösung: Nonstationary Poisson process Otto-von-Guericke-Universität Magdeburg Thomas Schulze Produktionssimulation 23 NichtNicht-stationärer Ankunftsprozess Grundsätzliche Vorgehensweise: – Verwendung einer rate function Ableitung dieser Funktion als piecewise-constant – Zerlegung der Zeit in Teilintervalle, in denen die Intensitätsrate als konstant angenommen wird – Berechne die Ankunftszeiten für jedes Intervall getrennt Intensität in Pax/h Zeit Otto-von-Guericke-Universität Magdeburg Produktionssimulation Thomas Schulze 24 12