Technische Universität München Lehrstuhl IV: Software & Systems Engineering Hauptseminar Automotive Software Engineering Verteilte Echtzeit Antje Neve 28. Januar 2005 Betreuer: Christian Kühnel Kurzfassung In der vorliegenden Arbeit werden zwei Kommunikationssysteme für den Einsatz im Automobil vorgestellt. Für FlexRay wird hierbei insbesondere auf die Uhrensynchronisation eingangen. Anhand der Time Triggered Architecture werden verschiedene Dienste eines Kommunikationsystems erläutert. Abschließend werden die Aspekte Fehlertoleranz und Flexibilität beider Systeme verglichen. Inhaltsverzeichnis 1 Einleitung 1.1 Grundlegende Definitionen und Erklärungen . . . . . . . . . . . . . . . . 1 1 2 FlexRay 2.1 Allgemeine Anforderungen an FlexRay . . . . . . . 2.2 Kommunikationszyklus . . . . . . . . . . . . . . . . 2.3 Uhrensynchronisation bei FlexRay . . . . . . . . . . 2.3.1 Offset-Korrektur . . . . . . . . . . . . . . . 2.3.2 Steigungskorrektur . . . . . . . . . . . . . . 2.3.3 Kombination beider Methoden bei FlexRay . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 5 6 6 8 8 9 3 Time Triggered Architecture 3.1 Allgemeines . . . . . . . . . . . 3.2 Dienste . . . . . . . . . . . . . . 3.2.1 Uhrensynchronisation . . 3.2.2 interactive consistency“ ” 3.2.3 master-shadow“ . . . . ” 3.2.4 membership service“ . . ” 3.2.5 Umsetzung bei der TTA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 11 13 13 13 13 14 14 . . . . . . . 16 16 16 17 18 18 19 19 4 Vergleich von FlexRay und 4.1 Fehler Hypothese . . . 4.1.1 Begriffe . . . . 4.1.2 TTA . . . . . . 4.1.3 FlexRay . . . . 4.2 Flexibilität . . . . . . . 4.2.1 TTA . . . . . . 4.2.2 FlexRay . . . . 5 Faziti Abbildungsverzeichnis ii 1.1 Vernetzung der Bussysteme in Fahrzeugen der Premiumklasse . . . . . . 2.1 2.2 2.3 2.4 2.5 Verschiedene Bustopologien bei FlexRay . . . . . . . . . . . . Steigungs- und Offset-Korrektur bei FlexRay . . . . . . . . . . Senden und Empfangen bei der Messung zur Offset-Korrektur Steigungskorrekturmessung bei FlexRay . . . . . . . . . . . . Uhrensynchronisation bei FlexRay . . . . . . . . . . . . . . . . . . . . . 5 7 7 8 10 3.1 3.2 Darstellung der globalen Zeit in der TTA . . . . . . . . . . . . . . . . . . Topologien der TTA Architektur . . . . . . . . . . . . . . . . . . . . . . 11 12 . . . . . . . . . . . . . . . . . . . . . . . . . 2 1 Einleitung Seit seiner Erfindung ist das Automobil das Kind der Maschinenbau-Ingenieure gewesen. Mit der Einführung (verteilter) elektronischer Systeme jedoch wurde das moderne Auto immer mehr zum Kind der Elektrotechnik- und Elektronikfachleute. Heute gerät es durch den steigenden Softwareanteil auch in den Kompetenzbereich der Informatiker. Seit mehr als 10 Jahren wird beispielsweise der echtzeitfähige, von der Robert-Bosch GmbH entwickelte CAN-Bus zur Vernetzung verschiedenster Steuergeräte im Automobil eingesetzt. Da aber auch die Anforderungen im Infotainment- und Telematikbereich enorm gestiegen sind, wird hier beispielsweise der MOST-Bus (Media Oriented System Transport) verwendet - für kostensensitive Anwendungen hat sich der LIN-Standard durchgesetzt. Im Bild 1.1 auf Seite 2 ist die Vernetzung der Bussysteme in Fahrzeugen der Premiumklasse dargestellt. Die steigende Anzahl von Funktionen im Automobil hast fast proportional eine Steigerung der verbauten Steuergeräte bewirkt. Um die steigende Komplexität zu beherrschen, muss das System Fahrzeug“ partitioniert werden.1 Über ” entsprechende Netzübergänge, sogenannte Gateways, ist es dann möglich die verschiedenen Kommunikationssysteme zu verbinden - bisher ist kein am Markt verfügbares System in der Lage alle Komponenten einheitlich zu vernetzen. 1.1 Grundlegende Definitionen und Erklärungen Time Triggered“ - Zeitgesteuert ” Zeitgesteuert“ bedeutet, dass alle Tätigkeiten rund um den Bus und meist auch der ” Komponenten, die mit dem Bus verbunden sind, vom Ablauf einer internen Uhr abhängen. Eine zeitgesteuerter Bus könnte beispielsweise so funktionieren: Wenn seit dem Beginn ” des Zyklus 20 Sekunden vergangen sind, übertrage den aktuellen Wert.“. Als Beispiel für einen zeitgesteuerten Bus kann die Time Triggered Architecture“ aufgeführt wer” den. Bei integrierten sicherheitskritischen Anwendungen wird der zeitgesteuerte Ansatz bevorzugt - aus folgendem Grund: Integrierte Systeme führen in der Regel verschiedene Applikationen zusammen - sicherheitskritische Systeme bevorzugen es diese aufgrund der möglichen Fehlerverbreitung getrennt zu halten. Diese Strategie gegen die Fehler1 divide et impera“ (lat.) bzw. engl. divide and conquer“ - Das Prinzip der Unterteilung komplexer ” ” Probleme in kleinere Teilprobleme, die einfacher zu lösen sind, ist besonders in der Informatik sehr verbreitet. Ursprünglich geht der Auspruch auf Ludwig, XI (1461 - 1483) zurück. Manchmal wird er auch Julius Cäsar zugeschrieben. 1 1 Einleitung Abbildung 1.1: Vernetzung der Bussysteme in Fahrzeugen der Premiumklasse [HSB+ 03] verbreitung nennt man auch Partitionierung (engl. partionierung) und sie wird in zeitgesteuerten Systemen konsequent angewendet [Rus03]. Jeder Knoten kennt den Ablauf und die globale Zeit und den Ablauf und weiß“, wann ” er Nachrichten empfangen und schicken kann. Dadurch entfällt eine wichtige potentielle Fehlerquelle - nämlich, dass Nachrichten an den falschen Empfänger gesendet werden oder sogar schlimmer, dass ein Knoten beim Senden die Identität eines anderen Knoten annehmen kann2 [Rus03]. Um die Flexibilität zu erhöhen können zeitgesteuerte Busse zwischen verschiedenen Abläufen/Schedules wechseln. Manche implementieren auch Mechanismen, die sozusagen huckepack“ auf den zeitgesteuerten Abläufen ereignisgesteuerte Mechanismen aufbau” en. Der größte Vorteil der zeitgesteuerten Busse liegt in Ihrer Berechenbarkeit. Event Triggered“ - Ereignisggesteuert ” Ereignisgesteuert“ bedeutet, dass die Tätigkeiten des Busses über das Auftreten von ” bestimmten Ereignissen, beispielsweise das Senden einer Nachricht, kontrolliert und gesteuert werden. Analog zum obigen Bespiel: Wenn der Sensor seinen Wert ändert, ” 2 2 Das Annehmen einer falschen“ Identität durch einen fehlerhaften Knoten nennt man auch englisch ” masquerading“ ” 1.1 Grundlegende Definitionen und Erklärungen übertrage den aktuellen Wert.“[Rus03] Systeme, die wie der CAN-Bus, ereignisgesteuert arbeiten, reagieren also auf (asynchrone) Ereignisse, die außerhalb ihres zeitlichen Kontrollbereiches liegen. Ereingnisgesteuerte Busse versenden Ihre Nachrichten mittels eines Identifiers, der Teil der Nachricht ist. So können andere Knoten bestimmen, ob die Nachricht für sie ist. Ein Problem, das hier auftreten kann ist, dass Ereignisse, die auf verschiedenen Knoten eintreffen können dafür sorgen, dass diese Knoten um den Bus konkurrieren. So braucht man Algorithmen, die sicherstellen, dass jeder Knoten zu einem Zeitpunkt ohne Unterbrechung senden kann. Beim CAN-Bus geschieht das durch die Arbitrierung bei der immer die Nachricht mit der niedrigsten Identifier-Nummer gewinnt. Teilweise gibt es auch zeitgesteuerte Ansätze in den ereignisgesteuerten Implementierungen, so beispielsweise beim Byteflight-Bus3 , bei dem durch einen erweiterten Mechanismus des Minislotting“ sichergestellt ist, dass es feste vorhergelegte Zeitfenster ” für kritische Nachrichten gibt. Dass sich bei ereignisgesteuerten Bussen die Latenzzeit mit steigender Belastung erhöht, ist ein entscheidender Nachteil für diesen Ansatz in den zukünftigen Systemen der Automobilindustrie. Partitioning“ - Partitionierung ” Partitionierung bedeutet die Trennung von Anwendungen in verteilten Systemen. Sie stellt eine Strategie zur Fehlervermeidung dar und vereinfacht die Erstellung von fehlertoleranten Anwendungen. Da sie die Zusammensetzbarkeit4 und Integrierbarkeit von Systemen fördert, ermöglicht sie auch eine Aufteilung einer Anwendung/eines Systems in kleinere, kostengünstigere Teile. Zusammensetzbarkeit und Partitionierung beeinflussen die Berechenbarkeit von Resourcen für ein Kommunikationssystem erheblich [Rus03]. Fault Containment Unit“ - FCU ” Eine Fault Containment Unit ist eine Komponente des Sytems, die unabhängig von anderen Komponenten von Fehlern betroffen sein kann. Die Zerlegung einer Architektur in verschiedene FCUs muss mit Sorgfalt durchgeführt werden, da es keine Fehlerverbreitung zwischen ihnen geben darf. Fehler in verschiedenen FCUs werden als statistisch unabhängig angenommen - mithilfe von Markow oder anderen statistischen Methoden ist es möglich die Zuverlässigkeit des ganzen Systems zu berechnen. Um richtige“ Un” abhängigkeit zu erreichen müssen die FCUs normalerweise strikt getrennt werden, d.h. sie benötigen unterschiedliche Stromversorgung und müssen physikalisch und elektrisch von einander isoliert sein. Diese sehr kostenintensive Technik wird normalerweise nur in der Luftfahrtindustrie angewendet - in der Automobilindustrie ist man hier zu kleinen Kompromissen bereit: Beispielsweise könnten sich Guardian und Schnittstelle auf 3 4 Ein Bussystem, das von BMW entwickelt wurde. engl: composability“ ” 3 1 Einleitung demgleichen Chip befinden, jedoch jeweils mit separaten Quarzen (Oszillatoren) ausgestattet sein. Diese Kompromisse müssen sorgfältig geprüft werden, so dass sichergestellt ist, dass der einhergehende Verlust von Unabhängigkeit nur harmlose oder von anderen Mechanismen abgefangenden Fehlerarten betrifft. 4 2 FlexRay Das FlexRay Konsortium wurde 1999 von BMW, DaimlerChrysler, Motorola und Philips gegründet - bis heute sind als Mitglieder namhafte Firmen wie Bosch, General Motors, VW, Mazda, Elmos und Siemens VDO hinzugekommen. Weitere (Zuliefer-)Firmen haben Interesse an einer Mitarbeit bekundet. Das Ziel von FlexRay ist ein modernes Kommunikationssystem für zuverlässige und echtzeitfähige Datenübertragung zwischen elektrischen und mechatronischen Steuergeräten im Automobil. FlexRay erreicht eine Datenrate von bis zu 10 MBit/s. 2.1 Allgemeine Anforderungen an FlexRay Die allgemeinen Anforderungen an FlexRay kann man wie folgt zusammenfassen: • Unterstützung von Echtzeitsystemen • Fehlertoleranz bei Synchronisation der globalen Uhr • Fehlertoleranz im Kommunikationskanal • Überwachungsmaßnahmen für einen geregelten Zugriff auf das Übertragungsmedium durch sogenannte Guardians“ ” • Unterstützung von verschiedenen Vernetzungs-Topologien. FlexRay unterstützt sowohl Stern als auch klassische Bustopologien sowie nahezu beliebige Kombinationen beider Varianten (vgl. Abbildung 2.1) Abbildung 2.1: Verschiedene Bustopologien bei FlexRay [HSB+ 03] 5 2 FlexRay • Flexibilität und Skalierbarkeit bei der Konfiguration • Unterstützung von verschiedenen Marken, Baureihen und Plattformen • Erweiterbarkeit auch bezüglich zukünftiger Komponenten • Vereinheitlichung der Bussysteme • Unterstützung von Produktions- und Serviceabläufen durch Teilnetzbetrieb. So können insbesondere Zulieferer ihre Komponenten im sogenannten Teilnetzbetrieb testen1 • Kostenoptimierung 2.2 Kommunikationszyklus Da im Auto verschiedene Systeme mit unterschiedlichen Eigenschaften miteinander vernetzt werden. Die meisten Regelungssysteme verlangen beispielseweise eine zyklische, zeitsynchrone Übertragung. Diagnosedaten oder Informationen für und von den Komfortanwendungen können asynchron übertragen werden. Bei FlexRay ist – um deterministisches Verhalten sicherzustellen – das Übertragungsschema in Zyklen organisiert. Jeder Zyklus enthält ein statisches und ein dynamisches Segment von konfigurierbarer Länge. Zeitkritische Daten werden bevorzugt im statischen Segment übertragen, da hier eine deterministische Übertragung garantiert werden kann. Für Übertragungen mit geringen Echtzeit-Anforderungen ist das dynamische Segment besser geeignet, da hier die Bandbreite prioritätenbasiert zugeteilt wird. Nachrichten mit hoher Priorität werden garantiert innerhalb eines Zyklus übertagen, Nachrichten mit niedrigerer Priorität kann sich der Sendezeitpunkt verzögern. FlexRay hat durch die verschiebbare Grenze zwischen statischem und dynamischem Segment – es ist auch rein dynamischer bzw. rein statischer Betrieb möglich – ein breites Einsatzspektrum [HSB+ 03]. 2.3 Uhrensynchronisation bei FlexRay FlexRay besitzt zur Uhrensynchronisation einen Mechanismus, der im Folgenden näher erläutert wird. Zur Korrektur der lokalen Zeit auf Steuergeräten gibt es zwei Verfahren (vgl. Abbildung 2.2). 6 2.3 Uhrensynchronisation bei FlexRay Abbildung 2.2: Steigungs- und Offset-Korrektur bei FlexRay [Rau03] (a) Sendezeitpunkte im Statischen Segment (b) Vergleich beim empfangenden Knoten Abbildung 2.3: Senden und Empfangen bei der Messung zur Offset-Korrektur [Rau03] 7 2 FlexRay Abbildung 2.4: Steigungskorrekturmessung bei FlexRay [Rau03] 2.3.1 Offset-Korrektur Die Offset Korrektur sorgt dafür, dass die lokalen Uhren immer zur selben Zeit ihren Kommunikationszyklus beginnen. Als Basis für diese Zeitmessung dient das statische Segment des Kommunikationszyklus bei FlexRay. Ein Knoten beginnt mit seiner Messung genau dann, wenn nach seiner lokalen Uhr der Sendezeitpunkt erreicht ist. Die empfangenden Knoten vergleichen dann die Ist-Zeit der lokalen Uhr mit der Zeit, zu der die Nachricht angekommen sein müsste. Fehler, die durch die Laufzeit der Nachricht bei der Messung entstehen, können durch einen konfigurierbaren Korrekturwert ausgeglichen werden. Bei FlexRay nehmen ausgewählte Knoten, die diese Synchronisationsnachrichten senden bzw. empfangen, diese Messung zur absoluten Abweichung vor (vgl. 2.3) Die eigentliche Offset-Korrektur wird durch den Welch-Lynch-Algorithmus [Rau03] (bzw. [WL88] geregelt: Danach bestimmt ein Knoten die Abweichung zu den anderen Knoten im Netzwerk, läßt den größten und kleinsten Wert bei der Berechnung wegfallen und bestimmt dann den Mittelwert. Der Algorithmus zeichnet sich vor allem durch gute Performanz und seine einfache Implementierung aus [Rau03]. 2.3.2 Steigungskorrektur Sie ermittelt die unterschiedlichen Takte auf den Steuergeräten und stellt den Mittelwert der Taktgeschwindikeiten auf dem lokalen Knoten ein. Für die Steigungskorrektur müssen zwei Messungen durchgeführt werden: Ein Knoten sendet also in zwei aufeinanderfolgenden Zyklen und mißt so die Abweichung zwischen dem erwarteten und beobachteten Sendestart (vgl. Abbildung 2.4). Die Differenz gibt die Steigungsdifferenz zwischen Sende- und Empfangsknoten an [Rau03]. 1 8 Als Beispiel seien hier die Steuergeräte innerhalb einer Autotür genannt. Diese können und müssen getestet werden, bevor sie eingebaut und an den großen Kabelbaum angeschlossen werden. 2.3 Uhrensynchronisation bei FlexRay Die Korrektur der Steigungsdifferenz wird analog zur Offset-Differenz durchgeführt: Nach der Bestimmung der Differenzen der einzelnen Knotenfrequenzen, wird der Mittelwert gebildet und die lokale (eigene) Frequenz um diesen Wert korrigiert. Durch die Steigungskorrektur erhöht sich auch die Bandbreiteneffizienz des FlexRay-Kommunikationszyklus [Rau03] 2.3.3 Kombination beider Methoden bei FlexRay Die Uhrensynchronisation des FlexRay-Bussystems verwendet eine Kombination der dargestellten Offset- und Steigungskorrektur und nutzt so die Vorteile beider Mechanismen. (vgl. Abbildung 2.5) Zunächst wird über zwei Zyklen (n, n + 1) gemessen, welche Abweichung jeder Knoten im Vergleich zu den anderen hat - diese Werte werden gespeichert. Dann werden die Differenzen zu den jeweils anderen Knoten berechnet und die Korrektur der Steigung durchgeführt. Diese beiden Abläufe führen alle Knoten zur selben Zeit durch. Auch die Offset-Korrektur wird zum Zeitpunkg n + 1 ausgeführt, so dass der Zyklus n + 2 in allen Knoten zum nahezu gleichen Zeitpunkt beginnt [Rau03]. Damit die Uhrensynchronisation korrekt funktioniert, darf höchstens ein Drittel der vorhandenen Knoten fehlerhaft sein (vgl. Abschnitt 4.1.3). 9 2 FlexRay (a) Offset-Korrektur (b) Steigungskorrektur (c) Kombination der Methoden Abbildung 2.5: Uhrensynchronisation bei FlexRay [Rau03] 10 3 Time Triggered Architecture 3.1 Allgemeines Die Entwicklung der der Time Triggered Architecture (TTA) wird nun seit etwa 20 Jahren unter Federführung von Hermann Kopetz an der Universtität Wien vorangetrieben. Ein kommerzieller Betrieb wird über die Firma TTTech abgewickelt. Die TTA verfolgt wie der Name schon sagt den zeitgesteuerten Ansatz. Das Zeitmodell geht davon aus, dass die globale Zeit in Perioden von Aktivität und Stille eingeteilt werden können sogenannte Ticks (vergl. Abbildung 3.1). Alle Ereignisse in einem verteilten System, die innerhalb eines globalen Clock-Tick passieren, werden also als gleichzeitig betrachtet. Die Time Triggered Architecture sieht zwei Bustopologien vor - den TTA Star (vgl. Abbildung 3.2) sowie den TTA Bus. Unter Laborbedingungen wird eine Datenrate von 1 GBit/s angegeben, ansonsten erreicht man etwa 25 MBit/s. Zur besseren Kapselung und einfacheren Anwendungsentwicklung implementiert die TTA drei Schnittstellen, die sich wie folgt kennzeichnen lassen: • Das Real-Time Service Interface – Stellt die Echtzeit-Dienste für den Knoten bereit – Zeitkritisch • Diagnostic Maintenance Interface – Wird zum Setzen von Parametern und für die Fehlerdiagnose benutzt – Nicht zeitkritisch Abbildung 3.1: Darstellung der globalen Zeit in der TTA [KB02] 11 3 Time Triggered Architecture (a) TTA - Bus (b) TTA - Star Abbildung 3.2: Topologien der TTA Architektur [KB02] 12 3.2 Dienste • Configuration Planning Interface – Wird benutzt um andere Knoten im plug-and-play“-Verfahren in das Netz” werk einzufügen – Nicht zeitkritisch 3.2 Dienste Dienste in verteilten Systemen erleichtern die Entwicklung von Anwendungen. Die Time Triggered Architecture ist aufgrund ihrer langjährigen Entwicklung in der Situation zahlreiche Dienste zu implementierungen, die für verteilte Echtzeitsysteme wichtig sind. Im Folgenden werden einige der Dienste und ihre spezielle Umsetzung in der TTA erläutert: 3.2.1 Uhrensynchronisation Die TTA verwendet ähnlich zu FlexRay den Welch-Lynch-Algorithmus zur Synchronisation der Uhren im Netzwerk. [WL88, Rus03] 3.2.2 interactive consistency“ ” Das Problem, verteilte Daten konsistent zu übertragen, nennt man interactive consis” tency“ oder auch atomic broadcast“. Um sicherzustellen, dass alle Nachrichten bei allen ” Empfängern identisch sind. Dazu müssen zwei Bedingungen erfüllt sein: Übereinstimmung: Alle fehlerfreien Empfänger erhalten selbst bei fehlerhaftem Sender diegleiche Nachricht. Validität: Wenn die Sender fehlerfrei sind, dann erhalten die Empfänger auch die Nachricht, die tatsächlich gesndet wurde. Algorithmen, die diese Vorraussetzungen beim Auftreten zufälliger Fehler erfüllen, enthalten mehr als einen Datenaustausch - im Grunde vergleicht jeder Empfänger seine Werte mit denen der anderen Empfänger. Es ist nachweislich unmöglich interactive ” consistency“ zu erreichen, wenn es a zufällige Fehler gibt und weniger als 3a + 1 FCUs, 2a + 1 disjunkte Kommunikationspfade zwischen den FCUs und a + 1 Kommunikationsrunden [Rus03]. 3.2.3 master-shadow“ ” Der sogenannte master-shadow“ Dienst ist ein Selbstkontroll-Mechanismus, der im Feh” lerfall zu sogenannter fail-silence“ führt. Die anderen Knoten bemerken dies und und ein ” 13 3 Time Triggered Architecture Backup-System kann die fehlende Funktionalität abdecken. Die Architektur kann diesen Ersetzungvorgang von einem (fehlerhaften) Knoten (Master) durch einen BackupKnoten unterstützen. Eine Methode kann sein, dass der Master und Backup-Knoten dasselbe Zeitfenster im Ablauf benutzen, der Backup-Knoten jedoch vom Senden ausgeschlossen bleibt bis der Master Fehler zeigt [Rus03]. 3.2.4 membership service“ ” Das master/shadow“ Prinzip hängt von einer konsistenten Ausfallbenachrichtigung ” (engl. failure notification“) ab. Der wichtigste Punkt hierbei ist, dass wenn ein feh” lerfreier Knoten denkt“, dass es einen fehlerhaften Knoten gibt, müssen alle anderen ” fehlerfreien Knoten auch dieser Meinung sein. Dieses Prinzip nennt man auch member” ship service“. Die genannte Bedingung muss im Übrigen auch für den jeweils eigenen Status des Knoten gelten, d.h. es ist naiv anzunehmen, dass ein Knoten, der Nachrichten empfangen kann und keine Problem in seiner Arbeitsweise sieht, automatisch in der membership“ ist [Rus03]. ” Jeder Knoten pflegt also seine eigene membership“ Liste, die alle und nur die feh” lerfreien Knoten umfaßt. Da die Erkennung eines fehlerhaften Knotes etwas Zeit in Anspruch nehmen kann, gibt es die Regel, dass in der gemeinsamen membership aller ” ” Knoten höchstens ein fehlerhafter Knoten enthalten sein darf. Also muss ein membership service“ folgende Bedingungen erfüllen: ” Übereinstimmung: Die membership“ Listen aller fehlerfreien Knoten sind gleich. ” Validität: Die membership“ Listen aller fehlerfreien Knoten enthalten alle fehlerfreien ” Knoten und höchstens einen fehlerhaften Knoten. Falls es unmöglich sein sollte korrekte membership“ zu bewahren, kann sollte man ” mindestens die Übereinstimmung sichern, so dass ausgeschlossene fehlerfreie Knoten einen rejoin“ versuchen können. Dieses Ziel ist unter Voraussetzung einer korrekten ” und konsistenten Nachrichtenübertragung leicht zu erreichen [Rus03]. 3.2.5 Umsetzung bei der TTA Die TTA Architektur benutzt für interactive consistency“ Checksummen - in etwa ” äquivalent zu digitalen Signaturen. So wir die Fehlerquelle, dass verschiedene Empfänger verschiedene Werte durch dieselbe Übertragung erhalten, ausgeschlossen. Außerdem stellt die TTA die sogenannte clique avoidance“ als Teil ihres membership ” ” service“ bereit. Die Funktionalität stellt sich wie folgt dar: Alle Knoten, die eine Nachricht empfangen bleiben in der membership“. So wird dann mit der Standard- mem” ” bership“-Funktionalität erreicht, dass ein fehlerhafter Sender oder Empfänger ausgeschlossen wird. Bei asymmetrischen Fehlern oder wenn es mehrere Ausfälle gleichzeitig gibt, verhält sich die clique avoidance“ konsistent, allerdings kann es passieren, dass ” 14 3.2 Dienste fehlerfreie Knoten von der membership“ ausgeschlossen wurden. (Sie können jedoch im ” nächsten Kommunikationszyklus wieder in das Netzwerk aufgenommen werden.) [Rus03] Die Kombination beider Methoden stellt eine klassische Form der interactive consis” tency“ bereit. Im Bereich der Anwendungsentwicklung können die Methoden dazu benutzt werden verschiedene master/shadow -Strategien zu entwickeln. TTA unterstützt ” ” shadow“ Knoten, die gemeinsam mit dem Master dasselbe Zeitfenster belegen, aber ” erst senden, wenn der Master ausfällt. Desweiteren wird der membership service“ auch intern bei der TTA angewandt ” - nämlich um sicherzustellen, das sie auch bei mehreren fehlerhaften Uhren funktionstüchtig ist. Die Synchronisation wird nur über fehlerfreie Uhren vorgenommen. 15 4 Vergleich von FlexRay und TTA Abschließend sollen nach der etwas detailierteren Betrachtung der Uhrensynchronisation bei FlexRay und den Diensten bei der Time Triggered Architecture zwei weitere Aspekte anhand dieser beiden Bussyteme verglichen werden. 4.1 Fehler Hypothese 4.1.1 Begriffe Die Fehler Hypothese setzt sich aus mehreren Aspekten zusammen - der Fehlerart ( fault ” mode“), der Gesamtzahl der Fehler und der Ankunftsrate der Fehler. Nach dem hybrid ” fault model“ können Fehlerarten unterschiedlich klassifziert werden: spatial proximity“ Ein Fehler, der Hardware in einem bestimmten räumlichen Umfeld ” zerstört - möglicherweise mehrere FCUs auf einmal. Die verschiedenen Bustopologien sind für diese Art von Fehler unterschiedlich anfällig: Die bus-basierte Topologie ist anfälliger als die Stern-Topologie, da beim einer Verdrahtung als Bus die redundanten Busleitungen bei jedem Knoten nah beieinander sind. erkennbarer Fehler Der Fehler kann zuverlässig erkannt und reproduziert werden. symmetrischer Fehler: Der Fehler tritt bei allen Knoten auf dieselbe Art und Weise auf. zufälliger Fehler/asymmetrisch Ein Fehler ist willkürlich oder zufällig, wenn er ohne jegliche Beschränkung auftritt. Man nennt ihn asymmetrisch, wenn das fehlerhafte Verhalten von verschiedenen Knoten unterschiedlich interpretiert wird. SOS - Fehler slightly out of specification“ Fehler rufen oft asymmetrische Fehler her” vor 1 . aktive Fehler Diese Fehlerart kann von einer aktiven Komponente, wie dem Prozessor verursacht werden. 1 Ein Beispiel hierfür ist der Fall, wenn ein Knoten eine nicht eindeutige Spannung auf den Bus schickt, z.B. 0,5 V statt 0 oder 1 Volt. Manche Knoten würden diese Spannung als 1 und manche als 0 Volt interpretieren. 16 4.1 Fehler Hypothese passive Fehler Fehler in passiven Komponenten können im Gegensatz zu aktiven Elementen keine Werte neu erzeugen, sondern höchsten verlieren, verzögern oder verändern. So kann man durch kryptographische Signaturen die Fehlerrate von aktiven FCUs auf die von passiven reduzieren. Fehlertoleranz wird häufig mit Redundanz erreicht: Für erkennbare Fehler ist weniger Redundanz erforderlich als für symmetrische Fehler. Für letztere muss beim Systemdesign ebenfalls weniger Redundanz als für zufällige Fehler bereitgestellt werden. self-checking“ - Selbstkontrolle/ fail silence“ Bei diesem Mechanismus, der vor al” ” lem für einfache Fehlerarten angewendet wird, werden FCUs paarweise gruppiert, so dass sie sich selbst kontrollieren können. Falls sich diese FCUs also widersprechen, schalten sie sich ab und bewirken so, dass ihr fehlerhaftes Verhalten als erkennbarer Fehler registriert wird. Bei den meisten Architekturen wird diese Technik der Selbstkontrolle auch in jeder einzelnen FCU verwendet, so dass sich eine FCU, die bei sich selbst einen Fehler entdeckt, abschaltet. Diese Methode nennt man fail silence“. ” Rekonfigurationsrate Wie schnell kann sich eine Architektur von vergangenen Fehlern erholen und auf neue reagieren. Fehlerankunftsrate Die angenommene Rate, mit der (verschiedene) Fehler auftauchen können. rejoin“ Der rejoin“ Vorgang benennt das Wiedereinbuchen in ein Netzwerk von einer ” ” vorher ausgeschlossenen FCU. Dies kann eine sehr schwierige Operation sein, wenn nämlich exakt zum gleichen Zeitpunkt eine weitere FCU ausfallen könnte. never give up“ Strategie Diese Methode beschreibt, dass in einer Notsituation die ” Knoten mit dem besten verfügbaren Wissen versuchen auf die lokale Kontrolle ihrer Aktoren zurückgreifen. Gleichzeitig wird versucht die Abstimmung mit den anderen Knoten wiederzuerlangen. Im Folgenden werden nun die Fehlerarten, die TTA und Flexray tolerieren, aufgeführt 4.1.2 TTA Die FCUs der Time Triggered Architecture können je nach Produktionsweise verschieden sein. Der TTA-Bus beispielsweise hat zwei separate Busleitungen - die als separate FCUs gesehen werden. Beim TTA-Stern sind die Knoten über zentrale Hubs verbunden, die doppelt vorhanden sind. TTA erlaubt folgende Fehlermodi: 17 4 Vergleich von FlexRay und TTA TTA Star • Zufällige, aktive Fehler in den Controllern und im Hub • spatial proximity faults“, welche die Knoten oder den Hub betreffen ” Einzelfehler-Toleranz wird bei vier fehlerfreien Controllern und beiden intakten Hubs garantiert. TTA-Bus • Zufällige passive Fehler in den Guardians und Bussen • Einzelfehler-Toleranz wird garantiert bei: – In jedem Knoten entweder der Controller oder der Guardian fehlerhaft. – Vier Controller und Guardians sind fehlerfrei. Die Fehlerankunftsrate darf bei höchstens einem Fehler in jeder zweiten Runde liegen. 4.1.3 FlexRay FlexRay toleriert folgende Fehlerarten: • Asymmetrische, und damit zufällige, Fehler in den Controllern bei der Uhrensycnhronisation. • spatial proximity faults , die Knoten und den Hub betreffen können. ” ” • Einzelfehler-Toleranz garantiert bei: – In jedem Knoten ist entweder der Guardian oder der Controller ist fehlerhaft – Es ist höchstens eine Zwischenverbindung fehlerhaft. Weniger als ein Drittel der Knoten darf für die Uhrensynchronisation fehlerhaft sein. 4.2 Flexibilität Der statische Ablauf (engl. schedule) in einem zeitgesteuerten Bus ist eher unflexibel. So gibt es in vielen Architekturen die Überlegung Maßnahmen zum Umschalten zwischen verschiedenen Abläufen einzurichten. In der Luftfahrt gibt es beispielsweise verschiedene Abläufe für den Start, den Normalflug und die Landung. Im Automobil kann man sich 18 4.2 Flexibilität die Nutzung dieser verschiedenen Abläufe anhand von Sonderausstattungen verdeutlichen2 . Wenn man diesen Mechanismus nutzt, um mehr Flexibiltät zu erlangen, muss man das System auch gegen unberechtigte Wechsel zwischen den Abläufen schützen. Die zeitgesteuerten Busse müssen also die flexible Bereitstellung der Bandbreite von ereignisgesteuerten Bussen abbilden. 4.2.1 TTA Bei der TTA werden die Abläufe berechnet und auf jedem Knoten in eine sogenannte Message Descriptor List (MEDL) geladen auf dem Controller geladen. Die Anzahl und Länge der Nachrichten, die ein Knoten senden kann, kann variiert werden, ist jedoch fix sobald sie in die MEDL geladen wurde. Vor dem Start überprüft die TTA ob jeder Knoten diegleiche MEDL Version geladen hat. Ein Knoten kann nun einen Moduswechsel verlangen: Dieser wird entweder sofort ausgeführt oder verschoben. Passiert das letztere können die nachfolgende sendenden Knoten die Anfrage überschreiben. Alle Modi basieren auf demselbem Ablauf ( schedule“), nur Empfänger und die Interpretation der ” Nachrichten ist veränderbar [Rus03]. Um simple, kostengünstige Signalgeber3 über einen TTA Knoten zu verbinden, benutzt man das TTP/A Feldbus Protokoll. Dabei ist der TTA Knoten Master des Signalgeber-Clusters. Innerhalb des Protokolls gibt es zwei Kommunikations-Runden: Der Master-Slave (MS) Zyklus wird dazu benutzt einen oder mehrere Signalgeber zu warten oder zu konfigurieren. Die Multi-Partner (MP) Runde überträgt periodisch Daten ausgewählter Signalgeber. Beide Zyklen und das Real-Time-Interface (vgl. Abschnitt 3.1) wechseln sich ab, so dass plug-and-play“ möglich ist und im laufenden Betrieb Senso” ren/Signalgeber ausgetauscht oder neu in das Netzwerk integriert werden können, ohne dass die Echtzeitfähigkeit beeinträchtigt wird [KB02]. 4.2.2 FlexRay FlexRay soll wie sein Name suggeriert flexibler sein als andere Kommunikationssysteme. Dies wird durch die Einteilung des Kommunikationszyklus in ein statisches und dynamisches Segment erreicht. Die Aufteilung wird während des Designs festgelegt und in die Controller und Guardians geladen. Während des ereignisgesteuerten Segments kommunizieren die Knoten über das Byteflight Protokoll. Das aus einem ähnlichen Konsortium wie FlexRay entstandene Protokoll LIN (Local Interconnect Network) wird genutzt, um die Kommunikation mit den schon bei der TTA erwähnten Signalgebern zu unterstützen. Im zeitgesteuerten Segment wird der Ablauf nicht vollständig installiert, sondern das Segment wird in Zeitfenster aufgeteilt und jeder Buscontroller wird über die Anzahl der ihm zugewiesenen Zeitfenster informiert. Knoten, die eine höhere Bandbreite benötigen, 2 3 Ein Bespiel wäre hier ein Auto, das mit oder ohne Antriebs-Schlupf-Regelung (ASR) ausgestattet ist. engl. transducer; Diese Signalgeber besitzen keine eigenen Oszillatoren und finden beispielsweise in Autotüren Anwendung. 19 4 Vergleich von FlexRay und TTA bekommen so mehr Zeitfenster. Jeder Knoten erfährt den vollständigen Ablauf beim Starten. Jeder Knoten schickt seine Identität bei den zu sendenden Nachrichten mit und die anderen Knoten benutzen diese Information um ihre input-buffer“ zu kennzeichnen. ” Das könnte beispielsweise so ablaufen: Eine Nachricht wird in den Zeitfenstern 1 und 7 mit dem Identifier 3 geschickt. Nun nehmen alle Knoten den Inhalt der Zeitfenster 1 und 7 und führen ihn den Tasks zu, welche die Eingaben von Knoten 3 verarbeiten. Ein offensichtlicher Nachteil dieser Methode ist die Gefahr des masquerading“ , d.h. ein ” Knoten sendet eine Nachricht mit einem falschen Identifier [Rus03]. 20 5 Fazit Als Fazit des Vergleichs dieser beiden Architekturen, die im Auto1 Anwendung finden (sollen), ist zu sagen, dass aufgrund der langjährigen Forschungsarbeit die Time Triggered Architecture wohl etwas ausgereifter ist. Insbesondere bezüglich der Dienste stellt sie komfortable Möglichkeiten dar, Anwendungen zu entwickeln. Auch im Bezug auf die Datenübertragungsrate ist sie FlexRay deutlich überlegen. Jedoch ist das nicht das einzige Argument. FlexRay ist flexibler und hinter ihm steht ein mächtiges Konsortium von Firmen, die an seiner Weiterentwicklung interessiert sind. Der langjährig erprobte CAN-Bus wird für neuere Entwicklungen sicher ersetzt werden, jedoch für nicht so bandbreitenintensive Netze noch Anwendung finden. Der zeitgesteuerte Ansatz besitzt den entscheidenden Vorteil der besseren Berechenbarkeit. So kann man abschließen sicher sagen, dass im Auto auch weiterhin viele Fragestellungen im Informatikbereich zu lösen sind und es zahlreiche spannende Aufgabe zu lösen gibt um den Anforderungen künftiger Fahrzeuggenerationen gerecht zu werden. Das Prinzip der Aufteilung eines großen Systems ( divide and conquer“) als ein großes ” Prinzip in der Informatik wird sicher zur Bewältigung der Fragestellungen beitragen. 1 TTA wird sogar auch in der Luftfahrt genutzt. 21 Literaturverzeichnis [HSB+ 03] Heinecke, Harald, Schedl, Anton, Berwanger, Josef, Peller, Martin, Nieten, Volker, Belschner, Ralf, Hedenetz, Bernd, Lohrmann, Peter und Bracklo, Claas: FlexRay - ein Kommunikationssystem für das Automobil der Zukunft. Elektroniknet.de, 2003. http:// www.elektroniknet.de/topics/kommunikation/fachthemen/2003/0002/. [KB02] Kopetz, Hermann und Bauer,Günther: The Time-Triggered Architecture. In: Proceedings of the IEEE Special Issue on Modeling and Design of Embedded Software. IEEE, Oct 2002. http://www.tttech.com/technology/ docs/history/HK_2002-10-TTA.pdf. [Rau03] Rausch, Matthias: Optimierte Mechanismen und Algorithmen in FlexRay. Elektroniknet.de, 2003. http://www.elektroniknet.de/topics/ kommunikation/fachthemen/2003/0006/. [Rus03] Rushby, John: A Comparison of Bus Architectures for Safety Critical Embedded Systems. Langley Reseach Center, 2003. http://techreports.larc. nasa.gov/ltrs/PDF/2003/cr/NASA-2003-cr212161.pdf. [WL88] Welch, J.L und Lynch, N.A.: A New Fault-Tolerant Algorithm for Clock Synchronization. In: Elektroniknet.de [Rau03], Seiten 1–36. http://www. elektroniknet.de/topics/kommunikation/fachthemen/2003/0006/. 22