Datenimport mit fabasoft Components/COLD

Werbung
Datenimport mit
fabasoft Components/COLD
Hannes Mahringer
ISBN: 978-3-902495-24-2
Alle Rechte der Verbreitung, auch durch fotomechanische Wiedergabe,
Tonträger jeder Art, auszugsweisen Nachdruck oder Einspeicherung und
Rückgewinnung in Datenverarbeitungsanlagen aller Art, sind vorbehalten.
Es wird darauf verwiesen, dass alle Angaben in diesem Fachbuch trotz
sorgfältiger Bearbeitung ohne Gewähr erfolgen und eine Haftung der Autoren oder
des Verlages ausgeschlossen ist.
Aus Gründen der einfacheren Lesbarkeit wird auf die geschlechtsspezifische
Differenzierung, z.B. Benutzer/-innen, verzichtet. Entsprechende Begriffe gelten im
Sinne der Gleichbehandlung grundsätzlich für beide Geschlechter.
Fabasoft und das Fabasoft Logo sind registrierte Warenzeichen der Fabasoft AG.
Microsoft, MS-DOS, Windows, das Windows-Logo, Windows 95, Windows 98,
Windows Me, Windows XP, Windows NT, Windows 2000, Windows Server,
Active Directory, Outlook, Excel, Word, PowerPoint, Visual Studio, Visual Basic,
Visual C++ sind entweder registrierte Warenzeichen oder Warenzeichen
der Microsoft Corporation.
Alle anderen verwendeten Hard- und Softwarenamen sind
Handelsnamen und/oder Marken der jeweiligen Hersteller.
© Fabasoft International Services GmbH, Linz 2007
Honauerstraße 4, 4020 Linz
Tel.: +43 (732) 606162
http://www.fabasoft.at
Datenimport mit Fabasoft Components/COLD
Hannes Mahringer
Inhaltsverzeichnis
2007
Datenimport mit Fabasoft Components/COLD
1
2
Einleitung
______________________________________________________
______________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________
Datenimportobjekte
______________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________
1
11
13
2.1 Ablauf eines Imports ____________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________ 13
2.2 Zuordnung der Spalten zu Eigenschaften ____________________________ 13
2.3 Tracing in Fabasoft Components Expressions ______________________________________________________________________________________________________________________________________________________________________________________________________________ 21
Datenquelle ____________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________ 21
Zuordnungen von Eigenschaften ________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________ 23
Suchen und Erzeugen von Objekten ______________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________ 24
Importieren der Daten __________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________ 24
3
Ablauf eines Datenimports
4
Datenimportobjekt
__________________________________________________________________________________________________________________________________________________________________________________________________________________________
__________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________
27
31
4.1 Datenquellen ______________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________ 39
Auswahl des Datenbereichs __________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________ 39
4.2 Objektklassen
________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________
40
5
4.3 Setzen und Ändern von Eigenschaften ______________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________
Eigenschaften ____________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________
Objektbeziehungen ________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________
Schlüsseleigenschaften und Änderung von Werten ______________________________________________________________________________________________________________________________________________________________________________________________________
Setzen von Inhaltseigenschaften ________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________
Zeichenkettenlisten ____________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________
Zusammengesetzte Eigenschaften ______________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________
Verarbeitung von Listen ____________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________
40
4.4 Identifikation und Duplikatsprüfung ______________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________
Objektsuche ________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________
Suchbereiche ________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________
Objektsperren ______________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________
55
40
42
42
46
48
49
51
55
67
68
4.5 Parameter der Verarbeitung ________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________ 69
Transaktionen und Threads __________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________ 69
Übergehen von Methoden ______________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________ 72
4.6 Importoptionen und Protokoll ______________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________
Protokoll: Modus, Objekt, max. Einträge ______________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________
Änderungen sofort anzeigen __________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________
Objekte nicht aktualisieren __________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________
74
4.7 Skripts ________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________
Filterskript für Rohdaten __________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________
Filter für Objekte ____________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________
Filter für Objekte nach dem Commit ______________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________
75
74
74
75
76
77
79
5
Was man unbedingt beachten sollte …
______________________________________________________________________________
81
5.1 Nummeratoren ____________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________ 81
Nummerator-Eigenschaften ______________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________ 81
Schlüssel-Nummerator ________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________ 83
5.2 Protokoll
__________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________
5.3 Roll-Forward
________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________
84
85
5.4 Starten des Datenimports ________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________ 88
Ferngesteuertes Importieren __________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________ 88
6
Optimierung
______________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________
93
6.1 Struktur des Datenimports __________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________
Abhängigkeiten ____________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________
Migrationszwischenformat __________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________
Zusammenfassen von Importen ________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________
Aufteilung von Importen __________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________
93
93
96
97
97
6.2 Optimierungsoptionen des Imports ____________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________ 97
Algorithmen zur Vermeidung doppelter Objekte ____________________________________________________________________________________________________________________________________________________________________________________________________________________________ 99
Sortierung __________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________ 99
Parallelisierung ____________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________ 101
6.3 Client-Optimierung __________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________ 102
Client-Cache ____________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________ 102
Netzwerkanbindung __________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________ 103
Client-CPUs __________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________ 104
Festplatte ____________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________ 104
Anzahl der Clients ____________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________ 105
7
6.4 Fabasoft Components COO-Service-Optimierung ____________________________________________________________________________________________________________________________________________________________________________________ 105
Anzahl der Worker Threads ________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________ 105
Fabasoft Components COO-Service-Cache __________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________ 107
Objektsperren ______________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________ 107
6.5 Optimierungen am Datenbanksystem ______________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________ 107
Backup, Restore und Recovery ______________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________ 108
Indizes und Statistiken __________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________ 108
Tabellendefinitionen ________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________ 110
Auto-Grow ________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________ 112
Device-Placement ______________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________ 112
6.6 Fabasoft Components MMC-Service-Optimierung
____________________________________________________________________________________________________________________________________________________________________________
113
6.7 Von Objekten und Töpfen __________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________ 113
Statische Problemanalyse ________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________ 114
Dynamische Problemanalyse ________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________ 115
Performance Monitor/SNMP ________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________ 117
Counter des Fabasoft Components Kernels ______________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________ 121
Counter der Fabasoft Components Services __________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________ 124
6.8 Der Kernel-Trace ______________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________ 125
Erstellen der Traces ____________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________ 125
Interpretation des Traces ____________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________ 126
7
Konfiguration der Datenquellen
________________________________________________________________________________________________________________________________________________________________________
131
7.1 ODBC ________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________ 135
Microsoft Excel ____________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________ 135
CSV und Tab-Separated Files ______________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________ 136
Oracle unter Linux ____________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________ 139
7.2 OLE DB ______________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________ 139
Definition der OLE DB-Datenquelle ____________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________ 140
Microsoft SQL Server __________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________ 142
Microsoft Access ________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________ 142
File Provider ______________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________ 143
7.3 Report-Umsetzer __________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________ 147
7.4 Skript-Datenquelle
__________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________
149
7.5 LDAP-Datenquelle
______________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________
155
7.6 ADE DB ____________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________ 156
7.7 CSV
____________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________
157
7.8 Roll-Forward Log-Reader ______________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________ 157
8
Zusätzliche Beispiele
______________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________
159
8.1 Datenquellenskript __________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________ 159
XML-Datenquelle ________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________ 159
8.2 Filterskript für Rohdaten ________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________ 160
Berechnete Spalten ____________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________ 160
Berechung der Werte aus der LDAP-Datenquelle ____________________________________________________________________________________________________________________________________________________________________________________________________________________ 164
8.3 Filterskript für Objekte __________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________ 166
Versionierung ______________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________ 166
8.4 Filterskript für Objekte nach dem Commit ________________________________________________________________________________________________________________________________________________________________________________________________________________________________ 168
Archivierung ______________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________ 168
9
Glossar
10
Abbildungsverzeichnis
11
__________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________
Literaturverzeichnis
171
______________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________
173
____________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________
175
9
1
11
1 Einleitung
Dieses Buch ist für all jene geschrieben, die Daten in Fabasoft Components Domänen importieren
wollen. Die Softwarekomponente Fabasoft Components/COLD ([email protected]) bietet ein mächtiges und – bei richtiger Konfiguration – sehr effizientes Werkzeug um Daten aus verschiedensten
Datenquellen zu lesen und auf das Objektmodell der konkreten Installation abzubilden.
Das Buch besteht aus mehreren Teilen:
°
In Kapitel 2 werden anhand eines anschaulichen Beispieles die Grundfunktionen des Datenimports mit
Fabasoft Components/COLD erklärt.
°
°
°
°
°
°
Kapitel 3 widmet sich dem Ablauf eines Datenimports.
Kapitel 4 schafft einen Einblick in die Details der Konfiguration von Datenimportobjekten.
In Kapitel 5 gibt es Wissenswertes rund um den Datenimport zu lesen.
Kapitel 6 behandelt die Optimierung der Imports auf allen Ebenen.
Eine Anleitung zur Konfiguration der verschiedenen Datenquellen ist in Kapitel 7 zu finden.
Zuletzt werden in Kapitel 8 noch einige Konfigurationsbeispiele und Skripts erklärt.
2
13
2 Ein Beispiel für den Anfang
Die Zielsetzung von Fabasoft Components/COLD ist es, Daten einfach konfigurierbar und effizient in
eine Fabasoft Components Domäne importieren zu können. Dieses Kapitel ist eine Einführung in die
Verwendung von Fabasoft Components/COLD und ist für jene Anwender gedacht, die noch keine
Erfahrungen damit haben. Dabei werden die Grundlagen anhand eines einfachen Beispiels erklärt.
2.1
Ablauf eines Imports
Bei einem Datenimport werden Daten aus einer Datenquelle gelesen und in der Fabasoft Components Domäne
auf bestehende oder neue Objekte übertragen. Wie diese Übertragung stattfindet, genauer gesagt welche
Werte der Quelldaten in welche Eigenschaften welcher Zielobjekte geschrieben werden, wird in Datenimportobjekten definiert. Der Import wird dann durch den Aufruf der Import-Methode dieses Datenimportobjekts gestartet. Das kann entweder über das Kontextmenü oder durch den direkten Aufruf der Importmethode, zum Beispiel
von einem Skript aus, erfolgen.
2.2
Zuordnung der Spalten zu Eigenschaften
Bevor wir uns auf die Konfiguration der Datenimportobjekte stürzen, sehen wir uns die Zuordnung der Daten zwischen Datenquelle und Zielobjekten an. Die Daten der Datenquelle bestehen im Allgemeinen aus einer oder
mehreren Zeilen (Records) die alle die gleichen Spalten (Columns) enthalten, auch wenn nicht immer jede dieser Spalten in jeder Zeile einen Wert enthalten muss.
Beispiel: „Customers“ aus der „Northwind“-Datenbank
Microsoft hat bis zum Microsoft SQL Server 2000 eine Demo-Datenbank mit dem Namen Northwind
mit dem Produkt mitgeliefert. Diese ist bis heute auch als Download frei verfügbar und kann auch am
Microsoft SQL Server 2005 verwendet werden. In dieser Datenbank gibt es eine Tabelle Customers, die
91 Datensätze mit Kundendaten enthält. Diese eignen sich dazu, in eine Fabasoft Components Domäne
geladen zu werden. Aus diesen Daten sollen Personenobjekte und Organisationen erzeugt werden.
Tabelle 1 zeigt das Format der Quelldaten, so wie sie in der Datenbank zur Verfügung stehen.
COLUMN NAME
TYPE
LENGTH
NULLABLE
CustomerID
nchar
5
No
CompanyName
nvarchar
40
No
ContactName
nvarchar
30
Yes
ContactTitle
nvarchar
30
Yes
Address
nvarchar
60
Yes
City
nvarchar
15
Yes
Region
nvarchar
15
Yes
PostalCode
nvarchar
10
Yes
Country
nvarchar
15
Yes
Phone
nvarchar
24
Fax
nvarchar
24
Yes
Yes
Tabelle 1: Format der Quelldaten
Man sieht, dass alle Spalten als Textspalten deklariert sind. Die CustomerID eignet sich hervorragend als
Schlüsseleigenschaft für die Person, der CompanyName ist als einzige Eigenschaft der Organisation gleichzeitig die Schlüsseleigenschaft der Organisation. Tabelle 2 und Tabelle 3 enthalten die zu verwendenden Eigenschaften der Zielobjektklassen:
2. Ein Beispiel für den Anfang
2.2 Zuordnung der Spalten zu Eigenschaften
Person
NAME
REFERENZ
TYPE
LÄNGE
Externer Schlüssel
[email protected]:objexternalkey
STRING
254
Vorname
[email protected]:userfirstname
STRING
64
Nachname
[email protected]:usersurname
STRING
64
Organisation.
Orgnaisation
[email protected]:persjobs.
[email protected]:joborganization
STRING
80
Organisation.
Position/Tätigkeit
[email protected]:persjobs.
[email protected]:jobfunction
STRING
80
Adresse.Adresstyp
[email protected]:address.
[email protected]:addrtype
ENUM
Adresse.Straße
[email protected]:address.
[email protected]:addrstreet
STRING
80
Adresse.Ort
[email protected]:address.
[email protected]:addrcity
STRING
60
Adresse.Bundesland
[email protected]:address.
[email protected]:addrstate
STRING
60
Adresse.
Postleitzahl
[email protected]:address.
[email protected]:addrzipcode
STRING
20
15
NAME
REFERENZ
TYPE
LÄNGE
Adresse.Land
[email protected]:address.
[email protected]:addrcountry
STRING
60
Telefonnummern.Typ
[email protected]:telephones.
[email protected]:teltype
ENUM
Telefonnummern.
Telefonnummer
[email protected]:telephones.
[email protected]:telnumber
STRING
32
Tabelle 2: Eigenschaften der Objektklasse Person
Organisation
NAME
REFERENZ
TYPE
LÄNGE
Kurzname
[email protected]:orgshortname
STRING
50
Tabelle 3: Eigenschaft der Objektklasse Organisation
Wenn man die Quelldaten mit den Zieldaten vergleicht, so stößt man auf folgendes Problem: Die Spalte
ContactName beinhaltet sowohl den Vor- als auch den Nachnamen der Person. Dieser Wert muss also
zuerst in zwei Teile „zerlegt“ werden, bevor er den beiden Eigenschaften Vorname und Nachname zugeordnet
werden kann. Dafür werden in weiterer Folge zwei Lösungen gezeigt.
1. Am Microsoft SQL Server kann eine View definiert werden, in der aus dem ContactName zwei Spalten,
ContactFirstname und ContactLastname, berechnet werden.
2. Ein Beispiel für den Anfang
2.2 Zuordnung der Spalten zu Eigenschaften
2. Im Filterskript für Rohdaten des Datenimportobjekts kann der ContactName in zwei berechnete
Spalten aufgeteilt werden. Dieses Skript finden Sie als Beispiel auf Seite 161.
Wenden wir uns also der ersten Lösungsmöglichkeit zu:
Eine SQL-View definiert eine Sicht auf die bestehenden Daten, in der neben den Originaldaten auch berechnete Spalten enthalten sein können. In unserem Fall sollen zwei zusätzliche Spalten definiert werden. Für die
Berechnung wird der erste Teil des Namens bis zum ersten Leerzeichen als Vorname in der Spalte
ContactFirstname, und der Rest nach dem Leerzeichen als Nachname in der Spalte
ContactLastname interpretiert. Die View, wie sie in Quelltext 1 dargestellt ist, funktioniert zwar nicht bei
allen Einträgen, dies ist aber für dieses Beispiel unerheblich („Miguel Angel Paolino“ und „José Pedro Freyre“
mögen mir verzeihen).
CREATE VIEW CustomersNameView AS
SELECT SUBSTRING(ContactName, 1, CHARINDEX(' ', ContactName)) AS
ContactFirstname,
SUBSTRING(ContactName, CHARINDEX(' ', ContactName) + 1, 200) AS
ContactLastname, *
FROM Customers
Quelltext 1: SQL-View CustomersNameView
Aus den vorangegangenen Tabellen ergibt sich bei Verwendung der CustomersNameView die Zuordnung
der Spalten zu den einzelnen Eigenschaften der Objekte:
17
SPALTE/WERT
OBJEKTKLASSE
EIGENSCHAFT
REFERENZ
DER EIGENSCHAFT
CustomerID
Person
Externer
Schlüssel
[email protected]:
objexternalkey
CompanyName
Organisation
Kurzname
[email protected]:
orgshortname
ContactFirstname
Person
Vorname
[email protected]:
userfirstname
ContactLastname
Person
Nachname
[email protected]:
usersurname
<Organisation>
Person
Organisation.
Orgnaisation
[email protected]:
persjobs.
[email protected]:
joborganization
ContactTitle
Person
Organisation.
Position/
Tätigkeit
[email protected]:
persjobs.
[email protected]:
jobfunction
"1"
Person
Adresse.
Adresstyp
[email protected]:
address.
[email protected]:
addrtype
2. Ein Beispiel für den Anfang
2.2 Zuordnung der Spalten zu Eigenschaften
SPALTE/WERT
OBJEKTKLASSE
EIGENSCHAFT
REFERENZ
DER EIGENSCHAFT
Address
Person
Adresse.Straße
[email protected]:
address.
[email protected]:
addrstreet
City
Person
Adresse.Ort
[email protected]:
address.
[email protected]:
addrcity
Region
Person
Adresse.
Bundesland
[email protected]:
address.
[email protected]:
addrstate
PostalCode
Person
Adresse.
Postleitzahl
[email protected]:
address.
[email protected]:
addrzipcode
Country
Person
Adresse.Land
[email protected]:
address.
[email protected]:
addrcountry
19
SPALTE/WERT
OBJEKTKLASSE
EIGENSCHAFT
REFERENZ
DER EIGENSCHAFT
"400"
Person
Telefonnummern.
Typ
[email protected]:
telephones.
[email protected]:
teltype
Phone
Person
Telefonnummern.
Telefonnummer
[email protected]:
telephones.
[email protected]:
telnumber
"405"
Person
Telefonnummern.
Typ
[email protected]:
telephones.
[email protected]:
teltype
Fax
Person
Telefonnummern.
Telefonnummer
[email protected]:
telephones.
[email protected]:
telnumber
Tabelle 4: Zuordnung der Datenbankspalten zu Eigenschaften von Objekten
Zusätzlich zu den Werten der Datenbanken werden hier für die Typ-Eigenschaften der Adresse und der Telefonnummern Konstanten verwendet, die sich aufgrund der Bedeutung der Werte ergeben. So steht zum Beispiel die
Zahl „405“ in der vorletzten Zeile der Tabelle für den Aufzählungswert „Fax“ des Typs der Telefonnummer.
2. Ein Beispiel für den Anfang
2.2 Zuordnung der Spalten zu Eigenschaften
2.3 Datenimportobjekte
2.3
Datenimportobjekte
Wie alles in Fabasoft Components werden auch Datenimporte in Form von Objekten definiert – den Datenimportobjekten. Es gibt zwei Objektklassen dafür, die von der Funktionalität her äquivalent sind und sich nur
dadurch unterscheiden, dass die eine von der Objektklasse Konfigurationsobjekt abgeleitet ist und die
andere von Basisobjekt. Komponentenobjekte haben den Vorteil, im Rahmen von Softwarekomponenten
extrahiert und in anderen Fabasoft Components Domänen wieder geladen werden zu können, während die„normalen“ Datenimportobjekte ohne Softwarekomponente lokal in einer Fabasoft Components Domäne angelegt werden können, damit aber weniger leicht in andere Installationen transportiert werden können.
Für die Definition und die Durchführung der Datenimporte ist dieser Unterschied jedoch unerheblich und so wird
in weiterer Folge nur von Datenimportobjekten gesprochen und es sind damit, sofern nicht explizit darauf eingegangen wird, beide Ausprägungen dieser Objekte gemeint.
Wird nun ein Datenimportobjekt angelegt und über den Menübefehl Eigenschaften bearbeiten aus dem Kontextmenü geöffnet, besteht die erste Aufgabe darin, die Verbindung zur Datenquelle herzustellen.
Datenquelle
In unserem Beispiel gehen wir davon aus, dass die Quelldaten in einer Microsoft SQL Server-Datenbank am lokalen Rechner in einer Datenbank mit dem Namen Northwind in der Tabelle CustomersNameView
stehen. Andere Datenquellen sind ähnlich zu verwenden und es wird im Kapitel „Konfiguration der Datenquellen“ auf Seite 131 im Detail auf die Konfiguration und Verwendung der verschiedenen Datenquellen eingegangen.
Die beste Möglichkeit auf eine Microsoft SQL Server-Datenbank unter Microsoft Windows zuzugreifen ist die
Verwendung des OLE DB-Providers für den SQL Server.
21
Dazu wird, wie in Abbildung 1 ersichtlich, als Datenquelle „OLE DB“ ausgewählt und als Verbindungsparameter
„Provider=SQLOLEDB;Datasource=localhost;Catalog=Northwind“ angegeben. Damit wird definiert, dass die Verbindung über den OLE DB-Provider „SQLOLEDB“ zu Datenbank Northwind auf dem lokalen Rechner „localhost“ hergestellt wird. In der Eigenschaft Tabelle wird der Name der Tabelle oder View, also in unserem Fall
CustomersNameView eingegeben und damit ist die Datenquelle fertig definiert.
Abbildung 1
Customers: Datenquelle und
Zuordnungen
2. Ein Beispiel für den Anfang
2.3 Datenimportobjekte
Zuordnungen von Eigenschaften
Nun folgt der Schritt, der in Tabelle 4 bereits vorbereitet wurde: Die Abbildung der Spalten der Quelldatenbank
auf Eigenschaften von Objekten. Dazu wird für jede der Zeilen in der Tabelle eine Zeile in der zusammengesetzten Eigenschaft Zuordnung definiert (siehe Abbildung 1).
Um in den Zuordnungen zwischen Telefon- und Faxnummer zu unterscheiden, wird bei einer Faxnummer die
Objekt-ID „1“ gesetzt.
Die Objektbeziehung zwischen Organisation und Person wird nun, wie in Abbildung 2 ersichtlich, in der Tabelle
Objektbeziehungen definiert.
Abbildung 2
Customers: Objektbeziehungen und Klasseneigenschaften
23
Suchen und Erzeugen von Objekten
Die Klasseneigenschaften legen vor allem fest, wie die Objekte gesucht und ob sie erzeugt werden sollen. In
unserem Beispiel werden die in Abbildung 2 angeführten Einstellungen verwendet.
In diesem Fall wird in der Fabasoft Components Domäne nach bestehenden Objekten mit den definierten Schlüsseleigenschaften gesucht. Wird ein Objekt nicht gefunden, so wird es neu erzeugt. Bei der Person mit der ObjektID „1“, die für den zweiten Eintrag in die Liste der Telefonnummern benötigt wurde, wird hier definiert, dass für
die Person mit ID „1“ dasselbe Objekt, wie bei der Person mit der niedrigeren ID – also „0“ – verwendet wird.
Importieren der Daten
Der Import kann nun, wie in Abbildung 3 dargestellt, aus dem Kontextmenü des Datenimportobjekts mit dem
Menübefehl Daten importieren gestartet werden.
Alternativ dazu kann ein Datenimport auch durch Skripts, Fabasoft Components Expressions oder durch einen
Fabasoft Components AT-Job gestartet werden.
2. Ein Beispiel für den Anfang
2.3 Datenimportobjekte
Abbildung 3
Customers: Daten
importieren
25
3
27
3 Ablauf eines Datenimports
In diesem Kapitel werden anhand der Datenflüsse die am Import beteiligten Komponenten erklärt.
Dieses Verständnis ist die Voraussetzung dafür, dass die Auswirkungen der Konfigurationsmaßnahmen richtig eingeschätzt werden können und danach die richtigen Optimierungsmaßnahmen
ergriffen werden.
Abbildung 4
Datenfluss bei der
Verarbeitung eines
Datenimports
Betrachtet man die Endpunkte eines Datenimports in Abbildung 4, so erkennt man, dass ein Datenimport eine
Transformation von Daten, die in einer Datenbank oder einer Dateistruktur vorliegen, in eine andere Form
auf einer anderen Datenbank und/oder Dateistruktur darstellt. Dazwischen liegen die Services der Fabasoft
Components Domäne. Auf dem Fabasoft Components Kernel wird der eigentliche Importvorgang ausgeführt, und
die Fabasoft Components Backendservices übernehmen die Umsetzung der Objektstruktur des Fabasoft
Components Kernels in das Format zur Speicherung in der Datenbank bzw. im Dateisystem.
Betrachtet man den Datenimport am Fabasoft Components Kernel näher, so erkennt man, dass auch hier unterschiedliche Prozesse (Threads) an der Verarbeitung beteiligt sind. Neben dem Import Thread, der die Steuerung
der Abläufe übernimmt, ist das der Reader Thread, der die Daten der Datenquelle liest und in Paketen zur Weiterverarbeitung an einen oder mehrere Worker Threads übergibt. Diese Worker Threads übernehmen die Umsetzung der Werte aus dem Quellformat in die Objektwelt von Fabasoft Components. Diese Worker Threads sind
es auch, die mit den Fabasoft Components Backendservices kommunizieren, sei es bei der Objektsuche oder
beim Commit der Transaktionen, also beim Schreiben der Änderungen auf die Fabasoft Components COO- und
MMC-Services.
Auch auf den Fabasoft Components COO- und MMC-Services ist ein Pool von Worker Threads für die Bearbeitung der Anforderungen von den einzelnen Fabasoft Components Kernels verfügbar. Hier wird eine Maximalzahl
der Worker Threads konfiguriert und damit die maximale Parallelität des jeweiligen Services definiert. Werden
gleichzeitig mehr Anfragen an eines der Fabasoft Components Backendservices gestellt als bei diesem Worker
Threads definiert sind, so müssen die überzähligen Anfragen auf das Freiwerden eines Threads warten.
Im Bereich der Datenspeicherung in der Datenbank und dem Dateisystem werden die Änderungen in Form von
Datensätze und Dateien persistiert.
3. Ablauf eines Datenimports
29
4
31
4 Datenimportobjekt
Wenden wir uns nun der Konfiguration des Datenimports zu. Wie in Fabasoft Components üblich,
erfolgt diese Konfiguration in Form von Objekten – den Datenimportobjekten – in der Fabasoft Components Domäne.
Die Datenimportobjekte gibt es in zwei Ausprägungen: Als normales Datenimportobjekt
([email protected]:DataImport) abgeleitet von Basisobjekt ([email protected]:
BasicObject)
und
als
Datenimport-Komponentenobjekt
([email protected]:
DataImportComponentObject) abgeleitet von Konfigurationsobjekt ([email protected]:
ConfigurationObject), das sich von dessen Basisklasse Komponentenobjekt
([email protected]:ComponentObject) durch die häufigere Aktualisierung unterscheidet. Die beiden
Datenimportobjektklassen haben dieselben Eigenschaften zugeordnet, nur dass das Komponentenobjekt zusätzlich die drei Eigenschaften Softwarekomponente ([email protected]:component), Referenz
([email protected]:reference) und Gelöscht ([email protected]:deleted) erbt und daher im
Rahmen einer Softwarekomponente transportiert werden kann. Im sonstigen Verhalten unterscheiden sich
diese beiden Objektklassen nicht und daher wird im Weiteren nicht zwischen diesen beiden Ausprägungen
unterschieden und allgemein von Datenimportobjekten gesprochen, womit jedoch beide Arten gemeint sind.
Die Eigenschaften des Datenimportobjekts werden in mehrere Gruppen eingeteilt, auf die im späteren Verlauf
dieses Kapitels weiter eingegangen wird:
Definition der Datenquelle
Ein Beispiel für diese Eigenschaften finden Sie in Abbildung 1.
°
Datenquelle ([email protected]:datimpdatasourcetype und [email protected]:
datimpdatasource): Gemeinsam definieren diese beiden Eigenschaften die Verbindung zur Datenquelle.
°
Datenquellenobjekt ([email protected]:datimpobjdatasource): Objekte dieser Eigenschaft werden bei dateibasierten Quelldatenformaten als Datenquelle verwendet. Unterstützt werden dabei
Dokumente, deren Hauptinhalt die Endung „xls“ oder „csv“ hat. Diese werden mit den passenden ODBCTreibern geöffnet, was jedoch nur auf der Microsoft Windows-Plattform funktioniert.
°
Tabelle ([email protected]:datimpsourcetable): Hier wird der Name der Tabelle angegeben.
Zuordnung der Werte und Referenzen zu den Eigenschaften
°
Zuordnung ([email protected]:datimpmapping): In dieser Liste werden die einzelnen
Zuordnungen von Datenbankspalten bzw. Festwerten zu den jeweiligen Eigenschaften vorgenommen (siehe
Abbildung 5).
Abbildung 5
Zuordnungen
mit Spaltenansicht
°
Objektbeziehungen ([email protected]:datimpobjectreferences): In dieser Liste
werden die Referenzen zwischen den am Import beteiligten Objekten definiert (siehe Abbildung 6).
4. Datenimportobjekt
33
Abbildung 6
Objektbeziehungen mit
Spaltenansicht
Suchen und Erzeugen von Objekten
°
Klasseneigenschaften ([email protected]:datimpclassproperties): Hier wird für jede
Objektklasse definiert, welche Methode zum Suchen von bereits existierenden Objekten verwendet wird und
ob neue Objekte erzeugt werden sollen (siehe Abbildung 7).
Abbildung 7
Kasseneigenschaften mit
Spaltenansicht
Einstellungen zur Verarbeitung
Die Einstellungen zur Verarbeitung umfassen die Auswahl eines Bereichs der Datensätze sowie die Anzahl der
parallelen Transaktionen und deren Größe, wie in Abbildung 8 dargestellt.
4. Datenimportobjekt
35
Abbildung 8
Einstellungen und Optionen
des Datenimports
°
Anzahl der Datensätze für Commit ([email protected]:datimpbulksize) und Mindestens
([email protected]:datimpminbulksize): Mit diesen beiden Eigenschaften wird festgelegt,
wie viele Datensätze in einem Block verarbeitet und damit in einer Transaktion auf die Datenbank geschrieben werden.
°
Anzahl von Threads ([email protected]:datimpthreads): Diese Eigenschaft definiert die
Anzahl der in einem Datenimport verwendeten parallelen Worker Threads.
°
Anfangsdatensatz ([email protected]:datimpstartrecord) und Anzahl zu lesender
Datensätze ([email protected]:datimprecords): Mit diesen beiden Eigenschaften wird der
Bereich der zu verarbeiteten Datensätze angegeben.
Protokollierungsoptionen
Die Protokollierungsoptionen sind in Abbildung 9 dargestellt.
Abbildung 9
Protokollobjekt
°
Protokollmodus ([email protected]:datimprecordmode): Diese Eigenschaft bestimmt den
Detaillierungsgrad des Protokolls.
°
Protokoll-Objekt ([email protected]:datimplogobj): In dieser Eigenschaft wird jenes Objekt
abgelegt, in dem die Protokolle der Datenimporte gespeichert werden. Im Protokollobjekt wird pro Ladevorgang ein Eintrag erstellt, in dem neben Start- und Endzeit in einer Datei je nach Protokollmodus eine mehr
oder weniger ausführliche XML-Datei abgelegt wird. Ergänzt wird der Protokolleintrag durch die wichtigsten statistischen Daten wie Anzahl der Datensätze, Anzahl der erzeugten bzw. aktualisierten Objekte,
Anzahl der aufgetretenen Fehler und Anzahl der verwendeten Worker Threads.
4. Datenimportobjekt
37
°
Maximale Anzahl der Einträge im Protokoll ([email protected]:datimpmaxhistory): Wird
dieser Wert gesetzt, wird im Protokollobjekt maximal die gesetzte Anzahl von Protokolleinträgen aufbewahrt, um den Aufwand für die Protokollierung in Grenzen zu halten.
Performanceoptionen
Zuletzt sind in Abbildung 8 noch vier vor allem für die Performance relevante Eigenschaften des Datenimportobjekts zu sehen.
°
Änderungen sofort anzeigen ([email protected]:datimpuiupdate): Wird diese Eigenschaft
auf den Wert „Ja“ gesetzt, so werden im Fabasoft Win32-Client der Version 6 die Änderungen an den Objekten im Rahmen des Commits der Transaktion an die Benutzerschnittstelle weitergegeben. Damit werden die
Objekte sofort aktualisiert.
°
Methoden ohne Prüfung übergehen? ([email protected]:datimpfastwrapper): Wird konfiguriert, dass Methoden übergangen werden sollen und ist diese Eigenschaft auf „Ja“ gesetzt, wird beim
Übergehen nicht geprüft, ob die Methode gerade auf die konfigurierte Objektklasse bzw. Eigenschaft angewendet wird.
°
Datenimport bei Fehler sofort abbrechen ([email protected]:datimtermonerror): Wird
diese Eigenschaft auf „Ja“ gesetzt, wird der Datenimport beim Auftreten des ersten Fehlers abgebrochen.
°
Objekte nicht aktualisieren ([email protected]:datimpnoobjectrefresh): Bei bereits
existierenden Objekten wird vor jeder Verwendung geprüft, ob dieses Objekt zwischenzeitlich von einem
anderen Fabasoft Components Kernel verändert wurde. Diese Prüfung entfällt, wenn diese Eigenschaft auf
„Ja“ gesetzt wird.
Skripts
Es gibt drei Skripts, die in verschiedenen Phasen der Verarbeitung jedes Datensatzes aufgerufen werden und
somit unterschiedliche Möglichkeiten bieten, in die Verarbeitung einzugreifen. Jedes dieser Skripts wird mit
einer eigenen booleschen Eigenschaft aktiviert bzw. deaktiviert (siehe Abbildung 10).
Abbildung 10
Skripts des Datenimports
°
Filter-Skript für Rohdaten ([email protected]:datimpfilterdata): In diesem Skript können
die Daten, die von der Datenquelle geliefert werden, vor der weiteren Verarbeitung noch gefiltert und modifiziert werden. Auch selbst definierte Spalten, die nicht von der Datenquelle stammen, können hier berechnet werden.
°
Filter-Skript für Objekte ([email protected]:datimpfilterobjects): Dieses Skript wird
nach dem Setzen der Eigenschaften und vor dem Aufruf der Commit-Methode aufgerufen.
4. Datenimportobjekt
4.1 Datenquellen
°
4.1
Filter-Skript für Objekte nach dem Commit ([email protected]:datimpfiltercommit):
Nach dem erfolgreichen Commit wird dieses Skript für jeden Datensatz aufgerufen.
Datenquellen
Die Quelldaten des Imports stammen meistens aus Datenbanken oder strukturierten Dateien (z.B. CSV-Dateien),
aber es können auch andere Datenquellen angebunden werden. Eine genaue Beschreibung der Datenquellen
und deren Konfiguration finden Sie im Kapitel „Konfiguration der Datenquellen“ auf Seite 131.
Auswahl des Datenbereichs
Von den Datensätzen, die von der Datenquelle geliefert werden, müssen nicht alle verarbeitet werden. Einerseits können im Skript für Rohdaten gezielt Daten herausgefiltert werden, andererseits besteht die Möglichkeit
nur einen bestimmten Bereich zu laden. Dazu gibt man die Nummer des ersten Datensatzes und die Anzahl der
zu lesenden Datensätze an. Damit kann man zum Beispiel zum Testen erst einmal wenige Datensätze importieren und danach die restlichen Datensätze. Oder man verwendet diese Funktion zur Aufteilung der Daten in verschiedene Datenblöcke, die dann mit mehreren Clients parallel importiert werden können.
Allerdings sollte man beachten, dass nicht immer gewährleistet ist, dass die Datensätze immer in derselben Reihenfolge geliefert werden, auch wenn das im Normalfall so ist. Gerade bei Datenbanken ist das nicht garantiert,
wenn auch die Reihenfolge meistens von der physikalischen Speicherung der Datensätze auf der jeweiligen
Datenbank abhängt. So werden Tabellen vom Microsoft SQL Server generell in der Reihenfolge gelesen, die dem
Clustered Index entspricht, sofern einer definiert ist. Gewissheit schafft in diesem Fall nur ein ORDER BY in
der SQL-Abfrage.
Bei anderen Datenquellen (z.B. CSV-Dateien) ist die Reihenfolge durch die Reihenfolge der Datensätze am Medium gegeben und somit können gezielt Datenbereiche ausgewählt werden.
39
4.2
objektklassen
In den folgenden Kapiteln werden Objektklassen zur Identifikation von Objektmengen verwendet. So werden
Zuordnungen von Werten zu Eigenschaften von Objekten durch die Angabe der Objektklasse und der Eigenschaft
definiert. Die Objektklasse ist aber in einigen Fällen nicht ausreichend, um die Objektmenge eindeutig zu identifizieren, da Objektklassen in einem Datenimport auch in unterschiedlichen Funktionen verwendet werden können. Zum Beispiel werden bei der Definition von Hierarchien eine übergeordnete Instanz und eine untergeordnete Instanz derselben Objektklasse verwendet. Um diese Instanzen unterscheiden zu können, wird überall
neben der Objektlasse auch noch eine numerische Objekt-ID angegeben. Die Kombination von Objektklasse und
ID identifiziert dann das Objekt in seiner Funktion.
Die ID kann pro Objektklasse unabhängig vergeben werden. Ist keine ID angegeben, so wird sie implizit als „0“
interpretiert.
Für jede Objektklasse kann für jede ID explizit angegeben werden, ob neue Objekte angelegt werden sollen und
ob die Objekte gesperrt werden sollen.
Die Suchmethoden, Suchbereiche und Optionen wirken sich auf alle Instanzen der Objektklasse aus, egal welche ID verwendet wird. Auch die Definition der Schlüsseleigenschaften muss pro Objektklasse einheitlich erfolgen.
4.3
Setzen und Ändern von Eigenschaften
Eigenschaften
In diesem Bereich des Datenimportobjekts wird spezifiziert, welche Spalten der Datenquelle in der Fabasoft
Components Domäne Eigenschaften von Objekten zugeordnet werden.
4. Datenimportobjekt
4.2 Objektklassen
4.3 Setzen und Ändern von Eigenschaften
Beispiel: Zuordnung der Schlüsseleigenschaft einer Person
Es sollen die Werte der Spalte CustomerID der Eigenschaft Externer Schlüssel
([email protected]:objexternalkey) der Objektklasse Person ([email protected]:
CISPerson) zugeordnet werden. Diese Zuordnung ist in Abbildung 5 in der Spaltenansicht dargestellt.
Eine Spalte der Quelldaten kann auch mehreren Eigenschaften – auch verschiedener Objektklassen – zugeordnet werden. Dazu verwendet man einfach den Namen der Spalte in mehreren Zeilen der Zuordnungstabelle.
Soll eine Eigenschaft auf einen Festwert gesetzt werden, so kann an Stelle des Spaltennamens in der Eigenschaft Spalte in der Eigenschaft Festwert jener Wert eingetragen werden, der der Eigenschaft zugeordnet werden soll.
Werte können auch aus mehreren Spalten und Festwerten zusammengesetzt werden. Dazu werden einfach
mehrere Zuordnungen zur selben Objektklasse und Eigenschaft definiert und alle dadurch zusammengesetzten
Werte werden als Zeichenkette aneinandergehängt. So kann beispielsweise der Objektname der Person aus
dem Nachnamen, einem Beistrich und dem Vornamen zusammengesetzt werden, indem zuerst für die Spalte
Nachname, dann für den Festwert „, “ und schließlich für die Spalte Vorname eine Zuordnung zur selben
Eigenschaft des Objektes erstellt wird. Eine Zeile, in der weder eine Spalte noch ein Festwert enthalten sind,
wird als Festwert mit einem Leerzeichen interpretiert. Da die Werte intern immer als Zeichenketten vorliegen,
werden sie auch immer als Zeichenketten zusammengefügt, ganz egal ob sie einer Zeichenketteneigenschaft
oder zum Beispiel einer Zahleneigenschaft zugeordnet werden.
Für komplexere Formatierungen muss auf SQL- bzw. Rohdatenskripts zurückgegriffen werden. Dafür steht auch
die Möglichkeit zur Verfügung, berechnete Spalten zu verwenden. Diese werden bei der Zuordnung wie Spalten der Datenquelle behandelt, erhalten aber ihren Wert vom Rohdatenskript, das später beschrieben wird. Zur
Unterscheidung von Datenbankspalten beginnen die Namen dieser Spalten mit einem „@“-Zeichen.
41
Objektbeziehungen
In einem Datensatz werden neben einzelnen Objekten (z.B. Personen) auch Beziehungen zwischen Objekten definiert. So sind bei Personen auch oft Zuordnungen zu Organisationen oder Firmen hinterlegt, die in eigenen Objekten erfasst sind. Um diese Verbindung herzustellen, werden bei den Eigenschaften Zuordnungen zu mehreren
Objektklassen definiert. Um diese miteinander zu verknüpfen, definiert man bei den Objektbeziehungen, welches
Quellobjekt in die angegebene Objektzeiger-Eigenschaft des Zielobjektes übernommen werden soll.
Beispiel: Objektbeziehung zwischen Person und Organisation
In Abbildung 6 wird die Objektbeziehung zwischen Organisation und Person definiert, indem die Objektklasse in die Eigenschaft Organisation ([email protected]) der zusammengesetzten Eigenschaft Organisation ([email protected]:persjobs) eingetragen wird. Durch die
Rückwärtsverkettung wird auch die Person in der Eigenschaft Personen ([email protected]:
orgemployeelist) der Organisation eingetragen. Diese Zuordnung kann optional auch direkt im
Datenimportobjekt durch eine weitere Objektbeziehung abgebildet werden, was aber praktisch keinen Vorteil hat.
Auch hier können Objekte gleichzeitig in mehrere Eigenschaften derselben oder anderer Objektklassen eingetragen werden, man muss nur das Quellobjekt in mehreren Zeilen als Quellobjekt eintragen. Auch ist es möglich,
gleichzeitig mehrere Objekte in eine Objektliste einzufügen, indem man die Zielobjektklasse und Eigenschaft in
mehreren Zeilen verwendet. Auch können Objekte in einem Ladevorgang als Quell- und Zielobjekt in einer oder
mehreren Zeilen verwendet werden.
Schlüsseleigenschaften und Änderung von Werten
Die Art und Weise der Änderung kann bei Zuordnung von Werten zu Eigenschaften mithilfe der Eigenschaft
Schlüssel- und Änderungsmodus konfiguriert werden, bei den Objektbeziehungen mithilfe der Eigenschaft
Änderungsmodus. Die unterschiedliche Bezeichnung ergibt sich nur aus der Tatsache, dass Objektzeigereigen-
4. Datenimportobjekt
4.3 Setzen und Ändern von Eigenschaften
schaften keine Schlüsseleigenschaften sein können. Abbildung 11 zeigt die möglichen Werte der Eigenschaft im
Rahmen der Zuordnungen.
Abbildung 11
Schlüssel und
Änderungsmodus
Schlüssel
Schlüsseleigenschaften identifizieren ein Objekt eindeutig, wobei ein Objekt durch eine oder mehrere Eigenschaften identifiziert werden kann. Mindestens eine dieser Eigenschaften muss einen Wert beinhalten, um
einen gültigen Schlüssel zu ergeben. Objekte, die keinen gültigen Schlüssel haben, bei denen also keine der definierten Schlüsseleigenschaften einen Wert zugeordnet hat, der nicht leer ist, werden weder gesucht noch
erzeugt.
Bei der Suche nach bestehenden Objektinstanzen werden die Schlüsseleigenschaften als Suchkriterien verwendet. Wird das Objekt nicht gefunden, so kann eine neue Instanz angelegt werden und dieser werden die Schlüs-
43
seleigenschaften zugewiesen, sodass sie in weiterer Folge unter diesem Schlüssel wiedergefunden werden
kann. Daher können diese Eigenschaften auch nicht mehr verändert werden. Es gibt Einschränkungen, welche
Eigenschaften als Schlüsseleigenschaften verwendet werden können. Darauf wird später noch eingegangen.
Objektbeziehungen gehören nicht dazu und daher ist dieser Änderungsmodus bei Objektbeziehungen auch nicht
auswählbar.
Setzen beim Erzeugen
Wie bei Schlüsseleigenschaften wird die Eigenschaft nur dann gesetzt, wenn das Objekt während der Verarbeitung dieses Datensatzes erzeugt wurde. Werte bestehender Objekte werden nicht mehr verändert. Ist für diese
Eigenschaft ein Defaultwert definiert oder wird diese durch einen Konstruktor gesetzt, bleibt dieser Wert erhalten, sofern der Wert der zugeordneten Spalte leer ist. Das ergibt sich daher, dass Leerwerte bei diesem Modus
nicht gesetzt werden, um unnötige Aktualisierungen zu vermeiden.
Ändern
Die Eigenschaft wird geändert, wenn die zugeordnete Spalte einen Wert beinhaltet. Bestehende Werte werden
also durch Leerwerte nicht überschrieben. Bei Listeneigenschaften werden die Werte an die Liste angefügt, ausgenommen es ist eine Liste mit eindeutigen Einträgen und der Wert ist bereits in der Liste enthalten. Das wird
im Typ der Eigenschaft durch die Eigenschaft Eindeutige Einträge in Liste bestimmt. Dazu wird der Wert der
Eigenschaft ausgelesen. Nur wenn dieser ungleich dem neuen Wert ist bzw. bei eindeutigen Listen der neue
Wert in der Liste noch nicht enthalten ist, wird der Wert geändert. Beim nochmaligen Laden der Daten werden
dadurch nur die notwendigen Änderungen der Eigenschaften durchgeführt, aber keine Duplikate eingefügt. Ein
Problem ergibt sich jedoch bei Eigenschaften, deren Werte durch Get- oder Set-Aktionen geändert (z.B. formatiert) werden. Diese werden als ungleich erkannt und jedes Mal aufs Neue geändert.
4. Datenimportobjekt
4.3 Setzen und Ändern von Eigenschaften
Überschreiben
Die Eigenschaft wird geändert, auch wenn der Wert der zugeordneten Spalte leer ist. In diesem Fall wird die
Eigenschaft also gelöscht. Auch hier wird der Wert nur gesetzt, wenn er sich gegenüber dem bestehenden Wert
geändert hat.
Bei Listeneigenschaften wird der gesamte Inhalt der Liste durch den vorliegenden Wert ersetzt bzw. gelöscht,
wenn der Eigenschaft kein Wert zugewiesen wird. Ist dafür keine Änderung notwendig, wird die Eigenschaft
nicht neu gesetzt.
Löschen und neu anlegen
Dieser Änderungsmodus dient zum Abgleich bestehender Listen durch eine Datenquelle (z.B. dem Active Directory). Es werden dabei alle Werte der Eigenschaft gelöscht und durch die Werte aus dem Datenimport neu
befüllt.
Beispiel: Abgleich der Gruppen eines Benutzers über LDAP
Wenn man die Benutzerdaten mit einer LDAP-Datenquelle abgleicht, so werden den Benutzern in der Regel
Gruppen zugeordnet. Problematisch ist dabei das Löschen von Gruppenzuordnungen, da für diese Löschung
von der Datenquelle kein Datensatz geliefert wird, sondern nur jene Datensätze für die aktiven Zuordnungen in den Quelldaten enthalten sind. Daher muss die Zuordnungstabelle bei jedem Ladevorgang komplett
neu aufgebaut werden.
Dabei muss jedoch sichergestellt werden, dass der komplette Neuaufbau der Liste innerhalb der Verarbeitung
eines einzigen Datenblocks durchgeführt wird, da sonst bei der Verarbeitung des nächsten Datenblocks die gerade gesetzten Werte gelöscht würden. Das kann durch Sortierung der Daten im Zusammenhang mit der Verwendung der Option „Gruppenwechsel“ gewährleistet werden.
Diese Option ist nur bei Listeneigenschaften auf Objektebene verwendbar. Listeneigenschaften innerhalb
zusammengesetzter Eigenschaften können mit dieser Methode nicht abgeglichen werden.
45
Ignorieren
Diese Option dient dazu, Zuordnungen zu deaktivieren. Allerdings wird dadurch nur die Zuordnung des Wertes
bzw. des Objektzeigers zur Eigenschaft deaktiviert und daher werden keine Änderungen mehr durch diese Zeilen verursacht. Nicht deaktiviert werden einige später noch beschriebene Optionen. Sie bleiben trotz „Ignorieren“ wirksam. Auf diese Spezialfälle wird dann im Rahmen der Behandlung zusammengesetzter Eigenschaften
und dem Übergehen von Methoden näher eingegangen.
Setzen von Inhaltseigenschaften
Das Setzen von Inhaltseigenschaften erfolgt, wie bei anderen Eigenschaften auch, durch Zuordnung eines
Werts zu der Inhaltseigenschaft. Damit ist nicht etwa die zusammengesetzte Eigenschaft Hauptinhalt
([email protected]:content) gemeint, sondern Eigenschaften mit dem Typ Inhalt
([email protected]: CONTENT) oder Liste von Inhalten ([email protected]:CONTENTLIST). Es
gibt dabei zwei mögliche Interpretationen des Werts, einerseits als Dateiname und andererseits als Wert.
Wenn nicht anders angegeben, wird zuerst versucht den zugeordneten Wert als Dateinamen zu interpretieren.
Wenn es unter dem angegebenen Pfad eine Datei gibt, wird diese mit SetFile der Inhaltseigenschaft zugeordnet. Gibt es an der angegebenen Stelle keine Datei, so wird der Wert in eine temporäre Datei geschrieben
(im ANSI-Zeichensatz) und der Inhaltseigenschaft zugewiesen. Diese temporäre Datei wird dabei vom Datenimport automatisch wieder gelöscht. Werden Dateien von der Datenquelle in eine temporäre Datei geschrieben,
werden diese Dateien ebenfalls nach der Verarbeitung wieder gelöscht.
Dieses Verhalten kann man durch Optionen, die man bei der Zuordnung angibt, modifizieren. Gibt man die
Option „Dateiname“ an, so wird der Wert immer als Dateiname interpretiert. Ist an der angegebenen Stelle
keine Datei zu finden, dann wird die Eigenschaft nicht gesetzt. Gibt man jedoch die Option „Inhalt als Wert“ an,
so wird nicht versucht eine Datei zu finden, sondern der Wert wird über den Umweg einer temporären Datei der
Inhaltseigenschaft zugewiesen.
Diese Optionen haben auch Auswirkungen auf die Art, wie die Daten von der Datenquelle geholt werden.
Sowohl bei OLE DB- als auch bei ODBC-Datenquellen werden Werte, deren Größe 4.000 Zeichen überschreitet,
4. Datenimportobjekt
4.3 Setzen und Ändern von Eigenschaften
temporär als Datei abgelegt, da diese meistens Inhaltseigenschaften zugeordnet werden. Diese Dateien können
beliebige Länge haben und sie werden binär von der Datenquelle gelesen und in die Datei geschrieben. Verwendet man bei OLE DB-Datenquellen die Option „Inhalt als Wert“, so wird der Wert nicht in einer Datei abgelegt
und der Wert – maximal jedoch 500 Kilobyte – als Wert übergeben. Damit können vor allem auch längere Stringlisten auf einmal mit Werten befüllt werden.
Aus Gründen der Performance werden Inhaltseigenschaften nicht mit bestehenden Inhalten verglichen, um sie
nur bei Änderungen zu setzen, sondern sie werden immer neu gesetzt, je nachdem welcher Änderungsmodus
eingestellt ist. Um unnötige Änderungen auf den MMC-Bereichen zu vermeiden empfiehlt es sich daher, die
Inhalte nur dann zu setzten, wenn wirklich neue Inhalte darin enthalten sind. Gerade bei MMC-Bereichen mit
Logging würde sonst unnötig viel Speicherplatz belegt, der erst bei einem Aufräumen wieder freigegeben
würde. In Migrationen kann man durch den Änderungsmodus „Setzen beim Erzeugen“ oft den gewünschten
Effekt erzielen, sodass zum Beispiel bei einem nochmaligen Start des Imports die Inhalte bereits bestehender
Inhaltsobjekte nicht nochmals gesetzt werden.
Inhalte im Archiv
Eine sehr effiziente Art Inhalte zu „importieren“ bietet sich im Zusammenhang mit Archivsystemen. Anstatt die
Inhalte vom Client auf die Fabasoft Components MMC-Services zu übertragen und dort im Dateisystem abzulegen, werden jene Daten importiert, die die Verbindung von einem Objekt zu einem bereits existierenden Inhalt
auf einem Archivsystem darstellen, also quasi nur ein Link auf die eigentlichen Daten. Dadurch müssen die Inhalte nicht mehr während der Migration bewegt werden, sondern können im Vorhinein im Archiv erfasst werden. Die Daten werden dann zur Migration nur mehr über Referenzen eingebunden. Jede Referenz auf einen
Inhalt des Archivsystems besteht aus einer Dokumenten-ID und einer Inhalts-ID. Beim Setzen des Inhalts
müssen diese beiden IDs gleichzeitig an den Fabasoft Components Kernel übergeben werden, der diese im
Objekt hinterlegt und damit die Referenz auf das Archivsystem aufbaut. Wird später auf den Inhalt zugegriffen,
erkennt der Fabasoft Components Kernel aufgrund dieser Informationen, dass der Inhalt im Archiv liegt und findet ihn unter der angegeben Dokumenten- und Inhalts-ID. Um die Referenz im Datenimport zu konfigurieren,
steht die Eigenschaft Archivposition zur Verfügung. Drei Werte spielen hierbei eine Rolle:
47
Das Archivstore-Objekt, das das Archiv definiert, in dem der Inhalt archiviert wurde, wird direkt in die Eigenschaft Archivstore in der Archivposition eingetragen.
Die Dokumenten-ID wird durch die Zuordnung auf die Inhaltseigenschaft definiert.
Für die ID des Inhaltes wird ein zweiter variabler Wert benötigt, der aus jener Spalte genommen wird, deren
Name in der Archivposition unter Spalte mit ID des Inhalts hinterlegt ist.
Mit dieser Methode kann ein Import von Inhaltsobjekten erfolgen, ohne einen einzigen Inhalt zum Zeitpunkt der
Migration transferieren zu müssen. Trotz dieses Vorteils habe ich seit 1999 keine Migration betreut, in der diese Vorgehensweise gewählt wurde. Bei einigen Migrationen wurden aber Teile der Datenbestände bereits im
Rahmen der Migration oder in einer anschließenden Phase auf Archive ausgelagert. Wie das geht, wird bei den
Anwendungsfällen der Skripts näher erläutert.
Zeichenkettenlisten
Zeichenkettenlisten sind einerseits ganz normale Listen von einzelnen Zeichenketten, wie sie zum Beispiel in der
Eigenschaft Log-in-Name ([email protected]:userlogname) der Objektklasse Benutzer verwendet
werden. Dort werden die Log-in-Namen des Benutzers – jeder Log-in in einer eigenen Zeile – abgelegt. Andererseits können die Zeichenkettenlisten auch wie eine Inhaltseigenschaft interpretiert und als Text bearbeitet
werden. Dafür steht auch im Datenbankschema der Fabasoft Components COO-Services die Möglichkeit zur Verfügung, diese Zeichenkettenlisten in einer Textspalte mit 4.000 Zeichen abzulegen. Verwendet man diese datenbankseitige Abbildung nicht, so können Zeichenkettenlisten theoretisch beliebig groß werden. Weist man in
einem Datenimport einer Zeichenkettenliste Werte zu, so erhält man im Grunde dasselbe Verhalten, wie bei
anderen Listeneigenschaften. Man kann also den Wert auch zeilenweise zur Zeichenkettenliste hinzufügen.
Beinhaltet der Wert jedoch mehrere Zeilen, werden alle diese Zeilen der Eigenschaft zugewiesen. Damit kann
man mit einem Datensatz ganze Texte in Zeichenkettenlisten setzten.
Hier kommt jedoch das Limit der ODBC- und OLE DB-Datenquellen wieder zum Tragen, die bei Spalten, die länger als 4.000 Zeichen sind, alle Inhalte (egal wie groß die enthaltenen Daten sind) in Dateien ablegen. Überschreitet eine Spalte der Datenquelle dieses Limit, so wird man an Stelle des Wertes einen Dateipfad auf eine
4. Datenimportobjekt
4.3 Setzen und Ändern von Eigenschaften
temporäre Datei in der Eigenschaft vorfinden, die im Rahmen des Datenimports wieder gelöscht wurde. Das
kann man im Fall von OLE DB- und seit Neuem auch bei ADE DB-Datenquellen verhindern, indem man die
Option „Inhalt als Wert“ in der Zeile, in der diese Datenbankspalte steht, angibt. Damit können Werte bis maximal 500 Kilobyte als Text in der jeweilige Spalte verarbeitet und so in eine Zeichenkettenliste geladen werden.
Daten, die über die 500-Kilobyte-Grenze hinausgehen, werden dabei jedoch ohne Fehlermeldung abgeschnitten.
Bei allen anderen Datenquellen ändert die Option nichts am Verhalten der Datenquelle.
Bis Fabasoft Components Version 5.0.2 mussten Zeichenkettenlisten in Listen von Zeichenketten zerlegt werden.
Dazu musste die Option „Zeichenkettenliste“ angegeben werden. Es wurde dabei erstens bei Zeilenumbrüchen
(CR, LF oder CRLF), zweitens beim letzten Leerzeichen vor der in der Eigenschaft definierten maximalen Länge der Zeichenkette und drittens, falls kein Leerzeichen bis zu dieser Marke enthalten war, genau bei dieser Länge umgebrochen.
Ab Version 5.0.3 muss der Wert der Zeichenkettenliste nicht mehr zerlegt werden, da der Fabasoft Components
Kernel das selbständig erledigt und auch Zeilen mit einer Länge unterstützt, die größer ist als die maximal eingestellte Zeichenlänge.
Zusammengesetzte Eigenschaften
Wie bereits erwähnt werden Eigenschaften in zusammengesetzten Eigenschaften (in den Referenzen und in
manchen Bezeichnungen findet sich dafür auch noch die frühere Bezeichnung Aggregat) durch den Eigenschaftspfad definiert, also durch die vollständige Liste aller Eigenschaften, die vom Objekt bis zum konkreten
Wert führen.
49
Beispiel: Eigenschaftspfad bei Telefonnummerneigenschaft
Die Eigenschaft Telefonnummern ([email protected]:telephones) ist eine zusammengesetzte
Eigenschaft, die bis zu vier Werte beinhalten kann:
°
°
°
°
Typ ([email protected]:teltype)
Telefonnummer ([email protected]:telnumber)
Beschreibung ([email protected]:teldesc)
Telefonnummer (Rohformat) ([email protected]:rawnumber)
Um eine Telefonnummer in die Telefonnummern-Eigenschaft zu setzen, muss also als Eigenschaftspfad
Telefonnummern.Telefonnummer ([email protected]:[email protected]:
telnumber) eingetragen werden.
Analog verfährt man mit dem Typ der Telefonnummer ([email protected]:
[email protected]:teltype) der in unserem Beispiel mit einem Festwert belegt
wird (siehe Abbildung 1).
Innerhalb einer Funktion (Kombination von Objektklasse und Objekt-ID) beziehen sich gleiche Attributspfade
auch immer auf die gleichen Zeilen in einer Liste. Also ist auch hier sichergestellt, dass sich der Typ und die Telefonnummer auf dieselbe Zeile der Liste der Telefonnummern-Eigenschaften beziehen. Zusammengesetzte Eigenschaften werden befüllt, wenn zumindest einer Eigenschaft ein Wert zugewiesen wird. In unserem Beispiel mit
den Telefonnummern wird dem Typ immer der konstante Wert „400“ zugewiesen. Damit wird die Telefonnummern-Eigenschaft prinzipiell immer gesetzt, egal ob in den Quelldaten eine Telefonnummer angegeben ist oder
nicht. Daher gibt es die Option „Muss im Aggregat definiert sein“, die bei jener Eigenschaft gesetzt wird, ohne
die der Eintrag nicht sinnvoll ist, und sicherstellt, dass eine zusammengesetzte Eigenschaft nur dann angelegt
wird, wenn alle Werte, die definiert sein müssen, auch wirklich definiert sind.
4. Datenimportobjekt
4.3 Setzen und Ändern von Eigenschaften
Hintergrund: Berücksichtigung von Muss-Eigenschaften
Im Datenimport wird die Information aus dem Datenmodell, ob eine Eigenschaft gesetzt werden muss oder
nicht, generell nicht beachtet. Diese Information wird normalerweise im Rahmen der Darstellung in der
Benutzerschnittstelle verwendet, um unterschiedliche Darstellungen der Eigenschaften zu erreichen und
um Eingaben in bestimmte Eigenschaften zu erzwingen. Für das Datenmodell selbst hat diese Information
aber keine Bedeutung, es wird also nicht erzwungen, dass in einer Muss-Eigenschaft ein Wert enthalten
ist, bevor eine Transaktion abgeschlossen wird. Aber selbst für die Darstellung in der Benutzerschnittstelle kann diese Information überschrieben werden, um in einer konkreten Installation ein anderes Verhalten
zu erreichen. Daher kann sich der Datenimport nicht auf diese Information verlassen und sie wird ignoriert.
Als Ersatz dafür wurde bei zusammengesetzten Eigenschaften die Option „Muss im Aggregat definiert
sein“ eingeführt, um unvollständig definierte Einträge in zusammengesetzten Eigenschaften zu verhindern.
Verarbeitung von Listen
Das Laden von Listeneigenschaften stellt immer wieder eine Herausforderung dar, da einige Randbedingungen
beachtet werden müssen.
Mehrere Einträge pro Datensatz
Ein typisches Beispiel für einen Datensatz, in dem mehrere Einträge enthalten sind, die auf mehrere Zeilen in
einer Liste abgebildet werden, sind Telefonnummern und Faxnummer von Personen oder Organisationen. Im
Objektmodell sind diese Nummern als Liste von zusammengesetzten Eigenschaften abgebildet, die neben der
Nummer auch noch die Art der Nummer (Typ) beinhaltet, also zum Beispiel ob diese Nummer eine Mobiltelefonnummer, eine Büronummer oder eine Faxnummer ist. In den Quelldaten hat man aber oft in einem einzigen
Datensatz zwei oder mehr Spalten mit Telefonnummern und die die Art der Telefonnummer (z.B. „OfficePhone“,
„MobilePhone“, „Fax“) wird durch die Spaltenbezeichnung definiert.
51
Nehmen wir an, drei Telefonnummern sollen auf drei Zeilen in der Liste Telefonnummern
([email protected]:telephones) abgebildet werden. Wie im letzten Abschnitt besprochen, wird die
Spalte OfficePhone dem Eigenschaftspfad Telefonnummern.Telefonnummer ([email protected]:
[email protected]:telnumber) zugeordnet und der Fixwert „400“ für den Typ „Büro“
in der Eigenschaft Telefonnummern.Typ ([email protected]:[email protected]:
telnumber) gesetzt. Um die Zeile der Mobiltelefonnummer und der Faxnummer von dieser Zeile unterscheiden zu können, wird auf die anfangs erwähnten Objekt-IDs zurückgegriffen. Wir definieren also quasi eine Person in der Funktion „Person mit Büro-Telefonnummer“, eine weitere mit der Funktion „Person mit Mobiltelefonnummer“ und eine dritte mit der Funktion „Person mit Faxnummer“, also jede mit einer unterschiedlichen ObjektID. Dass es sich dabei eigentlich um dieselbe Person handelt kann man dadurch ausdrücken, dass alle diese Personen dieselben Schlüsselwerte verwenden. Noch eleganter ist es, wenn man die Objekt-IDs aufsteigend vergibt und bei den Personen mit der zweiten und dritten Funktion als Methode zur Vermeidung doppelter
Objekte den Eintrag „Verwende das selbe Objekt mit niedrigerer Objekt-ID“ auswählt. Damit muss man nur
mehr bei der ersten Funktion die Schlüsseleigenschaften angeben und die geeignete Suchmethode auswählen.
Die Objekte der Personen mit den anderen Funktionen sind implizit bekannt und man muss nur mehr, wie in
Abbildung 12 zu sehen, die zu setzenden Eigenschaften zuordnen.
4. Datenimportobjekt
4.3 Setzen und Ändern von Eigenschaften
Abbildung 12
Definition mehrerer Listeneinträge pro Datensatz
Eindeutige Einträge in Liste
In vielen Fällen ist es gewünscht, dass in Listen keine doppelten Einträge geladen werden sollen. Das hat auch
für den Import große Vorteile. Zum Beispiel vermeidet man damit, selbst wenn ein Import teilweise wiederholt
werden muss, dass unerwünschte Einträge in den Listen entstehen. Sind Listen vom Objektmodell her durch das
Setzen der Eigenschaft Eindeutige Einträge in Liste des Eigenschaftstyps so definiert, wird diese Einschränkung automatisch vom Datenimport berücksichtigt. Es gibt aber auch Situationen, in denen im Objektmodell
Duplikate erlaubt sind, im Datenimport jedoch keine Duplikate eingefügt werden sollen. Dafür gibt es die
Option „Eindeutige Einträge in Liste“, die in jener Zeile der Zuordnungen oder Objektbeziehungen definiert wird,
in der diese Eigenschaft gesetzt wird.
53
Etwas komplizierter ist das bei Listen zusammengesetzter Eigenschaften. Hier kann neben der Tatsache, dass es
sich um eine Liste mit eindeutigen Einträgen handelt, auch noch angegeben werden, welche Eigenschaften zum
Vergleich herangezogen werden, welche Eigenschaften also die Schlüsseleigenschaften der Listeneinträge sind.
Auch diese können bei zusammengesetzten Eigenschaften bereits im Objektmodell, im Typ der Eigenschaft, in
der Eigenschaft Schlüssel für eindeutige Listen ([email protected]:typeuniqueattrs) vorgegeben sein. Ist das nicht der Fall oder sollen andere Eigenschaften zum Vergleich herangezogen werden, so kann
man bei den entsprechenden Zuordnungen durch Setzten der Option „Aggregatsschlüssel“ definieren, welche
Eigenschaften zum Vergleich mit anderen Einträgen der Liste herangezogen werden sollen. Wenn also angenommen beim Import der Typ der Telefonnummern eindeutig sein soll, also jede Person maximal eine Büronummer,
eine Mobiltelefonnummer und eine Faxnummer bekommen soll, dann muss bei jeder Zuordnung zum Typ der
Telefonnummer ([email protected]:[email protected]:teltype) die Option
„Aggregatsschlüssel“ gesetzt werden, um diese als Schlüsseleigenschaft innerhalb der Liste der zusammengesetzten Eigenschaft Telefonnummern ([email protected]:telephones) zu definieren.
Synchronisation von Listen
Bisher wurden Einträge immer nur in leere bzw. bereits bestehende Listen eingefügt. Beim regelmäßigem
Abgleich von Datenbeständen gibt es jedoch auch Situationen, in denen Einträge aus Listen entfernt werden
müssen. Wenn die zu löschenden Einträge in Datensätzen von der Datenquelle geliefert werden, dann kann das
Löschen über Skripts realisiert werden (siehe Kapitel „Zusätzliche Beispiele“ auf Seite 159). Eine andere Situation ergibt sich, wenn die Einträge nicht explizit gelöscht werden, sondern die aktuelle Liste einfach neu übertragen wird.
4. Datenimportobjekt
4.3 Setzen und Ändern von Eigenschaften
4.4 Identifikation und Duplikatsprüfung
Beispiel: Abgleich der Benutzergruppen über LDAP
Beim Abgleich der Benutzerinformationen aus LDAP-Quellen (z.B. Active Directory oder OpenLDAP) wird bei
Benutzern jedes Mal die komplette Liste der Gruppen übertragen, in denen der Benutzer enthalten ist.
Ändert sich die Zuordnung, so gibt es keine Information darüber, welche Zuordnung sich geändert hat. Nicht
mehr bestehende Zuordnungen sind einfach nicht mehr enthalten. Trotzdem sollen die Einträge in der Fabasoft Components Domäne gelöscht werden.
Beim Datenimport kann eine Liste über den Änderungsmodus „Löschen und neu anlegen“ neu befüllt werden.
Dazu wird der Inhalt der Eigenschaft am Beginn der Transaktion gelöscht und in weiterer Folge die Eigenschaften neu befüllt. Damit fallen alle Werte, die innerhalb der Transaktion nicht mehr eingetragen werden, automatisch aus der Liste heraus. Daraus ergibt sich aber auch eine Einschränkung dieser Option: Die Liste muss innerhalb einer einzigen Transaktion neu befüllt werden. Auch werden die Listen jedenfalls geändert, selbst wenn
sich die Werte im Endeffekt nicht verändern.
4.4
Identifikation und Duplikatsprüfung
Objektsuche
Der primäre Zweck der Klasseneigenschaften ist es, die Suche und das Erzeugen von Objekten zu steuern. Bisher war immer nur von Zuordnungen zu Objekten die Rede. Was aber, wenn zum Beispiel mehrere Personen derselben Organisation zugeordnet werden sollen? Dafür benötigt man einerseits eine oder mehrere Schlüsseleigenschaften, die ein Objekt innerhalb der Objektklasse eindeutig identifizieren, andererseits kann man konfigurieren, wie die Suche nach den Objekten ablaufen soll.
Schlüsseleigenschaften
Zur Definition der Schlüsseleigenschaften müssen wir noch einmal zu den Zuordnungen der Eigenschaften
zurückkehren. Dort gibt es nach dem Festwert eine Aufzählungseigenschaft Schlüssel- und Änderungs-
55
modus ([email protected]:datimpmapkeyupdate). Man macht eine Eigenschaft zu einer Schlüsseleigenschaft indem man den Schlüssel- und Änderungsmodus auf den Wert „Schlüssel“ setzt. Das
bewirkt automatisch, dass diese Eigenschaft zur Identifikation der Objekte genau dieser Objektklasse verwendet wird. Unterschiedliche Instanzen derselben Objektklasse, die sich nur durch die Objekt-ID unterscheiden,
müssen innerhalb eines Datenimports dieselben Schlüsseleigenschaften haben, da die Schlüsseleigenschaften
auch für die interne Verarbeitung verwendet werden. Unterschiedliche Objektklassen können durchaus auch
unterschiedliche Schlüsseleigenschaften haben. Zulässige Typen von Eigenschaften sind:
°
°
°
°
°
°
Zeichenketteneigenschaften
°
°
°
°
Keine Schlüsseleigenschaften können Listeneigenschaften sein, genauso wie
Zahleneigenschaften
Aufzählungseigenschaften
Boolesche Eigenschaften
Eigenschaften mit Datum und Zeit
Gleitkommazahleneigenschaften (diese sollten jedoch wegen der Rundungsproblematik nicht als Schlüssel
verwendet werden)
Eigenschaften mit Inhalt
Eigenschaften für Werte-Verzeichnisse
Objektzeigereigenschaften
Eigenschaften in zusammengesetzten Eigenschaften können Schlüsseleigenschaften sein, sofern die zusammengesetzte Eigenschaft nicht eine Liste ist und die Eigenschaft, die den Wert enthält, einen Eigenschaftstyp hat,
der eine Schlüsseleigenschaft sein kann und nicht mehrere Werte beinhalten kann.
4. Datenimportobjekt
4.4 Identifikation und Duplikatsprüfung
Suchen und Erzeugen von Objekten
Für jede Objektklasse kann man einstellen, wie die Objekte dieser Objektklasse im Zuge des Datenimports
gesucht werden sollen. Dabei stellt der Datenimport Grundmechanismen zur Verfügung, von denen einige Kombinationsmöglichkeiten auswählbar sind.
Diese Mechanismen sind:
°
°
Die Suche nach Objekten erfolgt über einzelne Suchabfragen in der Fabasoft Components Domäne.
°
°
Dieser Suchbaum kann durch eine Suche über alle Objekte der Objektklasse initialisiert werden.
In einem lokalen Suchbaum im Speicher der Anwendung („Cache“) wird zu jedem Objekt sein Schlüsselwert
gespeichert.
Die Suche nach Objekten erfolgt unter Verwendung der Hashtabelle der Objektklasse.
Daraus ergeben sich die in Abbildung 13 dargestellten Suchmethoden, die bei den Klasseneigenschaften in der
Eigenschaft Vermeidung doppelter Objekte auswählbar sind.
57
Abbildung 13
Methoden zur Vermeidung
doppelter Objekte
Keine Prüfung vorhandener Objekte
Die Objekte werden immer erzeugt, selbst wenn die Eigenschaft Erzeuge Objekte auf „Nein“ gesetzt wird.
Dazu wird keine Schlüsseleigenschaft benötigt. Wenn jedoch eine oder mehrere Schlüsseleigenschaften definiert sind, dann wird ein Objekt nur dann erzeugt, wenn mindestens einer dieser Eigenschaften ein Wert zugewiesen wird.
Vorteile:
°
°
Bei dieser Variante wird keine Suche durchgeführt, also ist diese Methode die schnellstmögliche.
Es wird kein Platz für den Suchbaum benötigt.
4. Datenimportobjekt
4.4 Identifikation und Duplikatsprüfung
Nachteile:
°
°
Durch die fehlende Suche können Objekte mehrfach geladen werden.
Die Fehlerbehandlung ist kompliziert, da durch eine Wiederholung des Ladevorgangs Duplikate entstehen.
Prüfung durch Sammeln von Schlüsseln für alle Objekte
In einer Initialisierungsphase wird ein lokaler Suchbaum (Cache) aufgebaut, in dem von allen Objekten der
Objektklasse die Schlüsselwerte und die Adresse des Objekts gespeichert werden. Während des Ladevorgangs
werden neu erzeugte Objekte in den Suchbaum eingetragen. Daher sind immer alle Objekte bekannt und es müssen keine weiteren Suchen erfolgen.
Vorteile:
°
Die Suche im lokalen Suchbaum ist in der Regel sehr schnell.
Nachteile:
°
°
Die Initialisierung des Suchbaumes kann lange dauern.
°
Durch die Parallelisierung bei der Initialisierung des Suchbaumes können Probleme auftreten, wenn Objekte vieler Objektklassen (mehr als drei) gesammelt werden.
Der Speicherverbrauch ist relativ hoch, da auch für Objekte, die vom Ladevorgang nicht betroffen sind, Speicher belegt wird. Der Einsatz dieser Suchmethode ist dadurch auf Objektklassen mit maximal einer Million
Instanzen beschränkt.
Diese Suchmethode wird also speziell dann verwendet, wenn ein großer Prozentsatz der bestehenden Daten
vom Ladevorgang betroffen ist, oder nur wenige Objekte bereits vorhanden sind. So kann die Anzahl der einzelnen Suchen reduziert werden. Der Aufwand der Initialisierung amortisiert sich bald.
59
Prüfung durch Suche für jedes Objekt
Bei dieser Suchmethode werden die Objekte bei der ersten Referenzierung über eine Suche in der Fabasoft Components Domäne gesucht. Bereits gefundene oder neu erzeugte Objekte werden im lokalen Suchbaum gespeichert, um bei mehrfacher Verwendung nicht noch einmal gesucht werden zu müssen.
Vorteile:
°
°
Es wird keine Initialisierungsphase benötigt.
Mehrfache Referenzierungen führen zu keinen weiteren Suchen.
Nachteile:
°
°
°
Die Suche pro Datensatz ist langsam.
Der Suchbaum benötigt für jedes verwendete Objekt Speicher.
Eine Optimierung der Suche auf der Datenbank ist notwendig.
Diese Suchmethode ist die Standardmethode, wenn für eine Objektklasse kein Eintrag in den Klasseneigenschaften angegeben ist.
Als Optimierung werden bei der Suche alle Objekte, die in einem Transaktionsblock verarbeitet werden, auf einmal gesucht, sofern bei der Objektklasse nur eine Schlüsseleigenschaft gesetzt ist.
Diese Suchmethode sollte speziell dann verwendet werden, wenn bereits viele Objekte in der Fabasoft
Components Domäne enthalten sind und nur wenige hinzukommen oder referenziert werden.
Prüfung durch Suche für jedes Objekt (kein Cache)
Speziell für den Fall, dass sehr viele Objekte geladen werden sollen, gibt es auch die Möglichkeit, den lokalen
Suchbaum auszuschalten. So wird vor allem das Speicherproblem des Suchbaumes umgangen.
4. Datenimportobjekt
4.4 Identifikation und Duplikatsprüfung
Vorteile:
°
°
Keine Initialisierungsphase
Minimaler Speicherverbrauch
Nachteile:
°
°
°
Langsame Suche pro Datensatz
Mehrfache Referenzen führen zu mehrfachen Suchen
Optimierung der Suche auf der Datenbank notwendig
Außer bei sehr großen Importen kann diese Methode auch effizient eingesetzt werden, wenn es keine oder nur
wenige mehrfache Referenzen auf Objekte gibt.
Prüfung durch Suche über Hashtabelle
Bei dieser – in konkreten Projekten kaum verwendeten – Methode wird direkt aus den Werten der Schlüsseleigenschaften ein Hashwert errechnet, aus dem die Objektadresse berechnet wird. Dazu muss zuvor in der
Fabasoft Components Domäne eine Hashtabelle für diese Objektklasse angelegt und ein ausreichender Bereich
von Objektadressen exklusiv für diese Hashtabelle reserviert werden. Die Objekte der Objektklasse müssen dann
immer über bestimmte Funktionen erzeugt werden, die als Parameter bereits die Schlüsselwerte des Objekts
enthalten. Diese können dann unter keinen Umständen geändert werden.
Vorteile:
°
Diese Variante ist in Spezialfällen effizient.
Nachteile:
°
Das Erzeugen von Objekten ist nur über einen Datenimport oder aus der Anwendungslogik heraus möglich,
da spezielle Funktionen zum Anlegen der Objekte verwendet werden müssen.
61
°
°
°
Die Anzahl der Objekte ist durch die Größe der Hashtabelle limitiert.
°
Die Schlüsseleigenschaften der Objekte dürfen nicht mehr geändert werden.
Durch die Kollisionsbehandlung ist das Anlegen von Objekte bei hohem Füllgrad der Hashtabelle ineffizient.
Die Hashtabelle muss während der Erzeugung von Objekten gesperrt werden und der Import kann daher
nicht sinnvoll parallelisiert werden.
Wegen dieser prinzipiellen Einschränkungen finden die Hashtabellen und damit auch die Suchmethode in
Fabasoft Components/COLD kaum Verwendung. Während der Initialisierungsphase des Datenimports wird für
jede Objektklasse geprüft, ob eine Hashtabelle definiert ist, um zu verhindern, dass Objekte von Objektklassen
mit Hashtabelle ohne Verwendung der Hashtabelle erzeugt werden.
Prüfung durch Suche im lokalen Cache
Diese Methode verwendet den lokalen Suchbaum, der jedoch nicht durch eine Initialisierung vorher befüllt wird.
Objekte die nicht bereits im Suchbaum enthalten sind, werden erzeugt und in den Suchbaum eingetragen.
Dadurch wird ein mehrfaches Erzeugen von Objekten in einem Ladevorgang verhindert.
Vorteile:
°
°
°
Es wird keine Initialisierung benötigt.
Es werden keine Suchen pro Datensatz durchgeführt.
Die Suchen im lokalen Suchbaum sind sehr schnell.
Nachteile:
°
°
Objekte, die bereits vorhanden waren, werden nicht gefunden.
Die Fehlerbehandlung ist kompliziert, da durch eine Wiederholung des Ladevorgangs Duplikate entstehen.
4. Datenimportobjekt
4.4 Identifikation und Duplikatsprüfung
Verwende das selbe Objekt mit niedrigerer Objekt-ID
Diese Methode ist nur im Zusammenhang mit einer anderen Suchmethode einsetzbar und ist somit die einzige
Variante, bei der in mehreren Instanzen einer Objektklasse unterschiedliche Methoden zur Vermeidung doppelter Objekte verwendet werden dürfen.
Die Anwendung wird im Rahmen der Behandlung von Listen besprochen.
Suche unter Verwendung der Objektadresse
Als Sonderfall kann man die Suche nach Objekten über die Objektadresse ansehen. Dafür definiert man bei den
Zuordnungen der Eigenschaft eine Spalte oder einen Festwert, der die Objektadresse (in der Form
„COO.<domain-major-id>.<domain-minor-id>.<store-id>.<object-id>“) enthält. Als Suchmethode wählt man
„Prüfung durch Suche für jedes Objekt“. Diese Variante ist besonders effizient, da auf das Objekt direkt über seine Adresse zugegriffen wird und keine Suchen benötigt werden. Sie eignet sich einerseits dafür, fixe Objekte
über konstante Werte zu hinterlegen, andererseits kann man damit auch sehr effiziente Optimierungen umsetzen, indem man Fremdschlüssel bereits auf der Datenquelle auflöst. Hat man beispielsweise durch einen Datenbankexport die Schlüsseleigenschaften und die Objektadresse aller referenzierten Objekte auf die Quelldatenbank exportiert, so kann man durch einen JOIN zwischen der Tabelle der Quelldaten und der exportierten
Tabelle die Objektadressen der referenzierten Objekte ermitteln. Diese Objektadresse kann dann anstelle der
Schlüsseleigenschaften zur Bestimmung der referenzierten Objekte verwendet werden. Auf diese Variante wird
im Rahmen der Optimierungen genauer eingegangen.
Vorteile:
°
°
°
Keine Initialisierung
Keine Suche pro Datensatz
Kein lokaler Suchbaum
63
Nachteile:
°
Die Objektadresse muss manuell (bei Konstanten) oder über die Datenbank (JOIN) ermittelt werden
Suche unter Verwendung der Referenz
Komponentenobjekte werden oft mit ihrer Referenz definiert, die gleichzeitig als Dokumentation dient. Definiert
man als Schlüsseleigenschaft eines Komponentenobjekts die Eigenschaft Referenz ([email protected]:
reference), so kann auch die komplette Referenz mit Softwarekomponente angegeben werden und es wird
diese ohne Suche auf der Datenbank im Client-Cache des Fabasoft Components Kernels aufgelöst, da dieser
Cache alle Komponentenobjekte enthält. Als Suchmethode muss auch hier „Prüfung durch Suche für jedes
Objekt“ verwendet werden.
Diese Suchmethode eignet sich hervorragend zur Definition von fixen Komponentenobjekten (z.B. ACLs, Stellen
oder Portalen), die in Eigenschaften anderer Objekte eingetragen werden sollen.
Welche Suchmethode soll verwen,erden?
Wenn man von der Verwendung spezieller Suchmethoden (Hashtabelle, Objektadresse) absieht, werden in
Abbildung 14 die wichtigsten Kriterien zur Auswahl der Suchmethode dargestellt.
Die erste Entscheidung hängt davon ab, ob bestehende Objekte geändert oder referenziert werden sollen. Kann
beides ausgeschlossen werden, so muss in der Fabasoft Components Domäne nicht gesucht werden. In diesem
Fall kann entweder „Keine Prüfung vorhandener Objekte“ ausgewählt werden oder, sofern Objekte innerhalb des
Imports mehrmals verwendet werden sollen, die „Suche im lokalen Cache“.
Falls bestehende Objekte verwendet werden sollen, muss zuerst geklärt werden, ob die Verwendung eines Suchbaumes zulässig ist, was vor allem vom zur Verfügung stehenden Speicher abhängt. Es sollten dabei nicht mehr
als etwa eine Million Objekte im Suchbaum gespeichert werden. Kann ein Suchbaum verwendet werden, hängt
die Suchmethode noch vom Verhältnis der referenzierten zu den existierenden Objekten ab. Wird nur ein kleiner
Teil der Objekte verwendet, so zahlt sich das „Sammeln der Schlüsseln für alle Objekte“ nicht aus und es sollte
die „Suche für jedes Objekt“ verwendet werden. Die endgültige Entscheidung hängt aber auch von vielen
4. Datenimportobjekt
4.4 Identifikation und Duplikatsprüfung
anderen Faktoren, wie zum Beispiel der Verwendung von Datenbankindizes oder der Komplexität der ACLPrüfung ab. Daher muss diese Entscheidung für jeden Anwendungsfall neu verifiziert werden.
Abbildung 14
Auswahl der Suchmethoden
Wenn von einer Objektklasse nur wenige 100 Instanzen referenziert werden, sollte der Defaultwert „Prüfung
durch Suche für jedes Objekt“ verwendet werden.
Mögliche Probleme bei Schlüsseleigenschaften
Get-Aktionen
Get-Aktionen bei Schlüsseleigenschaften können zur Folge haben, dass der Wert auf der Datenbank nicht mit
jenem Wert übereinstimmt, der beim Lesen der Eigenschaft des Objekts berechnet wird. Daher wird die Methode „Prüfung durch Suche für jedes Objekt“ möglicherweise nicht zum selben Ergebnis kommen, wie die „Prü-
65
fung durch Sammeln von Schlüsseln für alle Objekte“, da im einen Fall auf der Datenbank gesucht wird, im anderen Fall der von der Get-Aktion berechnete Wert verwendet wird. Solche Situationen sind aber nicht nur für den
Datenimport problematisch, sondern auch für die normale Suche in der Benutzerschnittstelle.
Set-Aktionen
Wenn der Wert einer Schlüsseleigenschaft in einer Set-Aktion geändert wird, wird diese Änderung im lokalen
Suchbaum nicht berücksichtigt und die Suche kann unvorhersehbare Resultate liefern. Beispielsweise kann
dadurch ein Objekt innerhalb eines Datenimports öfters referenziert werden und beim nächsten Datenimport
wird es auf einmal nicht mehr gefunden, da der Schlüsselwert jetzt auf Basis des Werts der Eigenschaft des
Objekts bestimmt wird, der aber durch die Set-Aktion nicht mehr dem ursprünglich gesetzten Wert entspricht.
Speicher
Auf 32-Bit-Betriebssystemen kann ein Prozess maximal drei Gigabyte Speicher direkt adressieren. Das ist bei der
Verwendung von lokalen Suchbäumen insofern zu berücksichtigen, als pro Eintrag mit ca. 40 Byte plus der
Länge des Werts der Schlüsseleigenschaft zu rechnen ist. Wenn der Import auf 64-Bit-Systemen durchgeführt
wird, sind die Speichergrenzen zwar nicht relevant, jedoch sind durch die größeren Pointer 12 Byte mehr pro
Objekt zu berechen.
Optimierung der Suche
Es ist vorteilhaft nur eine Schlüsseleigenschaft pro Objektklasse zu verwenden, da in diesem Fall die Suche effizienter ist und weniger Zugriffe auf Eigenschaften gemacht werden müssen. Bei den Suchmethoden, die pro
Objekt suchen, sollte diese Eigenschaft auf der Datenbank mit einem Index auf den Wert versehen sein.
Besonders gut geeignet sind die Eigenschaften Externer Schlüssel ([email protected]:
objexternalkey) und Betreff ([email protected]:objsubject) falls diese nicht anderwärtig verwendet werden.
4. Datenimportobjekt
4.4 Identifikation und Duplikatsprüfung
Die Eigenschaft Externer Schlüssel ist speziell für solche Zwecke definiert worden und hat nur den Nachteil,
dass die Werte auf der Datenbank in der generischen Tabelle atstrval stehen, wie die Werte vieler anderer Eigenschaften auch. Daher ist diese Eigenschaft nicht so effizient indizierbar. Das lässt sich aber bei Bedarf
durch die Implementierung geeigneter Tabellendefinitionen auf der Datenbank und entsprechender Indizierung
entschärfen.
Die Eigenschaft Betreff wird in vielen Formularen angezeigt, eignet sich daher nur dann, wenn die Schlüsselwerte „lesbare“ und für den Benutzer relevante Information beinhalten. Die Werte der Eigenschaft finden sich
in der Tabelle cooobject und die Suche ist nach der Definition eines Indexes auf diese Spalte sehr effizient.
Da die Suche in der Regel neben der Schlüsseleigenschaft auch die Objektklasse als Bedingung enthält, kann
sie durch die Verwendung eines kombinierten Indexes nach der Objektklasse und der Schlüsseleigenschaft weiter optimiert werden. Welcher Index im konkreten Fall optimal ist, kann – sieht man von der Definition von Tabellen ab – mit den Analysewerkzeugen der Datenbank ermittelt werden.
Suchbereiche
Suchbereiche dienen primär der Einschränkung der Suche auf bestimmte Fabasoft Components Domänen,
Fabasoft Components COO-Stores oder Fabasoft Components COO-Services. Einerseits kann damit die Suche
auf jene Services eingeschränkt werden, die auch tatsächlich Daten der betreffenden Objektklasse beinhalten,
andererseits kann man aber auch die Suche auf bestimmte Mandanten oder Ausschnitte der Objektmenge
beschränken. Wegen der gemeinsamen Verwaltung der Schlüssel einer Objektklasse kann auch der Suchbereich
nur pro Objektklasse und nicht pro Funktion eingestellt werden. Werden unterschiedliche Suchbereiche bei einer
Objektklasse definiert, ist das Resultat nicht definiert.
Eine wenig bekannte Möglichkeit bietet die Verwendung von Suchbereichen beim Erzeugen von Objekten: Wird
genau ein Fabasoft Components COO-Store im Suchbereich definiert, so werden neue Objekte dieser Objektklasse genau auf diesem Fabasoft Components COO-Store erstellt. Es wird also die Objektplatzierung überschrieben. Das kann einerseits dafür verwendet werden, dass bei Migrationen die Änderungen auf genau definierten
Fabasoft Components Services vorgenommen werden und andere Fabasoft Components Services nicht berührt
67
werden, wodurch eine Trennung der Datenbestände erreicht werden kann. Andererseits kann diese Trennung
auch für explizite Verteilung der Last auf mehrere Fabasoft Components Services verwendet werden, wenn zum
Beispiel ein Datenbestand auf mehrere Datenpakete aufgeteilt wird und von mehreren Clients aus möglichst
schnell in eine Fabasoft Components Domäne eingespielt werden soll.
Hintergrund: DesignPatterns 2001
Schon bei den Fabasoft DesignPatterns im Jahr 2001 wurde in einer Demo der Import von 10 Mio. Objekten in einer Stunde live vorgeführt. Dafür wurden die Quelldaten auf fünf Clients gleichmäßig aufgeteilt.
Bei der Optimierung stellte sich heraus, dass die Fabasoft Components COO-Services, vor allem aufgrund
von Datenbank-Locks, den geforderten Durchsatz nicht erreichen konnten. Was mit einem einzelnen Datenservice aber auch mit einer zufälligen Verteilung der Objekte über die Objektplatzierung nicht erreicht werden konnte, ließ sich durch die Implementierung einer Objektplatzierung über die Suchbereiche bewerkstelligen, indem in jedem der fünf verwendeten Datenimportobjekte ein anderer Suchbereich und damit ein
anderes Service zugeteilt wurde. So optimiert konnte der Import auf der im Vergleich zu heutigen Rechnern
langsamen Hardware in der geforderten Zeit durchgeführt werden.
Objektsperren
Objektsperren dienen der Synchronisation von Änderungen an einem Objekt und sorgen dafür, dass jedes Objekt
von maximal einer einzigen Transaktion modifiziert wird.
Dieser Mechanismus benötigt erheblich viel Zeit, da für jede Sperre ein RPC an das betreffende Fabasoft Components COO-Service abgesetzt wird und von diesem in einer eigenen Transaktion die Sperre auch in der Datenbank eingetragen wird. Beim Lösen der Sperre werden nach dem Commit alle Objektsperren eines Fabasoft
Components COO-Services in einer Transaktion wieder gelöscht. Sind die Objektsperren aktiviert, kann es
dadurch natürlich auch zu dem Fall kommen, dass ein Objekt bereits in einer anderen Transaktion gesperrt ist.
In diesem Fall werden vom Datenimport keine Änderungen auf diesem Objekt durchgeführt, Änderungen an
anderen Objekten werden jedoch ganz normal durchgeführt. Der Datensatz wird zur Fehlerbehandlung in das
4. Datenimportobjekt
4.4 Identifikation und Duplikatsprüfung
4.5 Parameter der Verarbeitung
Redo-Log geschrieben und damit können mit einem Roll-Forward die fehlenden Änderungen zu einem späteren
Zeitpunkt nachgetragen werden.
Gerade bei großen Datenübernahmen kann man organisatorisch (z.B. durch ein Wartungsfenster) dafür sorgen,
dass gleichzeitig mit dem Datenimport keine Änderungen auf den betroffenen Objekten durchgeführt werden.
Daher werden beim Datenimport die Objektsperren nicht verwendet, außer man schaltet diese explizit bei den
Klasseneigenschaften durch das Setzen der Eigenschaft Objekte sperren ([email protected]:
datimplockobjects) auf den Wert „Ja“ ein.
4.5
Parameter der Verarbeitung
Transaktionen und Threads
Während das Lesen der Quelldaten immer sequenziell von einem einzelnen Thread durchgeführt wird, werden
Änderungen in einem oder mehreren parallelen Worker Threads durchgeführt (siehe Abbildung 4). Dazu wird
vom Reader Thread eine bestimmte Anzahl von Datensätzen in einen Datenblock zusammengefasst, der jeweils
an einen einzelnen Worker Thread zu Verarbeitung übergeben wird. Dieser Worker führt daraufhin die Änderungen aller Datensätze eines Blockes in einer Transaktion durch und führt das Commit dieser Transaktion durch.
Das dient vor allem dazu, den Overhead, der für jede Transaktion notwendig ist, möglichst klein zu halten. Daneben kann dieser Mechanismus auch gezielt bei der Optimierung eingesetzt und auf die jeweilige Situation abgestimmt werden.
Parallele Threads
Ein wichtiger Faktor beim optimalen Tuning von Datenimporten ist die Verwendung von Parallelität bei der Verarbeitung von Datenimporten. Bei der Verwendung von parallelen Threads werden die Datenblöcke, die vom
Reader sequentiell erstellt werden, von einer fixen Anzahl von Worker Threads aus einer Queue gelesen. Jeder
Worker Thread nimmt sich also genau einen Datenblock von der Queue und verarbeitet diesen vollständig bevor
er den nächsten Datenblock aus der Queue entnimmt.
69
Die Verarbeitungs-Threads laufen parallel, sofern sie nicht durch den Zugriff auf gemeinsame Ressourcen synchronisiert werden. Zu den gemeinsamen Ressourcen zählen
°
°
°
°
°
Zu modifizierende Objekte
Nummeratoren
Hashtabellen
Skripts vor und nach dem Commit
Fabasoft Components Kernel
Der Fabasoft Components Kernel stellt für jede Verarbeitung eine zentrale Ressource dar und führt in vielen Fällen auch dazu, dass auch auf Multiprozessorsystemen maximal jene CPU-Last vom importierenden Prozess verbraucht wird, die einer einzelnen CPU entspricht. Während der Ausführung von RPCs zu Fabasoft Components
COO- und Fabasoft Components MMC-Services kann jedoch der Fabasoft Components Kernel von einem anderen Thread verwendet werden. Daher kann besonders in den Fällen, bei denen die Suche nach Objekten oder das
Schreiben der Daten auf der Datenbank erhebliche Zeit in Anspruch nimmt, diese Zeit am Ladeclient von anderen parallelen Worker Threads genutzt werden.
Die Skripts werden später in einem eigenen Abschnitt behandelt. Aufgrund von Einschränkungen der Scripting
Engine wird die Verarbeitung der Skripts serialisiert.
Die wichtigste Einschränkung ist aber jene der zu ändernden Objekte des Datenmodells. Die Einschränkung lautet, dass ein Objekt nicht gleichzeitig in mehreren Transaktionen geändert werden darf. Normalerweise dient der
Mechanismus der Objektsperre dazu, solche Zugriffe zu verhindern. Doch wenn die Objektsperren wegen des
großen Ressourcenbedarfs nicht verwendet werden, muss garantiert werden, dass innerhalb eines Datenimports mehrere Worker Threads nicht gleichzeitig dasselbe Objekt ändern. Daher gibt es einen internen Synchronisationsmechanismus, der das verhindert.
Zuerst wird dabei festgestellt, ob ein Objekt in der Transaktion potenziell erzeugt oder verändert wird. Dazu werden alle Zuordnungen herangezogen, die Veränderungen hervorrufen können. Zudem werden bei Rückwärtsverkettungen beide Richtungen der Zuweisung berücksichtigt. Nicht berücksichtigt können jene Änderungen wer-
4. Datenimportobjekt
4.5 Parameter der Verarbeitung
den, die von Methoden durchgeführt werden, da diese Änderungen nicht explizit modelliert sind und daher dem
Datenimport nicht bekannt sind. Von jenen Objektklassen, deren Objekte potenziell verändert werden, wird im
Rahmen vor dem Suchen bzw. Erzeugen der Objekte eine Liste der verwendeten Schlüssel geführt und jeder
Schlüssel kann dabei exklusiv nur von einem Thread verwendet werden. Trifft ein Thread auf ein bereits gesperrtes Objekt wird die Ausführung dieses Threads solange angehalten, bis das betroffene Objekt wieder freigegeben wird, also bis der blockierende Thread die Verarbeitung des aktuellen Datenblocks beendet hat.
Eine andere häufig anzutreffende Einschränkung ist die Vergabe von Nummeratorwerten, also die aufsteigende
Nummerierung von Objekten, sei es über einfache Nummeratoren oder Schlüssel-Nummeratoren. Während der
Schlüsselvergabe werden die Nummeratorobjekte gesperrt und diese Sperre wird erst nach dem Commit der
aktuellen Transaktion wieder aufgehoben. Daher steht der Nummerator nur einem Thread zur Verfügung. Der
Auflösung dieses Problems ist ein eigener Abschnitt dieses Buches gewidmet.
Hashtabellen müssen beim Erzeugen von Objekten wegen der Kollisionsbehandlung exklusiv gesperrt werden,
bis die Objekte auf die Datenbank persistiert sind und führen daher auch zu einer Serialisierung der Verarbeitung. Diese kann nicht umgangen werden.
Gruppenwechsel
Oft werden einzelne Objekte durch mehrere Datensätze verändert (z.B. beim Setzen von Listen). In der Verarbeitung bringt es Vorteile, wenn Objekte in möglichst wenigen Transaktionen geändert werden. Einerseits müssen
dann weniger Änderungen geschrieben werden, da weniger unvollständige Stände des Objekts committet werden, andererseits kann dadurch die Parallelität erhöht werden, da ein Objekt zu jedem Zeitpunkt nur an einer einzigen Transaktion beteiligt sein darf.
Daher wurde die Option „Gruppenwechsel“ implementiert, die bei den Zuordnungen von Datenbankspalten
angegeben werden kann. Damit wird die Anzahl der Datensätze, die vom Reader Thread in einen Datenblock
gegeben wird, dynamisch verändert. Das wird erreicht, indem die Änderung einer oder mehrerer Datenbankspalten (im Normalfall die Schlüsselspalten eines zu ändernden Objektes) bewirken, dass ein Datenblock vom
Reader Thread nicht mehr weiter befüllt wird und zur Weiterverarbeitung an einen Worker Thread gegeben wird.
71
Für die Blockgröße werden eine minimale und eine maximale Größe angegeben. Jeder Datenblock wird jedenfalls bis zur minimalen Größe befüllt und dann werden weitere Datensätze hinzugefügt bis entweder die maximale Blockgröße erreicht ist oder sich der Wert mindestens einer der Spalten, bei denen die Option gesetzt ist,
verändert. Voraussetzung für den effizienten Einsatz dieser Option ist jedoch, dass die Datensätze sortiert von
der Datenquelle geliefert werden, was bei manchen Datenquellen (z.B. LDAP) implizit der Fall sein kann, bei
anderen Datenquellen (z.B. Datenbanken, die über OLE DB angebunden sind) über SQL-Anweisungen mit einem
ORDER BY explizit herbeigeführt werden muss. Ist das für die Spalten mit Gruppenwechsel gewährleistet, so
kann man garantieren, dass alle Datenbereiche mit gleichen Gruppenwechsel-Spalten, die nicht mehr Datensätze umfassen als Maximale Blockgröße minus Minimale Blockgröße in einem Block und somit in einer
Transaktion verarbeitet werden.
Werden Änderungen also vor allem an einer Objektklasse durchgeführt, dann empfiehlt es sich den Gruppenwechsel dazu zu verwenden, möglichst alle Änderungen eines Objekts in einer einzelnen Transaktion durchzuführen.
Speziell bei der Synchronisation von Listen ist dieser Mechanismus unerlässlich, da der Synchronisationsmechanismus voraussetzt, dass die Liste in einer einzigen Transaktion wieder aufgebaut wird.
Übergehen von Methoden
Das Übergehen von Methoden ist eine mächtige Tuningmaßnahme, die nur mit großer Vorsicht verwendet werden darf. Worum geht es dabei?
In Fabasoft Components werden sowohl beim Erzeugen von Objekten als auch beim Commit der Transaktion
Methoden auf die einzelnen Eigenschaften und auf alle erzeugten bzw. geänderten Objekte ausgeführt. In diesen Methoden ist ein Teil der Anwendungslogik implementiert und daher benötigen diese Methoden oft sehr viel
Zeit. Bei Migrationen ist diese Anwendungslogik jedoch oft nicht notwendig, da etwa Konsistenzprüfungen
bereits vor dem Datenimport durchgeführt oder andere Berechnungen bereits im Rahmen des Imports gemacht
werden können (z.B. die Zusammensetzung des Objektnamens aus einzelnen Eigenschaften). In diesen Fällen
kann also die Anwendungslogik durch Logik des Datenimports ersetzt werden. In manchen Fällen müssen die
4. Datenimportobjekt
4.5 Parameter der Verarbeitung
Methoden während der Migration überhaupt unterdrückt werden, da sie unerwünscht sind, wie zum Beispiel der
Eigenschaftskonstruktor der Eigenschaft Prozesse ([email protected]:workflow), der beim Erzeugen des
Objekts einen definierten Workflow instanziert.
Folgende Aktionen können übergangen werden:
°
°
°
°
°
Die Konstruktoren von Eigenschaften
Die Aktion vor dem Schreiben der Eigenschaften (Set-Aktionen)
Der Objektkonstruktor ([email protected]:ObjectConstructor)
Die Aktion vor dem Schreiben der Objekte ([email protected]:ObjectPrepareCommit)
Die Aktion nach dem Schreiben der Objekte ([email protected]:ObjectCommitted)
Damit kann man meistens alle relevanten Methoden, die im Rahmen der Erstellung der Objekte aufgerufen werden, deaktivieren.
Die Deaktivierung wird durch die Registrierung von dynamischen Pre-Wrappern implementiert, die vor der Ausführung der eigentlichen Methoden den Fehlerstatus [email protected]:COOSTERR_BREAK setzen,
wodurch der Fabasoft Components Kernel die Verarbeitung der Methode abbricht. In seltenen Fällen ist bei
Aktionen eine der Eigenschaften Keine Wrapper-Methoden ausführen oder Muss ausgeführt werden auf
„Ja“ gesetzt, dann kann auch die Ausführung vom Datenimport nicht verhindert werden.
Methoden ohne Prüfung übergehen?
Im dynamischen Pre-Wrapper wird normalerweise geprüft, ob es sich bei der aufgerufenen Methode wirklich
um die Methode der richtigen Eigenschaft bzw. Objektklasse handelt. Sonst würden zum Beispiel bei
[email protected]:ObjectPrepareCommit die Aufrufe bei allen Objektklassen deaktiviert. Wenn
aber selbst diese Überprüfung zu aufwendig ist oder der erwähnte Seiteneffekt gewünscht ist, kann durch das
Setzen von Methoden ohne Prüfung übergehen? auf „Ja“ diese Prüfung deaktiviert werden. Diese Option
sollte aber nur von Experten und mit entsprechender Vorsicht eingesetzt werden.
73
4.6
Importoptionen und Protokoll
Protokoll: Modus, Objekt, max. Einträge
Während des Datenimports besteht die Möglichkeit ein Protokoll der Datensätze, der beteiligten Objekte und
der Fehler zu erstellen. Es kann dabei zwischen
°
°
°
„Kein Protokoll“
„Protokolliere Fehler“ und
„Vollständiges Protokoll“
gewählt werden, je nachdem, ob überhaupt eine Protokolldatei angelegt werden soll, ob darin nur die Fehler enthalten sein sollen oder ob alle Datensätze im Protokoll enthalten sein sollen.
Wenn das „Vollständige Protokoll“ ausgewählt ist, dann werden die Daten aller Quelldatensätze und zusätzlich
die Objektadressen aller erzeugten oder geänderten Objekte ins Protokoll geschrieben. Genauso wie bei „Protokolliere Fehler“ werden auch die Fehlermeldungen im Protokoll vermerkt.
Dieses Protokoll wird während des Datenimports auf eine lokale Datei geschrieben, die nach Verarbeitung aller
Datensätze an die Liste der Protokolle im Protokoll-Objekt gemeinsam mit den Statistikinformationen angehängt
wird.
Wird ein vollständiges Protokoll oder ein Fehlerprotokoll geschrieben, so ist in den Skripts (Filterskript für Rohdaten, Skript für Objekte und Skript für Objekte nach dem Commit) ein COM-Objekt definiert, das erlaubt,
eigene Informationen ins Protokoll zu schreiben.
Änderungen sofort anzeigen
Diese Option stammt noch aus den Zeiten des Fabasoft Win32-Clients, bei dem nach dem Commit eines Objekts
auch alle angezeigten Fenster von Änderungen verständigt wurden und diese entsprechend aktualisiert wurden.
Um diesen Vorgang zu vermeiden, wird bei Datenimporten standardmäßig die Transaktionsvariable
4. Datenimportobjekt
4.6 Importoptionen und Protokoll
4.7 Skripts
TV_NOUIREFRESH der Softwarekomponente [email protected] gesetzt. Bei Datenimporten, bei denen
der Datenimport vom Web- oder AT-Service durchgeführt wird, hat diese Option keinerlei Auswirkungen.
Objekte nicht aktualisieren
Jedes Objekt, das von einer Transaktion betroffen ist, wird normalerweise – sofern es sich nicht um Komponentenobjekte handelt – auf seine Aktualität hin geprüft. Dafür wird beim entsprechenden Fabasoft Components
COO-Service das Änderungsdatum des Objekts ausgelesen. Kann man sicherstellen, dass während des Datenimports keine Objekte auf anderen Fabasoft Components Kernel-Instanzen geändert werden, die später noch
einmal vom Datenimport betroffen sind, dann kann man auf diese Aktualisierung verzichten, indem man diese
Eigenschaft auf den Wert „Ja“ setzt und erreicht damit eine erhebliche Performancesteigerung.
In Version 7 ist ein neuer Mechanismus zur Verteilung von Änderungsmeldungen implementiert, bei dem die
Fabasoft Components COO-Services, wenn ein Objekt in einer Transaktion modifiziert wurde, aktiv über Multicast-Messages alle Fabasoft Components Kernel-Instanzen von Änderungen der Objekte benachrichtigen. Wird
dieser Mechanismus verwendet, so kann der Fabasoft Components Kernel entscheiden, ob ein Objekt im Cache
noch aktuell ist, ohne jedes Mal Aktualisierungsanfragen an das Fabasoft Components COO-Service stellen zu
müssen. Daher zeigt diese Option hier kaum Auswirkungen.
4.7
Skripts
In die Verarbeitung der Datenimporte kann an drei Stellen durch Verwendung von Skripts eingegriffen werden.
Diese Skripts können unter Microsoft Windows als VBScript oder JavaScript implementiert werden, unter Linux
jedoch ausschließlich als JavaScript. Der globale Kontext der Skripts wird beim Start des Datenimports einmalig aufgerufen. Dort können globale Variablen definiert werden oder Initialisierungen vorgenommen werden.
Danach wird für jeden Datensatz eine Funktion Main (bzw. beim Filterskript für Rohdaten alternativ
MainEx) aufgerufen, der die entsprechenden Parameter übergeben werden.
75
Die MainEx-Variante dieser Funktion wurde deshalb implementiert, weil mit dem zunehmenden Einsatz von
Linux die Einschränkung auf VBScript zur Implementierung der Skripts beseitigt wurde. Diese Einschränkung war
eine Folge der Verwendung von SafeArrays zur Parameterübergabe im Filter für Rohdaten.
Filterskript für Rohdaten
Das Skript für Rohdaten dient der Berechnung von Werten auf Basis der Eingangsdaten aus der Datenquelle.
Hier können auch Kriterien definiert werden, um gezielt Datensätze herauszufiltern. Dieses Skript wird vom
Reader Thread ausgeführt, wobei beim Start des Imports einmalig der globale Skript-Kontext ausgeführt wird
und dann pro Datensatz, der von der Datenquelle geliefert wird, die Funktion Main bzw. alternativ dazu die
Funktion MainEx aufgerufen wird. Dieser Funktion werden die Werte der Datenquelle übergeben und diese
können in der Funktion geändert werden. Zusätzlich zu den „normalen“ Datenbankspalten, die von der Datenquelle stammen, gibt es noch die Möglichkeit zur Verwendung „berechneter“ Spalten, also Spalten, die nicht
von der Datenquelle befüllt werden, sondern von diesem Skript gesetzt werden. Diese berechneten Spalten können bei den Zuordnungen genauso wie die eigentlichen Datenbankspalten verwendet werden. Zur Unterscheidung zwischen Datenbankspalten und berechneten Spalten dient ein „@“ am Beginn der berechneten Spalten.
Die Funktion Main(columns, data, changed, skip) ist die ursprüngliche Form der Funktion,
die in diesem Skript ausgeführt wird. Bei dieser Funktion wird als erster Parameter (columns) ein 0-basiertes
Array von Zeichenketten übergeben, in dem die Spaltennamen aller bei den Zuordnungen verwendeten Spalten
enthalten sind. Einträge, die in der Tabelle der Zuordnungen mehrfach verwendet werden, sind hier nur einmal
enthalten. Neben den Datenbankspalten sind hier auch die berechneten Spalten enthalten, also alle Einträge,
die in der Tabelle Zuordnungen in der Eigenschaft Spalte enthalten sind, selbst wenn die Zeile den Schlüssel- und Änderungsmodus „Ignorieren“ hat. Diese Spaltennamen hängen mit dem zweiten Parameter – den
Daten – zusammen, in dem der Wert der jeweiligen Spalte unter demselben Index im Parameter data zu finden ist, wie der Spaltenname im Parameter columns. Der Parameter data ist also auch ein Array – wieder
von Zeichenketten – in dem die Daten enthalten sind. NULL-Werte werden durch leere Zeichenketten abgebildet, sodass kein Unterschied zwischen einem leeren String und einem nicht vorhandenen Wert gemacht wird.
Berechnete Spalten sind ebenfalls mit Leerstrings initialisiert. Ändert man etwas an den Daten, befüllt man also
4. Datenimportobjekt
4.7 Skripts
zum Beispiel eine berechnete Spalte mit einem Wert, so muss man darauf achten, dass wieder nur Zeichenketten an den richtigen Index im Parameter data geschrieben werden. Außerdem werden Änderungen nur dann
übernommen, wenn der Parameter changed auf „True“ gesetzt wird. Wird changed auf dem Initialisierungswert „False“ belassen, werden die Änderungen ignoriert. Außerdem können in diesem Skript Datensätze
gänzlich von der weiteren Verarbeitung ausgeschlossen werden, indem der Parameter skip auf den Wert
„True“ gesetzt wird.
In der Funktion MainEx(params) werden diese Parameter nicht in Form von Arrays bzw. booleschen Variablen, sondern als DICTIONARY übergeben, das alle diese Parameter beinhaltet. Dies ist notwendig, da
JavaScript das Schreiben von SafeArrays nicht unterstützt und es damit unter Linux, wo ja VBScript nicht zur
Verfügung steht, nicht möglich war, ein Filterskript zu schreiben, das Rohdaten berechnet oder verändert. Nebenbei lässt sich damit auch wesentlich kompakterer Skript-Code schreiben, da das mühsame Suchen nach dem
richtigen Index einer Spalte entfällt. Beispiele dafür finden sich im Kapitel „Zusätzliche Beispiele“ auf Seite 159.
Filter für Objekte
Es gibt zwei Filter für Objekte, die sich einzig durch den Zeitpunkt des Aufrufes innerhalb der in Abbildung 15
beschriebenen Verarbeitungsfolge eines Datenpaketes im Worker Thread unterscheiden.
Wie beim Filterskript für Rohdaten wird der globale Kontext des Skripts auch bei diesen Skripts bei der Initialisierung des Datenimports einmalig ausgeführt. Später wird dann pro Datensatz einmal die Funktion Main aufgerufen. Im Unterschied zum Filterskript für Rohdaten werden jetzt aber nicht die Quelldaten an das Skript
übergeben, sondern die an dem Datensatz beteiligten Objekte. Als Parameter werden drei Arrays übergeben, die
– wiederum über den Array-Index zusammenhängend – die Referenz der Objektklasse, die Objekt-ID und das
konkrete Objekt beinhalten. Man verwendet also die Referenz der Objektklasse und die Objekt-ID um den richtigen Index in der Objektliste zu finden und kann dann direkt auf den Wert zugreifen. Beachten muss man jedoch,
dass der Wert des Objekts nicht in jedem Fall gesetzt sein muss. Wird ein Objekt nicht gefunden und auch nicht
erzeugt oder kann es (falls das konfiguriert ist) nicht gesperrt werden, so ist der Eintrag in der Objektliste leer.
Daher sollte man gerade bei der Verwendung von VBScript, wegen dessen anachronistischen Verwendung von
77
Zuweisungen zu Variablen, zuerst mit einer Abfrage (z.B. mit IsObject(value(n))) feststellen, ob in der
betreffenden Zelle ein Wert enthalten ist, bevor man diesen einer Variable zuweist oder anderweitig verwendet.
In JavaScript verwendet man dafür einen Vergleich auf != null.
Abbildung 15
Verarbeitung der Datensätze im Worker Thread
Hat man die betreffenden Objekte identifiziert und ihre Gültigkeit festgestellt, so kann man darauf Aktionen ausführen oder Eigenschaften lesen und setzten. Man kann dabei auch beliebige Objekte verwenden, die sonst nicht
im Datenimport verwendet werden, wobei immer darauf geachtet werden muss, dass man dazu nicht die globale Transaktion cootx verwendet, sondern die als vierten Parameter übergebene Transaktion threadtx,
denn das ist jene Transaktion, in der die Objekte gesucht, erzeugt und verändert wurden. Neu erzeugte Objekte
sind nur in dieser Transaktion bekannt und die Verwendung einer anderen Transaktion könnte daher zu Problemen und Inkonsistenzen führen.
4 Datenimportobjekt
4.7 Skripts
Als Anwendungsfälle für das Filterskript für Objekte seien die Versionierung und die Protokollierung von
Änderungen genannt. Dazu finden Sie auch Beispiel-Skripts bei den Konfigurationsbeispielen im Kapitel
„Zusätzliche Beispiele“ auf Seite 159.
Filter für Objekte nach dem Commit
Gleich wie das vorhergehende Skript wird auch beim Filterskript für Objekte nach dem Commit pro Datensatz die Main-Funktion mit denselben Parametern aufgerufen. Jedoch nur dann, wenn das Commit der Transaktion erfolgreich durchgeführt werden konnte.
Als Anwendungsfall ist im Kapitel „Zusätzliche Beispiele“ auf Seite 159 ein Skript für die Archivierung der
Inhalte der Objekte hinterlegt. Man kann aber genauso gut auch hier Protokollierungen durchführen oder – wie
bereits einmal im Rahmen eines periodischen Abgleichs durchgeführt – den Datensatz, der in dieser Datenzeile
verarbeitet wurde, in einer Datenbank als verarbeitet markieren.
Grundsätzlich sollte man jedoch alle diese Skripts mit großer Vorsicht einsetzen, da Skripts selbst und oft auch
die darin aufgerufenen Funktionen (z.B. die Versionierung oder Archivierung) langsam sind und den Datendurchsatz des Datenimports erheblich mindern. Durch eine unsachgemäße Verwendung von Skripts sind schon ganze
Migrationen gefährdet worden, indem sie derart ineffizient eingesetzt wurden, dass die Migration in der zur Verfügung stehenden Zeit nicht mehr durchführbar war. In einem Fall konnte durch ein Redesign der Filterskripts die
Verarbeitung um den Faktor 100 beschleunigt werden.
79
5
Was man unbedingt
5 beachten sollte …
5.1
Nummeratoren
Nummeratoren sind Zahleneigenschaften, die automatisch mit sequenziell aufsteigenden Werten befüllt werden. Eine Möglichkeit ist, diese Zahlen global zu vergeben, wie zum Beispiel bei der Eigenschaft Einfache
Namenszahl ([email protected]:nameid) der Objektklasse Einbringer ([email protected]:
Applicant), durch die jeder Einbringer eine eindeutige ID erhält. Die andere Variante sind Schlüssel-Nummeratoren, bei denen die Zahlen für jeden Wert der für diesen Nummerator definierten Schlüsseleigenschaften getrennt vergeben werden. Prominentes Beispiel dafür ist die Eigenschaft ESt-Nr
([email protected]:incnr) der Eingangsstücke ([email protected]:Incoming), die pro Jahr
vergeben wird. Hier wird in Abhängigkeit vom Wert der Eigenschaft Jahr ([email protected]:year) ein
anderer Zähler zur Vergabe der Nummer verwendet.
Während beim Nummerator der Wert beim Erzeugen der Eigenschaft vergeben werden kann, kann der Wert
beim Schlüssel-Nummerator erst ermittelt werden, wenn die Schlüsseleigenschaft festgelegt ist, also erst vor
dem Commit des Objekts, wenn die Schlüsseleigenschaft bereits gesetzt ist.
Nummerator-Eigenschaften
Die Berechnung einer einfachen Nummerator-Eigenschaft wird im Konstruktor der Eigenschaft durchgeführt.
Dort wird zuerst das Nummerator-Objekt gesperrt, danach wird der Wert ausgelesen, um 1 erhöht und
wieder gesetzt. Im Normalbetrieb wird diese Änderung des Nummerator-Objekts sofort in einer eigenen Transaktion auf die Datenbank geschrieben und das Nummerator-Objekt damit wieder entsperrt, damit es auch andere Benutzer verwenden können, selbst wenn das nummerierte Objekt (z.B. der Einbringer) noch in Bearbeitung
und noch nicht comittet ist. Im Fall des Datenimports werden die Zugriffe auf das Nummerator-Objekt jedoch in
der Transaktion durchgeführt, in der die Objekte erzeugt und geändert werden. Damit erspart man sich das
oftmalige Sperren des Nummerator-Objekts, da dieses dann für die ganze Transaktion gesperrt bleibt und für alle
neu erzeugten Objekte ohne neuerliche Sperre verwendet werden kann. Dieser Performancegewinn bringt allerdings auch Nachteile mit sich. Offensichtlich ist, dass immer nur eine Transaktion diesen Nummerator verwenden kann. Alle anderen Transaktionen müssen warten, bis diese Transaktion abgeschlossen ist und der Numme-
81
rator damit wieder freigegeben wird. Dabei können durchaus auch Timeouts auftreten, wodurch selbst beim
Datenimport Probleme entstehen können. Daher sollte auch beim Import von Objekten mit Nummeratoren immer
nur ein Thread verwendet werden, außer man deaktiviert den Nummerator.
Dazu muss der Wert des Nummerators aus einer Spalte der Datenquelle oder einer berechneten Spalte befüllt
werden, indem man einen Eintrag in der Tabelle der Zuordnungen definiert, durch den der Nummerator-Eigenschaft ein Wert zugewiesen wird. Bei dieser Zuordnung setzt man zusätzlich die Optionen „Methoden zum
Erzeugen des Wertes übergehen“ und „Methoden zum Speichern des Wertes übergehen“. Dadurch wird jene
Aktion nicht ausgeführt, die den Wert der Nummerator-Eigenschaft über das Nummerator-Objekt berechnet. Die
Eigenschaft erhält daher den Wert, ohne dass das Nummerator-Objekt involviert ist und gesperrt werden muss.
Dadurch wird die Einschränkung betreffend der Parallelisierung aufgehoben.
Um den Wertebereich, die Gültigkeit und Eindeutigkeit des Werts der Nummerator-Eigenschaft muss man sich
selbst kümmern. Nach dem Abschluss des Imports darf man nicht vergessen, das Nummerator-Objekt, das ja im
Rahmen des Datenimports nicht auf den korrekten Wert gesetzt wurde und daher bei dem alten Wert weiterzählen würde, auf den höchsten verwendeten Wert zu setzen, da es sonst zu doppelten Schlüsselwerten kommen könnte. Dazu ruft man die Aktion Schlüsselwert korrigieren ([email protected]:
UpdateValue) auf jenes Objekt auf, das im Rahmen des Datenimports den höchsten vergebenen Wert
erhalten hat. Üblicherweise wird das in einem eigenen Datenimport gemacht. Dabei werden die betroffenen
Datensätze auf der Quelldatenbank in einer View über die Quelldaten ermittelt und im Filterskript für
Objekte diese Aktion aufgerufen.
Diese Vorgehensweise ist nur zulässig, wenn sichergestellt ist, dass während des Datenimports nicht manuell
oder durch andere Maßnahmen Objekte angelegt werden, die denselben Nummerator verwenden. Diese würden potenziell Nummern aus einem Bereich erhalten, die für Objekte des Datenimports bereits vergeben sind.
Um das zu verhindern, müssen in solchen Fällen schon vor dem Datenimport die Nummerator-Werte um jene
Anzahl erhöht werden, die im Rahmen des Imports vergeben wird. Damit kann jederzeit ein neues Objekt
manuell angelegt werden und es erhält jedenfalls eine andere Nummer als die vom Datenimport angelegten
Objekte.
5. Was man unbedingt beachten sollte
5.1 Nummeratoren
Schlüssel-Nummerator
Schlüssel-Nummeratoren werden, wie schon in der Einleitung erwähnt, nicht im Konstruktor der Eigenschaft
berechnet, sondern erst später, wenn bereits alle Eigenschaften gesetzt sind, durch die Aktion Erzeugen der
Nummerator-Werte ([email protected]:GenerateIDs) gesetzt. Wird ein Objekt im Rahmen eines
Use-Cases vom Benutzer angelegt, so wird im Objektkonstruktor, der bei den betroffenen Objekten als TriStep
durch die Methodendefinition [email protected]:TriStep implementiert ist, zuerst eine Initialisierung
vorgenommen ([email protected]:PreGUI), danach der Dialog angezeigt ([email protected]:
DispGUI) und danach noch ein Nachbearbeitungsschritt aufgerufen ([email protected]:PostGUI).
Die Berechnung der Werte des Schlüssel-Nummerators wird als Pre-Wrapper der PostGUI-Aktion, also direkt
nach dem Bearbeiten der Eigenschaften, durchgeführt.
Diese Vorgehensweise kann in dieser Form bei einem Datenimport nicht funktionieren, da die Eigenschaften des
Objekts vom Datenimport erst nach der Verarbeitung des Objektkonstruktors gesetzt werden, zu einem Zeitpunkt
also zu dem die PostGUI-Aktion bereits durchgeführt wurde. Daher gibt es grundsätzlich zwei Vorgehensweisen
beim Datenimport:
1. Wird der Nummerator für die Vergabe der Werte verwendet, so muss im Skript für Objekte vor dem Commit
die Aktion Erzeugen der Nummerator-Werte ([email protected]:GenerateIDs) explizit aufgerufen werden. Diese sperrt die betroffenen Nummerator-Objekte, was die bei den normalen Nummeratoren
besprochenen Probleme hervorruft. Diese Variante ist relativ langsam, dafür aber einfach umzusetzen.
Außerdem kann sie selbst beim Import von Daten während des Produktionsbetriebs ohne die Gefahr von
Inkonsistenzen eingesetzt werden.
2. Werden die Nummeratorwerte über den Datenimport gesetzt, so kann der Aufruf der Aktion entfallen, aber
es müssen im Nachhinein für jeden Schlüsselwert die Nummerator-Wert-Objekte durch den expliziten Aufruf der Aktion Schlüsselwert korrigieren ([email protected]:UpdateValue) auf das
Objekt mit den höchsten vergebenen Werten gesetzt werden. Die Berechnung der IDs in der Datenquelle ist
zwar nicht kompliziert, erfordert aber eine gewisse Erfahrung im Umgang mit der Programmierung von
Abläufen in SQL. Mit dieser Variante erreicht man eine bedeutend bessere Performance und kann damit
83
auch die Datenimporte parallelisieren. Allerdings darf man auch die Nacharbeiten nicht vergessen, damit
man nicht im Nachhinein mit inkonsistenten Daten konfrontiert ist, wenn die Benutzer nach dem Import
manuell neue Objekte erzeugen und diese einen bereits im Rahmen des Datenimports vergebenen Wert
bekommen.
Alles in allem sollte man die Warnung „Die Eigenschaft x der Objektklasse y ist ein Nummerator, nur 1 Thread
sollte verwendet werden“, die beim Datenimport ausgegeben wird, wenn Objekte einer Objektklasse mit Nummerator-Eigenschaften erzeugt werden, durchaus ernst nehmen und sich eingehend mit dem Thema befassen.
Wenn man das nicht tut, kann das einerseits den Datenimport sehr bremsen, andererseits kann es sogar zur Vergabe von doppelten Werten bei Nummerator-Eigenschaften kommen.
5.2
Protokoll
Das Protokoll des Datenimports wurde mit Version 4 auf XML umgestellt. Dadurch sind die Protokolle strukturiert und automatisiert auswertbar geworden. Als zusätzlichen Vorteil kann man seitdem auch vom Filterskript
für Rohdaten und aus beiden Filterskripts für Objekte Daten in das Protokoll schreiben. Dazu gibt es im globalen Scope des Skripts das Objekt coolog, das gesetzt ist, wenn als Protokollmodus „Protokolliere Fehler“
oder „Vollständiges Protokoll“ eingestellt ist. Wird kein Protokoll geschrieben, ist dieses Objekt im Skript auch
nicht gesetzt.
Von den Methoden, die auf dieses Objekt anwendbar sind, sind die folgenden zum Schreiben von Informationen
in das Protokoll verwendbar:
InsertComment
Parameter:
°
data: Eingangsparameter (BSTR)
Mit InsertComment wird ein XML-Kommentar in das Protokoll geschrieben, der den in data angegebenen Text enthält.
5. Was man unbedingt beachten sollte
5.1 Nummeratoren
5.2 Protokoll
LogString
Parameter:
°
°
°
data: Eingangsparameter (BSTR)
address: Optionaler Eingangsparameter (BSTR)
nodename: Optionaler Eingangsparameter (BSTR)
Mit LogString wird der angegeben Text als Wert in ein XML-Element mit dem Namen Entry geschrieben Der Wert wird dabei laut XML-Escaping behandelt, also „&“ durch „&“ ersetzt, „<“ durch „<“ usw.,
damit der Wert beim Lesen des XML wieder genau dem übergebenen Wert entspricht. Ist ein Wert address
angegeben, wird dieser als Wert des Attributs address in das Protokoll geschrieben. Mit dem Parameter
nodename kann der Name des XML-Elements geändert werden.
LogXML
°
°
°
xmldata: Eingangsparameter (BSTR)
address: Optionaler Eingangsparameter (BSTR)
nodename: Optionaler Eingangsparameter (BSTR)
Im Unterschied zu LogString wird bei LogXML der Wert ohne XML-Escaping in das Protokoll geschrieben,
sodass ganze XML-Fragmente eingefügt werden können.
Mit den folgenden vier Funktionen können auch komplexere XML-Strukturen erzeugt werden:
EnterElement
°
name: Eingangsparameter (BSTR)
Hiermit wird ein XML-Element mit dem übergebenen Namen begonnen.
85
LeaveElement
°
name: Eingangsparameter (BSTR)
LeaveElement schließt ein mit EnterElement begonnenens XML-Element. Um Problemen, die durch
den parallelen Zugriff auf das Protokoll entstehen könnten vorzubeugen, wird das Protokoll bei einem
EnterElement solange exklusiv für den bearbeitenden Thread gesperrt, bis alle begonnenen Elemente
wieder mit LeaveElement beendet wurden.
AddAttribute
°
°
name: Eingangsparameter (BSTR)
value: Eingangsparameter (BSTR)
Nach einem EnterElement können so lange mit AddAttribute Attribute zu dem XML-Element hinzugefügt werden, bis eine beliebige andere Funktion auf das Objekt ausgeführt wird.
AddValue
°
value: Eingangsparameter (BSTR)
Mit dieser Funktion wird der Wert value zum Text des XML-Elements hinzugefügt und dabei entsprechend
escaped.
5.3
Roll-Forward
Schreiben des Roll-Forward-Logs
Das Roll-Forward-Log ist jene Protokolldatei, in die bei jedem Datenimport die Rohdaten jener Datensätze
geschrieben werden, bei denen Verarbeitungsfehler aufgetreten sind. Entweder sind das einzelne Datensätze,
wenn etwa bei der Konvertierung von Werten auf den Typ der Eigenschaft ein Fehler aufgetreten ist oder ein
5. Was man unbedingt beachten sollte
5.2 Protokoll
5.3 Roll-Forward
Objekt nicht gesperrt werden konnte, oder alle Datensätze einer Transaktion, wenn in Rahmen des Commits ein
Fehler aufgetreten ist. Daher finden sich auch oft viel mehr Datensätze im Roll-Forward-Log, als Fehler aufgetreten sind.
Da diese Daten erst am Ende jeder Transaktion geschrieben werden, ist im Roll-Forward-Log der Stand der Rohdaten nach Ausführung des Filterskripts für Rohdaten enthalten, also inklusive der Änderungen und der
berechneten Spalten des Filterskripts für Rohdaten. Während der Ausführung des Ladevorgangs werden die
Daten in der Datei gesammelt und am Ende des Imports im Log-Objekt in der Inhaltseigenschaft Roll-ForwardLog abgelegt.
Verarbeiten des Roll-Forward-Logs
Der Inhalt des Roll-Forward-Logs wird beim Roll-Forward als Datenquelle verwendet. Das ist aber auch der
einzige Unterschied zu einem „normalen“ Datenimport. Es wird genauso das Filterskript für Rohdaten ausgeführt, das bei Bedarf diesen Spezialfall berücksichtigen muss, da die geänderten Spalten des ersten Imports
möglicherweise nicht noch einmal geändert werden dürfen.
Und – wie bei allen anderen Datenquellen auch – wird bei diesem Import wieder ein neues Roll-Forward-Log
mit allen bei der neuerlichen Verarbeitung aufgetretenen Fehlern geschrieben. Datensätze mit systematischen
Fehlern werden daher immer wieder im Roll-Forward-Log landen. Auch werden alle Datensätze von Transaktionen, bei denen einer der Datensätze den Abbruch der Transaktion verursacht, ins Roll-Forward-Log
geschrieben, was dazu führen kann, dass Änderungen von Datensätze, die eigentlich korrekt verarbeitbar wären
durch die Verarbeitung eines fehlerhaften Datensatzes letztendlich nicht committet werden können. In diesem
Fall sollte vor dem Roll-Forward die Transaktionsgröße auf „1“ gestellt werden. Damit werden nur mehr jene
Datensätze ins neue Roll-Forward-Log geschrieben, die tatsächlich zu Fehlern führen und man kann sich dann
gezielt um die Behebung der Ursachen dieser Fehler kümmern.
In vielen Fällen ist die Auswahl der Algorithmen zur Vermeidung doppelter Objekte aus Performancegründen
nicht für eine nochmalige Ausführung eines Datenimports und damit auch nicht für die Durchführung eines RollForwards geeignet und muss vor dem Roll-Forward angepasst werden.
87
Ein Roll-Forward darf nur von einem Datenimport verarbeitet werden, bei dem dieselben Spalten in derselben
Reihenfolge verwendet werden, da im Roll-Forward-Log keine Spaltennamen angegeben sind und daher Unterschiede bei der Verwendung nicht erkannt werden können.
5.4
Starten des Datenimports
Das Starten des Datenimports erfolgt gerade in der Entwicklungsphase meistens über das Kontextmenü des
Datenimportobjektes. Damit kann interaktiv der Import angestoßen und der Fortschritt direkt am Bildschirm mitverfolgt werden. Wird der Import im Fabasoft Win32-Client der Version 6 angestoßen, kann man den Datenimport über den Dialog auch abbrechen, was im Fall des Fabasoft Webbrowser-Clients oder des Fabasoft
Windows-Clients nicht möglich ist, da hier der Datenimport am Webserver ausgeführt wird und zu diesem
keine permanente direkte Verbindung besteht.
Doch für die Durchführung größerer Migrationen eignen sich Skripts besser, da hier ganze Abfolgen von Datenimporten, Skripts und evt. auch Datenbankexporten aufgerufen werden können und damit lange dauernde Vorgänge ohne Interaktion und Überwachung ablaufen können. Ein derartiges Skript findet sich im Kapitel „Zusätzliche Beispiele“ auf Seite 159.
Ferngesteuertes Importieren
Für den Aufruf über ein Skript gibt es die Aktion Ferngesteuertes Importieren ([email protected]:
ImportRemote) bei der eine ganze Reihe zusätzlicher Parameter zur Verfügung stehen:
showdialog <BOOLEAN>
Mit diesem Parameter kann man im Fall des Fabasoft Win32-Clients der Version 6 angeben, ob der Fortschrittsdialog angezeigt werden soll oder nicht. Soll der Dialog nicht angezeigt werden, muss dieser Parameter auf
„False“ gesetzt werden. Im Fall der anderen Fabasoft Clients hat der Parameter keine Auswirkungen.
5. Was man unbedingt beachten sollte
5.3 Roll-Forward
5.4 Starten des Datenimports
closedialog <BOOLEAN>
Falls der Fortschrittsdialog angezeigt wird, kann über diesen Parameter gesteuert werden, ob der Dialog nach
der Beendigung des Importvorgangs automatisch geschlossen wird, indem man den Parameter auf den Wert
„True“ setzt, oder ob auf die Bestätigung des Dialogs durch Drücken der Schaltfläche Close gewartet werden
soll.
reportcreatedobjects <BOOLEAN>
Wird dieser Parameter auf „True“ gesetzt, dann wird als Ausgangsparameter createdobjects eine Liste
aller erzeugten Objekte zurückgegeben. Das setzt voraus, dass der Import synchron ausgeführt wird.
createdobjects <OBJECT>
In dieser Objektliste wird die Liste aller erzeugten Objekte zurückgegeben, falls der optionale Parameter
reportcreatedobjects auf „True“ gesetzt wurde.
rollforward <BOOLEAN>
Durch Setzten dieses Parameters auf „True“ werden die Daten nicht von der konfigurierten Datenquelle, sondern
aus dem Roll-Forward-Log, das im Protokollobjekt hinterlegt ist, gelesen.
asynchron <BOOLEAN>
Mit diesem Parameter steuert man, ob der Aufruf der Aktion Ferngesteuertes Importieren
([email protected]:ImportRemote) sofort wieder beendet wird und der eigentliche Datenimport
asynchron in einem eigenen Thread durchgeführt wird („True“), oder ob auf das Ende des Datenimports gewartet werden soll und daher der Aufruf der Aktion erst nach der Beendigung des Datenimportvorganges beendet
wird („False“). Der Datenimport selbst wird jedenfalls in einem eigenen Thread durchgeführt. Für den Datenimport ist es vorteilhaft, wenn durch die Ausführung des Datenimports nicht permanent eine Aktion ausgeführt
wird, da damit Ressourcen nicht freigegeben werden können und der Speicherbedarf höher ist. Andererseits ist
89
es natürlich bei einer Folge von Datenimporten notwendig, das Ende eines Imports abzuwarten bevor der
nächste Import gestartet wird. Das kann sehr effizient durch die Verwendung des im Parameter synchobj
zurückgegebenen COM-Objekts erfolgen.
paramobject: <COMINTERFACE>
Dieses COM-Objekt wird, falls es gesetzt ist, als Kontext an die Skripts übergeben und kann dort zum Beispiel
verwendet werden, um bestimmte Objekte in Objektlisten dieses Objektes zu sammeln. Auch anwendungsspezifische Protokolle können damit realisiert werden.
finishedscript <CONTENT>
Dieses Skript wird nach der Beendigung des Datenimports aufgerufen und kann Nachbearbeitungsschritte eines
Datenimports beinhalten. Einer dieser Schritte kann auch der Start eines weiteren Imports sein. Als globale
Parameter steht neben dem Runtime (coort) und der Transaktion (cootx) auch noch das Objekt des Parameters paramobject als cooparam zur Verfügung. Weiters stehen die Anzahl der verarbeiteten Datensätze (records), die Anzahl der erzeugten Objekte (created), die Anzahl der geänderten Objekte
(refreshed) und die Anzahl der aufgetretenen Fehler (errors) zur Verfügung. Das aufgerufene Datenimportobjekt wird dem Skript als Parameter cooimport übergeben.
synchobj <COMINTERFACE>
Einfacher als mit dem finishedscript kann mit dem syncobj eine Abfolge von Datenimporten,
Datenexporten und anderen Aktionen realisiert werden, indem man den Datenimport mit async gleich „True“
aufruft und danach auf das im Parameter syncobj zurückgegebene Objekt entweder die Funktion Wait aufruft, die auf das Ende des Datenimports wartet, oder periodisch anhand des Resultats der Funktion
IsFinished das Ende des Imports erkennt. Während dieser Zeit kann der Datenimport durch den Aufruf von
Cancel abgebrochen werden.
5. Was man unbedingt beachten sollte
5.4 Starten des Datenimports
table <STRING>
In der Version 7 wurde ein weiterer Parameter eingefügt, um beim Aufruf des Imports die Tabelleneigenschaft
dynamisch überschreiben zu können. Speziell bei Datenquellen, die in der Tabelleneigenschaft den Dateinamen
der Quelldatei beinhalten (zum Beispiel beim Import aus einer CSV-Datei) kann damit beim Aufruf der Dateiname
übergeben werden, ohne das Datenimportobjekt vorher ändern zu müssen.
91
6
93
6 Optimierungen
Bei der Optimierung von Datenmigrationen muss man im ersten Schritt, bevor man an die Umsetzung
oder Optimierung der einzelnen Datenimporte geht, eine Gesamtstruktur erarbeiten. Ein gutes
Design in dieser Phase bewirkt, dass in späteren Phasen durch Skalierung und Parallelisierung
weit bessere Resultate erzielt werden können, als durch einzelne noch so intelligente Optimierungsmöglichkeiten erreicht werden könnte. Datenimporte im Nachhinein umzuschreiben, führt zu
Zeitverlust bei der Entwicklung, und Optimierungsschritte müssen danach oft erneut durchgeführt
werden.
6.1
Struktur des Datenimports
Die Struktur des Datenimports orientiert sich meist an den Abhängigkeiten und Voraussetzungen des Datenmodells und basiert daher auf dem Metadatenkatalog, einer Aufstellung aller im Zielsystem verwendeter
Objektklassen und Eigenschaften. Daraus ergeben sich direkt die Eigenschaften, die in der Ziellösung angezeigt
werden und die daher auch mit Daten zu befüllen sind. Die darin enthaltenen Objektzeigereigenschaften ergeben die möglichen Referenzen zwischen den einzelnen Objektklassen, wobei in der konkreten Lösung meist nicht
alle Möglichkeiten, die das Objektmodell bietet, auch wirklich verwendet werden.
Abhängigkeiten
Aus den Referenzen, die im Metadatenkatalog definiert sind, ergibt sich implizit eine Reihenfolge der Importe.
Diese ist jedoch nicht linear zu sehen, sondern viel mehr als eine Liste voneinander abhängiger Einzelschritte,
wie man sie in einer Projektplanung kennt und dort oft als Balkendiagramm darstellt. Schätzt man die Zeiten für
die einzelnen Vorgänge ab und setzt die verwendeten Ressourcen ein, so kommt man schnell zu einem kritischen
Pfad, der die Dauer der gesamten Migration definiert.
Wie kommt man aber nun zu den Abhängigkeiten und wie kann man diese auflösen?
Voraussetzungen
Einerseits gibt es Abhängigkeiten, die durch eine Referenz auf eine andere Objektklasse gegeben sind, die beim
Erzeugen des Objekts bereits gesetzt werden muss. Es wird also der vollständige Import von Objekten einer Klasse A für den Import der Objekte der Klasse B vorausgesetzt. Zum Beispiel müssen die Sachgebiete bereits definiert sein, bevor Sachakten angelegt werden können, da es in der Anwendungslogik nicht vorgesehen ist, dass
Sachakten existieren, die keinem Sachgebiet zugeordnet sind. Genauso ist es unbedingt notwendig, dass jene
Objekte, die in die Objektliste eines Ordners gelegt werden sollen, zuvor angelegt werden, bevor sie in den Ordner gelegt werden können. Es ergibt sich also eine zwingende Reihenfolge der Datenimporte.
Referenzen
Objekte, die einander referenzieren – also in Objektzeigereigenschaften einer anderen Objektklasse enthalten
sind – können jedoch oft auch unabhängig voneinander angelegt und im Nachhinein verknüpft werden.
Beispiel: Import von Organisationen und Personen
Es sollen Organisationen und Personen angelegt werden, wobei jede Person als Ansprechpartner in einer
Organisation einzutragen ist. Es kann pro Organisation auch mehrere Ansprechpartner geben.
Es gibt jetzt drei mögliche Strukturierungen für diesen Datenimport:
1. Alle Datensätze werden mit einem einzigen Datenimport geladen.
Das ist in vielen Fällen eine sehr effiziente Variante, da hier die wenigsten Updates erfolgen, allerdings
hat sie den Nachteil, dass die Komplexität steigt, wenn auch an anderen Stellen der Migration Organisationen oder Personen angelegt werden.
2. Organisationen werden zuerst geladen und beim Laden der Personen wird auch die Beziehung zwischen
der Organisation und der Person erstellt.
Hier werden die Objektklassen sauber getrennt, doch das vollständige Laden der Organisationen ist eine
6 Optimierungen
6.1 Struktur des Datenimports
Voraussetzung für das Laden der Personen und damit müssen die beiden Importe hintereinander durchgeführt werden.
3. Organisationen und Personen werden in eigenen Datenimporten angelegt und die Verbindung zwischen
den beiden Objektklassen in einem eigenen Import erstellt.
Die Objekte beider Objektklassen können nun unabhängig voneinander geladen werden. Das Erstellen
der Verbindung zwischen den zwei Objektklassen setzt jedoch den vollständigen Import aller Objekte
beider Objektklassen voraus.
Je mehr Beziehungen als Voraussetzungen gelten, desto stärker sind die Einschränkungen im Bezug auf die Reihenfolge der Importe und damit auch auf die Parallelisierbarkeit. Für ein gut parallelisierbares Design ist es
daher notwendig, direkte Voraussetzungen zu vermeiden und Referenzen erst später setzen zu können.
Hintergrund: Konkretes Migrationsszenario
Bei einer kürzlich optimierten Datenübernahme gab es zwei zentrale Objektklassen, von denen jeweils noch
drei bzw. vier Objektklassen abhängig waren. Die beiden zentralen Klassen waren über einen bidirektionalen Link verbunden. In der Originalimplementierung wurden die Objekte der einen Objektklasse importiert
und danach, beim Importieren der zweiten Objektklasse, wurde der Link auf die erste Objektklasse gesetzt.
Von beiden Objektklassen mussten mehrere Millionen Objekte erzeugt werden. Allein diese beiden Importe überschritten die zur Verfügung stehende Migrationsdauer.
Diese Abhängigkeit wurde dahingehend aufgelöst, dass die Objekte der beiden Objektklassen parallel
angelegt wurden und erst in einem neuen, späteren Importvorgang verknüpft wurden. Die wichtigste Voraussetzung dafür war eine effiziente Suche nach den angelegten Objektinstanzen. Diese wurde über einen
Datenbankexport und einen JOIN auf der Quelldatenbank realisiert. Trotz des Mehraufwands eines
zusätzlichen Imports und der Datenbankexporte war der Import allein dadurch viel schneller als in der Originalimplementierung.
95
Wie man aus diesem Beispiel sieht, sind es besonders die Objektklassen mit einer hohen Anzahl von Objekten,
die hierbei einer Rolle spielen. Bei Objektklassen mit wenigen 100 Instanzen lohnt sich meistens der Aufwand
der Optimierung nicht.
Migrationszwischenformat
Einen ersten Ansatz für eine Strukturierung der Datenimporte bietet das so genannte Migrationszwischenformat. Nach einfachen Regeln werden aus dem Metadatenkatalog pro Objektklasse zwei Importe abgeleitet
(oder sogar generiert). Der erste Import erzeugt die Objekte der Objektklasse und setzt so viele Eigenschaften
wie möglich. Ausnahmen sind Objektzeiger, die Objekte referenzieren, die zum Zeitpunkt des Imports noch nicht
erzeugt wurden, und Listeneigenschaften. Diese ausständigen Eigenschaften werden später mit dem zweiten
Datenimport befüllt. Darüber hinaus kann es für manche Objektklassen oder Eigenschaften spezielle Importe
geben. Diese sind zum Beispiel notwendig um Schlüssel-Nummeratoren zu setzen oder um spezielle Eigenschaften bei mehreren Objektklassen zu laden. Typische Beispiele dafür sind Manuelle Unterschriften oder Benutzer/Gruppen mit Änderungsberechtigungen.
Durch die direkte Ableitung der Importe aus dem Metadatenkatalog ist die Struktur der Datenimporte einfach
durchschaubar und durch den Metadatenkatalog bereits zu einem guten Teil dokumentiert. Es kann daraus direkt
eine Datenbankdefinition abgeleitet werden, die als Grundlage für eine organisatorische Aufteilung der Migrationsentwicklung verwendet werden kann. In einigen Migrationen wurden die Tabellen des Zwischenformats
vom Auftraggeber oder einer von diesem beauftragten Drittfirma mit den Daten aus dem Altsystem befüllt und
der Datenimport aus dem Zwischenformat von Fabasoft Consultants umgesetzt.
Die organisatorischen Vorteile dieser Vorgehensweise und auch die Reduktion der Komplexität überwiegen oft
den dadurch entstehenden Mehraufwand durch die höhere Anzahl von einzelnen Datenimporten. Falls notwendig können aber auch auf Basis der Tabellen weiter optimierte Importe abgeleitet werden, die als Datenbasis
dann eine View auf mehrere Tabellen des Zwischenformats verwenden.
6 Optimierungen
6.1 Struktur des Datenimports
6.2 Optimierungsoptionen des Imports
Zusammenfassen von Importen
Das Zusammenfassen von Importen macht vor allem beim Import von mehreren Objektklassen Sinn, die über
einen Objektzeiger verbunden sind und deren Anzahl relativ gleich ist (1:1-Beziehung oder 1:n-Beziehung mit
kleinem n). Damit kann durch den gemeinsamen Import ein späteres Update der Objekte vermieden werden. Das
wirkt sich insofern besonders stark aus, dass Updates wesentlich aufwendiger sind, als das Setzen der Eigenschaft in der Transaktion, in der das Objekt erzeugt wird.
Aufteilung von Importen
Gerade den gegenteiligen Schritt muss man oft setzen, wenn man die Migration auf Parallelisierung optimiert.
Dann kann es durchaus Sinn machen, unterschiedliche Updates auf mehrere Importe aufzuteilen, die dann entweder parallel oder aber in verschiedenen Phasen des Imports durchgeführt werden, um so den Ablauf der
Migration zu optimieren.
6.2
Optimierungsoptionen des Imports
Es gibt viele Ansatzpunkte für Optimierungen. Die wichtigsten davon hängen direkt mit der Konfiguration der
Datenimportobjekte zusammen. Hier kann man die meiste Performance verlieren oder gewinnen. In Abbildung
16 sind die wichtigsten Punkte zusammengefasst, die man als Checkliste für die Optimierung verwenden kann.
97
Abbildung 16
Optimierungsoptionen des
Datenimports
Algorithmen zur Vermeidung doppelter Objekte
Optimiert man einen Datenimport, so fängt man generell mit der Auswahl der Schlüsseleigenschaften und der
Suchmethoden an. Hier kann man durch die Einhaltung einiger weniger Regeln die richtige Methode auswählen. Die einzelnen Methoden sind im Kapitel „Identifikation und Duplikatsprüfung“ auf Seite 55 ausführlich mit
ihren Vor- und Nachteilen aufgelistet.
Wichtig bei der Optimierung ist auch, dass bei Algorithmen, die die Suche auf der Datenbank verwenden, auch
entsprechende Indizes definiert sind, sodass die Datenbank die Suche effizient durchführen kann. Ein häufiger
Fehler dabei ist, dass während der Entwicklung der Migration nur mit Testdatenbeständen gearbeitet wird, die
nur einen Bruchteil der Echtdaten umfassen und dadurch Performanceprobleme, die erst bei weiterer Befüllung
der Datenbank auftreten, nicht erkannt werden. Wird in einer fast leeren Datenbank bei der Suche ein Tablescan
6 Optimierungen
6.2 Optimierungsoptionen des Imports
gemacht, fällt das kaum auf. Läuft derselbe Import aber über eine Million Datensätze, dann ist ein Tablescan bei
der Suche nicht mehr vertretbar. In diesem Fall helfen die Werkzeuge der Datenbanken bei der Optimierung der
Indizes. Dabei darf aber nicht übersehen werden, dass jeder Index auch bei Datenänderungen (INSERT,
UPDATE oder DELETE) angepasst werden muss, also auf der Datenbank Last verursacht. Daher ist es gut,
Indizes, die während der Migration nicht verwendet werden, vor der Migration zu löschen und danach wieder
anzulegen. Die primären Indizes dürfen jedoch nicht gelöscht werden, da sie einerseits beim Laden der Objekte
in den Cache benötigt werden und andererseits – wie die Clustered Indizes beim SQL-Server – auch die Art der
Speicherung der Werte angeben.
Sortierung
Einen nicht zu unterschätzenden Einfluss auf die Performance des Imports hat die Sortierung der Datensätze. In
vielen Fällen werden Objektlisten befüllt, was effizienter erfolgen kann, wenn Änderungen eines Objektes in
einer einzigen Transaktion zusammengefasst werden, als wenn diese über den gesamten Import verteilt werden.
Pro Transaktion wird bei jedem geänderten Objekt neben der eigentlichen Änderung auch zumindest das Änderungsdatum angepasst, was durch das Zusammenfassen von Änderungen entsprechend seltener durchgeführt
werden muss. Zudem ist auch das Caching auf allen Ebenen, von der Datenbank über das Fabasoft Components
COO-Service bis zum Kernel-Cache, effizienter, wenn die Verwendung von Objekten zeitlich begrenzt ist und
daher diese Objekte auch wieder aus dem Cache entfernt werden können, ohne sofort wieder geladen werden
zu müssen.
Gruppenwechsel
Der Gruppenwechsel optimiert die Verarbeitung sortierter Datenbestände noch weiter, indem die Änderungen,
die ein bestimmtes Objekt betreffen, innerhalb einer einzigen Transaktion durchgeführt werden können. Neben
den Performancevorteilen ist das auch eine Voraussetzung für die Parallelisierung, da Änderungen, die ein und
dasselbe Objekt betreffen, zu jedem Zeitpunkt nur von einer einzigen Transaktion gemacht werden dürfen.
Werden für einzelne Objekte dennoch mehrere Transaktionen benötigt, schützt im Normalfall der interne
Sperrmechanismus der Datenimporte vor inkonsistenten Änderungen indem ein Worker Thread solange
99
angehalten wird, bis alle zu ändernden Objekte nicht mehr an Transaktionen anderer Worker Threads beteiligt
sind.
Transaktionsgröße
Die Transaktionsgröße, die durch die Anzahl der Datensätze pro Commit bestimmt wird, hat weniger Bedeutung
für die Performance. Bei Verwendung des Gruppenwechsels sollte sie größer als die maximale Anzahl von
Datensätzen pro Objekt sein, wobei sie auch dort nur in Ausnahmefällen über 1.000 liegen sollte. Die optimale
Transaktionsgröße ergibt sich aus einem Kompromiss zwischen der Ressourcenbelegung, die bei großen Transaktionen zunimmt, und dem Transaktions-Overhead der durch viele kleine Transaktionen verursacht wird.
Ein nicht zu vernachlässigender Faktor ist die Verzögerung der Datenbank beim Schreiben der Logs auf die Festplatten, denn das Schreiben muss synchron mit dem Commit erfolgen.
Hintergrund: Rechenbeispiel
Wenn man bei den aktuellen Festplatten von ca. acht Millisekunden durchschnittlicher Zugriffszeit ausgeht,
so wird allein dadurch die Anzahl der sequenziellen Transaktionen pro Sekunde auf ca. 120 begrenzt. Würde man nur einen Datensatz pro Transaktion importieren, könnte man damit gerade einmal 7.000 Datensätze pro Minute verarbeiten. Aber schon mit einer Transaktionsgröße von 24 Datensätzen könnte man – gäbe
es nur dieses Limit – 10 Mio. Datensätze in der Stunde verarbeiten.
Eine kurze Testreihe auf einem einzelnen Server hat bei einem konkreten Import eine optimale Einstellung
von 64 Datensätzen pro Commit ergeben, wobei die gemessenen Werte zwischen 16 Datensätzen und
1.024 Datensätzen sich um weniger als 10 % unterschieden haben.
6 Optimierungen
6.2 Optimierungsoptionen des Imports
Parallelisierung
Es gibt drei verschiedene Ansätze, wie Parallelisierung erreicht werden kann
°
°
°
Verwendung von mehreren Threads
Verteilung der Datensätze eines Imports auf mehrere Clients (Fabasoft Components Kernels).
Parallele Durchführung mehrerer verschiedene Importe
Die einfachste und ungefährlichste Art zur Parallelisierung eines Datenimports ist die Verwendung von Threads.
Diese Vorgehensweise hat jedoch auch das geringste Potential. Dabei werden mehrere Datenpakete gleichzeitig auf demselben Fabasoft Components Kernel verarbeitet. In diesem Fall werden jene Zeiten, in denen der
Fabasoft Components Kernel nicht von einem Worker Thread belegt wird, von anderen Worker Threads genutzt.
Vor allem sind das jene Zeiten, in denen RPCs auf die Fabasoft Components Backendservices gemacht werden,
um Suchen durchzuführen, Objekte zu laden oder die Transaktionen zu committen. Die Anwendungslogik, die
ebenfalls Zeit außerhalb des Fabasoft Components Kernels verbraucht, wird im Allgemeinen bei Datenimporten
auf das Notwendigste reduziert und spielt im Verhältnis zum Kernel-Anteil nur eine untergeordnete Rolle.
Um das Problem der Limitierung des Fabasoft Components Kernels zu umgehen kann man den Import auch auf
mehrere Fabasoft Components Kernels verteilen, jedoch kann die Verteilung nicht mehr automatisch erfolgen,
wie bei den Threads, sondern muss manuell konfiguriert werden. Voraussetzung dafür ist jedoch, dass die einzelnen Datenpakete komplett unabhängig voneinander importierbar sind und so aufgeteilt werden, dass gleichzeitige Änderungen an referenzierten Objekten von mehreren Fabasoft Components Kernels ausgeschlossen
werden können. Mit dieser Methode kann auf Seite der Clients gut skaliert werden. In einer konkreten Migration wurden die Daten dafür in 16 Pakete geteilt, die parallel geladen wurden. Damit war – obwohl auf den
Clients noch einiges an Anwendungslogik aktiv war – die Datenbank für einige Stunden voll ausgelastet. Bei
einer derartigen Aufteilung steigt auch der Verwaltungsaufwand erheblich, der zum Starten, Überwachen und
auch für die Koordination der Synchronisationspunkte der jeweiligen Importabfolgen auf den einzelnen Clients
notwendig ist.
101
Weniger Zusatzaufwand ergibt sich durch das parallele Starten voneinander unabhängiger Importe auf unterschiedlichen Clients oder Fabasoft Components Kernels. Dabei sind jedoch die Abhängigkeiten zu berücksichtigen, die teilweise in den Methoden der Anwendungslogik, aber auch in den Konfigurationen versteckt sein können. Daher setzt diese Art der Parallelisierung eine genaue Kenntnis der Lösung voraus. Außerdem beschränkt
sich die Anzahl der parallel durchführbaren Datenimporte oft auf wenige Objektklassen. Manchmal kann man
jedoch Abhängigkeiten durch zusätzliche Importe auflösen, wie das schon im Rahmen der „Struktur des Imports“
dargelegt wurde.
6.3
Client-Optimierung
Unabhängig von den Einstellungen des Datenimports gibt es einige wenige Aspekte, die am Fabasoft Components Kernel (je nachdem von wo man die Daten importiert am Fabasoft Win32-Client der Version 6, am Weboder am AT-Server) beachtet werden sollten.
Client-Cache
Der Client-Cache ist für jeden Datenimport eine kritische Ressource. Für den Cache ist ein Datenimport eine
Extremsituation, da mit einer sehr hohen Geschwindigkeit immer neue Objekte erzeugt, geändert oder gespeichert werden. Bei ausreichend großen Datenimporten wird der Cache vollständig durch den Datenimport definiert, wodurch auf Webservern das Arbeiten anderer Benutzer stark beeinträchtigt wird.
Der im Cache-Limit angegebene Wert (die Defaulteinstellung ist 20.000 Objekte und lässt sich über die Arbeitsumgebung ändern) ist nur ein Richtwert. Je nachdem, wie das Verhältnis zwischen der Anzahl der Objekte im
Cache zur konfigurierten Cachegröße ist, wird der Cache mehr oder weniger oft aufgeräumt. Ist also der Cache
zuerst nur mäßig befüllt und startet ein Import mit einer großen Geschwindigkeit, kann es durchaus passieren,
dass der Client-Cache ein Vielfaches seiner konfigurierten Größe erreicht, bis der Aufräumprozess beginnt die
Objekte wieder aus dem Cache zu entfernen. Das ist aber kein Grund zur Besorgnis, darauf ist der Fabasoft
Components Kernel ausgelegt und mit dieser Situation kommt er gut zurecht, solange dabei nicht die Größe des
physischen Speichers erreicht wird und das System anfängt Daten auf die Auslagerungsdatei zu schreiben.
6 Optimierungen
6.2 Optimierungsoptionen des Imports
6.3 Client-Optimierung
Kritisch wird es auf 32-Bit-Systemen jedenfalls, wenn die Prozessgröße den Bereich der maximalen Prozessgröße von zwei bzw. drei Gigabyte erreicht.
Der Aufräumprozess des Clients hatte vor der Version 7 auch noch eine weitere Einschränkung: Er konnte nicht
arbeiten, solange Aktionen im Fabasoft Components Kernel aufgerufen wurden. Öffnet man am Fabasoft Win32Client der Version 6 ein Objekt zum Bearbeiten, dann wird dadurch eine Aktion aufgerufen, die erst mit dem
Schließen des Fensters wieder verlassen wird. Läuft gleichzeitig ein Datenimport, so steigt die Anzahl der
Objekte im Cache permanent an, bis das Fenster zur Bearbeitung des Objekts geschlossen wird, der Datenimport fertig ist oder die Speichergrenze erreicht ist. Letzteres führt häufig zum Absturz des Clients. Daher durfte
man bis Version 6 auch nicht größere Datenimporte über die Aktion Ferngesteuertes Importieren
([email protected]:ImportRemote) synchron starten. Der Start der Aktion allein reichte aus, dass der
Cache nicht mehr aufgeräumt werden konnte. Daher musste der Import über ein Skript aus dem Betriebssystem
aufgerufen und der Parameter async auf „True“ gesetzt werden. Dann gab es verschiedene Möglichkeiten
festzustellen, ob der Datenimport bereits fertig ist. Im Anhang befindet sich ein Skript, das sequenziell mehrere
Datenimporte verarbeitet.
In Version 7 wird der Cache auch aufgeräumt, wenn ein Fenster geöffnet ist, daher ist es dort kein Problem mehr,
Datenimporte synchron zu starten.
Welche Werte für die Cachegröße effizient sind, hängt davon ab, wie man gerade importiert. Legt man beispielsweise mit jedem Datensatz ein Objekt an, das im Import nicht wieder verwendet wird, so werden die Informationen im Cache nicht wieder verwendet und sind somit überflüssig. Eine große Cachegröße hat in diesem Fall
nur die Auswirkungen, dass der Speicherverbrauch höher ist und der Zugriff auf den großen Cache langsamer
ist, als bei einem kleinen Cache. Werden jedoch beim Import Objekte immer wieder verwendet, verändert oder
referenziert, dann hilft der Cache bei der Vermeidung von unnötigen Ladevorgängen.
Netzwerkanbindung
Die performante Anbindung der Clients ist eine Grundvoraussetzung für einen schnellen Datenimport. Während
die Bandbreite dabei nur beim Laden von Inhalten ausschlaggebend ist, wirkt sich die Netzwerkverzögerung
103
direkt auf die Kommunikation zwischen Fabasoft Components Kernel und Fabasoft Components COO-Services
aus, die durch eine hohe Anzahl von Roundtrips charakterisiert ist. Daher sollten sich die Migrationsclients und
die Fabasoft Components Backendserver im gleichen LAN befinden und nicht über WAN-Strecken vernetzt sein.
Es sollten sich auch keinesfalls Firewalls zwischen den Clients und den Fabasoft Components Backendservern
befinden.
Client-CPUs
Es liegt auf der Hand, dass die Performance eines Datenimports von schnellen CPUs am Client profitiert, denn
oft ist es die Client-CPU, die stark ausgelastet und daher die kritische Ressource des Datenimports ist.
Ein Multiprozessorsystem kann erst bei der Verwendung von mehreren Threads oder mehreren Importen auf
einem Client Vorteile bringen. Einschränkend wirkt da der Fabasoft Components Kernel, der keine parallele Verarbeitung von Kernel-Methoden zulässt. Damit ist das Potential für eine Parallelisierung innerhalb eines Prozesses eher gering und beschränkt sich vor allem auf die Ausnützung der RPC-Zeiten durch andere Threads. Eine
echte Verwendung von mehreren Prozessoren kann auch beim Datenimport derzeit nur durch das Starten von
mehreren Fabasoft Components Kernels auf einem Client erreicht werden.
Festplatte
Die Festplatte des Client-Rechners wird beim Import von Inhalten stark belastet, denn alle Inhalte werden zuerst
in das DOCDIR-Verzeichnis der lokalen Festplatte kopiert und von dort erst wieder entfernt, wenn das Inhaltsobjekt aus dem Client-Cache entfernt wird. Hat man also bei einem derartigen Import einen Cache mit 20.000
Objekten konfiguriert, dann liegen potenziell mehr als 20.000 Inhalte im DOCDIR, also möglicherweise mehrere Gigabyte. Alle diese Dateien müssen auch erst einmal dorthin geschrieben werden. Eine schnelle Festplatte
wirkt sich daher beim Import von Inhalten direkt auf die Performance des Imports aus. Kritisch ist jedenfalls die
Verwendung von Virenscannern, die im laufenden Betrieb alle Dateien scannen, auf die zugegriffen wird. Das
führt zu wesentlichen Performanceeinbußen beim Import.
6 Optimierungen
6.3 Client-Optimierung
6.4 Fabasoft Components COO-Service-Optimierung
Anzahl der Clients
Eine wichtige Maßnahme bei der Implementierung von großen Datenmigrationen ist die Parallelisierung der
Datenimporte auf mehreren Clients. Hier lässt sich durch Hardwareeinsatz eine Vervielfachung des Durchsatzes
erreichen, was allerdings mit entsprechenden Kosten und mit einigem Aufwand bei der Parallelisierung und der
Durchführung der Migration verbunden ist.
6.4
Fabasoft Components COO-Service-Optimierung
Die Fabasoft Components COO-Services als Schnittstelle zwischen Client und Datenbank haben vor allem die
Aufgabe, Objekte zu cachen und für das Laden und Speichern der Daten in die Datenbank zu sorgen. Dabei sollten drei Aspekte berücksichtigt werden – die Anzahl der Worker Threads, die Cache-Einstellungen und Objektsperren.
Anzahl der Worker Threads
Eine wichtige Voraussetzung für einen effizienten Import ist die korrekte Einstellung der Anzahl der Worker
Threads. Stehen weniger Threads zur Verfügung, als benötigt werden, so müssen ankommende RPCs warten,
bis wieder ein Thread frei geworden ist. Nachdem aber ein Datenimport nicht warten soll, muss gewährleistet
sein, dass immer ausreichend viele Threads verwendbar sind. Ein Datenimport benötigt auf jenen Services, die
vom Import betroffen sind, maximal so viele aktive Backend Threads wie im Datenimport Worker Threads definiert sind. Außerdem werden während der Initialisierung beim Sammeln von Schlüsseln für jede zu sammelnde
Objektklasse zwei Threads auf den jeweiligen Services benötigt. Multipliziert man diesen Wert mit der Anzahl
der parallelen Datenimporte kommt man auf einen Richtwert, der jedenfalls ausreichend ist. Zusätzlich muss am
primären Fabasoft Components COO-Service für jeden parallelen Datenimport ein Worker Thread zur Verfügung
stehen.
105
Berechnungsbeispiel
Folgender Import ist definiert:
°
°
°
°
°
Es werden Personen und Organisationen in getrennten Datenimporten erzeugt.
Über die Objektplatzierung ist festgelegt, dass jede Objektklasse ein eigenes Service verwendet.
Es wird die „Suche für jedes Objekt“ verwendet.
Pro Datenimport sind vier Threads eingestellt.
Auf jedem der drei Clients werden ein Personenimport und ein Organisationenimport gestartet.
Damit braucht man auf den betroffenen Services für jeden der drei Clients mindestens vier Threads für die
vier Worker Threads des Imports, was einen Wert von je zwölf Threads pro Fabasoft Components COO-Service und auf dem primären Fabasoft Components COO-Service auch zumindest sechs Threads allein für den
Datenimport ergibt.
Bei höherer Parallelisierung können entsprechend hohe Werte erreicht werden.
Die eigentliche Auswirkung der Worker Threads am Fabasoft Components COO-Service ist jedoch, dass jeder
Thread, sobald er einmal verwendet wird, eine Datenbankverbindung öffnet und im Normalfall nicht mehr freigibt. Damit hat die Erhöhung der Worker Threads auf dem Fabasoft Components COO-Service eine direkte Auswirkung auf den Ressourceverbrauch der Datenbank, da auch hier mehr Sessions geöffnet werden. Daher muss
vor der Erhöhung des Werts abgeklärt werden, ob die gewünschte Anzahl von Sessions überhaupt auf der Datenbank unterstützt ist (zwei Sessions pro Fabasoft Components COO-Service sollten zusätzlich eingerechnet werden). Sonst kann es sein, dass mitten in der Migration, wenn die maximale Anzahl der Sessions auf der Datenbank erreicht ist, viele Fehler auftreten und man unter Umständen viel Zeit durch ein Restore oder durch die Fehlerbehebung verliert.
6 Optimierungen
6.4 Fabasoft Components COO-Service-Optimierung
6.5 Optimierungen am Datenbanksystem
Fabasoft Components COO-Service-Cache
Beim Cache am Fabasoft Components COO-Service ist die Situation ähnlich wie beim Client-Cache. Auch hier
profitiert die Migration nur dann vom Cache, wenn dieser so groß ist, dass Objekte wiederverwendet werden,
bevor sie aus dem Cache herausfallen. Nimmt man zum Beispiel die Situation her, dass zuerst alle Objekte einer
Objektklassem mit 100.000 Instanzen angelegt werden und im nächsten Schritt Updates auf diese Objekte
gemacht werden, so muss diese Objektmenge komplett im Cache Platz finden, damit dieser effizient arbeiten
kann. Bis Version 6.1 wird dabei die Anzahl der Objekte im Cache spezifiziert und – wie beim Client-Cache – als
Richtwert für den Aufräumprozess verwendet. Also auch hier kann der Maximalwert den Richtwert deutlich
überschreiten. In Version 7 wird hingegen der maximal verwendete Speicherplatz definiert und zudem die Speicherung optimiert, sodass im Endeffekt mehr Objekte im Cache gehalten werden können und keine Gefahr mehr
besteht, dass das Fabasoft Components COO-Service beim Erreichen der Speichergrenzen abstürzt.
Objektsperren
Objektsperren werden im Normalbetrieb in der Tabelle cooobjlock2 abgespeichert. Beim Sperren wird für
jedes Objekt einzeln ein INSERT in diese Tabelle durchgeführt. Das bedeutet, dass für jede Sperre eine Transaktion auf der Datenbank ausgeführt wird. Durch das Setzen eines Registry-Eintrags werden die Sperren nicht
mehr in die Datenbank geschrieben, sondern nur am Fabasoft Components COO-Service im Speicher gehalten.
Das ist natürlich wesentlich schneller, hat aber den Nachteil, dass bei einem Neustart des Fabasoft Components
COO-Services diese Information verloren geht. Im Fall einer Migration ist dieses Risiko jedoch kalkulierbar, da
ein Neustart des Fabasoft Components COO-Services nur kontrolliert erfolgt und im Offline-Betrieb keine Sperren von Benutzern gehalten werden.
6.5
Optimierungen am Datenbanksystem
Die Optimierung von Datenbanksystemen wird von vielen Experten fast wie eine eigene Wissenschaft betrieben. In diesem Kapitel werden nur jene Eckpunkte erläutert, die speziell für den Betrieb von Fabasoft Components Domänen im Rahmen von Datenmigrationen wichtig sind.
107
Backup, Restore und Recovery
Große Datenmigrationen sollen, wenn das organisatorisch möglich ist, offline durchgeführt werden, also ohne
gleichzeitigen Produktionsbetrieb.
Jede Migration beginnt mit einem Backup des kompletten Datenbestandes, damit bei unvorhergesehenen Problemen auf einen gesicherten Stand zurückgesetzt werden kann. Auch am Ende jeder Migration steht ein
Backup, damit man, falls ein Systemfehler auftritt, nicht alle Änderungen der Migration wiederholen muss. Das
bedeutet aber, dass alle Datenbank-Logs die zwischen diesen beiden Backups anfallen, nur für das Recovery
innerhalb der Migrationsphase relevant sind und da sind Zwischenbackups an definierten Synchronisationspunkten meistens die einzige Möglichkeit, einen konsistenten Stand sichern zu können. Die Datenbank-Logs sind also
für ein Recovery unerheblich und müssen daher nicht gesichert werden, was erheblich Speicherplatz einspart.
Am Microsoft SQL-Server kann man dafür das Recovery-Model der betroffenen Datenbanken auf „Simple“
stellen. In Oracle kann man die Archivierung der Redo-Logfiles in dieser Zeit deaktivieren.
Indizes und Statistiken
Indizes sind Datenstrukturen, über die man performant nach Daten suchen kann. Doch sie sind nur dann performant, wenn sie auch wirklich verwendet werden. Bei einer Datenmigration werden zwei Arten von Indizes verwendet:
1. Die Indizes der Primärschlüssel
Diese Indizes, die von Fabasoft Components mit dem Tabellennamen erweitert um „PK“ benannt werden, garantieren einerseits ein gewisses Maß an Datenkonsistenz und werden andererseits beim Laden der Objektinformationen aus der Datenbank benötigt. Diese Indizes dürfen daher in keinem Fall geändert oder deaktiviert werden.
6 Optimierungen
6.5 Optimierungen am Datenbanksystem
2. Die Indizes für die Suche nach Objekten
Für das Sammeln von Schlüsseln und für die Suche nach einzelnen Objekten werden Queries abgesetzt. Im ersten Fall nach Objekten einer oder mehrerer Objektklassen, im anderen Fall nach den entsprechenden Schlüsselwerten. Beide Arten von Queries kann man mit Indizes optimieren. Welche das sind, hängt nicht zuletzt vom verwendeten Datenbanksystem ab, das in der Regel genau zu diesem Zweck eigene Tools anbietet, mit denen man
diese Queries aufzeichnen und optimieren kann.
Im Microsoft SQL-Server gibt es dafür den Profiler, der eine Session aufzeichnet und den Database Engine
Tuning Advisor, der die abgesetzten SQL-Statements analysiert und Vorschläge für Indizes errechnet.
Bei Oracle sind diese Funktionen im Enterprise Manager integriert, bei dem man einfach die einzelnen SQLStatements auswählen kann, für die dann Optimierungsvorschläge generiert werden.
Diese Vorschläge für Indizes enthalten in der Regel genau die Spalten, nach denen gesucht wird, und möglicherweise noch die Objektadressen. Verwendet man diese Indizes, hat man meistens schon die Optimierung auf der
Datenbank durchgeführt.
Alle zusätzlichen Indizes, die zum Beispiel für häufige Suchen im Produktivbetrieb definiert wurden, behindern
die Datenmigration und sollten zuvor unbedingt gelöscht werden. Der Neuaufbau dieser Indizes nach der Migration ist wesentlich effizienter als das permanente Mitführen der Indizes während der Migration.
Eine wesentliche Information für die Verwendung von Indizes sind die Statistiken. Diese werden für die korrekte Optimierung der Zugriffspläne benötigt. Je nach Datenbank und Konfiguration wird die Berechnung der Statistiken automatisch durchgeführt oder muss manuell angestoßen werden. Gerade wenn man einen Initialimport
durchführt, muss man darauf achten, dass die Statistiken regelmäßig aktualisiert werden, da erst dadurch die
besten Zugriffspfade verwendet werden können.
109
Beispiel: Auswirkungen von Statistiken
Bei der Optimierung einer Datenmigration auf Oracle wurde durch einige wenige Indizes die Durchlaufzeit
um 60 % reduziert, ohne die Migration selbst anzugreifen. Die Optimierung wurde aber erst wirksam, wenn
man die Statistiken nach ca. 10 % der Migrationszeit neu berechnete, da bis dorthin die Statistiken verwendet wurden, die auf den ursprünglich leeren Tabellen basierten. Um die Berechnung der Statistiken
während der Laufzeit zu vermeiden, wurden schlussendlich vor der Migration Backups der Statistiken eingespielt, die nach einem Testlauf gezogen wurden und daher von vornherein jene Zugriffstrategie ausgewählt wurde, die bei einer befüllten Datenbank ideal ist.
Tabellendefinitionen
Fabasoft Components implementiert zur Speicherung der Objekte ein generisches Datenmodell, das auf der
Datenbank eigentlich in sieben Tabellen passt, pro Wertetyp eine und eine zusätzliche für die zusammengesetzten Eigenschaften.
°
°
°
°
°
°
°
atstrval
atintval
atdateval
atcontval
atobjval
atfloval
ataggval
Vom System werden bereits Tabellen definiert, die für eine weniger generische aber dafür effizientere Speicherung sorgen. Die Tabellen cooobject, cooversion und coocontent beinhalten einige Eigenschaf-
6 Optimierungen
6.5 Optimierungen am Datenbanksystem
ten der Objektklasse Objekt und der Inhalte. Derartige Tabellen lassen sich aber auch lösungsspezifisch definieren und haben mehrere Vor- und Nachteile:
Vorteile:
°
Effizientere Speicherung: In den generischen Tabellen wird mit jedem Wert die objid, attrid,
aggrid und lineid mitgespeichert. Das sind also 24 Byte Information, um den Wert zu identifizieren.
In einer Tabelle, in der ja mehrere Werte zusammengefasst sind, wird pro Zeile nur die objid und bei
Tabellen für zusammengesetzte Eigenschaften noch die aggrid gespeichert. Die attrid ist implizit
durch die Datenbankspalte definiert und die lineid ist implizit definiert, da die Tabellen keine Listen enthalten können.
°
Bessere Indizierbarkeit: Will man in diesen Tabellen effizient suchen, so benötigt man Indizes darauf. Diese
Indizes sind wesentlich kleiner und somit schneller als die Indizes auf den generischen Tabellen. Zudem kann
man auch mehrspaltige Indizes definieren. Wenn also zum Beispiel bei Personen häufig nach Vor- und Nachname gesucht wird, dann kann man dafür einen gemeinsamen Index auf der Tabelle anlegen.
°
Entlastung der generischen Tabellen: Bei großen Installationen können die generischen Tabellen sehr stark
anwachsen, möglicherweise auf mehrere hundert Millionen Datensätze. Dadurch werden aber auch die
Operationen auf diesen Daten immer ineffizienter. Durch die Definition einer eigenen Tabelle für zum Beispiel 50 Werte lassen sich mit einem Datensatz in der neuen Tabelle bis zu 50 Werte aus den generischen
Tabellen entfernen, wodurch diese wieder deutlich kleiner und damit performanter werden.
Nachteile:
°
Verwendbarkeit: Listeneigenschaften (mit Ausnahmen von kleinen Zeichenkettenlisten) können nicht in
eigenen Tabellen abgelegt werden.
°
Indizierung: Alle Eigenschaften, nach denen gesucht wird, müssen eigens indiziert werden, was einen
erhöhten Verwaltungsaufwand bedeutet. Die Größe der notwendigen Indizes ist jedoch generell kleiner als
bei der Verwendung der generischen Tabellen.
111
°
Beim Laden von Objekten aus der Datenbank müssen diese Tabellen zusätzlich gelesen werden. Das ergibt
zusätzliche SQL-Statements.
Die Definition von Tabellen kann bei der Datenmigration geringfügig Zeit sparen, speziell wenn es darum geht
das Workingset der Datenbank klein zu halten oder eine Schlüsselsuche zu optimieren. Wichtig ist aber vielmehr,
die Tabellen bereits vor der Migration zu definieren, da der nachträgliche Aufbau der Tabellen sehr zeitaufwändig ist.
Bei der Definition der Tabellen sollte man beachten, dass man keine Eigenschaften definiert, die nie oder nur
ganz selten Werte beinhalten, da jede zusätzlich Spalte, die definiert aber nicht verwendet wird, in jedem Datensatz unnötig Speicherplatz verbraucht und die SQL-Statements vergrößert. Wenn auch die Auswirkungen einer
einzelnen Eigenschaft nicht ins Gewicht fallen, kann sich bei sehr vielen Eigenschaften schon ein relevanter
Wert ergeben.
Auto-Grow
Die dynamische Erweiterung von Datenbankdateien ist ein sehr angenehmes Feature, das den Administratoren
erspart, das Datenwachstum überwachen zu müssen. In einer Migration hat dieses Feature aber definitiv nichts
zu suchen, da jede nachträgliche Erweiterung einer Datenbankdatei einerseits zu einer Wartezeit führt und andererseits zur Fragmentierung der Datenbankdateien auf der Festplatte führen kann. Besser ist es jedenfalls, die
Datenbank schon in der endgültigen Größe zu definieren und auch den Platz für die Indizes schon ausreichend
zu dimensionieren.
Device-Placement
Genauso wissenschaftlich wie emotionell wird die Diskussion geführt, welches Disk-Layout oder welcher RAIDLevel für welche Dateien ideal oder zumutbar ist. Die Meinungen reichen hier von „1 RAID 10 aus mindestens
zwei dedizierten Festplatten für jede Datei“ bis zu „1 RAID 50 für alles“, und jeder bringt seine Argumente vor.
Von meiner Warte aus möchte ich nur auf die Wichtigkeit des Themas hinweisen, ich überlasse diese Diskussion aber gerne anderen (siehe z.B. [MoNo03]).
6 Optimierungen
6.5 Optimierungen am Datenbanksystem
6.6 Fabasoft Components MMC-Service-Optimierung
6.7 Von Objekten und Töpfen
6.6
Fabasoft Components MMC-Service-Optimierung
Die Fabasoft Components MMC-Services sind die Zugriffsschicht von Fabasoft Components auf das Dateisystem. Sie implementieren selbst nicht viel Funktionalität und daher hängt die Performance der Fabasoft Components MMC-Services vor allem von der Performance des darunter liegenden Dateisystems und des Storagesystems ab.
Die Anzahl der Worker Threads ist auch hier zu konfigurieren, wobei die Anzahl der verwendeten Threads meistens geringer ist, als die Zahl der importierenden Clients.
Um unter Microsoft Windows das NTFS performanter zu machen, sollten in der Registry unter
HKLM\SYSTEM\CurrentControlSet\Control\Filesystem folgende Werte eintragen werden:
°
°
°
NtfsDisable8dot3NameCreation=1
NtfsDisableLastAccessUpdate=1
NtfsMftZoneReservation=2, 3 oder 4 (Default=1)
Diese Änderungen wirken sich auf alle Volumes des Servers aus und der Server muss rebootet werden, damit
diese wirksam werden.
6.7
Von Objekten und Töpfen
Nachdem jetzt so viel von Optimierungen die Rede war, kommen wir zur eigentlichen Frage: Warum ist der
Datenimport so langsam?
Das erinnert mich an die Frage, warum die Töpfe im Geschirrspüler nicht sauber geworden sind. Antwort des
Herstellers: Es ist sicher nicht die Maschine schuld, nicht das Wasser und wohl auch nicht das Waschmittel,
sondern man hat das Geschirr falsch eingeräumt.
113
Beim Datenimport ist das genauso: Schuld ist weder Fabasoft Components/COLD, noch das Fabasoft Components COO-Service, noch der Rechner an sich – auch wenn es auf jeder Ebene noch ein wenig besser ginge –
sondern es ist die Konfiguration, die einen schnellen von einem langsamen Datenimport unterscheidet. Nur, wie
findet man heraus, was man an der Konfiguration zu ändern hat? Beim Geschirrspüler werden vom Hersteller in
der Bedienungsanleitung einige Regeln aufgestellt, wie zum Beispiel, dass man Töpfe nicht ineinander stellen
soll. Genauso gibt es hier eine Checkliste, über die man bereits vor dem Import einige „Problemzonen“ identifizieren kann. Wenn das noch nicht zu den gewünschten Ergebnissen führt, dann muss man während der Laufzeit
des Imports den Problemen auf den Grund gehen. Diese zwei Phasen nenne ich statische- bzw. dynamische Problemanalyse.
Statische Problemanalyse
Bei der statischen Problemanalyse geht es zuerst einmal darum, auf Basis des Objektmodells Probleme zu erkennen und zu adressieren. Dazu betrachtet man zuerst die Eigenschaften der Objektklassen, die man importiert.
Nummeratoren
Auf die Nummeratoren wurde bereits eingehend eingegangen. Um Nummerator-Eigenschaften muss man sich
jedenfalls kümmern, da nicht zuletzt die Datenkonsistenz davon abhängt.
Rückwärtsverkettungen
Rückwärtsverkettungen implementieren eine bidirektionale Verbindung zwischen zwei Objekten. Setzt man also
eine Referenz in der einen Richtung, wird automatisch die Referenz in die andere Richtung mitgeführt. Dafür
wird ein zusätzliches Objekt erzeugt, das auf der Seite der Rückwärtsverkettungseigenschaft die Liste der referenzierten Objekte verwaltet. Die Änderungen werden durch Aktionen des Fabasoft Components Kernels konsistent durchführt. Diese Funktionalität kann damit auch nicht deaktiviert werden. Das bedeutet, dass diese referenzierten Objekte implizit verändert werden. Bei der Änderung der Rückwärtsverkettungseigenschaften werden
jedenfalls die Rückwärtsverkettungsobjekte gesperrt, was einen erheblichen negativen Einfluss auf die Performance hat.
6 Optimierungen
6.7 Von Objekten und Töpfen
Methoden von Eigenschaften
Die dritte Klasse von Eigenschaften, die bei der statischen Problemanalyse betrachtet werden, sind jene Eigenschaften, die eine Konstruktoraktion oder eine Aktion vor dem Speichern der Eigenschaft eingetragen
haben. Darunter fallen auch die normalen Nummerator-Eigenschaften. Konstruktoraktionen werden beim Erzeugen eines Objekts jedenfalls durchgeführt, Aktionen vor dem Speichern der Eigenschaften nur, wenn der Eigenschaft in der aktuellen Transaktion ein Wert zugewiesen wurde. Das kann aber auch durch einen Initialisierungswert, den Konstruktor oder durch andere Methoden geschehen und ist damit auch nicht auf Eigenschaften
beschränkt, die im Datenimport verwendet werden.
Ein Beispiel für eine Eigenschaft mit Konstruktoraktion ist die Eigenschaft Workflow ([email protected]:
workflow), die auf Ebene der Objektklasse Objekt also für jedes Objekt definiert ist und die aus der Konfiguration ausliest, ob ein Workflow initialisiert werden soll und diesen auch gleich anlegt. Auch wenn kein Workflow erzeugt wird, so wird doch die Methode aufgerufen und die Konfiguration nach diesbezüglichen Einträgen
durchsucht.
Bei diesen Eigenschaften sollte untersucht werden, ob der Konstruktor oder die Aktion vor dem Speichern
der Eigenschaft beim Import überhaupt ausgeführt werden müssen bzw. ob man deren Funktion durch Mittel
des Datenimports ersetzen kann. Der Entwickler kann auch bereits bei der Implementierung vorsehen, dass eine
Aktion im Fall des Datenimports nicht oder nur teilweise ausgeführt werden muss, indem er die Transaktionsvariable TV_BATCHMODE oder TV_LOADMODE der Softwarekomponente [email protected] prüft und,
wenn diese gesetzt ist, beispielsweise Konsistenzprüfungen übergeht oder andere Eigenschaften nicht ändert,
die vom Datenimport selbst gesetzt werden.
Methoden von Objekten
Folgende Methoden werden im Lauf des Erzeugens und Speicherns jedes Objekts aufgerufen:
°
°
Die Objektkonstruktoren ([email protected]:ObjectConstructor)
Die Aktionen vor dem Schreiben der Objekte ([email protected]:ObjectPrepareCommit)
115
°
Die Aktionen nach dem Schreiben der Objekte ([email protected]:ObjectCommitted)
Während die erste auf alle geänderten Objekte aufgerufen wird, bevor noch die Set-Aktionen der einzelnen
Eigenschaften aufgerufen werden, wird die zweite aufgerufen, nachdem das Commit erfolgreich abgeschlossen
wurde. Viele Lösungen stecken viel Anwendungsfunktionalität in diese Aktionen hinein, um Konsistenzprüfungen durchzuführen, Werte zu berechnen oder weiterführende Änderungen durchzuführen. Im Fall des Datenimports sind nicht alle dieser Aktionen unbedingt notwendig und können entweder gänzlich vernachlässigt oder
durch entsprechende Konfiguration ersetzt werden.
Analyse
Bei einer statischen Analyse betrachtet man vor allem die bei den Eigenschaften eingetragenen Methoden zum
Erzeugen, Lesen und Setzen der Werte. Bei all diesen Aktionen und deren Wrappern wird überprüft, ob diese
beim Datenimport ausgeführt werden müssen. Gegebenenfalls können sie durch Setzen von entsprechenden
Optionen übergangen und im Bedarfsfall deren Funktionalität durch weitere Zuordnungen ersetzt werden.
Dynamische Problemanalyse
Im Gegensatz zur statischen Problemanalyse, die auf Basis des Objektmodells durchgeführt wird, bedient sich
die dynamische Problemanalyse diverser Werkzeuge, die zum Aufspüren der Problemursachen dienen. Alle diese Werkzeuge setzen voraus, dass ein problematischer Import gerade ausgeführt wird bzw. die Ausführung
begonnen werden kann.
Diese Werkzeuge sind
°
°
°
Unter Microsoft Windows der Performance-Monitor bzw. unter Linux die entsprechenden SNMP-Counter
Der Trace-Kernel zur Identifikation von Bottlenecks am Client
Datenbankanalyse-Tools
6 Optimierungen
6.7 Von Objekten und Töpfen
Performance Monitor/SNMP
Auf jeder Ebene, die vom Datenimport betroffen ist, gibt es eine Vielzahl von Performance-Countern, die Hinweise auf Bottlenecks liefern können.
Damit kann die Ebene des Problems meist rasch eingegrenzt werden. Auf der betreffenden Ebene können Werkzeuge zur detaillierten Analyse eingesetzt werden.
Prozessorzeit
Der häufigste Grund für eine schlechte Performance ist die Auslastung der CPU am Client, auf dem der Import
gestartet wurde, also auf dem der Fabasoft Components Kernel ausgeführt wird. Dabei ist zu beachten, dass auf
einem Multiprozessorsystem die Gesamtlast meistens nicht mehr als der Anteil einer CPU betragen kann. Aussagekräftiger ist daher die Prozessorzeit des coo- bzw. w3wp-Prozesses. Unter Microsoft Windows wird dieser in Prozent einer CPU angegeben und kann folglich mehr als 100 % erreichen, wobei das derzeit eher eine
Wunschvorstellung als Realität ist. Hat man also eine Last um die 100 %, dann bedeutet das, dass der Client
ein Bottleneck darstellt, da zu viel am Client berechnet werden muss. Als Konsequenz muss man zum Beispiel
anhand eines Kernel-Traces versuchen, die Aktionen zu identifizieren, die diese Last verursachen und diese entweder zu ersetzen oder zumindest so umzuschreiben, dass weniger CPU-Zeit für deren Verarbeitungen benötigt
wird.
Ist die Last am Fabasoft Components COO- oder MMC-Service sehr hoch, so kann man dagegen strukturell
etwas unternehmen, indem man die Last auf mehrere Services verteilt. Eine Verringerung des Cache führt oft zu
einer Verringerung des CPU-Verbrauchs des Service, jedoch oft auf Kosten der Gesamtperformance. Wird am
Server, auf dem die Fabasoft Components MMC-Services betrieben werden, außer von den Fabasoft Components Services nennenswert Zeit benötigt, ist das möglicherweise auf einen Virenscanner zurückzuführen, der
jedenfalls zur Migrationszeit deaktiviert werden sollte.
Eine hohe Auslastung der CPU auf der Datenbank weist auf ineffiziente Abfragen hin, bei denen viele Datensätze durchsucht werden müssen, um ein Ergebnis zu berechnen. Wird also für eine Query ein Tablescan
gemacht und diese Tabelle ist vollständig im Speicher enthalten, so wird diese Operation mit großem CPU-Auf-
117
wand durchgeführt. Das hat neben dem CPU-Aufwand auch noch zur Folge, dass der Datenbank-Cache permanent von dieser Tabelle belegt wird und nicht für andere Aufgaben zur Verfügung steht. Dieses Verhalten kann
sich stark ändern, wenn entweder durch neu berechnete Statistiken die Zugriffspfade optimiert werden und
daher der Aufwand für die Bearbeitung sinkt, oder aber durch das Datenwachstum die Daten nicht mehr vollständig im Cache gehalten werden können und dadurch das CPU-Problem auf Kosten eines Disk-Problems
scheinbar behoben wird.
Oft kann man bei der Beobachtung der CPU-Auslastung die Phasen einer Transaktion beobachten, wie die Verarbeitung am Client beginnt, eventuell Suchen auf der Datenbank durchgeführt werden, dann die Aktionen am
Client durchgeführt werden und schließlich die Änderungen über das Fabasoft Components COO-Service bis zur
Datenbank kommen. Auch aufgrund der Länge dieser Phasen kann man bestimmen, welche Komponente das
Bottleneck ist. Um das besser beobachten zu können, ist es hilfreich, die Transaktionsgröße zu verändern, um zu
Transaktionszeiten von ca. 10-20 Sekunden zu kommen.
Festplatte
Alle Daten kommen irgendwo von einer Festplatte und landen schlussendlich auf einer. Damit ist auch die
Geschwindigkeit des Disksystems mitentscheidend für die Performance des Datenimports. Neben den Festplatten der Quell- und Zielsysteme wird auch die des Ladeclients beim Laden von Inhalten beansprucht. Ein entscheidender Faktor ist aber zumeist die Festplatte am Fabasoft Components MMC-Service und auf der Datenbank.
Folgende Performancecounter sind unter Microsoft Windows verfügbar und für die Analyse interessant:
°
°
°
°
°
°
% Disk Time
Disk Queue Length
Disk Read Bytes/s
Disk Write Bytes/s
Avg. Disk sec/Read
Avg. Disk sec/Write
6 Optimierungen
6.7 Von Objekten und Töpfen
Die Performance der Datenquelle ist erfahrungsgemäß von geringer Bedeutung, kann aber gerade bei der Verwendung von mehreren Ladeclients auch eine Rolle spielen. Bottlenecks auf Seite der Datenquelle können meistens durch die Konfiguration mehrerer Datenquellen entschärft werden, um die Quelldaten performant liefern
zu können. Die lokale Festplatte des Ladeclients als Datenquelle zu verwenden, ist beim Laden von Inhalten keine gute Variante, sofern auch das DOCDIR-Verzeichnis auf dieser Platte liegt, da die Daten lokal auf die Festplatte kopiert werden, was im Allgemeinen langsam ist.
Am Client ist die Festplatte im Fall vom Import von Inhalten ein limitierender Faktor. Alle Inhalte werden hier
zuerst von der Quelle gelesen und in das DOCDIR-Verzeichnis kopiert, bevor sie beim Commit auf das Backen
übertragen werden. Daher sollte man darauf achten, dass hier eine schnelle Festplatte verwendet wird und diese ausschließlich für das DOCDIR-Verzeichnis verwendet wird. Bei Importen ohne Inhalte wird die lokale Festplatte nicht wesentlich belastet.
Beim Schreiben von Inhalten am Fabasoft Components MMC-Service wird nach dem Schreiben einer Datei ein
Flush auf das Disksystem ausgeführt, um die neue Datei auf dem Medium zu sichern. Das bedeutet aber, dass
dieser Zugriff synchron durchgeführt wird und effektiv auf die Festplatte gewartet wird. Dieser Schritt kann von
einem SAN-System oder einem RAID-Controller mit Write-Buffer stark profitieren, da das Flush nicht auf die
Disk warten muss. Hier spielt auch die Auswahl des RAID-Levels eine Bedeutung. Wie groß der Unterschied zwischen den einzelnen Konfigurationen konkret ist, hängt aber stark vom verwendeten Disk-Subsystem und dessen Cache ab.
Besonders kritisch ist die Geschwindigkeit des Festplattensystems der Datenbank. Allerdings ist hier nicht
jeder Disk-Zugriff schlecht oder bremst den Datenimport. Schließlich müssen die Daten der Datenbank ja irgendwie geschrieben werden. Die Daten der Tabellen werden asynchron zur Verarbeitung auf die Platten geschrieben und werden bis dorthin lediglich im Datenbank-Cache geändert. Die Konsistenz wird dabei über die Datenbank-Logdateien garantiert, die – und das ist ein kritischer Pfad – beim Commit synchron auf die Platte geschrieben werden müssen. Im Unterschied zu den Daten, die meist ein zufälliges Zugriffsmuster aufweisen, werden
die Logs sequenziell geschrieben. Dem kann Rechnung getragen werden, indem die Logs auf dedizierten Festplatten platziert werden, die beim sequenziellen Schreiben kaum Bewegungen des Schreib- und Lesekopfes
benötigen. Die Daten hingegen werden auf möglichst viele Platten verteilt, damit die zufälligen Zugriffe auf
119
möglichst vielen Einheiten parallel servisiert werden können. Mit Buffered-Write (auch Write-Back-Buffering
genannt) kann man das Problem der Logs entschärfen, wenn das Storagesystem garantiert, dass selbst bei
einem Absturz oder Stromausfall keine Änderungen verloren gehen. Die Verwendung von möglichst vielen Platten für die Datenbereiche ist auch heute noch Voraussetzung für den effizienten Betrieb einer Datenbank.
Üblicherweise arbeitet ein Datenbanksystem anfangs, wenn der Datenbestand klein ist, optimal. In dieser Phase werden fast ausschließlich Schreiboperationen durchgeführt. Erst wenn die verwendete Datenbankgröße die
Dimension des Buffer-Cache erreicht hat, kann es zu einem Einbruch der Performance kommen. Das erkennt man
daran, dass auf einmal auch der Wert für „Disk Read Bytes/sec“ erhebliche Werte aufweist. Spätestens dann
zeigt sich, ob die Indizes greifen und damit nicht wegen Tablescans ganze Tabellen im Speicher gehalten werden müssen. Reads wirken sich immer direkt auf die Performance aus, da diese in der Regel synchron zur Verarbeitung durchgeführt werden müssen, wenn also die Anwendung auf das Ergebnis einer Query wartet. Gelesen wird aber nur, was sich nicht gerade im Buffer-Cache befindet, sodass durch eine Vergrößerung des BufferCache die Wahrscheinlichkeit steigt, dass diese Daten im Cache gehalten werden können. Wie bei den Clientund Service-Caches schon angesprochen, ist eine effiziente Ausnützung der Caching-Mechanismen durch die
Anwendung hilfreich. Damit kann die Menge der Daten, die in einer Phase benötigt wird, klein gehalten werden
und die Wahrscheinlichkeit steigt, dass diese Daten bereits im Cache vorhanden sind. Diese Optimierung steht
aber oft im Widerspruch zur Parallelisierung, die meistens darauf aufbaut, dass parallel mehrere verschiedene
Datenbereiche verändert werden und so das Workingset vervielfacht wird. Wenn also das Bottleneck auf der
Datenbank zu finden ist, kann potenziell eine spürbare Beschleunigung der Verarbeitung durch eine Reduktion
der Parallelität erreicht werden.
Der Wert von „Disk Write Bytes/sec“ ist bei den Logbereichen meistens relativ kontinuierlich, da hier bei jedem
Commit Daten anfallen. Bei den Datenbereichen werden Änderungen im Normalfall im Hintergrund geschrieben,
jedenfalls aber bei jedem Checkpoint (in Oracle z.B. beim Log-Switch). Ein Log-Switch ist eine synchrone Operation, die zu einer Wartezeit der Clients führt. Daher sollte die Anzahl der Checkpoints oder Log-Switches auch
gering gehalten werden, was in Oracle beispielsweise eine entsprechende Dimensionierung der Logdateien voraussetzt. Erkennt man also aus den Countern, dass regelmäßig hohe Spitzen in der Schreiblast der Datenbereiche auftreten, in Verbindung mit Pausen in der sonstigen Verarbeitung, sollte man sich um die Checkpoints küm-
6 Optimierungen
6.7 Von Objekten und Töpfen
mern. Die andere problematische Situation, dass Daten vorzeitig geschrieben werden müssen, entsteht wenn
der Buffer-Cache zu klein ist und damit geänderte Blöcke vermehrt auf die Festplatten geschrieben werden müssen, um Platz für andere Datenblöcke freizumachen. Um diese Schreibprozesse vom Normalbetrieb unterscheiden zu können, benötigt man aber die Counter der Datenbanken, denn eine kontinuierliche Schreiblast auf den
Datenbereichen ist durchaus normal und beeinträchtigt nicht die Performance, da sie asynchron zur eigentlichen
Verarbeitung erfolgt.
Die Werte von „Avg. Disk sec/Read“ und „Avg. Disk sec/Write” geben an, wie lange das Lesen bzw. Schreiben
eines Datenblockes auf die Disk benötigt. Diese sollten speziell bei den Platten mit Datenbank-Logs im Bereich
von maximal drei bis vier Millisekunden bleiben. Diese Zeit benötigt jede Transaktion mindestens auf der Datenbankseite für das Commit, denn jedes Datenbanksystem baut auf die Konsistenz des Datenbank-Logs auf und
damit müssen die Daten der Transaktion und die Entscheidung, ob ein Commit oder Rollback durchgeführt wurde, auf dem Log persistiert sein, bevor das Commit beendet wird. Die Situation kann einerseits durch das
Storagesystem beeinflusst werden, anderseits durch die Verwendung von größeren Transaktionen verbessert
werden, da damit die Anzahl der Commits reduziert wird.
Die „Disk Queue Length“ ist ein Maß für die Parallelität der Datentransferoperationen. Ist dieser Wert hoch,
übersteigt er also deutlich die Anzahl der physischen Platten, steigt damit die Wartezeit der Prozesse auf die
Daten an. Datenbanksysteme sind darauf ausgelegt, dass viele Vorgänge parallel bearbeitet werden, und daher
profitieren diese direkt von einer höheren Parallelität am Speichersystem.
Counter des Fabasoft Components Kernels
Es gibt neben der bereits besprochenen CPU einige interessante Counter, mit denen die Aktivitäten des
Fabasoft Components Kernels analysiert werden. Der Cache ist die zentrale Ressource des Fabasoft Components Kernels, wobei gerade hier nicht bei allen Imports eine hohe Hitrate erreicht werden kann. Die betreffenden Counter sind:
°
°
% Cache-Hit Rate
% Cache Used
121
°
°
°
°
°
Cached Objects
Objects Completely Loaded (Bulk)/sec
Objects Completely Loaded (Single)/sec
Objects Partially Loaded (Bulk)/sec
Objects Partially Loaded (Single)/sec
Mit diesen Performanceindikatoren kann die Aktivität des Cache gut nachvollzogen werden. Ob der Cache effizient funktioniert, hängt vom Workingset des Imports ab. Werden sehr viele Objekte linear abgearbeitet, kann
nur wenig Information aus dem Cache wiederverwendet werden und die Cache-Hit-Rate wird relativ niedrig werden (unter 80 %). Werden viele Operationen auf einem begrenzten Datenbestand durchgeführt, wird die Rate
steigen.
Ziel des Cache ist, die Werte der Counter „Object Completely/Partially Loaded (Bulk/Single)/sec“ durch die Zwischenspeicherung der Objekte niedrig zu halten. Diese geben die Anzahl der RPCs an, die zum Laden von Daten
an das Fabasoft Components COO-Service abgesetzt werden. Vom Import werden dabei die in Zuordnungen verwendeten Eigenschaften aller beteiligten Objekte in Bulk-Operationen von den Services geladen. Werden jedoch
in Aktionen Eigenschaften verwendet, die nicht direkt aus der Definition des Datenimports ersichtlich sind, so
werden die darin referenzierten Objekte meist einzeln geladen und das führt zu einer großen Anzahl von einzelnen RPCs, die man dann unter „Objects Completely/Partially Loaded (Single)/sec“ beobachten kann. Eine Optimierung sollte daher diese RPCs verhindern, indem diese Aktionen unterbunden werden oder durch zusätzliche
Zuordnungen ersetzt werden. Werden von einer Objektklasse zusätzlich zu den Eigenschaften, für die Zuordnungen definiert sind, auch noch andere Eigenschaften benötigt, so können diese beim Laden der Eigenschaften der
Objekte gleich mitgenommen werden, indem eine Zuordnung zu dieser Eigenschaft definiert wird und der
Änderungsmodus auf „Ignorieren“ gestellt wird. Um welche Eigenschaften es sich handelt, kann man aus dem
Kernel-Trace ablesen. Nicht lösen lassen sich damit Objektbeziehungen, die nicht im Datenimport definiert sind,
sondern die erst von der Methode verwendet werden.
6 Optimierungen
6.7 Von Objekten und Töpfen
Die Objektsperren spiegeln sich in den Countern
°
°
Objects Locked/sec
Objects Unlocked/sec
wieder. Wie schon öfters erwähnt, sind Objektsperren generell langsam und für die Funktion eines Imports nicht
notwendig, vorausgesetzt die Daten werden nicht gleichzeitig von anderen Stellen aus geändert. Daher ist auch
als Defaultwert beim Datenimport eingestellt, dass die Objekte nicht gesperrt werden. Ist diese Voraussetzung
nicht erfüllt, weil der Import beispielsweise im laufenden Betrieb durchgeführt wird, so sollte die Objektsperre
aktiviert werden. Damit werden nur jene Objekte modifiziert, bei denen die Sperre erfolgreich war. Neu erzeugte Objekte brauchen und können nicht gesperrt werden, da sie von keiner anderen Stelle aus geändert werden
können, bis sie das erste Mal committet wurden. Implizite Sperren, wie zum Beispiel die der Rückwärtsverkettungsobjekte, können durch Mittel des Datenimports nicht verhindert werden. In diesem Fall muss in der Implementierung der Methoden berücksichtigt werden, dass im Fall eines Imports keine Sperre erfolgen sollen
(TV_BATCHMODE).
Der Wert des Counters „Queries/sec“ gibt die Anzahl der Suchabfragen wieder, die vom Fabasoft Components
Kernel gemacht werden. Dieser Counter beinhaltet Suchen, die vom Datenimport selbst gemacht werden und
zur Identifikation von Objekten notwendig sind, aber möglicherweise auch solche, die implizit von Methoden aus
durchgeführt werden und zu einer Verzögerung des Datenimports führen können. Der Kernel-Trace hilft in diesem Fall den Kontext der Query herauszufinden.
Die Versionierung von Objekten ist in den meisten Fällen unerwünscht, wird aber vielfach automatisch ausgelöst, wenn etwa der Bearbeiter wechselt. Diese automatische Versionierung, die in der Aktion vor dem
Schreiben der Objekte ([email protected]:ObjectPrepareCommit) durchgeführt wird, bremst
den Datenimport erheblich. Die Versionierung erkennt man am Counter „Versions Created/sec“, der bei vorliegender Versionierung einen Wert ungleich 0 liefert. Um die Versionierung zu verhindern, kann man die Aktion
vor dem Schreiben der Objekte übergehen oder die Versionierung für die betroffene Objektklasse gänzlich
deaktivieren.
123
Counter der Fabasoft Components Services
Für alle Services gleich sind die Counter des Performanceobjekts COO-RPCs, die Informationen zu den RPC-Verbindungen und zu den Worker Threads der Services beinhalten. Während der Datendurchsatz, enthalten in den
Countern
°
°
°
Bytes Received/sec
Bytes Sent/sec
Bytes Total/sec
ein Maß für die Netzwerkbelastung durch das Service ist, aber meistens nur einen Bruchteil der zur Verfügung
stehenden Kapazität nutzt, ist der Wert von
°
Allocated Threads
von entscheidender Bedeutung. Wie im Abschnitt über die Serviceoptimierung bereits ausgeführt, führt eine
zu geringe Anzahl von Worker Threads zu Wartezeiten und verlängert so die Ladezeit. Ist also die Anzahl
der Allocated Threads über eine längere Zeit gleich der konfigurierten Anzahl der Worker Threads, sollte man
diese Anzahl erhöhen. Das kann man direkt in der Registry unter HKEY_LOCAL_MACHINE\
SOFTWARE\Fabasoft\Fabasoft Components Server\Domain n.m\Service x im
Wert Worker Threads tun oder aber in der Fabasoft Components Domäne am Serviceobjekt umstellen und
Syncronize Registry Entries aufrufen. Jedenfalls muss das Service danach neu gestartet werden, um die
Änderung zu übernehmen.
Interessant am Fabasoft Components COO-Service sind die Cache-Counter
°
°
°
°
°
% Cache Hit Rate
% Cache Used
Cached Objects
Cache max MB
Objects Loaded/sec
6 Optimierungen
6.7 Von Objekten und Töpfen
6.8 Der Kernel-Trace
wobei die Counter von Version 6 auf Version 7 durch die Umstellung des Cachelayouts geändert wurden. In
jedem Fall gibt die „% Cache Hit Rate“ einen Wert für die effiziente Nutzung des Cache an, wobei es aber sehr
von der Struktur des Datenimports und damit des verwendeten Workingsets abhängt, ob der Cache überhaupt
effizient nutzbar sein kann. Davon hängt es auch ab, ob eine Vergrößerung des Cache die Trefferquote erhöhen
kann oder nur den Speicher mehr auslastet. Eine niedrige „% Cache Hit Rate“ und damit ein konstant hoher Wert
von „Objects Loaded/sec“ weist jedenfalls auf ein Bottleneck hin.
6.8
Der Kernel-Trace
Der Kernel-Trace ist eine schier unerschöpfliche Quelle der Information, allerdings oft nur für „Wissende“. An
dieser Stelle sollen nur ein paar grundlegende Informationen erörtert werden, die man einfach aus dem Trace
extrahieren kann und die für eine erfolgreiche Optimierung von Datenimporten notwendig sind.
Erstellen der Traces
Es gibt zwei Arten von Trace-Kernels: Der eine wird im jeweiligen plattformspezifischen Unterverzeichnis von
„Setup/ComponentsBase/Trace“ der Installations-CD mit dem Produkt mitgeliefert und generiert die ausführliche Version der Traces. Der Umfang der ausgegebenen Traceausgaben wirkt jedenfalls abschreckend und bietet dem neugierigen Einsteiger zuerst einen derartigen Überfluss an Unverständlichkeiten, dass der Trace im
besten Fall beim Fabasoft Support landet. Mit diesem Überfluss an Information ist auch ein erheblicher Aufwand
bei der Generierung verbunden, sodass der eigentliche Datenimport sehr langsam wird. Allein um bis zum
Datenimport zu kommen, vergeht bereits beträchtlich viel Zeit, speziell wenn man den Datenimport vom Webserver aus durchführt. Alternativ dazu gibt es für manche Versionen einen so genannten „EEE“-Trace-Kernel, der
vom Support zur Verfügung gestellt werden kann, und der wesentlich weniger Informationen beinhaltet, als der
vollständige Trace-Kernel.
125
Interpretation des Traces
Das grundlegende Problem bei der Optimierung von Datenimporten ist die Frage:
In welchen Methoden wird viel Zeit verbraucht?
Genau das kann aber mit dem Kernel-Trace einfach herausgefunden werden, indem man aus dem Trace jene Zeilen herausfiltert, die den Start und das Ende eines Methodenaufrufs markieren. Vorausgesetzt man hat mit nur
einem Thread einige wenige Datensätze importiert, sind vielfach die Schuldigen schnell gefunden.
Der Header jeder Zeile des Traces enthält folgende Informationen:
05688: 7.027: KS|0x974|0x9F8|coo: <Info>
1. eine fortlaufende Zeilennummer
2. eine Zeitinformation relativ zum Startzeitpunkt des Traces
3. KS bedeutet, dass es sich um einen Kernel-Tracepunkt handelt
4. 0x974 ist die Prozess-ID
5. 0x9F8 ist die Thread-ID
6. und coo ist der Name der Anwendung
7. danach folgt die eigentliche Information
Filtert man also den Trace nach „MethodImp::Call“, so erhält man eine Liste mit den Start- und Endpunkten der
Methodenaufrufe. Die Zeile mit [email protected]:ImportDataSelectedObjects oder
[email protected]:ImportRemote markiert dabei den Beginn des Imports. Danach wird ein Thread
gestartet, der den eigentlichen Import vornimmt. In diesem Thread wird das Datenimportobjekt gesperrt, damit
man einen Import nicht gleichzeitig durchführen kann, eventuell wird die Initialisierung der Suchbäume gemacht,
der Reader Thread gestartet und erst danach werden die Worker Threads erzeugt.
6 Optimierungen
6.8 Der Kernel-Trace
Verarbeitung eines Datenblocks
In den Verarbeitungs-Threads werden die Datenblöcke, die von dem Reader Thread zusammengestellt werden,
in folgender Weise verarbeitet:
Phase 1: Suchen und Anlegen von Objekten
Für jede Objektklasse werden entsprechend der Konfiguration die Objektinstanzen gesucht und angelegt. Dafür
werden folgende Schritte durchgeführt:
°
°
°
°
°
Objekte im lokalen Suchbaum suchen
Objekte über die Objektsuche suchen
Laden der Eigenschaften der Objekte
Objekte erzeugen ([email protected]:ObjectCreate)
°
Eigenschaftskonstruktoren (Die entsprechenden Eigenschaften finden sich im Trace neben dem Text
AttrSet)
°
Objektkonstruktor ([email protected]:ObjectContructor)
Objekte sperren ([email protected]:ObjectLock)
Phase 2: Setzen der Eigenschaften der Objekte
Es werden pro Datensatz die Zuordnungen ausgewertet und dabei die Eigenschaften gesetzt.
°
Aufruf des Filterskripts für Objekte (vor dem Commit)
Commit der Transaktion
°
°
Aufruf der Aktion vor dem Schreiben der Objekte
Aufruf der Aktion zum Setzen der Eigenschaften
127
°
°
Commit auf der Datenbank
Aufruf der Aktion nach dem Schreiben der Objekte
Nachbearbeitung
Zuletzt wird noch das Filterskript für Objekte nach dem Commit aufgerufen
Interpretation
Meistens ist es nicht wichtig, einen Kernel-Trace in seiner Gesamtheit zu verstehen. Im ersten Ansatz hilft es,
anhand der aufgerufenen Methoden diejenige Stelle zu identifizieren, an der die meiste Zeit verbraucht wird und
die dort verwendeten Funktionalitäten auf ihre Notwendigkeit hin zu untersuchen und Maßnahmen zu ergreifen,
um diese zu entschärfen.
6 Optimierungen
6.8 Der Kernel-Trace
129
7
Konfiguration
7 der Datenquellen
Nach dieser doch eher tiefer gehenden Betrachtung der Analyse- und Optimierungsmöglichkeiten
widmet sich dieses Kapitel einem Thema, das viel direkter mit dem Datenimport zu tun hat: den konkret zur Verfügung stehenden Datenquellen und deren Konfiguration.
Jeder Datenimport verarbeitet die Daten, die von einer bestimmten Datenquelle, die im Datenimportobjekt definiert ist, geliefert werden. Folgende Datenquellen stehen zur Verfügung:
1. ODBC (Open Database Connectivity): Sowohl auf der Microsoft Windows-Plattform als auch unter Linux
steht mit ODBC eine allgemeine Programmschnittstelle für Datenbanken zur Verfügung, für die es auf beiden Plattformen eine Vielzahl von Treiberimplementierungen für verschiedene Datenbanken und Datenformate gibt.
2. Ausschließlich unter Microsoft Windows ist alternativ zu ODBC die Programmschnittstelle OLE DB (Object
Linking and Embedding Database) für die Anbindung von Datenbanken definiert. Auch über diese Schnittstelle kann ein Datenimport seine Quelldaten bekommen. Von Fabasoft wird im Rahmen der Softwarekomponente [email protected] ein eigener Fileprovider auf Basis des OLE DB-Protokolls mitgeliefert, über
den Inhalte des Dateisystems geladen werden können.
3. Speziell um aus Druckdateien Daten extrahieren zu können wurde der Report-Umsetzer implementiert,
über den auf Basis von Beschreibungen, wo sich auf einem Formular die relevanten Informationen befinden,
die Quelldaten für den Import extrahiert werden können.
4. Ganz spezielle Datenquellen lassen sich über Datenquellen-Skripts definieren, durch die (derzeit nur auf
der Microsoft Windows-Plattform mit VBScript) auf beliebige Daten zugegriffen werden kann oder Daten
algorithmisch generiert werden können.
Mit Fabasoft Components Version 7 kommen einige andere Datenquellen hinzu:
°
LDAP (Lightweight Directory Access Protocol) ist ein standardisiertes Protokoll für den Zugriff auf Directories, wie zum Beispiel das Microsoft Active Directory oder OpenLDAP, die unter anderem für die Verwaltung
von Benutzerdaten und Gruppen verwendet werden. Mit der Anbindung von LDAP-Verzeichnissen ist eine
131
automatisierte Übernahme und Aktualisierung von Log-in-Informationen aus dem Directory in die Benutzerverwaltung der Fabasoft Components Domäne möglich.
°
Seit kurzem stehen auch jene Datenbankanbindungen direkt für den Datenimport zur Verfügung, die von den
Fabasoft Components Services verwendet werden. Über diese ADE DB genannte Schnittstelle sind vor
allem die Datenbanksysteme Oracle (über die OCI-Schnittstelle) und PostgreSQL über deren datenbankspezifisches Interface angebunden und können damit auch ohne Installation von ODBC-Treibern verwendet werden.
°
CSV-Dateien (Comma-Separated Values) sind sehr gut zum Transport von Tabellen in Textform geeignet.
Zwar gibt es auf Microsoft Windows und Linux ODBC-Treiber, mit denen diese gelesen werden können,
jedoch müssen diese am jeweiligen System extra konfiguriert werden. Daher wurde eine CSV-Datenquelle
implementiert, mit deren Hilfe man auf jeder Plattform gleich in einfacher Weise CSV-Dateien importieren
kann.
Für die Definition der Datenquelle gibt es im Fabasoft Win32-Client der Version 6 einen Wizard. Diesen startet
man durch Auswahl des Menübefehls Datenquelle definieren aus dem Kontextmenü des Datenimportobjekts.
Zuerst wählt man aus den möglichen Typen der Datenquelle die gewünschte aus.
Danach kommt man je nach Datenquelle zu unterschiedlichen Dialogen, wie sie in Abbildung 17 für ODBC und
OLE DB dargestellt sind.
7. Konfiguration der Datenquellen
133
Abbildung 17
Auswahl einer ODBC- bzw.
OLE DB Datenquelle
Bei ODBC kommt man auf den Auswahldialog für ODBC-Datenquellen, der von Microsoft Windows zur Verfügung gestellt wird und über den eine File- bzw. Machine Data Source erstellt und ausgewählt werden kann. FileDatenquellen werden durch eine Datei definiert, deren Name zur Definition der Datenquelle verwendet wird.
Eine Machine Data Source ist in der Microsoft Windows-Registry definiert und kann daher nicht so einfach im
Rahmen der Migration verteilt werden.
Bei OLE DB wird stattdessen der Auswahldialog für die UDL-Datei angezeigt. In einer UDL-Datei werden die Verbindungsparameter zur OLE DB-Datenquelle als Text abgelegt. Als Verbindungsinformation können entweder der
Dateipfad zur UDL-Datei oder aber die Parameter aus der Datei selbst verwendet werden.
Der nächste Schritt ist in jedem Fall die Auswahl der zu importierenden Tabelle. Angeboten werden alle Tabellen und Views im aktuellen Schema (siehe Abbildung 18).
Abbildung 18
Auswahl der Tabelle
und der Spalten
In unserem Beispiel wird die Tabelle Customers der Northwind-Datenbank gewählt und nach der Bestätigung mit OK kommt die Auswahl der Spalten:
Hier können die zu verwendenden Spalten ausgewählt werden, sodass nach der Bestätigung dieses Dialogs mit
OK das Datenimportobjekt mit den Verbindungsinformationen und einer Liste von Zuordnungen mit den gewählten Spalten gefüllt wird.
Im Fall der Auswahl der Skriptdatenquelle wird eine Liste der verfügbaren Skriptobjekte und Skript-Komponentenobjekte angezeigt. Nach der Auswahl des entsprechenden Skripts folgt auch hier die Auswahl der verfügbaren Spalten.
7. Konfiguration der Datenquellen
7.1 ODBC
7.1
oDBC
ODBC (Open Database Connectivity) ist sowohl auf der Microsoft Windows-Plattform als auch unter Linux verfügbar. Auf Basis dieser standardisierten Programmschnittstelle ist eine ganze Reihe von Treibern für die Anbindung verschiedenster Datenbanken verwendbar.
Während in Microsoft Windows ODBC standardmäßig mit dem Betriebssystem mitinstalliert wird, muss es unter
Linux explizit konfiguriert werden.
Einige der am häufigsten verwendeten Treiber und deren Konfiguration sind im Folgenden beschrieben.
Microsoft Excel
Microsoft Excel eignet sich sehr gut zur manuellen Erfassung von Listen, da die meisten Benutzer mit dem
Medium vertraut sind. Entwirft man entsprechende Vorlagen, können zum Beispiel Daten aus vielen Abteilungen zusammengetragen werden, die automatisiert weiterverarbeitbar sind. Ein Problem entsteht allerdings gerade durch die Tatsache, dass die Benutzer beim Eingeben der Daten viele Freiheiten nutzen und es im Nachhinein mit einem erheblichen Aufwand verbunden ist, die Daten wieder in ein Zielformat zu konsolidieren. Außerdem eignet sich das Medium nur für kleine Datenmengen und nicht für alle Datentypen.
Kritisch bei Microsoft Excel ist die Verwendung von Datumswerten, da Microsoft Excel diese intern als Fließkommawerte speichert und nur in der Darstellung umrechnet. In der Datenquelle erscheinen jedoch nicht die formatierten Werte, sondern die internen Daten. Diese müssen daher im Filterskript für Rohdaten erst auf
Datumswerte umgerechnet werden. Auch bei Zahlen mit Nachkommastellen unterscheiden sich die formatierten Werte in der Anzeige von Microsoft Excel von den Werten, die über OLE DB an den Datenimport geliefert
werden und oft noch weitere Kommastellen oder die für Fließkommawerte typischen periodischen Dreier oder
Neuner enthalten.
Um Daten von Microsoft Excel als Datenquelle über ODBC zur Verfügung zu haben, muss man in Microsoft Excel
jedenfalls eine Spaltenüberschrift für jede Datenspalte definieren, die als Spaltenname auch im Datenimportobjekt verwendbar ist. Als Datenbereich ist entweder eine ganze Seite verwendbar, die unter dem Namen des
135
Datenblattes mit einem „$“ am Ende als Tabellenname erreichbar ist, oder man definiert einen Namen für einen
ausgewählten Datenbereich, unter dem die Daten dann auch für den Datenimport verfügbar sind (siehe Abbildung 19).
Abbildung 19
Definition eines
Datenbereichs in
Microsoft Excel
Jedenfalls ist darauf zu achten, dass während des Datenimports die Datei nicht in Microsoft Excel geöffnet ist,
da die Datei sonst nicht vom Treiber geöffnet werden kann.
CSV und Tab-Separated Files
CSV-Dateien (Comma-Separated Values) oder Tab-Separated Files sind Text-Dateien, die pro Zeile einen
Datensatz enthalten und bei denen die einzelnen Spalten durch ein bestimmtes Trennzeichen voneinander
getrennt werden. Was auch immer das Trennzeichen ist, ein Beistrich, ein Strichpunkt oder ein Tabulator-Zei-
7. Konfiguration der Datenquellen
7.1 ODBC
chen, diese Dateien eignen sich gut für den Datentransport, wenn man einige grundlegende Konventionen für
die Daten vereinbart:
Trennzeichen
Meistens werden Beistriche, Strichpunkte oder Tabulatorzeichen als Spaltentrennzeichen verwendet und CRLF
als Zeilentrennzeichen. Strichpunkte und Tabulatorzeichen eignen sich besonders gut, da sie im Gegensatz zu
Punkten oder Beistrichen nicht als Dezimal- oder Datumstrennzeichen verwendet werden und daher (außer in
Zeichenketten) nicht vorkommen können.
Zeichenketten
Zeichenketten, die Sonderzeichen oder aber auch das Trennzeichen enthalten, werden oft unter Anführungszeichen gesetzt. Damit auch Anführungszeichen in diesen Texten enthalten sein können, werden diese im Text verdoppelt. Die Verwendung eines Escape-Characters (z.B. Backslash „\“) ist eher unüblich.
Zahlenformat
Es muss festgelegt werden, welches Zeichen als Komma und welches optional auch als Tausendertrennzeichen
verwendet wird. Ob eine sprachspezifische Version oder ein standardisiertes Format verwendet wird, liegt im
Ermessen der beteiligten Personen.
Format für Datum und Zeit
Hier gilt ähnliches wie bei den Zahlenformaten. Zusätzlich kann hier auch noch die Verwendung von Zeitzonen
eine Rolle spielen.
Zeichensatz
Umlaute und Sonderzeichen werden in verschiedenen Zeichensätzen unterschiedlich kodiert und daher ist es
wichtig, die Datei mit demselben Zeichensatz zu lesen wie sie geschrieben wurde. Wenn man vom Unicode-
137
Zeichensatz und dessen Repräsentationen UTF-8 und UTF-16 absieht, so kann man bei der Verarbeitung
meistens nicht automatisch auf den richtigen Zeichensatz schließen, sondern muss diesen explizit festlegen, um
vor Überraschungen sicher zu sein.
Spaltenbezeichnungen
Die Spaltennamen werden in CSV-Dateien in der Regel in der ersten Zeile der Datei spezifiziert. Dabei sollte
beachtet werden, dass diese keine Sonderzeichen enthalten sollten (speziell ein „@“-Zeichen am Beginn einer
Spaltenbezeichnung würde zu Problemen beim Datenimport führen). Auch sollten sich die Bezeichnungen von
Spalten nicht nur durch die Groß-/Kleinschreibung unterscheiden, da diese Unterscheidung nicht an allen Stellen berücksichtigt wird.
Datentypen
Die Spaltenbreiten werden oft von den Treibern aufgrund des Inhalts der ersten Datensätze analysiert. Besser
ist es jedoch definitiv festzulegen, welchen Datentyp eine Spalte hat und welche maximale Länge deren Inhalte haben kann. Für den Datenimport ist eine Erkennung des Datentyps nicht erforderlich, da die Werte beim
Import immer als Zeichenketten gespeichert und erst beim Setzen der Eigenschaften auf den Datentyp der Eigenschaft konvertiert werden.
Leerwerte am Zeilenende
Einige Datenquellen optimieren die CSV-Datei dahingehend, dass alle Spaltentrennzeichen weggelassen werden, denen bis zum Zeilenende keine Spalte mehr folgt, die einen Wert enthält. Diese Optimierung wird nicht
von allen Treibern unterstützt und sollte daher nur verwendet werden, wenn sie definitiv von allen beteiligten
Programmen richtig erkannt wird.
Der Microsoft Text-Treiber kann die üblichen CSV-Dateien lesen und kann über Konfigurationsdateien, die im
Verzeichnis der Quelldatei liegen müssen, relativ genau konfiguriert werden (siehe [MSDN04]).
7. Konfiguration der Datenquellen
7.1 ODBC
7.2 OLE DB
In Fabasoft Components Version 7 wurde als Alternative zum ODBC-Text-Treiber ein eigener Datenquellentyp
implementiert, der ohne Verwendung von ODBC einen Import von CSV-Dateien implementiert.
Oracle unter Linux
Während unter Microsoft Windows ODBC bereits bei der Installation des Betriebssystems mitinstalliert wird,
gibt es dafür unter Linux ein eigenes Projekt namens unixODBC (siehe [Gorh06]). Dort können auch die jeweiligen Versionen für die einzelnen Plattformen bezogen werden.
Der erste Schritt der Konfiguration von ODBC-Treibern unter Linux ist also die Installation des unixODBC-Pakets.
Der nächste Schritt ist die Installation des ODBC-Treibers für die jeweilige Datenbank. Für Oracle können diese
Pakete von der Webseite [Orac07] für die jeweilige Client-Version heruntergeladen werden.
Die weitere Konfiguration ist einerseits in der Installationsanleitung der Pakete, andererseits für Version 6.1 in
einem White-Paper im Fabasoft technet beschrieben.
7.2
OLE DB
Die von Microsoft in vielen Produkten unterstützte Datenbankschnittstelle OLE DB bietet einige Vorteile gegenüber der älteren ODBC-Technologie, wie sie auch unter Linux verfügbar ist, jedoch werden die meisten Features
von Fabasoft Components/COLD nicht benötigt. Trotzdem ist sie gegenüber ODBC zu bevorzugen, da es in der
Regel die aktuelleren Treiber für OLE DB gibt. Für die Rückwärtskompatibilität gibt es einen OLE DB-Treiber für
ODBC-Datenquellen, mit dem unter Verwendung der OLE DB-Schnittstellen auf ODBC-Datenquellen zugegriffen
werden kann, was aber in der Regel für Fabasoft Components/COLD-Datenimporte nicht besser ist, als gleich
direkt ODBC zu verwenden.
Die Verbindungsparameter zur OLE DB-Datenquelle können in der Datenquelle entweder gleich direkt angegeben werden, oder durch eine Datei mit der Endung „udl“. Erstellt man eine UDL-Datei, so kann man im Microsoft Datei-Explorer über den Kontextmenübefehl Properties die Verbindungsparameter interaktiv festlegen.
139
Definition der OLE DB-Datenquelle
Will man zum Beispiel eine Datenquelle zur Microsoft SQL Server Demo-Datenbank Northwind, die am lokalen SQL-Server liegt, definieren, so kann man wie folgt vorgehen:
1. In einem beliebigen Ordner eine Textdatei anlegen und dieser die Endung „.udl“ geben, z.B. „Northwind.udl“.
2. Den Kontextmenübefehl Properties auswählen (auf Deutsch Eigenschaften) (siehe Abbildung 20).
Abbildung 20
Definition einer
OLE DB-Datenquelle
3. Auf der Registerkarte „Provider“ den „OLE DB-Treiber für den Microsoft SQL Server“ auswählen.
4. Danach auf der Registerkarte „Connection“ den Namen des Servers eingeben oder auswählen, „Use
Windows NT Integrated security“ als Log-in-Information angeben und unter Punkt 3. die gewünschte Datenbank auswählen.
7. Konfiguration der Datenquellen
7.2 OLE DB
Abbildung 21
Konfiguration der
OLE DB-Quelldatenbank
5. Mit „Test Connection“ kann die Verbindung zur ausgewählten Datenbank geprüft werden.
6. Werden die Eingaben mit OK bestätigt, so werden die Parameter in der UDL-Datei als Textinformation abgespeichert. Diese Datei kann man zum Beispiel im Microsoft Editor öffnen und sieht dann folgende Information:
[oledb]
; Everything after this line is an OLE DB initstring
Provider=SQLOLEDB.1;Integrated Security=SSPI;Persist Security
Info=False;Initial Catalog=Northwind;Data Source=FOMDEMO
Quelltext 2: UDL-Datei mit Parametern
141
Im Datenimport kann nun als Datenquelle entweder der Dateiname der UDL-Datei verwendet werden, oder man
kopiert aus dieser Datei die Zeile, die mit „Provider=…“ beginnt in die Datenquelleneigenschaft. Welche Variante man bevorzugt, hängt davon ab, ob man lieber die Datenquelle an einer Stelle im Dateisystem haben will und
in mehreren Datenimporten verwenden kann, oder ob man ohne externe Dateien auskommen will und daher die
Verbindungsinformation direkt ins Datenimportobjekt eintragen will.
Microsoft SQL Server
Microsoft SQL Server ist die am meisten verbreitete Datenbank auf der Microsoft Windows-Plattform. Mit der
„Microsoft SQL Server Desktop Engine“ (MSDE) 2000 bzw. der „SQL Server 2005 Express Edition“ stehen auch
freie Versionen der Datenbank zur Verfügung, die im Rahmen von Migrationen als Medium für Zwischendatenbanken eingesetzt werden können. Die Limitierungen – vor allem der Datenbankgröße auf zwei bzw. vier Gigabyte – müssen dabei jedoch beachtet werden.
Views, Cursors, Functions und Stored Procedures können die Vorbereitung der Rohdaten für den Import wesentlich erleichtern, indem schon vor dem Import Überprüfungen der Wertebereiche oder der Datenkonsistenz auf
den Quelldaten durchgeführt werden. Bei einigen Migrationen, bei denen Daten in anderen Formaten geliefert
wurden (z.B. in CSV-Dateien oder als Microsoft Excel-Arbeitsmappen) wurden die Daten zuerst mit DTS-Paketen
auf den SQL-Server übernommen, bevor die konsolidierten Daten dann importiert wurden. Damit konnten Konsistenzprüfungen durchgeführt und so einige Fehlerquellen ausgeschlossen werden.
Außerdem kann man über Cursors auf Basis der Rohdaten Nummeratoren nachbilden und so die aufwendige
Durchführung der Berechnung der Nummeratoren beim Ladevorgang ersetzen.
Microsoft Access
Ähnlich flexibel sind auch die Möglichkeiten von Microsoft Access, jedoch sollte man diese nur bei kleineren
Datenbeständen verwenden und wenn keine zu hohen Anforderungen an die Parallelität und Performance
gestellt werden. Als OLE DB-Treiber wird hier der „Microsoft Jet 4.0 OLE DB Provider“ verwendet und in der
Datenquelle der Name der MDB-Datenbankdatei angegeben.
7. Konfiguration der Datenquellen
7.2 OLE DB
File Provider
Der File Provider ist ein OLE DB-Provider, der auf der Microsoft Windows-Plattform mit der Softwarekomponente [email protected] mitgeliefert wird, und mit dem Verzeichnisbäume iteriert werden können. Er eignet sich besonders zur Übernahme von Datenbeständen in identisch strukturierte Ablagen in einer Fabasoft Components Domäne. Mit dem File Provider werden nicht die Inhalte an den Datenimport übergeben, sondern die
Datei- und Ordnernamen, also genau jene Informationen, die vom Datenimport benötigt werden, um die Inhaltseigenschaften von Objekten zu setzen bzw. die Hierarchien aufzubauen.
Das zu übernehmende Verzeichnis wird im Datenimportobjekt als Tabellenname eingetragen (z.B. „c:\“ oder
„d:\myfolder“). Darauf wird beim Importieren vom OLE DB-Provider eine Tabelle mit folgenden Spalten erzeugt:
SPALTE
BESCHREIBUNG
FolderName
Name des Verzeichnisses
FolderPath
Pfad des Verzeichnisses
ParentName
Name des übergeordneten Verzeichnisses von <Folder>
ParentPath
Pfad des übergeordneten Verzeichnisses von <Folder>
Tabelle 5: Spalten des File Providers
Weil meistens nicht für alle Dateien Objekte in der Fabasoft Components Domäne erstellt werden sollen, können die Dateierweiterungen der zu berücksichtigenden Dateitypen im Datenimportobjekt im Tabellennamen konfiguriert werden. Die Dateierweiterungen werden vor dem Tabellennamen in einer geschwungenen Klammer
getrennt durch Strichpunkte angegeben.
143
Gültige Angaben sind beispielsweise
°
°
°
{doc} c:\
{doc;xls;tif} c:\myfolder
c:\myfolder
Für jede der angegebenen Dateierweiterungen werden zusätzliche Spalten „<ext>Name“ und „<ext>Path“ angelegt, wobei „ext“ für die Dateierweiterung steht. Wenn nur ein Startverzeichnis angegeben wird und keine
Erweiterungen, dann wird als Default „{doc;xls;tif}“ angenommen.
Beispiel: Import aus Dateisystem
Die Angabe von „{doc} c:\“ als Tabelle im Datenimportobjekt erzeugt die Spalten FolderName,
FolderPath, ParentName, ParentPath, docName und docPath. Für die Datei
„c:\myfolder\temp\test.doc“ wird dann der folgende Datensatz erzeugt:
FolderName =
temp
FolderPath =
c:\myfolder\temp
ParentName =
myfolder
ParentPath =
c:\myfolder
docName = test
docPath = c:\myfolder\temp\test.doc
Nach der Angabe der Datenquelle müssen noch die Zuordnungstabelle und die Tabelle der Objektreferenzen im Datenimportobjekt so gesetzt werden, dass automatisch die Ordnerobjekte und (für das Beispiel) die
darin liegenden Word-Objekte erzeugt werden. Der Trick dabei ist, dass mit den Folder*-Spalten ein
Ordnerobjekt und mit den Parent*-Spalten ein weiteres Ordnerobjekt – unterscheidbar durch die Werte in der ID-Spalte in der Zuordnungstabelle – beschrieben wird.
7. Konfiguration der Datenquellen
7.2 OLE DB
In der Objektreferenzen-Tabelle wird dann das Ordnerobjekt, das durch die Folder-Spalten definiert wurde,
dem Ordnerobjekt, das durch die Parent-Spalten definiert wurde, in der Eigenschaft Objektliste
([email protected]:objchildren) zugeordnet. Weiters werden erzeugte Inhaltsobjekte (hier
Word-Objekte) dem Ordnerobjekt zugewiesen.
In dem in Abbildung 22 abgebildeten Datenimportobjekt ist der Datenimport für dieses Beispiel konfiguriert,
wobei folgende Punkte speziell zu beachten sind:
1. Damit beim mehrfachen Importieren derselben Dateien bereits früher erzeugte Objekte wiedergefunden
werden, wird der genaue (vollständige) Dateiname in der Eigenschaft Betreff ([email protected]:
objsubject) der Objekte gespeichert. Im Objektnamen wird nur der lesbarere Name ohne Pfad und
Dateierweiterung eingetragen.
2. Die Inhaltseigenschaft Inhalt ([email protected]:contcontent) in der zusammengesetzten
Eigenschaft Hauptinhalt ([email protected]:content) eines erzeugten Word-Objekts wird auf
den genauen Dateinamen docPath gesetzt. Fabasoft Components/COLD erkennt beim Importieren,
dass es sich um einen gültigen Dateinamen handelt und das Zielattribut eine Inhaltseigenschaft ist und
kopiert die Datei in das Inhaltsattribut des Objekts. Die Originaldatei wird nicht gelöscht. Gesetzte
Optionen sind „Muss im Aggregat definiert sein“, damit keine Hauptinhaltseigenschaft erzeugt wird,
wenn der Dateiname nicht gesetzt ist, und „Dateiname“, damit der Wert immer als Dateiname interpretiert wird, selbst wenn die Datei nicht mehr existieren würde. Anderenfalls würde der Wert der Spalte
über eine temporäre Datei als Inhalt dem Hauptinhalt zugewiesen, was in diesem Fall nicht sinnvoll ist.
3. Die Eigenschaft Endung der Datei ([email protected]:contextension) in der zusammengesetzten Eigenschaft Hauptinhalt ([email protected]:content) eines erzeugten Word-Objekts
wird auf den Festwert „doc“ gesetzt, damit beim Bearbeiten des Objekts automatisch die korrekte Applikation gestartet werden kann.
145
Abbildung 22
Konfiguration eines Imports
mit OLE DB File Provider
7. Konfiguration der Datenquellen
7.2 OLE DB
7.3 Report-Umsetzer
7.3
report-Umsetzer
Mit dem Report-Umsetzer steht in Fabasoft Components/COLD eine Datenquelle zur Verfügung, mit der Werte aus Textdateien gelesen werden können, wie sie beispielsweise beim Ausdruck von Formularen oder Reports
generiert werden.
Die Definition der Feldnamen und der Datenbereiche erfolgt in einem Report-Umsetzer-Objekt oder einem
Report-Umsetzerkomponentenobjekt. Wie bei den Datenimportobjekten unterscheiden sich die beiden
Objektklassen nur durch die Tatsache, dass Komponentenobjekte als Elemente von Softwarekomponenten leichter extrahiert und in anderen Fabasoft Components Domänen wieder eingespielt werden können. Dafür benötigen sie eine Referenz und die Zuordnung zu einer Softwarekomponente.
Abbildung 23
Konfiguration des ReportUmsetzers
147
Hier eine Beschreibung der einzelnen Eigenschaften:
EIGENSCHAFT
BESCHREIBUNG
Steuerzeichen
ignorieren
Wird die Eigenschaft auf „Ja“ gesetzt, so werden alle Steuerzeichen
(< ASCII(32)) unterdrückt.
OEM-zu-ANSIKonvertierung
Je nach Einstellung werden die gelesen Daten im ANSI- oder OEM-Zeichensatz
interpretiert
Kennung für
neue Seite
Zeichenkette, die die Dokumente innerhalb einer Druckdatei voneinander trennt
(Codes „{CR}“, „{LF}“, „{TAB}“ und „{FF}“ stehen für die Steuerzeichen „0xD“,
„0xA“, „0x9“ und „0xC“). Ein „^“-Zeichen bedeutet, dass die gesuchte Zeichenkette am Anfang einer Zeile stehen muss.
Kennung für
Zeilenende
Zeichenkette, die die einzelnen Zeilen des Dokuments trennt. Es sind hier dieselben Codes verwendbar, wie bei der Kennung für neue Seite.
Seitentrennung
gehört zu
Beim Import von Druckdateien trennt die unter Kennung für neue Seite eingestellte Kennung für neue Seite die einzelnen gedruckten Dokumente (Objekte).
Je nach Druckjob gehört die Zeile mit dem Trennstring nun entweder an den
Anfang eines neuen Dokuments, an das Ende des gerade gelesenen Dokuments
oder ist überhaupt nicht Teil des Dokuments. Diese Information kann für die
Bestimmung von Positionen innerhalb des Dokuments wichtig sein.
Folgende Optionen stehen zur Verfügung:
°
°
°
Nächster Seite: Die Trennzeile ist der Anfang eines neuen Dokuments
Vorheriger Seite: Die Trennzeile ist das Ende des gerade gelesenen Dokuments
Keiner Seite: Die Trennzeile ist nicht Teil eines Dokuments
7. Konfiguration der Datenquellen
7.3 Report-Umsetzer
7.4 Skript-Datenquelle
7.4
EIGENSCHAFT
BESCHREIBUNG
Ignoriere erste
Spalten der Zeilen
Anzahl der Spalten, die am Anfang jeder Zeile ignoriert werden sollen. Auf
einigen Host-Systemen werden in den ersten Zeichen jeder Zeile Steuerinformationen für den Druck gespeichert, die für den Datenimport irrelevant sind.
Ignoriere erste
Zeilen der Seite
Anzahl der Zeilen, die am Anfang jedes Dokuments ignoriert werden sollen
Umsetzung von
Feldern
In dieser Liste werden die Felder definiert, die aus der Quelldatei extrahiert und
an den Datenimport übergeben werden sollen. Es werden dafür rechteckige
Bereiche relativ zum Seitenanfang oder relativ zu einer Textmarke definiert.
skript-Datenquelle
Die Implementierung einer Datenquelle über ein Skript erlaubt die Anbindung sehr unterschiedlicher Datenquellen bzw. die Interpretation von Dateiformaten, die von den anderen Datenquellentypen nicht unterstützt werden.
Die Implementierung der Skripts kann unter Microsoft Windows in VBScript erfolgen, indem in einem SkriptObjekt oder einem Skript-Komponentenobjekt die folgenden Funktionen implementiert werden. Die Beispiele
zeigen die Implementierung eines Readers für spezielle XML-Dateien.
Im globalen Skriptbereich können allgemeine Initialisierungsaufgaben erledigt sowie Variablen deklariert und
initialisiert werden, die in mehreren Funktionen benötigt werden oder deren Werte über mehrere Aufrufe einer
Funktion hinweg erhalten bleiben sollen. Der globale Bereich wird beim Laden des Skripts einmalig durchgeführt.
149
Beispiel: Globaler Skriptbereich
'LANGUAGE="VBScript"
Dim xmldoc, xmlcustomer
Dim columnNames
Dim coort
Set coort = CreateObject("Coo.Runtime")
Set xmlcustomer = Nothing
Quelltext 3: Globaler Skriptbereich
Initialisierung
Die Funktion Init wird zu Beginn des Datenimports einmalig aufgerufen. Als Parameter wird der Wert der
Eigenschaft Tabelle aus dem Datenimportobjekt übergeben. Hier werden typischerweise Dateien geöffnet oder
Variablen gesetzt, die vom Wert der Tabellen-Eigenschaft abhängig sind.
Beispiel: Öffnen der XML-Datei
Function Init(table)
Set xmldoc = CreateObject("MSXML2.DOMDocument.6.0")
xmldoc.async = False
If xmldoc.load(table) Then
Set xmlcustomer = xmldoc.documentElement.firstChild
End If
End Function
Quelltext 4: Öffnen der XML-Datei
Die in der Eigenschaft Tabelle definierte XML-Datei wird mit dem XML-Parser geparst und die Variable, die den
aktuellen Datensatz enthält, auf den ersten Knoten der Liste gesetzt.
7. Konfiguration der Datenquellen
7.4 Skript-Datenquelle
Anfangsdatensatz
Diese Funktion muss nicht implementiert werden und wird genau dann einmal aufgerufen, wenn in der Eigenschaft Anfangsdatensatz ein Wert größer als „1“ eingetragen ist. Dann wird dieser Wert minus 1 als Parameter übergeben.
Beispiel: Überspringen von Datensätzen
Function Skip(rows)
Do While Not(xmlcustomer Is Nothing) And rows > 0
Set xmlcustomer = xmlcustomer.nextSibling
rows = rows – 1
Loop
End Function
Quelltext 5: Überspringen von Datensätzen
Im vorliegenden Beispiel wird die übergebene Anzahl von Knoten im XML übersprungen.
Spaltennamen
Auch die Funktion, in der die Spaltennamen berechnet werden, wird einmal aufgerufen und als Rückgabeparameter muss eine Liste von Spaltennamen definiert werden. Die Anzahl der Spalten muss mit der Anzahl der Werte übereinstimmen, die vom Skript später pro Datensatz gesetzt werden.
151
Beispiel: Berechnen der Spaltennamen
Function GetHeader(columns)
Redim columnNames(100)
Redim columns(100)
Dim columnCount, xmlnode
columnCount = 0
Set xmlnode = xmlcustomer.firstChild
Do While Not(xmlnode Is Nothing)
columnNames(columnCount) = xmlnode.nodeName
columns(columnCount) = xmlnode.nodeName
Set xmlnode = xmlnode.nextSibling
columnCount = columnCount + 1
Loop
Redim Preserve columnNames(columnCount - 1)
Redim Preserve columns(columnCount - 1)
End Function
Quelltext 6: Berechnen von Spaltennamen
In diesem Beispiel werden die Namen der Subelemente des ersten XML-Knotens als Namen für die Spalten verwendet.
Datensätze
Während der Verarbeitung wird die Funktion GetRecord solange immer wieder aufgerufen, bis entweder die
konfigurierte Anzahl der Datensätze erreicht ist, oder der Parameter IsValid dieser Funktion auf „False“
gesetzt wird. Im Parameter data wird ein String-Array übergeben, das im Skript mit den Werten eines Datensatzes befüllt werden muss. Ist das Ende der Daten erreicht, so muss der Parameter IsValid auf „False“
gesetzt werden, ansonsten auf „True“.
7. Konfiguration der Datenquellen
7.4 Skript-Datenquelle
Beispiel: Berechnen eines Datensatzes
Function GetRecord(data, isvalid)
If xmlcustomer Is Nothing Then
isvalid = False
Else
coort.Trace ""
For i = LBound(columnNames) To UBound(columnNames)
Set xmlnodelist = xmlcustomer.getElementsByTagName(columnNames(i))
If xmlnodelist.length > 0 Then
data(i) = xmlnodelist.item(0).text
coort.Trace columnNames(i) + ": " + data(i)
End If
Next
Set xmlcustomer = xmlcustomer.nextSibling
isvalid = True
End If
End Function
Quelltext 7: Berechnen eines Datensatzes
Hier werden die Werte der Subelemente der Knoten als Datenwerte der Spalten ausgelesen, die beim Aufruf
von GetHeader berechnet wurden.
Ende
Die Funktion Terminate kann implementiert werden um nach dem Lesen der Datensätze einen Status zu setzen, temporäre Dateien zu löschen oder andere Aufräumtätigkeiten durchzuführen. Zu diesem Zeitpunkt muss
aber die Verarbeitung der Datensätze noch nicht abgeschlossen sein. Es dürfen daher keine Aktionen angestoßen werden, die schon auf die Beendigung des Imports angewiesen sind.
153
Beispiel: Aufräumen des Imports
Function Terminate()
Set xmlcustomer = Nothing
Set xmldoc = Nothing
End Function
Quelltext 8: Aufräumen des Imports
Hier werden die XML-Ressourcen explizit freigegeben.
7.5
LDAP-Datenquelle
LDAP (Lightweight Directory Access Protocol) ist ein standardisiertes Protokoll für den Zugriff auf Directories,
wie zum Beispiel das Microsoft Active Directory oder OpenLDAP, die unter anderem für die Verwaltung von
Benutzerdaten und Gruppen verwendet werden. Mit der Anbindung von LDAP-Verzeichnissen ist eine automatisierte Übernahme und Aktualisierung von Log-in-Informationen aus dem Directory in die Benutzerverwaltung der
Fabasoft Components Domäne möglich.
Beispiel: Objekt im Directory
dn: cn=John Doe,dc=example,dc=com
cn: John Doe
givenName: John
sn: Doe
telephoneNumber: +1 888 555 6789
telephoneNumber: +1 888 555 1234
mail: [email protected]
manager: cn=Barbara Doe,dc=example,dc=com
objectClass: inetOrgPerson
objectClass: organizationalPerson
objectClass: person
objectClass: top
7. Konfiguration der Datenquellen
7.4 Skript-Datenquelle
7.5 LDAP-Datenquelle
Die Objekte in einem Directory sind hierarchisch strukturiert und jeder Eintrag darin besteht aus mehreren Eigenschaften. Der Distinguished Name (dn) ist der Primärschlüssel für jeden Eintrag im Directory. Die Eigenschaften sind in einem Schema definiert und können auch mehrere Werte haben. Die Namen der Eigenschaften sind
gleichzeitig die Spaltennamen des Datenimports, mit der Ausnahme, dass die Spaltennamen um Formatierungsoptionen erweitert werden können, die zur Interpretation der Werte notwendig sein können.
Folgende Parameter werden für die Definition der Verbindung zum LDAP-Server unterstützt:
°
°
°
host: Hostname des Servers
°
°
°
°
°
searchbase: Basisverzeichnis für die Datenauswahl
port: TCP-Port für die Verbindung zum LDAP-Server
username/password: Accountname und Passwort für die Verbindung zum LDAP-Verzeichnis. Werden
diese Parameter unter Microsoft Windows nicht angegeben, wird „Integrated Authentication“ (über
Kerberos) für die Anmeldung verwendet.
timeout: Timeout für die Abfrage in Sekunden
sizelimit: Größenlimit für die Anfrage
pagesize: Maximale Anzahl der Werte pro Eigenschaft
dirsyncflags/dirsyncsize: Flags und Abfragegröße für die Synchronisation von Verzeichnissen
Beispiel: Verbindungsparameter LDAP-Datenquelle
host=FSPCOLD;
searchbase=OU=Test Users,DC=coldtest,DC=com;
timeout=100;
pagesize=300
Diese Konfiguration definiert die Übernahme von Datensätzen vom Host „FSPCOLD“. Es werden jene
Objekte übernommen, die in der Hierarchie unterhalb von der Organizational Unit „OU=Test
Users,DC=coldtest,DC=com“ liegen.
155
In der Tabelleneigenschaft werden die Einschränkungen bei der LDAP-Abfrage spezifiziert. Um Benutzerobjekte
zu laden ist das zum Beispiel „(objectClass=user)“.
In vielen Fällen müssen jedoch vor dem Laden der Daten Formatierungen durchgeführt oder Spalten berechnet
werden. Dafür ist das Filterskript für Rohdaten die richtige Stelle. Im Fall des Microsoft Active Directory wird
zum Beispiel aus dem Attribut userAccountControl das Bit für die Information ausgelesen, ob ein Benutzerkonto aktiv ist oder nicht. Dieses Skript finden Sie im Kapitel „Zusätzliche Beispiele“ auf Seite 159.
7.6
ADE DB
Seit kurzem stehen auch jene Datenbankanbindungen direkt für den Datenimport zur Verfügung, die von den
Fabasoft Components Services verwendet werden. Über diese ADE DB genannte Schnittstelle sind vor allem
die Datenbanksysteme Oracle (über die OCI-Schnittstelle) und PostgreSQL über deren datenbankspezifisches
Interface angebunden und können damit auch ohne Installation von ODBC- oder OLE DB-Treibern verwendet werden.
Die Parameter sind genau dieselben, wie sie auch für die Verbindungseinstellungen der Fabasoft Components
Backendservices zu den jeweiligen Datenbanken verwendet werden. Als Datenbank-Schnittstellen stehen damit
neben OLE DB und ODBC, die ja auch direkt als Datenquelle verwendet werden können, die Anbindung von
Oracle und PostgreSQL über deren eigenes Datenbank-API zur Verfügung. Somit kann jetzt mit derselben Datenbankkonfiguration des Backendservers auch der Datenimport durchgeführt werden.
Ein Unterschied zu den anderen Datenbank-Datenquellentypen ergibt sich dadurch, dass die ADE DB keine allgemeine Schnittstelle bietet, mit der die Datentypen der Spalten ermittelt werden können. Wenn bei den Zuordnungen die Option „Dateiname“ gesetzt ist, dann wird der Wert in eine Datei gespeichert, wenn die Option
„Inhalt als Wert“ gesetzt ist, dann wird eine Zeichenkette von 1 MB Größe verwendet, sonst werden generell
Zeichenketten mit 256 Zeichen verwendet. Werte die über diese Grenzen hinausgehen werden abgeschnitten.
7. Konfiguration der Datenquellen
7.5 LDAP-Datenquelle
7.6 ADE DB
7.7 CSV
7.8 Roll-Forward Log-Reader
7.7
cSV
Die Prinzipien der CSV-Dateien (Comma-Separated Values) wurden schon im Abschnitt über ODBC besprochen.
Seit Fabasoft Components Version 7 kann man CSV-Dateien auch ohne ODBC durch die Verwendung der
CSV-Datenquelle importieren.
7.8
Roll-Forward Log-Reader
Nicht als Datenquelle auszuwählen, aber dennoch von der Funktion wie eine Datenquelle ist der Roll-Forward
Log-Reader, der implizit verwendet wird, wenn der Menübefehl Roll-Forward zum Starten des Datenimports
verwendet wird. Der Roll-Forward Log-Reader liest die Daten aus dem Roll-Forward-Log, das im Protokollobjekt
hinterlegt ist und in dem die Daten jener Datensätze eingetragen sind, die beim letzten Datenimport nicht vollständig korrekt verarbeitet werden konnten.
Damit können, wenn Verarbeitungsfehler aufgetreten sind, konkret jene Datensätze noch einmal importiert werden, bei deren Verarbeitung die Fehler aufgetreten sind.
157
8
159
8 Zusätzliche Beispiele
Beim Importieren von Daten steht man bei jeder Migration immer vor ähnlichen Situationen,
wodurch die Wiederverwendung und Anpassung von konkreten Datenimporten, Filterskripts oder
Konfigurationen besonders wichtig ist. In diesem Kapitel finden Sie neben erklärenden Beispielen
auch einige Skripts, die von konkreten Migrationen abgeleitet sind und die leicht an Anforderungen
eines Datenimports angepasst werden können.
8.1
Datenquellenskript
XML-Datenquelle
In diesem Skript werden aus einer XML-Datei Datensätze importiert. Es wird dabei angenommen, dass in der
XML-Datei unter dem Wurzelknoten eine Liste von XML-Elementen angeführt ist und für jeden Knoten ein Datensatz erzeugt werden soll. Die Werte der Spalten stammen aus den Subelementen der einzelnen Listenknoten,
die Bezeichnungen aus den Elementnamen dieser Subelemente.
' LANGUAGE="VBScript"
Dim xmldoc, xmlcustomer
Dim columnNames
Dim coort
Set coort = CreateObject("Coo.Runtime")
Set xmlcustomer = Nothing
Function Init(table)
Set xmldoc = CreateObject("MSXML2.DOMDocument.6.0")
xmldoc.async = False
If xmldoc.load(table) Then
Set xmlcustomer = xmldoc.documentElement.firstChild
End If
End Function
Function GetHeader(columns)
Redim columnNames(100)
Redim columns(100)
Dim columnCount, xmlnode
columnCount = 0
Set xmlnode = xmlcustomer.firstChild
Do While Not(xmlnode Is Nothing)
columnNames(columnCount) = xmlnode.nodeName
columns(columnCount) = xmlnode.nodeName
Set xmlnode = xmlnode.nextSibling
columnCount = columnCount + 1
Loop
Redim Preserve columnNames(columnCount - 1)
Redim Preserve columns(columnCount - 1)
End Function
Function Skip(rows)
Do While Not(xmlcustomer Is Nothing) And rows > 0
Set xmlcustomer = xmlcustomer.nextSibling
rows = rows – 1
Loop
End Function
Function GetRecord(data, isvalid)
If xmlcustomer Is Nothing Then
isvalid = False
Else
coort.Trace ""
For i = LBound(columnNames) To UBound(columnNames)
Set xmlnodelist = xmlcustomer.getElementsByTagName(columnNames(i))
If xmlnodelist.length > 0 Then
data(i) = xmlnodelist.item(0).text
coort.Trace columnNames(i) + ": " + data(i)
End If
Next
Set xmlcustomer = xmlcustomer.nextSibling
isvalid = True
End If
End Function
Quelltext 9: Datensätze aus XML-Datenquelle importieren
8.2
Filterskript für Rohdaten
Berechnete Spalten
Gleich im Anfangskapitel wurde der Datenimport aus der Tabelle Customers der Datenbank Northwind
beschrieben. Darin trat das Problem auf, dass der ContactName sowohl Vor- als auch Nachname beinhaltet. Um diesen in zwei Teile zu zerlegen, wurde im ersten Ansatz eine SQL-View verwendet. Alternativ dazu kann
die Berechnung der beiden Werte auch in einem Filterskript für Rohdaten erfolgen.
8. Zusätzliche Beispiele
8.1 Datenquellenskript
8.2 Filterskript für Rohdaten
Dazu definiert man bei den Zuordnungen eine Zeile, in der nur die Spalte auf „CustomerName“ gesetzt ist aber
keine Objektklasse und keine Eigenschaft. Dadurch wird die Spalte zwar von der Datenquelle angefordert und
steht dem Filterskript zur Verfügung, es werden aber keine Zuordnungen von diesem Wert vorgenommen. Als
Spaltennamen für die Zuordnung zum Vor- bzw. Nachnamen setzt man „@CustomerFirstname“ bzw.
„@CustomerLastname“. Das „@“-Zeichen an der ersten Stelle des Namens bedeutet, dass die Spalte nicht aus
der Datenquelle stammt, sondern vom Filterskript für Rohdaten berechnet wird.
Nun aber zum Skript, das hier in zwei Versionen vorliegt, als VBScript und als JavaScript mit der gleichen Funktionalität.
' LANGUAGE="VBScript"
' Available global Variables:
'
coort (Components Runtime Object)
'
cootx (Components Transaction Object)
'
coolog (XMLLogWriter Object,
'
valid only if logging is not disabled)
' Define global variables holding the indexes
' of data columns
Dim ContactNameIdx, ContactFirstnameIdx, ContactLastnameIdx
' mark indexes as invalid
ContactNameIdx = -1
ContactFirstnameIdx = -1
ContactLastnameIdx = -1
' this procedure is called by the reader thread for
' each data record
Function Main(columns, data, changed, skip)
' Parameters:
'
columns: [IN] Array of Strings: column names
'
data:
[INOUT] Array of Strings: column data
'
changed: [OUT] Boolean: Set this flag to 'true' if
'
'data' has been changed
'
skip:
[OUT] Boolean: Set this flag to 'true'
'
to skip the whole record
Dim i, nameParts
If ContactNameIdx = -1 Then
For i = LBound(columns) To UBound(columns)
If columns(i) = "ContactName" Then
' Index of ContactName column
ContactNameIdx = i
ElseIf columns(i) = "@ContactFirstname" Then
' Index of ContactFirstname column
ContactFirstnameIdx = i
161
ElseIf columns(i) = "@ContactLastname" Then
' Index of ContactLastname column
ContactLastnameIdx = i
End If
Next
End If
If ContactNameIdx <> -1 And ContactFirstnameIdx <> -1 \
And ContactLastnameIdx <> -1 Then
nameParts = Split(data(ContactNameIdx), " ")
Select Case UBound(nameParts)
Case 1: ' ContactName consists of 2 words
data(ContactFirstnameIdx) = nameParts(0)
data(ContactLastnameIdx) = nameParts(1)
Case 2: ' ContactName consists of 3 words
If nameParts(1) = „de“ Then
data(ContactFirstnameIdx) = nameParts(0)
data(ContactLastnameIdx) = nameParts(1) + " " + \
nameParts(2)
Else
data(ContactFirstnameIdx) = nameParts(0) + " " +\
nameParts(1)
data(ContactLastnameIdx) = nameParts(2)
End If
Case Else
data(ContactLastnameIdx) = data(ContactNameIdx)
End Select
changed = True
Else
coolog.LogString "Index not found"
skip = True
End If
End Function
Quelltext 10: Filterskript für Rohdaten (VBScript)
Alternativ dazu das folgende JavaScript:
// LANGUAGE="JScript"
/*----------------------------Available global Variables:
coort (Components Runtime Object)
cootx (Components Transaction Object)
coolog (XMLLogWriter Object, valid only if logging is not disabled)
-----------------------------*/
8. Zusätzliche Beispiele
8.2 Filterskript für Rohdaten
// this procedure is called by the reader thread
// for each data record
/*----------------------------function MainEx(params)
Parameters:
params: [INOUT] Dictionary
params.values: Dictionary: Column values
params.changed: bool: Set this flag to 'true' if
'params.values' has been changed
params.skip:
bool: Set this flag to 'true' to skip
the whole record
-----------------------------*/
function MainEx(params)
{
var nameParts = params.values.ContactName.split(" ");
switch (nameParts.length) {
case 2:
params.values.SetEntryValue("@ContactFirstname", 0,
nameParts[0]);
params.values.SetEntryValue("@ContactLastname", 0,
nameParts[1]);
break;
case 3:
if (nameParts[1] == "de") {
params.values.SetEntryValue("@ContactFirstname", 0,
nameParts[0]);
params.values.SetEntryValue("@ContactLastname", 0,
nameParts[1] + " " + nameParts[2]);
}
else {
params.values.SetEntryValue("@ContactFirstname", 0,
nameParts[0] + " " + nameParts[1]);
params.values.SetEntryValue("@ContactLastname", 0,
nameParts[2]);
}
break;
default:
params.values.SetEntryValue("@ContactLastname", 0,
params.values.ContactName);
break;
}
params.changed = true;
}
Quelltext 11: Filterskript für Rohdaten (JavaScript)
163
Berechung der Werte aus der LDAP-Datenquelle
In dem folgenden Filterskript für Rohdaten werden aus der LDAP-Eigenschaft userAccountControl die Information extrahiert, ob das User-Objekt ein Computeraccount ist oder ob das Objekt inaktiv ist. Je nachdem wird
der Datensatz gänzlich ignoriert oder die Eigenschaft Aktiv auf „1“ oder „0“ gesetzt.
Außerdem werden aus den Werten der LDAP-Eigenschaft proxyAdresses E-Mail-Adressen im korrekten Format für die Eigenschaften in Fabasoft Components generiert.
' LANGUAGE="VBScript"
' Available global Variables:
'
coort (Components Runtime Object)
'
cootx (Components Transaction Object)
'
coolog (XMLLogWriter Object, valid only if logging is not disabled)
' global code and variables go here
Dim userAccountControl, dn, sAMAccountName, proxyAddresses, emailAddress,
emailKnownType
userAccountControl = -1
dn = -1
sAMAccountName = -1
proxyAddresses = -1
emailAddress = -1
emailKnownType = -1
Function Main(columns, data, changed, skip)
' Parameters:
'
columns: [IN] Array of Strings: column names
'
data:
[INOUT] Array of Strings: column data
'
changed: [OUT] Boolean: Set this flag to 'true' if 'data' has been
changed
'
skip:
[OUT] Boolean: Set this flag to 'true' to skip the whole
record
Dim cnpos, nextpos, esc
Dim lastDn, lastUserStatus
' this procedure is called by the reader thread for each data record
If userAccountControl=-1 Then
For i = LBound(columns) To UBound(columns)
If columns(i) = "userAccountControl" Then
userAccountControl = i
8. Zusätzliche Beispiele
8.2 Filterskript für Rohdaten
ElseIf columns(i) = "dn" Then
dn = i
ElseIf columns(i) = "sAMAccountName" Then
sAMAccountName = i
ElseIf columns(i) = "proxyAddresses" Then
proxyAddresses = i
ElseIf columns(i) = "@emailAddress" Then
emailAddress = i
ElseIf columns(i) = "@emailKnownType" Then
emailKnownType = i
End If
Next
End If
If userAccountControl > -1 Then
If Len(data(userAccountControl)) > 1 Then
If (CLng(data(userAccountControl)) AND 512) = 0 Then
skip = True
ElseIf (CLng(data(userAccountControl)) AND 2) = 0 Then
data(userAccountControl) = "1"
changed = True
Else
data(userAccountControl) = "0"
changed = True
End If
End If
End If
If skip = False AND dn > -1 AND sAMAccountName > -1 Then
If Len(data(dn)) > 1 AND Len(data(sAMAccountName)) > 0 Then
cnpos = InStr(data(dn), "DC=")
domain = ""
If cnpos > 0 Then
esc = False
cnpos = cnpos + 3
Do While cnpos < Len(data(dn))
If Not esc AND Mid(data(dn), cnpos, 1) = "," Then
Exit Do
Else
domain = domain + Mid(data(dn), cnpos, 1)
If Mid(data(dn), cnpos, 1) = "\" Then
esc = Not esc
Else
esc = False
End If
End If
cnpos = cnpos + 1
Loop
End If
165
If Len(domain) > 0 Then
data(sAMAccountName) = domain + "\" + data(sAMAccountName)
changed = True
End If
End If
End If
If skip = False And proxyAddresses > -1 AND emailAddress > -1 AND emailKnownType > -1 Then
If Len(data(proxyAddresses)) > 0 Then
addrs = Split(data(proxyAddresses), ":")
If UBound(addrs) = 1 Then
data(emailAddress) = addrs(1)
If LCase(addrs(0)) = "x400" Then
data(emailKnownType) = "2"
ElseIf LCase(addrs(0)) = "smtp" Then
data(emailKnownType) = "1"
End If
changed = True
End If
End If
End If
End Function
Quelltext 12: Filterskript zum Zugriff auf LDAP-Datenquelle
8.3
Filterskript für Objekte
Versionierung
Im folgenden Skript wird von jenen Objekten eine Version gezogen, die in der aktuellen Transaktion verändert
wurden, was durch den Aufruf der Funktion IsChanged ermittelt wird. Da gerade erzeugte Objekte nicht versioniert werden können, wird zusätzlich mit der Funktion IsCreated geprüft, ob die Objekte in dieser Transaktion erzeugt wurden.
8. Zusätzliche Beispiele
8.2 Filterskript für Rohdaten
8.3 Filterskript für Objekte
Es wird dabei das erste Objekt aus dem Parameter objects verwendet. Wenn mehrere Objekte an dem
Datenimport beteiligt sind, müssen die beiden Parameter classes und ids herangezogen werden, um das
richtige Objekt herauszufinden.
Selbst wenn zum Zeitpunkt des Aufrufs des Skripts die Eigenschaften bereits geändert sind, so wird von der Versionierung der Originalzustand des Objekts – als jener vor der aktuellen Transaktion – in der Version abgelegt.
Die Änderungen werden beim Commit in der aktuellen Version durchgeführt.
// LANGUAGE="JScript"
// Available global Variables:
//
coort (Components Runtime Object)
//
cootx (Components Transaction Object)
//
coolog (XMLLogWriter Object, valid only if logging is not disabled)
//
cootx is not the transaction that created the objects,
//
but the data main transaction of the data import
//
(equal to <cootx> in the filter for raw data)!
// global code and variables go here
function Main(classes, ids, objects, threadtx)
{
// Parameters:
//
classes: [IN] Array of Strings: object class references
//
ids:
[IN] Array of Integer: object class id’s
//
objects: [IN] Array of Components Objects
//
threadtx: [IN] Components Transaction Object of the writer thread
var obj = objects.toArray()[0];
if (obj) {
if (!threadtx.IsCreated(obj) && threadtx.IsChanged(obj)) {
obj.CallAction(threadtx, "ObjectFixVersion", false, "Datenimport");
}
}
}
Quelltext 13: Skript zur Versionierung
167
8.4
Filterskript für Objekte nach dem Commit
Archivierung
Ähnlich wie bei der Versionierung der Objekte im Filterskript für Objekte vor dem Commit, können Objekte
und Inhalte nach dem Commit auf ein Archiv gelegt werden. Hat man also vor, die importierten Daten sofort auf
ein Archiv auszulagern, um zum Beispiel Platz auf den Festplatten-Volumes der Fabasoft Components MMCServices zu schaffen, kann man das gleich nach dem Anlegen des Objekts im Filterskript für Objekte nach
dem Commit tun.
8. Zusätzliche Beispiele
8.4 Filterskript für Objekte nach dem Commit
169
9
171
9 Glossar
Aggregat
Seite 49
Eine Zusammenfassung von mehreren Eigenschaften zu einer großen Containereigenschaft, die auch als Liste
dargestellt werden kann. Ein Aggregat, oder auch zusammengesetzte Eigenschaft genannt, ist ein Container für
mehrere Formularblockelemente. Ein Aggregat entspricht einem Formularblock.
Seite 79
Archivierung
Unter Archivierung wird die Ablage und das Wiederbeschaffen von Informationen in IT-Systemen verstanden.
Seite 48
Archivstore
Um das Archivsystem verwenden zu können, muss in Fabasoft Components mindestens ein Objekt der Klasse
Archiv-Store definiert werden, welches einen Verzeichnispfad zur Archivierung von Geschäftsobjekten angibt.
AT-Service
Seite 75
Am AT-Server laufen die Fabasoft Components AT-Services für die Durchführung automatischer Aufgaben(Automated Tasks) im Kontext eines Benutzers ohne Benutzerinteraktion ab.
Get-Aktion
Bezeichnet die bei einer Eigenschaft hinterlegte Aktion nach dem Lesen der Eigenschaft.
Seite 44
Seite 67
Indizierung
Das automatische Speichern von in Dateien im Dateisystem enthaltenen Texten und Metadaten in einem Index.
Dieses Verfahren erlaubt eine schnelle Suche in den Inhalten von Dateien, da nicht in den Dateien selbst,
sondern im Index nach dem Suchbegriff gesucht wird.
Komponentenobjekt
Seite 21
Objekt, das von einer bestimmten Objektklasse abgeleitet ist und Konfigurationsdaten enthält. Komponentenobjekte werden zu Softwarekomponenten zusammengefasst.
Migrationszwischenformat
Seite 96
Dieser Begriff wird im Zusammenhang mit der Ablösung von Altsystemen und Übernahme von Daten (Migrationen) verwendet. Beim Migrationszwischenformat handelt es sich um eine vorgegebene Datenstruktur in einer
relationalen Datenbank. Mit Hilfe der Fabasoft Components/COLD-Technologie werden die Daten dann aus dem
Migrationszwischenformat in eine Fabasoft Components Domäne geladen.
Seite 61
Objektadresse
Jedes Objekt in einer Fabasoft Components Domäne hat eine Objektadresse. Diese ist weltweit eindeutig.
Seite 44
Set-Aktion
Bezeichnet eine Aktion, die beim Setzen eines Eigenschaftswertes ausgeführt wird. Eine derartige Aktion kann
direkt bei der Eigenschaft eingetragen werden.
Transaktion
Seite 28
Eine Abfolge von mehreren Operationen, die entweder alle oder gar nicht durchgeführt werden müssen. Erfolgt
in einer Operation ein Fehler, müssen alle zuvor durchgeführten Änderungen wieder rückgängig gemacht
werden. Werden alle Operationen ohne Fehler durchgeführt, so können alle Änderungen übernommen werden.
Seite 83
TriStep
Spezielle Ausprägung eines Objektkonstruktors. Ist der Konstruktor einer Objektklasse als TriStep implementiert,
wird beim Erzeugen einer neuen Objektinstanz die Aktion [email protected]:PreGUI aufgerufen und
anschließend das für diese Objektklasse definierte Konstruktorformular angezeigt. Nach dem Schließen des
Konstruktorformulars durch den Benutzer wird die Aktion [email protected]:PostGUI ausgeführt.
Webbrowser-Client
Seite 88
Unter einem Webbrowser-Client wird in diesem Buch ein Arbeitsplatzrechner (PC-Arbeitsplatz) mit Betriebssystem (z.B. Microsoft Windows), Webbrowser (Mozilla Firefox oder Microsoft Internet Explorer) und entsprechender Anwendungssoftware (z.B. OpenOffice.org oder Microsoft Office) verstanden.
9. Operations Manager Log
173
Wrapper-Aktion
Seite 116
Eine Aktion, die vor bzw. nach der Ausführung der eigentlich aufgerufenen Aktion ausgeführt wird. Pre-Wrapper
werden vor der Ausführung der aufgerufenen Aktion ausgeführt, Post-Wrapper nach deren Ausführung.
10
175
10 Abbildungsverzeichnis
Abbildung 1
Abbildung 2
Abbildung 3
Abbildung 4
Abbildung 5
Abbildung 6
Abbildung 7
Abbildung 8
Abbildung 9
Abbildung 10
Abbildung 11
Abbildung 12
Abbildung 13
Abbildung 14
Abbildung 15
Abbildung 16
Abbildung 17
Abbildung 18
Abbildung 19
Abbildung 20
Abbildung 21
Abbildung 22
Abbildung 23
Customers: Datenquelle und Zuordnungen
Customers: Objektbeziehungen und Klasseneigenschaften
Customers: Daten importieren
Datenfluss bei der Verarbeitung eines Datenimports
Zuordnungen mit Spaltenansicht
Objektbeziehungen mit Spaltenansicht
Kasseneigenschaften mit Spaltenansicht
Einstellungen und Optionen des Datenimports
Protokollobjekt
Skripts des Datenimports
Schlüssel und Änderungsmodus
Definition mehrerer Listeneinträge pro Datensatz
Methoden zur Vermeidung doppelter Objekte
Auswahl der Suchmethoden
Verarbeitung der Datensätze im Worker Thread
Optimierungsoptionen des Datenimports
Auswahl einer ODBC- bzw. OLE DB Datenquelle
Auswahl der Tabelle und der Spalten
Definition eines Datenbereichs in Microsoft Excel
Definition einer OLE DB-Datenquelle
Konfiguration der OLE DB-Quelldatenbank
Konfiguration eines Imports mit OLE DB File Provider
Konfiguration des Report-Umsetzers
22
23
24
27
32
33
34
35
36
38
43
53
58
65
78
98
133
134
136
140
141
146
147
11
177
11 Literaturverzeichnis
[Gorh06]
Gorham, Nick: „The unixODBC Project home page“. URL: http://www.unixodbc.org
[Stand: 4.6.2007].
[MoNo03]
Morle, James/Nørgaard, Mogens: „BAARF: Enough is enough“.
URL: http://www.miracleas.com [Stand: 4.6.2007].
[MSDN04]
Microsoft Developer Network: „Schema.ini File (Text File Driver)“.
URL: http://msdn.microsoft.com/library/default.asp?url=/library/
en-us/odbc/htm/odbcjetschema_ini_file.asp [Stand: 4.6.2007].
[Orac07]
Oracle Technology Network: „Instant Client Downloads for Linux x86“.
URL: http://www.oracle.com/technology/software/tech/oci/
instantclient/htdocs/linuxsoft.html [Stand: 4.6.2007].
Herunterladen