Erzwingen von Interoperabilität Screen Scraping, Bots und rechtliche Bestimmungen Abstract In der Ausarbeitung zum technischen Thema dieser Lehrveranstaltung wird vorrangig auf das Erzwingen von Interoperabilität, also auf die Verknüpfung nicht speziell Interoperabilität unterstützender Systeme, eingegangen. Besonderes Augenmerk soll dabei auf Screen Scraping, sowie auf dazu verwendete Software, gelegt werden. Weiters befasst sich die Arbeit mit den rechtlichen Fragestellungen, die durch die – vorab nicht beabsichtigte – Weiterverwendung dieser ausgelesenen Daten in den Vordergrund treten. Screen Scraping wird zum Auslesen von Daten verwendet, die ursprünglich nur als Output an das GUI oder auf die Website gelangen sollten. Daher müssen wertvolle Informationen durch Programmierung eines Scrapers von Formatierungscode, Redundanzen und von überflüssigen Kommentaren gefiltert werden. In einer kurzen Beschreibung diverser Methoden soll auf verschiedene programmiersprachenspezifische Rahmenbedingungen eingegangen werden. Der zweite Teil der Arbeit stellt vier der gängigsten Screen Scraper Tools vor, die zurzeit zum Einsatz kommen. Im Folgenden sei eine kurze Beschreibung dieser Wrapper angefügt: Dapper ist ein Tool zur flexiblen Generierung von Daten via Webbrowser. Sehr einfach können aus Services wie Youtube oder Flickr fertige Ausgaben produziert werden. Beispielsweise lassen sich neben fertigen RSS Feeds auch Google Maps Einträge oder Netvibes Module generieren. QL2s WebQL bietet eine SQL-ähnliche Syntax für die Datenextraktion. Dies vereinfacht es datenbankerfahrenen Entwicklern, sich schnell auf das Auslesen von Informationen zu konzentrieren. Nach erstmaliger Erstellung der WebQL Query kann diese auch serverseitig die Abfragen in regelmäßigen Zeitabständen durchführen. Neben Webseiten können auch Dokumente in allen gängigen Formaten, sowie Email Server, abgefragt und zusammengeführt werden. Ausgabeformate sind XML, Text, PDF, DOC, CSV und TAB. Lixto entstand als Spin-Off eines Forschungsprojektes der TU Wien. Lixto unterstützt die Auswahl der Daten für die Datenextraktion anhand eines graphischen User Interfaces. Basierend auf einem Algorithmus wird der (X)HTML/XML Wrapper generiert. Ähnlich der Konkurrenz kann Lixto die extrahierten Daten danach in verschiedenste Ausgabeformate, wie XML, Excel oder SQL, konvertieren. Des Weiteren kann die gewonnene Information auch über mobile Devices via WML rasch zugänglich gemacht werden. Kapow bietet mehrere Lösungen für das Screen Scraping an. Ähnlich wie bei seinen Konkurrenten ist es möglich, die gewünschten Daten erst via grafischen Editor auszuwählen. Daraus werden dann wiederum Regeln generiert, die nach Wunsch noch veränder t werden können. Auch hier sind die Ausgabeformate vielfältig und bieten außerdem die Möglichkeit einer Überführung der Daten in Development Toolkits wie AJAX, RUBY oder PHP. Des Weiteren können die Daten in IDEs wie Eclipse oder NetBeans integriert werden. Zuletzt werden rechtliche Komplikationen diskutiert, die durch die - oftmals nicht genehmigte Weiterverwendung gescrapeter Daten entstehen. Sowohl einzelne juristische Besonderheiten, als auch Methoden zum Schutz vor illegalem oder nicht berechtigtem Screen Scraping werden an dieser Stelle näher behandelt. Eine abschließende Analyse soll die Qualität der verschiedenen im Einsatz befindlichen Tools resümierend beleuchten, sowie deren weitere sinnhafte Verwendung in der Zukunft bewerten.