Web-basierte Informationssysteme

Web-basierte Informationssysteme
Skizzen zur VL WS 2000/1
H. Schweppe
FUB
1
Einführung / Umfeld
 Informationsangebot
 1000 Patentanmeldungen / Tag
 2000 neue Bücher / Tag
 500 000 fachwiss. Beiträge in der Chemie / Jahr
 Ca 150.000.000 Webseiten (1997) , jährliche
Verdopplung
 ~ 50.000 hydraulische Übertragungselement von 4000
Herstellern
 Zentrales Problem:
Benötigte ("passende") Information finden
 Technisch: Suchmaschine
 Nichttechnische Faktoren wichtig: u.a.vertrauenswürdig?
1.2
Einführung / Umfeld
 Technisches Umfeld
 Speichermedien (Kosten, Volumen)

Kosten für Speicherung einer DIN A4 Seite
20 GB kosten ca. 400 DM
1 Seite entspricht etwa 5 K Zeichen ~ 5 KB im pdf-Format
200.000 Seiten pro GB ~ 2000 Pfg
Kosten pro Seite 1/100 Pf + Infrastrukturkosten
(Controller, Netz Server) grob Faktor 5
1 Blatt DIN A 4 Papier ~ 1,5 Pfg

Papier / elektronischer Speicherung ~ 1 : 30 (!)
Datenrate weit unterproportional gestiegen:
50 MB / sec : 10 Gb sequentiell lesen ca. 3 Minuten
Wahlfreier Zugriff: 10 msec 10 GB wahlfrei in Blöcken à
50 KB: ca. eine Stunde
1.3
Einführung / Umfeld
Rechnertechnologie

Durchsuchen sehr großer Bestände wird möglich
CPU, große Halbleiterspeicher
Rechnernetze


Unabhängigkeit vom Ort
Dokumente neuer Art
Bilder, virtuelle Dokumente, verteilte Dokumente
 Ökonomisch
 Aufbereitung, Bewertung und Verbreitung von
Information hat sich zu neuem Dienstleistungszweig
entwickelt ("Wissensgesellschaft")
1.4
Einführung: DB / IR / Web
 Datenbank
 Modell: Informationsrepräsentation Menge von
Tabellen
 Alle Werte statisch getypt (DB-Schema !)
 Externsemantik dadurch festgelegt, einheitliche
Interpretation der Daten
 Zugriff über normierte Schnittstelle,
 Frage – Antwort – Paradigma:
q
DB
Aq
Aq = {x | Q(x) mit Q ist Qualifikationsprädikat von q}
Auswertung von Prädikaten in zweiwertiger Logik
1.5
Einführung: DB / IR / Web
 Fallstudie "Bibliothek"
 Schlagworttabelle, um nach "Inhalten" suchen zu können.
CREATE TABLE keyword
(kw varchar(...), bookid: ... REFERENCES
book);
/* weitere Tabellen book, user, ..... Hier
unwesentlich */
SELECT book.title from book b, keyword k
WHERE k.kw = "NETWORKS"
AND
k.bookid = b.id;
Eindeutige Anwortmenge, jeder Treffer "passt" in
gleicher Weise zu Anfrage (zweiwertige Logik!)
1.6
Einführung: DB / IR / Web
Kritik





Wie gewinnt man Stichwörter?
Wortformen ("networks", "networking")
Mehrsprachigkeit ("Netze")
Verwandte Begriffe ("Rechnernetze")
Ober- / Unterbegriffe (LAN)
Nur wenig davon in SQL ausdrückbar
Ziel:
Gewichtung der Antwortmenge hinsichtlich
Relevanz des Objekts bezüglich Anfrage
-> Information Retrieval
Beachte: subjektiv!
1.7
Einführung: DB / IR / Web
 Information Retrieval
 Modell (in erster Näherung): Menge von Wortfolgen
(Texte)
 D Datenmenge. q Anfrage, Q Menge aller Anfragen
Aq = {x | x "passend" zu q}
 Was ist "passend" oder "ähnlich"?
Formal z.B.
s :: D x Q -> [0,1] (normiert auf [0,1])
mit der Eigenschaft
s(x,x) = 1
s(x,y) = s(y,x)
eventuell zusätzlich: s(x,y) <= s(x,z) + s(z,y)
(Dreiecksungleichung, macht aus Ähnlichkeitsmaß
ein Abstandsmaß, wobei s(x,x) = 0)
 Ähnlichkeit von Objekt und Anfrage definiert Rangfolge,
Aq kann vermöge s geordnet werden:
Rangfolgebestimmung
1.8
Einführung: DB / IR / Web
 Aufgaben des Information Retrieval
 Modelle finden, die Ähnlichkeit auszudrücken gestatten
(elementar: Boolesche Auswertung von Anfragen, die nur aus
Schlagwörtern bestehen)
 Geeignete Ähnlichkeitsmaße s definieren
 Bewertung von s (relativ zu Nutzer)
 Effiziente Verfahren zur Auswertung von s auf sehr großen
Datenmengen, z.B. durch Indexierung
 Erweiterte Aufgaben im Web
 Zusammenführen von Ergebnissen


Rangfolge?
Duplikate
 Strukturierte Dokumente (nicht nur Zeichenketten)
(Wie) kann Markup helfen, die passenden Dokumente zu
finden?
1.9
Einführung: DB / IR / Web
 Web-Technologie
 Als Web bezeichnen wir alle weltweit miteinander
verbundenen Rechnersysteme
 Web im engeren Sinne: Web-Server (HTTP) und
Klienten
GET /document.html
Client
TCP
Server
cache
1.10
Web Statistik, Juni 1999, Quelle: OCLC
Number of IP addresses in 32-bit address space:
Number of IP addresses in the 0.1% random sample:
Web Size
Number of Web Sites:
Number of Unique Web Sites:
4,294,967,296
4,294,967
4,882,000
(+/- 3%)
3,649,000
(+/- 3%)
Web Site Categorization (Unique Sites)
Number of Public Web Sites:
Number of Private Web Sites:
Number of Provisional Web Sites:
2,229,000
(+/- 4%)
389,000
(+/- 10%)
1,031,000
(+/- 6%)
1.11
Web-Statistik
Public Web Sites (Unique Only)
Number of Web Pages:
Number of Files:
Number of Adult Sites:
Web Growth
1997
Web Sites:
1,570,000
Unique Sites: 1,230,000
1998
288,221,000
(+/- 35%)
500,491,000
42,000
(+/- 30%)
1999
2,851000
4,882,000
2,035,000
3,649,000
1,457,000
2,229,000
Unique Public Sites:
800,000
% Change:
Web Sites:
'97 to '98
82
'98 to '99
'97 to '99
71
211
1.12
Web Statistik: Multilingualität
Incidence of Languages in Public Sites
1998
1999
English
84%
German
8
8
Japanese
French
3
3
3
3
Portuguese
2
2
Spanish
2
3
<1
2
Italian
1
2
Dutch
1
1
ALL OTHERS
<1
<1
Chinese
80%
Anzahl Sprachen insgesamt:
1998: 28
1999: 29
1.13
Datenbankanwendungen im Netz
Nicht notwendig mit über HTTP
Klassischer Client-Server-Betrieb:
z.B. SQL
Client
proprietär
DBServer
z.B. Terminal
1.14
Datenbankanwendung im Netz
Zugriff über Web-Browser / HTTP-Server
GET URI mit kodiertem Query-Sting
Client
TCP
HTML-Dokument mit Ergebnissen der
DB-Abfrage
HTTP
Server
Anwendungsprogramm,
über CGI-Schnittstelle
gestartet
DB
Server
1.15
Datenbankanwendung im Netz
 Mehrschichtarchitektur
z.B. Java
Client
TCP
ApplicationServer
DB
Server
Enthält die "Business-Logik"
Kommunikation meist über Fernaufrufe
1.16