Web-basierte Informationssysteme
Skizzen zur VL WS 2000/1
H. Schweppe
FUB
1
Einführung / Umfeld
Informationsangebot
1000 Patentanmeldungen / Tag
2000 neue Bücher / Tag
500 000 fachwiss. Beiträge in der Chemie / Jahr
Ca 150.000.000 Webseiten (1997) , jährliche
Verdopplung
~ 50.000 hydraulische Übertragungselement von 4000
Herstellern
Zentrales Problem:
Benötigte ("passende") Information finden
Technisch: Suchmaschine
Nichttechnische Faktoren wichtig: u.a.vertrauenswürdig?
1.2
Einführung / Umfeld
Technisches Umfeld
Speichermedien (Kosten, Volumen)
Kosten für Speicherung einer DIN A4 Seite
20 GB kosten ca. 400 DM
1 Seite entspricht etwa 5 K Zeichen ~ 5 KB im pdf-Format
200.000 Seiten pro GB ~ 2000 Pfg
Kosten pro Seite 1/100 Pf + Infrastrukturkosten
(Controller, Netz Server) grob Faktor 5
1 Blatt DIN A 4 Papier ~ 1,5 Pfg
Papier / elektronischer Speicherung ~ 1 : 30 (!)
Datenrate weit unterproportional gestiegen:
50 MB / sec : 10 Gb sequentiell lesen ca. 3 Minuten
Wahlfreier Zugriff: 10 msec 10 GB wahlfrei in Blöcken à
50 KB: ca. eine Stunde
1.3
Einführung / Umfeld
Rechnertechnologie
Durchsuchen sehr großer Bestände wird möglich
CPU, große Halbleiterspeicher
Rechnernetze
Unabhängigkeit vom Ort
Dokumente neuer Art
Bilder, virtuelle Dokumente, verteilte Dokumente
Ökonomisch
Aufbereitung, Bewertung und Verbreitung von
Information hat sich zu neuem Dienstleistungszweig
entwickelt ("Wissensgesellschaft")
1.4
Einführung: DB / IR / Web
Datenbank
Modell: Informationsrepräsentation Menge von
Tabellen
Alle Werte statisch getypt (DB-Schema !)
Externsemantik dadurch festgelegt, einheitliche
Interpretation der Daten
Zugriff über normierte Schnittstelle,
Frage – Antwort – Paradigma:
q
DB
Aq
Aq = {x | Q(x) mit Q ist Qualifikationsprädikat von q}
Auswertung von Prädikaten in zweiwertiger Logik
1.5
Einführung: DB / IR / Web
Fallstudie "Bibliothek"
Schlagworttabelle, um nach "Inhalten" suchen zu können.
CREATE TABLE keyword
(kw varchar(...), bookid: ... REFERENCES
book);
/* weitere Tabellen book, user, ..... Hier
unwesentlich */
SELECT book.title from book b, keyword k
WHERE k.kw = "NETWORKS"
AND
k.bookid = b.id;
Eindeutige Anwortmenge, jeder Treffer "passt" in
gleicher Weise zu Anfrage (zweiwertige Logik!)
1.6
Einführung: DB / IR / Web
Kritik
Wie gewinnt man Stichwörter?
Wortformen ("networks", "networking")
Mehrsprachigkeit ("Netze")
Verwandte Begriffe ("Rechnernetze")
Ober- / Unterbegriffe (LAN)
Nur wenig davon in SQL ausdrückbar
Ziel:
Gewichtung der Antwortmenge hinsichtlich
Relevanz des Objekts bezüglich Anfrage
-> Information Retrieval
Beachte: subjektiv!
1.7
Einführung: DB / IR / Web
Information Retrieval
Modell (in erster Näherung): Menge von Wortfolgen
(Texte)
D Datenmenge. q Anfrage, Q Menge aller Anfragen
Aq = {x | x "passend" zu q}
Was ist "passend" oder "ähnlich"?
Formal z.B.
s :: D x Q -> [0,1] (normiert auf [0,1])
mit der Eigenschaft
s(x,x) = 1
s(x,y) = s(y,x)
eventuell zusätzlich: s(x,y) <= s(x,z) + s(z,y)
(Dreiecksungleichung, macht aus Ähnlichkeitsmaß
ein Abstandsmaß, wobei s(x,x) = 0)
Ähnlichkeit von Objekt und Anfrage definiert Rangfolge,
Aq kann vermöge s geordnet werden:
Rangfolgebestimmung
1.8
Einführung: DB / IR / Web
Aufgaben des Information Retrieval
Modelle finden, die Ähnlichkeit auszudrücken gestatten
(elementar: Boolesche Auswertung von Anfragen, die nur aus
Schlagwörtern bestehen)
Geeignete Ähnlichkeitsmaße s definieren
Bewertung von s (relativ zu Nutzer)
Effiziente Verfahren zur Auswertung von s auf sehr großen
Datenmengen, z.B. durch Indexierung
Erweiterte Aufgaben im Web
Zusammenführen von Ergebnissen
Rangfolge?
Duplikate
Strukturierte Dokumente (nicht nur Zeichenketten)
(Wie) kann Markup helfen, die passenden Dokumente zu
finden?
1.9
Einführung: DB / IR / Web
Web-Technologie
Als Web bezeichnen wir alle weltweit miteinander
verbundenen Rechnersysteme
Web im engeren Sinne: Web-Server (HTTP) und
Klienten
GET /document.html
Client
TCP
Server
cache
1.10
Web Statistik, Juni 1999, Quelle: OCLC
Number of IP addresses in 32-bit address space:
Number of IP addresses in the 0.1% random sample:
Web Size
Number of Web Sites:
Number of Unique Web Sites:
4,294,967,296
4,294,967
4,882,000
(+/- 3%)
3,649,000
(+/- 3%)
Web Site Categorization (Unique Sites)
Number of Public Web Sites:
Number of Private Web Sites:
Number of Provisional Web Sites:
2,229,000
(+/- 4%)
389,000
(+/- 10%)
1,031,000
(+/- 6%)
1.11
Web-Statistik
Public Web Sites (Unique Only)
Number of Web Pages:
Number of Files:
Number of Adult Sites:
Web Growth
1997
Web Sites:
1,570,000
Unique Sites: 1,230,000
1998
288,221,000
(+/- 35%)
500,491,000
42,000
(+/- 30%)
1999
2,851000
4,882,000
2,035,000
3,649,000
1,457,000
2,229,000
Unique Public Sites:
800,000
% Change:
Web Sites:
'97 to '98
82
'98 to '99
'97 to '99
71
211
1.12
Web Statistik: Multilingualität
Incidence of Languages in Public Sites
1998
1999
English
84%
German
8
8
Japanese
French
3
3
3
3
Portuguese
2
2
Spanish
2
3
<1
2
Italian
1
2
Dutch
1
1
ALL OTHERS
<1
<1
Chinese
80%
Anzahl Sprachen insgesamt:
1998: 28
1999: 29
1.13
Datenbankanwendungen im Netz
Nicht notwendig mit über HTTP
Klassischer Client-Server-Betrieb:
z.B. SQL
Client
proprietär
DBServer
z.B. Terminal
1.14
Datenbankanwendung im Netz
Zugriff über Web-Browser / HTTP-Server
GET URI mit kodiertem Query-Sting
Client
TCP
HTML-Dokument mit Ergebnissen der
DB-Abfrage
HTTP
Server
Anwendungsprogramm,
über CGI-Schnittstelle
gestartet
DB
Server
1.15
Datenbankanwendung im Netz
Mehrschichtarchitektur
z.B. Java
Client
TCP
ApplicationServer
DB
Server
Enthält die "Business-Logik"
Kommunikation meist über Fernaufrufe
1.16