Diplomarbeit / Masterarbeit: Automatische Bewertung der Komplexität und Lesbarkeit von Web-Dokumenten (Automatic computation of complexity/readability scores for web documents) Das Web enthält Dokumente mit stark unterschiedlichen Komplexitätsniveaus. Es gibt Dokumente, die in einer leicht zu verstehenden Sprache geschrieben sind: kurze Sätze, wenige Fachbegriffe ohne Erläuterung, viele unterstützende Bilder. Solche Dokumente sind z.B. für Kinder und Erwachsene auch mit wenig Hintergrundwissen zum Thema des Dokuments geeignet. Andere Dokumente können sehr abstrakt und in Fachsprache geschrieben oder sehr komplex strukturiert sein: viele fachspezifische Begriffe, komplexe Satzstruktur. Ein weiteres Problem sind Dokumente die sehr schlecht strukturiert und somit auch bei einfacher Sprache schwer verständlich sein können. Eine automatische Bewertung und Unterscheidung der Dokumente wäre hilfreich für verschiedene Szenarios, z.B. die automatische Suche nach Webquellen, die für Kinder geeignet sind, oder die Unterstützung der Suche in einer Fremdsprache, wo es ggf. alleine aufgrund unzureichender Sprachkenntnisse schwierig sein kann komplexe Dokumente zu verstehen. Im Rahmen dieser Arbeit soll ein Verfahren entwickelt werden, dass aus Textdokumenten geeignete Merkmale zur Bewertung extrahiert. Außerdem sollen Maße vorgeschlagen werden, welche basierend auf diesen Merkmalen das Komplexitätsniveaus eines Webdokuments bestimmen. Das vorgeschlagene Verfahren soll - idealerweise in Java prototypisch implementiert und evaluiert werden. ✔ K. Collins-Thompson and J. Callan. A language modeling approach to predicting reading difficulty. Proceedings of HLT/NAACL 2004. ✔ S. Petersen and M. Ostendorf. A machine learning approach to reading level assessment. Computer, Speech and Language, vol. 23, no. 1, pp. 89-106, 2009. ✔ ... Wenn Sie Interesse oder Fragen haben, wenden Sie sich bitte an: Tatiana Gossen [email protected] Büro: G29-118 Arbeitsgruppe Data and Knowledge Engineering