Hans-Dieter Haller

Hans-Dieter Haller
Evaluation von Lehre - ein Weg zu einer effektiveren Wissenschaft?
Vorbemerkung
Anlass der folgenden Ausführungen ist die seit einigen Jahren in der Bundesrepublik
Deutschland sukzessive ausgebaute Evaluation von Lehr- und Forschungstätigkeiten an
Hochschulen. Es wird hierzu die Auffassung vertreten, dass eine Evaluation im Hochschulbereich (wie auch in anderen Bildungsbereichen) sinnvoll und notwendig ist, die bislang eingeschlagenen Verfahren werden aber nicht als weiterführend betrachtet; sie sind offensichtlich
primär administrativen Zuschnitts. Aus der „Innenansicht“, d.h. nach den Erfahrungen eines
innerhalb von 3 Jahren 3mal Betroffenen, werden Eindrücke geschildert, die den angemeldeten Zweifel belegen sollen. Mit aller Bescheidenheit wird die Frage gestellt, ob nicht Konzepte der Evaluation angemessener wären, die



forschungsbezogen sind,
den Gesichtspunkten sozialer Interaktion (Umgang der betreffenden Menschen miteinander) in Bildungseinrichtungen entsprechen,
sich auf die Verbesserung der hochschuldidaktischen Praxis selbst richten.
Um eine Begründung erkennen zu lassen, welche die möglichen Alternativen gegenüber dem
durch administrativen und politischen Druck eingeschlagenen Weg berücksichtigt, wird zunächst in einem kurzen Rückblick Bezug genommen auf die Entwicklung der Evaluationskonzepte im Hinblick auf Bildungseinrichtungen.
1. Ein Rückblick: Entstehung grundlegender Evaluationskonzepte aus Forschungs- und
Entwicklungszusammenhängen
Der Begriff "Evaluation" ist dem angelsächsischen Sprachgebrauch entnommen und bezeichnet soviel wie "Bewertung", "Beurteilung". Als in den 60er/70er Jahren dieser Begriff in der
Bundesrepublik in den Sprachschatz der Erziehungswissenschaft aufgenommen wurde, war
dies als ein Anspruch verstanden, die seinerzeit vielfältig betriebenen Ansätze der inhaltlichen und organisatorisch-institutionellen Reform des Bildungswesens einer empirisch
kontrollierten Bewährungsprobe zu unterziehen. In der seinerzeit vornehmlich auf die
Erstellung von Curricula und neue Organisationsmodelle für Bildungseinrichtungen (insbesondere Gesamtschulen, Gesamthochschulen) ausgerichteten didaktischen Entwicklungsforschung z.B. richtete sich die Evaluation auf die Überprüfung der gestellten Lernziele und
möglicher Nebenwirkungen: So wollte man z.B. feststellen, ob Schüler, die einen Kurs in
Mengenlehre absolvieren, dadurch "besser" lernen und dies möglicherweise auch noch mit
"mehr Vergnügen" als andere Schüler mit anderen curricularen Bedingungen.
Im Kontext dieser Fragestellungen waren auch die zentralen Ansätze und Methoden der didaktischen Evaluation entstanden. So war z.B. ein entscheidender Gesichtspunkt von Evaluationsmaßnahmen der, ob die Ergebnisse einer Evaluation noch in den eigentlichen Entwicklungsprozess (z.B. eines Curriculum) eingespeist werden könnten (=formative Evaluation)
oder aber "lediglich" im Nachhinein zur Verfügung ständen (=summative Evaluation). Es
entwickelten sich verschiedene Grundmuster für Evaluationsmaßnahmen, die im wesentlichen
orientiert waren an den Fragestellungen, die sich aus dem jeweiligen Reform- oder Innovationsansatz ableiten ließen. Um den Hintergrund dieser Entwicklungen verstehen und beurteilen zu können, erscheint es allerdings angebracht, einen kurzen Blick auf die Vorgeschichte
dieser modernen Evaluationsforschung zu werfen.
1
Zunächst einmal ist die Durchführung einer Evaluation im Kontext eines Bildungswesens
nicht Neues. So wird berichtet, da schon vor ca. 4000 Jahren in China Personen, die eine öffentliche Funktion ausübten, einer Überprüfung und Bewertung ihres Leistungsvermögens
unterzogen wurden. Und natürlich kannte auch die Pädagogik früherer Jahrhunderte in Europa
z.B. Formen und Verfahren der Leistungsüberprüfung. Dieses sind nun aber Verfahren gewesen, die den Adressaten eines Bildungssystems oder den Berufsaspiranten als Gegenstand der
Evaluationsmaßnahmen angesehen haben. Er hatte sich zu beweisen und er hatte ggf. die Folgen eines ungünstigen Ergebnisses zu tragen. So wird durch Dohse berichtet, dass der Beginn
dessen, was wir als Schulzeugnis in unserem Schulwesen kennen, zu Beginn der Neuzeit als
Benefizienzeugnis zu verzeichnen war, in welchem den Förderern solcher Schüler, die -heute
würden wir sagen- private oder öffentliche Stipendien erhielten, Bericht erstattet wurde über
den schulischen Fortschritt, den diese geförderten Schüler genommen hatten.
Im Zuge der europäischen Aufklärung entstand dann jedoch ein neuer Gedanke, nämlich die
Überprüfung des Systemkontextes, in welchem Lehr- und Lernprozesse organisiert waren
und stattfanden. Wir kennen z.B. einen Satz von Kant, dass man erst Versuchsschulen einrichten solle, ehe man Neues auch in Normalschulen einführe. Es ging also nicht so sehr um eine
Beurteilung von Lernenden als vielmehr um die Frage, wie am besten mit den Lernenden umzugehen sei. Heute werden diese beiden Grundfunktionen von Evaluation und Leistungsmessung als Adressaten- und Systemevaluation gekennzeichnet.
Als Ende des 19. Jahrhunderts in den USA und Europa Versuche unternommen wurden, neue
Formen der Leistungsüberprüfung im Bildungswesen zu entwickeln und zu erproben, die insbesondere erfahrungswissenschaftlichen Ansprüchen standhielten, war es denn auch zunächst dieser Gesichtspunkt einer Systemevaluation, der ausschlaggebend war für die gewählten Verfahrensweisen. So wollte Joseph Meyer Rice, der ausgangs des 19. Jahrhunderts in den
USA den wohl ersten Schulleistungstest entwickelte, feststellen, welche Fehlwirkungen der
Schulunterricht erzeugte, um seiner Überzeugung Nachdruck zu verleihen, dass die Schulzeit
ineffizient genutzt würde. Es entwickelten sich daraus in den folgenden Jahrzehnten in den
USA, aber auch in Europa Ansätze und Praktiken der Leistungsmessung im Bildungs- und
Ausbildungswesen (schon sehr früh übrigens auch in Deutschland im Hinblick auf die Auslese von Berufsaspiranten), die wir als moderne Testverfahren kennen.
Darunter ist nicht nur der klassische Test selbst zu verstehen, sondern auch offenere Formen
der Leistungsmessung, z.B. Essay-Aufgaben und praktische Handlungssituationen. Insbesondere in den USA, aber auch bei einigen Pädagogen und Psychologen in Deutschland entstand
die Vision eines auf solche Testverfahren gegründeten Leistungsmessungssystems im Bildungs- und Ausbildungswesen.
Was aber entwickelte sich weiter aus diesen Ansätzen in den USA bis etwa um die Mitte dieses Jahrhunderts?



Evaluation und Messverfahren wurden gleichgesetzt, d.h. mit der Entwicklung und
dem Einsatz von Messverfahren glaubte man bereits, evaluiert zu haben, ohne zu berücksichtigen, dass hierzu zusätzliche Entscheidungsprozesse und andere Maßnahmen
erforderlich sind.
Grundmuster für Evaluations- und Messverfahren war ein naturwissenschaftlich orientiertes Paradigma, d.h. der Besonderheiten der Erhebung von sozialen Prozessen
wurde nicht hinreichend Rechnung getragen.
Evaluation und Messverfahren orientierten sich an interindividuellen Unterschieden;
die vorherrschenden Testverfahren waren z.B. mehr dazu geeignet, Rangreihen zwi2
schen Lernenden aufzustellen, als zu überprüfen, ob ein gegebenes Lernziel erreicht
war oder nicht.
Einen neuen Meilenstein setzte 1950 Ralph Tyler mit seinem Buch "Basic Principles of Curriculum and Instruction", indem er die Zielfrage als das wesentliche Problem der Evaluationsforschung sah. Allerdings ging es ihm nur um die Überprüfung der Frage, ob gegebene
Ziele erreicht worden seien, nicht um eine Evaluierung der Ziele selbst, die er als vorgegeben
betrachtete.
Als nach dem Sputnik-Schock von 1957 in den USA eine breite Welle der Förderung von
Innovationen im Bildungswesen einsetzte, und mit anderen Beweggründen und in geringeren
Ausmaßen war dies dann 5-10 Jahre später auch in der Bundesrepublik der Fall, war zum einen eine neue Dimension in bezug auf die Funktion von Evaluation eröffnet, indem eben die
Förderer und Auftraggeber Rechenschaft über die Verwendung der von ihnen bereitgestellten Mittel forderten (z.B. die Ford Foundation in den USA oder in Deutschland die Stiftung Volkswagenwerk). Der Gedanke der "accountability" („how much education do we get
for our money?“) entstand hierbei, war aber anders als bei den Benefizienzeugnissen des 16.
Jahrhunderts auf Maßnahmen im Bildungswesen gerichtet (z.B. eine neue Schulorganisationsform oder ein neues Fachcurriculum) und nicht auf Personen wie Schüler oder Studenten.
Zum anderen wurde deutlich, dass das bisherige methodologische Instrumentarium nicht ausreichte, um dieser Zielsetzung gerecht zu werden.
1963 formulierte Cronbach in seinem Aufsatz "Course Improvement Through Evaluation" das
Problem folgendermaßen:
1. Wenn Evaluation nützlich sein soll für - in diesem Fall - die Entwickler neuer Kurse,
dann muss sie sich auf die Entscheidungen beziehen, die diese Entwickler im Entwicklungsprozess zu vollziehen haben. Evaluatoren sollen also nicht danach fragen,
welche Ziele jemand im Kopf hat und wie diese erreicht worden sind, sondern vielmehr:



Wer sind die Entscheidungsträger?
Welche Art von Entscheidungen treffen sie?
Welche Kriterien wenden sie dabei an?
2. Evaluation muss sich auf die Verfeinerung und Verbesserung des entwickelten
Kurses richten, und zwar im Entwicklungsstadium.
3. Wenn also Evaluation der Kurs- oder Systemverbesserung dienen soll, nutzen Kursoder Systemvergleiche nichts.
Die Ausweitung der Innovationsprogramme erforderte nun Evaluationsaktivitäten angesichts
zugleich zunehmender Verwirrung über das richtige Evaluationskonzept.
In den folgenden Jahren wurden dann mehrere wichtige Beiträge zur Evaluationsforschung
vorgelegt, die detailliert darzustellen den Rahmen dieses Referates sprengen würde.
1967 erschien "The Methodology of Evaluation" von Michael Scriven, der mit einem "Sowohl-als-auch" die Diskutanten z.T. versöhnte: Sowohl formative Evaluation (in Weiterführung des Gedankens von Cronbach zur Kursverbesserung) als auch summative Evaluation
(gewissermaßen als Feststellung der Summe des Ertrags, den eine Innovation geboten hatte).
Evaluation also für je verschiedene Zwecke; professionell, aber auch vom Amateur; sowohl
3
intrinsische oder Prozess-Evaluation als auch pay-off- oder Ergebnis-Evaluation. Allerdings
optierte Scriven anders als Cronbach klar auch für den Kurs- oder Systemvergleich. Er ging
dann auch so weit, von einer Hybrid-Evaluation zu sprechen, also einer Mischform im praktischen Betätigungsfeld.
Eine weitere Ausdehnung des Evaluationsanspruches war 1969 das Ergebnis eines Aufsatzes
von Elliot Eisner über "Instructional and Expressive Objectives". Lernziele, so Eisner, sind
nicht nur nicht wertneutral, sondern die Art und Weise ihrer Formulierung, Entwicklung und
Kodifizierung ist Ausdruck eines je spezifischen metaphorischen Denkens; dominant seien
3 Metaphern:



die industrielle Metapher nach dem Muster des scientific management;
die behavioristische Metapher (angelehnt an die positivistische Verhaltenspsychologie;
die biologische Metapher (angelehnt an die biologische Entwicklungstheorie).
Lehrende, so Eisner, seien es im Gegensatz zur Riege der Forscher und Evaluatoren gewohnt,
in den Dimensionen der 3. Metapher zu denken und zu handeln. Evaluation nach dem Muster
der ersten beiden Metaphern greife jedoch an diesem Denken und Handeln der Praktiker vorbei. Es müsse demgegenüber bei jeder Evaluation deren Denkweise dadurch berücksichtigt
werden, dass "Einzigartigkeit und Bedeutsamkeit dessen, was hervorgebracht wurde, bedacht"
werde.
Zweierlei lässt sich aus diesem Konzept von Eisner profitieren:
Zum einen erkennen wir, dass in jeder Evaluationsmaßnahme nicht nur die Wägbarkeiten zu
beachten sind, dass nicht nur das Kommensurable in den Evaluationsaspekt einzubeziehen ist.
Der gegenteilige Ansatz ist nicht per se falsch, sondern nur im Hinblick auf seinen Absolutheitsanspruch, wenn er allein Quantitäten und Quantifizierbares berücksichtigen möchte.
Mehr noch: die Vorstellungen und das Bewusstsein der Beteiligten (ihre Sicht der Dinge)
sind als Element eigener Art mit zu berücksichtigen.
Zum anderen wird deutlich, dass in Forschung und Praxis unterschiedliche Denkweisen vorherrschen, die nicht unbedingt auf einen Nenner zu bringen sind. Mehr noch: Forschung und
Praxis stehen unter unterschiedlichen Funktionen und Bedingungen im Hinblick auf Evaluationsmaßnahmen und folglich auch im Hinblick auf Evaluationskonzepte und -ansprüche.
Dieser Gedankengang spielt für die folgenden Bemerkungen eine zentrale Rolle; es kommt
hier als drittes Element noch der politisch-administrative Sektor hinzu.
Dass es kein allgemeingültiges Konzept von Evaluation im Bildungssystem geben kann, wurde dann im gleichen Jahr vollends betont durch Stufflebeam (1969), der einen Bezug herstellt
zum Entscheidungsbedarf und den vollzogenen Entscheidungen.
Evaluation ist im (Bildungs-)Forschungssinn eine Reihe komplexer und oftmals sehr aufwendiger Verfahren, um Wirkungen oder Nebenwirkungen von Maßnahmen im Bildungswesen zu überprüfen und um Entscheidungen vorzubereiten bzw. zu treffen. Es besteht dabei
kein Zweifel mehr, dass im Zusammenhang didaktischer Entwicklungsforschung der Systemevaluation gegenüber einer Adressatenevaluation Vorrang gewidmet werden soll. Die im
Folgenden zu zeigende Entwicklung eines politisch-administrativ gelenkten Evaluationsverfahrens bringt als Gegenstand und Ziel einer Evaluation die betreffenden Einrichtungen als
neue Größe ins Spiel.
2. Entwicklungen und Erfahrungen zur Evaluation der Lehre an deutschen Hochschulen
4
Traditionell kennt die deutsche Universität keine staatliche Kontrolle nach Art der z.B. im
Allgemeinbildenden Schulwesen üblichen Aufsichtsinstanzen. „Forschung und Lehre sind
frei“, so heißt es im Grundgesetz. Eine Qualitätssicherung ist dabei auch nicht erkennbar. Bis
Anfang der 70er Jahre war immerhin mit dem Mittel der Hörergelder ein gewisses Regulativ
gegeben, das dann aber abgeschafft wurde und keinen Ersatz fand. Zur Sprache gekommen
waren zwar die studentischen Veranstaltungskritiken, die sich aber nie allgemein durchsetzen
konnten (eine sehr detaillierte Dokumentation von Beispielen und Erfahrungen geben Huber
u.a. 1978). Die Bemühungen um einen Ausbau der Hochschuldidaktik (wesentliche Impulse
hatten in der zweiten Hälfte der 60er Jahre die Bundesassistentenkonferenz und der SDS mit
entsprechenden Denkschriften zur Hochschulreform gesetzt) hatten nur vorübergehenden Erfolg in der Einrichtung von hochschuldidaktischen Einrichtungen, die aber großenteils wieder
aufgelöst oder umorientiert wurden.
Einen neuen Akzent setzte die seit Anfang der 90er Jahre in der Bundesrepublik Deutschland
kontinuierlich ausgebaute Evaluation der Lehre in den Hochschulen (und nachfolgend auch
der Forschung) auf der Grundlage von Selbstberichten.
Dieses Verfahren war vorher schon vor allem in den Niederlanden und Großbritannien entwickelt worden und üblich geworden. Im wesentlichen besteht es aus drei Komponenten, einmal
die von den betreffenden Einrichtungen (Fakultäten, Fächern bzw. Institute oder Seminare)
anzufertigenden Lehrberichte, zum anderen die daran anschließenden Begehungen dieser
Einrichtungen in Form von „peer-reviews“ (durch Gutachter/-innen aus dem Kreis von Kolleginnen/Kollegen aus einem anderen Bundesland) und schließlich dem Maßnahmenkatalog,
mit dem die betreffende Einrichtung auf die Gutachten bzw. Ergebnisse zu reagieren verspricht. Die Lehrberichte sind von den Einrichtungen selbst zu erstellen, sie folgen einem Katalog von voraus gestellten Fragen (bezogen auf Ausstattung, Absolventenzahlen, Noten etc.).
Die Begehungen erfolgen in Form von ca. zweitägigen Besuchen mit Gruppengesprächen und
einem rückmeldenden Vortrag der Gutachtergruppe, dem der eigentliche schriftliche Bericht
später folgt. Darauf gründet sich auch der Maßnahmenkatalog, mit dem die betreffende Einrichtung ihre Reaktionen bzw. Neuorientierungen ankündigt, die später wiederum zu überprüfen sein werden. Die Organisation und Dokumentation wird von einer Evaluationsagentur
betrieben, die dafür einen Auftrag und entsprechende Ausstattung durch das Ministerium erhält.
Dieses Evaluationsmuster kann als typisch für Administrationen angesehen werden, die ihrerseits über keinerlei Kompetenz verfügen, eine Evaluation selbst durchzuführen.1 Grundlegendes Merkmal dieses Musters ist es, die zu evaluierenden Einrichtungen/Personen selbst die
erforderlichen Daten und Dokumente beschaffen zu lassen und in Form einer Selbstverpflichtung Besserung geloben zu lassen. Dies spart Kosten und sichert Legitimation! 2 Es hat sich
gezeigt, dass ein Großteil der erforderlichen Daten nicht bereits routinemäßig erfasst worden
war, sondern aus Anlass der Lehrevaluation erst einmal erstellt werden musste. Dies hatte
sicherlich Auswirkungen im Sinne von Nachdenklichkeit und Betroffenheit (insbesondere
wurden manche Fächer dadurch erst auf hohe Abbrecherquoten bei den Studierenden aufmerksam, von denen man zuvor nur kursorisch wusste), zeigt aber auch, dass hier über die
Evaluierung ein administrativer Eingriff erfolgte, der eigentlich als Maßnahme zuvor hätte
Auffallend sind die Analogien zu Optimierungsverfahren aus der Produktion („Qualitätssicherung“) und die Rezeption
allgemeiner Verwaltungsreformbemühungen („neue Steuerungsmodelle“).
1
2
Die Anfertigung eines Lehrberichtes für ein Fach wie Pädagogik an der Universität Göttingen dürfte mindestens 500 Arbeitsstunden in Anspruch genommen haben, etwa zur Hälfte in Form von Gremiensitzungen und –beratungen einerseits und
den Datenzusammenstellungen und –analysen sowie den eigentlichen Schreibtätigkeiten einzelner Personen andererseits.
5
eingeleitet werden müssen. Mit anderen Worten: die Administration hätte längst schon Gelegenheit gehabt und wäre gut beraten gewesen, die Hochschuleinrichtungen zum Aufbau einer
vernünftigen und vergleichbaren Statistik und Studienanalyse aufzufordern und die dafür
notwendigen Voraussetzungen (Finanzierung, welches Datenbanksystem, welche Variablen
etc.) zu schaffen.3
Vorbereitet wurde dieses Evaluationsverfahren in der Bundesrepublik Deutschland Ende der
80er Jahre durch die Westdeutsche Rektorenkonferenz mit Unterstützung des Bundesministeriums für Bildung und Wissenschaft; vorgestellt wurde es 1993 in einer Schrift in einer Veröffentlichungsreihe dieses Ministeriums (Webler u.a. 1993), zu welcher der damalige Minister
Ortleb ein Vorwort schrieb, in dem er u.a. die geforderte Verwendung deutlich macht:
„Lehrberichte sind sicherlich ein geeignetes Instrument, die aktuelle Entwicklung in Studium und Lehre des jeweiligen Fachbereiches oder Fakultät zu dokumentieren. Sie können
auf Beispiele einer besonderen Leistungsstärke aufmerksam machen, aber auch Schwachstellen und der Struktur und Organisation bloßlegen. Wer solche Berichte erarbeiten will,
um die Wirksamkeit und Effizienz akademischer Lehre transparent zu machen oder auf
gegenteilige Entwicklungen hinzuweisen, der benötigt allerdings Kriterien oder Indikatoren, mit denen sich Qualität der Lehre oder ihr Gegenteil messen lassen. Gleichzeitig muss
bei den Beteiligten ein Konsens darüber bestehen, dass die gewählten Kriterien auch tatsächlich für eine Aussage über das angestrebte Ziel geeignet sind“ (s. dort S. III).
Eine Veranstaltung des „Interdisziplinären Zentrums für Hochschuldidaktik“ Bielefeld 1994,
bei der das Konzept und Verfahren dieser Lehrevaluation vorgestellt wurde, war von großer
Resonanz, aber auch Verunsicherung gekennzeichnet. Verunsicherung insofern, als viele der
Teilnehmenden ihre Besorgnis bekundeten, es komme etwas auf ihre Einrichtungen zu, was
diese insgesamt und sie selbst als Durchführungsbeauftragte nicht bewältigen und dessen Folgewirkungen sie nicht abschätzen könnten.
Mit drei anekdotischen Berichten aus eigener Erfahrung will ich nun einige Schwachstellen
dieser Lehrevaluation beleuchten. Sie sollen und können nicht das Verfahren infrage stellen,
sollen aber deutlich machen, dass das alles von einer forschungsbezogenen Konzeption von
Evaluation und von einer Hochschulreform noch sehr weit entfernt ist. Zugespitzt formuliert
drängt sich der Verdacht auf, das es sich um eine Therapie handelt, bei der dem Patienten
zunächst eine eigene Anamnese abverlangt wird („nun schreib’ mal alles schön auf, was Dir
wehtut und wo etwas nicht in Ordnung ist“), des weiteren ein Patient aus einem anderen
Krankenhaus, der aber an den gleichen Symptomen leidet, die Diagnose stellt, und schließlich
die Selbstheilungskräfte in Zukunft alles wieder herrichten sollen.
Nachdem in den ersten beiden Fächern an der Universität X die Lehrevaluation durchgeführt worden war, gab es eine Zusammenkunft von Vertretern/-innen der Studierenden
und „Mittelbaus“, auf der über Konsequenzen berichtet wurde. Ein entmutigendes Ergebnis für alle Reformwilligen war der Bericht eines der Anwesenden, in seinem Fach sei eine solche Forderung nach Maßnahmen zur Verbesserung der Lehrsituation aufgestellt,
aber von einem der Seminardirektoren mit dem Hinweis beschieden worden, nun habe
man ja die Lehrevaluation hinter sich und könne zur gewohnten Tagesroutine übergehen,
3
Als ich 1993/94 als Vorsitzender des Magisterprüfungsausschusses der Fakultät versuchte, die Absolventendaten (über die
ich ja verfügen konnte, weil die Prüflinge im Prüfungsbüro erfasst und begleitet wurden) mit den Einschreibungen abzugleichen, wurde das als nicht möglich abgetan.
6
jetzt sei erst einmal Ruhe im Institut, und bis zur nächsten Lehrevaluation habe man ja
noch eine Reihe von Jahren Zeit.
Bei einem anderen Fall, der mehrere Einzelfächer der betreffenden Fakultät umfasst hatte,
war schon im Vorfeld eine Diskussion geführt worden, ob man die Evaluation „ernst“
nehmen und positiv aufgreifen oder minimalistisch erledigen solle. Mehrheitlich war in
der Studienkommission und im Fakultätsrat für die erste Alternative gestimmt worden. Es
gibt nun eine Militärtaktik, an die man sich hier erinnert fühlen konnte: Wenn man ungeschützt und auf freier Fläche ist, muss man sich einnebeln und viel Krach machen, um erstens nicht gesehen und zweitens in seiner Zahl und Wirksamkeit überschätzt zu werden.
Hier geschah dies nun durch eine Reihe von Aktionen (z.B. Wandzeitung: „Wie verbessern wir unsere Lehre?“, Einrichtung eines paritätischen Lenkungsgruppe), die dann im
Lehrbericht bereits als fait accompli berichtet werden konnten und das begeisterte Erstaunen der Evaluatoren hervorriefen.
In der Senatskommission für Lehre wurde 1994/95 an der Universität X die Einführung
eines Fragebogens für studentische Veranstaltungs- oder Lehrkritik diskutiert. Verschiedene Muster waren vorgelegt worden. Eine große Aufregung entstand um die Frage, ob an
der gesamten Universität ein verbindlicher Fragebogen einzusetzen sei und ob die Ergebnisse aller bewerteten Personen mit Namensnennung (und in welcher Form) bekannt gegeben werden sollten. Beruhigung entstand dann aber, als ein Jurist mit der ganzen Würde
seines Faches die Wogen mit dem Hinweis glättete, eine Bekanntgabe verstöße natürlich
gegen den Grundsatz der Lehrfreiheit, eine Beteiligung an solchen Lehrkritiken könne
überhaupt nur auf freiwilliger Grundlage geschehen. Der Hinweis, man solle doch eine
maschinelle Auswertungsform anstreben, die jedem/jeder Lehrenden die Ergebnisse (ob
nun anonym oder nicht) in kürzester Zeit aufbereitet vorlege, wurde nicht befolgt. So blieb
alles freiwillig, auch die Auswertung. Berücksichtigt man den Aufwand, z.B. in einer Vorlesung mit hunderten von Fragebogen eine Auswertung vorzunehmen, so ist allein schon
deshalb klar, warum somit wenige Lehrveranstaltungen in dieser Form evaluiert werden.4
Seit einigen Jahren nun ist dieses Konzept umgesetzt worden und bereits gängige Praxis. Auf
der Webseite der ZEVA (Zentrale Evaluations- und Akkreditierungsagentur für Norddeutschland: http://www.zeva.uni-hannover.de/) werden inzwischen detaillierte Materialien angeboten, einerseits die Berichte und Ergebnisse bisheriger Evaluationen (18 Berichte einzelner
Fächer bzw. Studiengänge, die landesweit entstanden sind, liegen zum Zeitpunkt Ende 2001
vor), andererseits die Verfahrensbeschreibungen, erwünschten Datenstrukturen etc. aufgrund
derer sich Einrichtungen und Personen auf eine solche Evaluationsprozedur vorbereiten können.
Ein Beispiel ist folgender Hinweis auf die Daten zur Studiendauer:
4
An der medizinischen Fakultät meiner Universität ist eine solche maschinelle Auswertung inzwischen üblich,
dabei können auch verschiedene Lehrveranstaltungen miteinander verglichen werden! Vielleicht verfügen Mediziner/-innen aufgrund gängiger Supervisionsverfahren bereits über mehr Toleranz in der kollegialen Kontrolle?
7
Innerhalb weniger Jahre ist so in Deutschland eine Infrastruktur der Lehr- und ansatzweise inzwischen auch Forschungsevaluation entstanden, mit Vernetzungen in nationalen und
internationalen Vereinigungen (z.B. evanet.his.de, Deutsche Gesellschaft für Evaluation, European Evaluation Society EES)5.
Eine rechtliche Grundlage, die übrigens die von Skeptikern vermuteten Zusammenhänge zwischen Finanzrestriktion und Evaluation der Hochschulen6 nicht nur deutlich macht, sondern
geradezu als konstitutiv herausstellt, bietet das Hochschulrahmengesetz:
Auszug aus dem vierten Gesetz zur Änderung des Hochschulrahmengesetzes vom 24. August 1998:
§5: Staatliche Finanzierung
Die staatliche Finanzierung der Hochschulen orientiert sich an den in Forschung und Lehre sowie bei der Förderung des wissenschaftlichen Nachwuchses erbrachten Leistungen.
Dabei sind auch Fortschritte bei der Erfüllung des Gleichstellungsauftrags zu berücksichtigen.
§6: Bewertung der Forschung, Lehre, Förderung des wissenschaftlichen Nachwuchses und
der Gleichstellung der Geschlechter
Die Arbeit der Hochschulen in Forschung und Lehre, bei der Förderung des wissenschaftlichen Nachwuchses sowie der Erfüllung des Gleichstellungsauftrags soll regelmäßig be-
5
gegründet 1994 in Den Haag: “The society´s primary goal is to promote theory, practice and utilization of high
quality evaluation especially, but not exclusively, within the European countries. This goal is obtained by bringing together academics and practicians from all over Europe and from any professional sector, thus creating a
forum where all participants can benefit from the co-operation and bridge building.” (s.
www.europeanevaluation.org/general/general.htm)
http://fachschaft.psycho.uni-osnabrueck.de/FlatLine/497/perspektiven.html: „Seit das Geld überall im Lande
knapp wird, ist der Ruf nach Evaluation in der Bildungspolitik laut geworden, ohne daß so richtig klar wird, was
eine Evaluation wirklich bringen soll.“
6
8
wertet werden. Die Studierenden sind bei der Bewertung der Qualität der Lehre zu beteiligen. Die Ergebnisse der Bewertungen sollen veröffentlicht werden.
Es geht also ganz deutlich um eine leistungsorientierte Finanzierung, wobei allerdings
weitgehend unklar bleibt, welche Leistungen erwartet und wonach und von wem sie bewertet
werden sollen. (Gerade dieses aber sind die spannenden Fragen, wie der erste Abschnitt um
Evaluationskonzepte im historischen Abriss deutlich machen sollte.)
Mit den von den bisher durchgeführten Verfahren der Lehrevaluation bekannten Ergebnissen
kann diese Frage wenigstens ansatzweise beantwortet werden, indem nämlich weiter gefragt
wird, welche Folgen daraus erkennbar werden. Neben den Bemühungen um straffere und
transparentere Studienorganisation (mit dem geringere Ausfallquoten und kürzerer Studienzeiten) scheinen vor allem Angleichungen an internationale Entwicklungen als notwendig
verstanden zu werden. Es geht inzwischen in der Bundesrepublik Deutschland um Modelle
der Studienorganisation („modularer Aufbau“ ist hier das Zauberwort), die Einführung neuer
Studiengänge wie B.A., M.A. und „Intensivstudiengänge“, neue Formen der Leistungsnachweise (Kreditpunkte nach angelsächsischem Vorbild), kurzum: wieder eine politischadministrativ orientierte Entwicklung, nämlich größere Einheitlichkeit im Verband der Europäischen Union.
Was hingegen nach wie vor fehlt, ist eine Diskussion um die Lehrpraxis und die Verbesserung der Lehr-/Lernprozesse selbst.7 Hochschuldidaktik ist bislang nicht besonders mehr
gefragt als zuvor. Allerdings kommt zur Zeit eine Entwicklung in Gang, deren Folgen noch
überhaupt nicht abschätzbar sind: seit etwa 5 bis 6 Jahren wird der Telematikbereich („Neue
Medien“, „E-Learning“, „Teleteaching“, „Virtuelle Universität“ u.ä. Bezeichnungen) für die
Hochschulen (wie auch andere Bildungseinrichtungen) systematisch erschlossen und ausgebaut, z.T. mit enormen Finanzmitteln. Auch hier liegt die Vermutung nahe, dass es sich letztlich um Einsparpotentiale handelt, in die z.Zt. investiert wird, können doch somit Fächer
oder Institute standortübergreifende Lehre anbieten, Lehrveranstaltungen individuell nachbearbeitet werden, etc. Mehr noch scheint es sich dabei jedoch darum zu handeln, den akademischen Lehrbereich auf eine Privatisierung oder wenigstens pseudostaatliche Ökonomisierung (das nennt man jetzt „Stiftungsuniversität“) vorzubereiten. Welche didaktischen Änderungen die neuen Technologien ermöglichen oder gar hervorrufen werden, ist bislang allerdings noch sehr offen.
3. Ein Plädoyer für wirksame Rückmeldung im Hochschulunterricht
Vom Grundsatz her ist zu fragen, wo kann mit solchen Verfahren tatsächliche Verbesserung
erzielt werden (nicht nur Schönfärberei). Da muss man schon nach den Motiven und Überzeugungen derer suchen, welche von den Evaluationen und ihren Implikationen betroffen
sind! Das wissen wir nun spätestens seit den Forschungen zu Innovationswirkungen und Implementierungen von gesellschaftlichen Innovationen aus den 70er Jahren, und als gute Pädagogen und Didaktiker schon allemal: „You can lead a horse to water, but you cannot make it
drink“, hatte Ernst Rothkopf mit seinem mathemagenischen (lernerzeugendes Verhalten) Ansatz gegen Ende der behavioristischen und zu Beginn der kognitivistischen Instruktionspsychologie gesagt. Nach Lage der Dinge, und das sind die menschlichen Verhältnisse, muss das
in den Köpfen und Wünschen der Betroffenen angesiedelt sein; sie müssen Änderungen
Unter 965 Dokumenten, die eine Suchmaschine im Internet zum Stichwort „Lehrevaluation“ aufwies, war die
weit überwiegende Mehrzahl nur auf die Darstellung des Verfahrens sowie die Berichte selbst bezogen, ganz
wenig konnte man darunter hingegen finden, was auf eine Auseinandersetzung mit der vorgängigen Lehrpraxis
selbst deuten ließ (so die bereits zitierte Webseite der Fachschaft Psychologie an der Universität Osnabrück)..
7
9
wollen, und wenn es nicht wollen, finden auch keine Änderungen statt. Dazu müssen sie zunächst einmal von den Defiziten der vorhandenen Situation überzeugt sein, dann entspringen
die Wünsche nach Verbesserung der Einsicht8. Oder sie haben einen ganz starken äußeren
Anreiz (Geld, Karriere, Macht), dann müssten aber auch die Sanktionsmechanismen darauf
abgestimmt sein.9
Die Evaluation über Lehrberichte und peer-reviews ist institutionell bezogen: Wie in einer
Schulklasse angesichts eines diffusen (weil an alle gerichteten) Donnerwetters des Lehrers
alle die Köpfe einziehen, aber sich nicht als persönlich gemeint betrachten, ist dieses Verfahren nicht besonders gut geeignet, den einzelnen Beteiligten ihren individuellen Stärken und
Schwächen so vor Augen zu führen, dass sie die ersteren noch ausbauen und die letzteren
abbauen.
Lernen, sich verändern wollen, ist in hohem Maße das Resultat einer Einsicht in die Notwendigkeit einer Veränderung und die anschließende Bestätigung des Veränderungsprozesses.
Voraussetzung für diese Entwicklung von Einsicht und Veränderung ist wiederum die Kenntnis der Wirkungen des bisherigen Tuns. Wer z.B. Bogenschießen erlernt, seine Pfeile dabei
aber abschießt, ohne jemals zu erfahren, wo sie gelandet sind, wird sich kaum verbessern
können. Und wenn man ihm sagt, wohin er fehlgeschossen hat, und er dieses nicht glaubt, so
kann er hingehen und sich selbst davon überzeugen!
Bei guten Seminaren (d.h. wenn von den Studierenden weitgehend übereinstimmend festgestellt wird, dass es ein gutes Seminar gewesen sei) wird von Studierenden auffällig oft die
sorgfältige Rückmeldung durch den Dozenten resp. die Dozentin gelobt, was auf zweierlei
Gesichtspunkte verweist: Zum einen ist dies ein Indikator dafür, dass Studierende Rückmeldungen erwarten, zum anderen lässt sich danach vermuten, dass Rückmeldungen nicht allzu
üblich sind. Ein gleiches –oder gar noch mehr- gilt für die Lehrenden, denn auch sie unterliegen ja dem Prinzip, dass uns die Folgen unserer Handlungen aufgezeigt werden müssen, wenn
daraus Rückschlüsse gezogen werden sollen, was gut und was veränderungsbedürftig bei dem
ist, was wir tun.
Der Erkenntnis der Lernforschung folgend, dass Lernstrategien, Lernmethoden sich als Lernstile niederschlagen, die Ausdruck individueller Vorlieben oder Abneigungen sein können,
haben wir im Hochschuldidaktischen Arbeitskreis der Universität Göttingen einen Fragebogen entwickelt, in dem einerseits eine Gewichtung der Funktionen von Lehrevaluationen
erfasst wird, andererseits auch die individuellen Wünsche oder Erwartungen hinsichtlich
der Gestaltung oder Ausführung von Rückmeldungen an die Studierenden. Die folgenden
Ergebnisse stammen aus einer Befragung der Teilnehmer/-innen einer Vorlesung in Jura
(N=42); sie sind natürlich nicht repräsentativ, illustrieren aber den Stellenwert der hier vorgetragenen Überlegungen:
8
Im Zusammenhang einer hochschuldidaktischen Betreuung einer Lehrveranstaltung an einer anderen Fakultät
lobte ich die erkennbar gute Betreuung der Studierenden für Referate und Präsentationen und erhielt als Antwort:
„Ja, wir mussten uns auch etwas einfallen lassen angesichts der dramatischen Rückgänge der Studierendenzahlen
vor ein paar Jahren.“
9
Vor einigen Jahren war ein Kollege aus Chile zu Besuch an unserer Fakultät und hielt einen Vortrag über die Privatisierungstendenzen im Bildungswesen seines Landes. Er berichtete u.a., dass die staatlichen Universitäten schlechten Unterricht
böten, die privaten hingegen einen deutlich besseren, gleichwohl sei ein großer Teil des Lehrpersonals der privaten Universitäten im Hauptberuf an einer staatlichen Universität angestellt. Mit anderen Worten: Hier der Job und das sichere (bescheidene) Einkommen, aber kein großes Bemühen; dort der einträgliche (aber unsichere) Nebenverdienst, für den man sich schon
bemühen muss.
10
Funktion:
Welche Funktionen sollten Lehrevaluationen erfüllen?
1.Individuelle Rückmeldung an alle Lehrenden über Stärken und
Schwächen ihrer Lehrtätigkeit
2.Kontrolle durch den Staat, ob Lehrende ihre Dienstaufgaben ordentlich/gewissenhaft wahrnehmen
3.Rückmeldung an Fächer/Institute/Fakultäten über Stand und Qualität der Lehre in ihrem Bereich
4.Informationen für potentiell Studierende und ihre Eltern über die
Qualität der Lehre an verschiedenen Standorten
5.Sammlung von Hinweisen zur strukturellen Verbesserung der Lehre
(z.B. neue Organisationsmodelle)
6.Vorbereitung von Entscheidungen über Verlagerung finanzieller
Ausstattungen von Fächern/Instituten (z.B. mehr Geld für Fächer/Institute mit hoher Lehrbelastung und effizienter Lehre)
7.Individuelle Rückmeldung an alle Lehrenden über Effektivität (Wirksamkeit) ihrer Lehrtätigkeit
8.Vorbereitung von Entscheidungen über veränderte Besoldungsmodelle (z.B. Anpassung der Besoldung an Erfolge in der Lehre)
Rangplatz: die wichtigste
Funktion=1, dann 2, etc.
Mittel
Streuung Rang
2,76
1,7
1
3,71
2,3
5
3,36
1,8
2
5,07
2,3
7
3,52
2,0
3
4,76
2,1
6
3,64
2,1
4
5,98
2,4
8
Hinsichtlich ihrer Wünsche für Rückmeldungen zu ihren eigenen Studienleistungen erkannten
wir Unterschiede im Hinblick auf einerseits eine offene Rückmeldung, die dann aber auch
den Schutz der Gruppe für den Betreffenden bieten würde, andererseits bei manchen auch
eine verborgene Rückmeldung (nur an mich persönlich gerichtet, die anderen Studierenden
sollen nichts davon erfahren, wie ich bewertet wurde). Ein erster Faktor scheint dann noch der
Wunsch nach Berücksichtigung der individuellen Person (Rückmeldung muss mir persönlich nutzbringende Informationen bieten zu sein, als 2. Faktor zeichnete sich ab die Orientierung an der Sache, der Sachbezug in der Rückmeldung.
Wenn man versucht, weitreichender darüber nachzudenken, welchen Stellenwert Rückmeldungen faktisch gesehen in der akademischen Lehre haben, so stößt man bald schon darauf,
dass das Prinzip des Wirkungsnachweises (Rückmeldung muss die Folgen der Handlungen
aufwiesen) selten realisiert ist. Hochschulen in Deutschland haben keine Rückmeldungskultur! Auch die studentische Veranstaltungskritik ist nicht gleich mit diesem Prinzip verbunden,
vor allem dann nicht, wenn sie anonym im Fragebogen erfolgt und gar nicht sichergestellt ist,
dass die Ergebnisse der Befragung für alle Beteiligten bekannt werden und in einer Diskussionsrunde erörtert werden können. Um nicht folgenlos (oder nur „symbolische Handlung“) zu
bleiben, muss mit ihr eine Wirkungsmöglichkeit verbunden sein.
Wie nun könnte man die Rückmeldung zur akademischen Lehre unter diesem Gesichtspunkt
gestalten, den Beteiligten (und es müssten ja Dozierende und Studierende sein) die Folgen
aufzuweisen, ohne zu symbolischen Mitteln wie beiderseitigen Notengebungen zu greifen?

Es ist ein Nachweis der Art und Qualität des Lernerfolges unter realistischer Betrachtung des jeweiligen eigenen Anteils am Zustandekommen dieses Lernerfolgs
notwendig. Da nun nicht jede Lehrveranstaltung begleitend erforscht werden kann im
Hinblick auf diese Frage der Verursachung, kann dieses nur rudimentär erfolgen oder
in einer exemplarischen Evaluationsstudie. Einen Einstieg in solches Nachdenken über
Lehrkausalitäten stellt eine Praxis in einem Fach an der medizinischen Fakultät der
Universität Göttingen dar, bei der Vorlesungen telematisch unterstützt werden: Ein
11


paar Tage vor der Vorlesung werden den Studierenden über das Internet Bilddokumente und Aufgabenstellungen verfügbar gemacht, die sie bearbeiten und zu denen sie
dem betreffenden Dozenten Lösungsvorschläge zurückschicken. Dieser bekommt nun
einen Einblick in den Kenntnisstand der Studierenden und kann in der eigentlichen
Vorlesungsstunde auf die Lösungsvorschläge gezielt zu sprechen kommen. Er gibt den
Studierenden Rückmeldung zu ihrem Lernstand und erfährt aus den Einsendungen der
Studierenden seinerseits Rückmeldung, nämlich Hinweise zur Qualität seines Unterrichts. Zusätzlich werden am Ende des Semesters Fragebogen angeboten und ausgewertet, die dem jeweiligen Dozenten diachronisch (wie ist der Entwicklungsverlauf
über die letzten Semester hinweg?) und synchronisch (wie stehe ich im Vergleich zu
den Kollegen/Kolleginnen, deren Werte ebenfalls berichtet sind?) Vergleichsmöglichkeiten vorlegen. Wesentliche Voraussetzung für den Nutzen aus solchen Veranstaltungsbewertungen sind die kontinuierliche und allgemein so betriebene Praxis, die
leichte, maschinell betriebene Auswertung und Ergebnisdarstellung sowie der
Hinweis darauf, was nun konkret als gut und was als nicht so gut, also veränderungsbedürftig anzusehen ist.
Wer gute Lehrveranstaltungen durchführt, wird in aller Regel Zulauf durch Studierende erfahren. Nach dem Rollen- und Selbstverständnis vieler Lehrender ist das aber eine nicht erwünschte Wirkung! Hohe Studierendenzahl sind dann eben auch verbunden
mit hohen Zahlen an Klausuren und Hausarbeiten, die zu bewerten sind, mit hohen
Prüfungszahlen und den damit zusammenhängenden Beratungsaktivitäten. Demgegenüber ist nach wie vor die wissenschaftliche Reputation eine Sache von Forschungsarbeiten, Veröffentlichungen, Kongressauftritten und Verbandsarbeit, alles
Dinge für die man weniger Zeit hat, wenn man die Lehre gut machen will. Eine Verbesserung der Lehre muss also eine zeitliche und „energetische“ Balance zu anderen Anteilen der Hochschulprofession gewährleisten. Auch die gegenwärtigen
Bemühungen, eine „leistungsgerechte“ Bezahlung der Hochschullehrer und Hochschullehrerinnen einzuführen, wird man unter dem Gesichtspunkt bewerten müssen,
inwieweit sie eine solche Balance zwischen den verschiedenen Professionsfunktionen
oder –teilen herstellen bzw. gewährleisten können.
Und ein dritter Punkt ist darzustellen, welche Rückmeldungen die Lehre dergestalt erfahren könnte, dass die Wirkungen den Beteiligten offensichtlich werden: mehr Bezug
zur Lebenswirklichkeit, den Gegebenheiten der sozialen, materiellen und natürlichen
Umwelt. Die Wissenschaften selbst, das Fach, die Methoden und Ergebnisse des Erkenntnisgewinns sind ja die Quelle der akademischen Lehre, aber das merkt man oft
nicht mehr; einem Studienanfänger dürfte es oft und besonders schwer fallen, diesen
Zusammenhang herzustellen angesichts dessen, was ihm vorgetragen und zum Lernen
vorgestellt wird. Die Liste der didaktischen Möglichkeiten ist hier groß, und es könnten auch zahlreiche Beispiele aufgeführt werden, bei denen dieser Wirklichkeitsbezug
hergestellt wurde (Projekte sind eines davon). Aber hier gilt noch mehr das Postulat
nach der Balance, denn in aller Regel setzen solche Lehrveranstaltungen wiederum
mehr Aufwand für Vorbereitung, Materialzusammenstellung etc. voraus.
12
Erfahrungen aus Begleitung zur telematischen Unterstützung von Pathologievorlesungen
Erfahrungen aus microteachung (autotelische Rückmeldung?)
Seneca, Epistulae 106, 12,
2. Rückmeldung in verschiedenen Formen:
Lehrende an Studierende
Studierende an Lehrende
Studierende an
Studierende
Gutachten zu Hausarbeiten
Veranstaltungsbelegung Gruppenarbeit
Klausurbewertung
Veranstaltungsbesuch
peer-Beratung
mündliche Prüfungen
informelle Resonanz
Dokumentation
Erörterung von mdl./schrftl.
Referaten
Lernqualität, Entwicklung
Lehrende an
Lehrende
Handlungssituationen ermög- praktische Produkte
lichen
einzelne Diskussionsbeiträge Veranstaltungskritik
Sprechstunde/
Beratungsgespräch
informelle Kontakte
3. Grundsätzliche Gesichtspunkte über Rückmeldungen:
„Lob und Tadel" als klassische pädagogische Interventionen
Emile und die zerbrochene Fensterscheibe bei Rousseau
positive Verstärkung nicht nur im Behaviorismus
Auswirkungen von fehlender Rückmeldung (Bsp. Schießen, Simulation)
Ergebnisse der Forschungen zur Kausalattribuierung
Selbst-Bestätigung, -Kontrolle (eigener Maßstab)
Maßstäbe von Fächern
Vergleich mit „peers"(sozialer Maßstab)
individuelle Rückmeldungserwartungen
Dokumentation?
4. Prinzipien für die Durchführung von Rückmeldungen
13
Gerechtigkeit
Konsistenz
Begründung
Transparenz
Ermunterung
Folgewirkungen
eingebunden in das System der „benefits", zumindest keine Bestrafung für dejenigen, welche
sich die Mühe machen
selbst-referentiell (zum Thema oder Sachverhalt)
Im Tertiärbereich scheint von vornherein ein administrativer Weg eine Rolle gespielt zu haben. Man kann sehr schön an den einzelnen Heften und Jahrgängen der Zeitschrift „Das
Hochschulwesen“ drei Entwicklungslinien verfolgen; zum einen (studentische) Lehrkritik (die
gab es schon einmal in den 70er Jahren) und Lehrberichte (Selbstentblößung?),
Demgegenüber müssen wir feststellen, dass dort, wo von Evaluation im Zusammenhang des
Bildungswesens als praktikablen Maßnahmen von Lehrenden gesprochen wird, diese Orientierung nicht vorherrscht.
Was ist der Hintergrund dieser Tatsache?
Lehrer, Ausbilder und Prüfer stehen in Hinblick auf Maßnahmen der Leistungsmessung, die
sie aufgrund administrativ gesetzter Vorgaben zu vollziehen haben, unter sehr beträchtlichen
legitimatorischen Zwängen. Wenn sie eine Bewertung des Lernerfolgs ihrer Schüler, Studenten oder Berufsanfänger aussprechen, so resultieren aus diesen Bewertungen teilweise weitreichende Entscheidungen über den Lebensweg dieser konkreten Personen. Die Bewertungen
müssen also legitimiert oder zumindest prinzipiell legitimierbar sein. Worauf diese Legitimation sich gründet, ist gesellschaftlich definiert; z.B. war früher einmal die soziale Herkunft
hinreichender Ausgangspunkt solcher Legitimation. Die bürgerliche Emanzipation des 19.
und 20. Jahrhunderts konnte das dann natürlich nicht mehr gelten lassen, wenngleich sie sich
sicherlich noch mit Resten dieses Legitimationshintergrundes zu schaffen macht. Für sie war
das Leistungsprinzip der wesentliche Legitimationshintergrund. Dies führte zu der Anforderung an Prüfungsverfahren, möglichst gerecht zu sein, oder - um Gütekriterien der Forschung
zu verwenden - objektiv (unabhängig von der Person des Bewertenden), zuverlässig (methodisch richtig) und gültig (inhaltlich richtig). Als in der Bundesrepublik in den 60er/70er Jahren im Zusammenhang der Maßnahmen zur Bildungsreform auch der Gesichtspunkt der Evaluationsforschung eine Rolle zu spielen begann, wurde aus dieser Diskussion auch die Diskussion um die Angemessenheit oder Fragwürdigkeit der Zensurengebung durch Lehrer gespeist. Ansprüche der forschungsmäßigen Evaluation wurden auf die alltägliche Praxis der
Leistungsmessung und -bewertung in Bildungsinstitutionen übertragen.
14
Wir sollten bei diesem Gesichtspunkt noch ein wenig verweilen und ihn genauer aufschlüsseln, denn er bringt uns der Antwort auf die Frage näher, unter welche Ansprüche Prüfungsbewertungen gestellt werden und gestellt werden können. (Interessanterweise sind in dem
Verlauf der Reformdiskussionen zum Bildungswesen in den 60er und 70er Jahren weitere
Übertragungen von Ansprüchen an die Forschung auf die Praxis zu verzeichnen, so insbesondere hinsichtlich der Forderung nach besseren Formulierungsmodellen für die Erstellung von
Lernzielen, wo der für die didaktische Entwicklungsforschung aufgestellte Anspruch auf operationalisierte Lernziele ungerechtfertigt und sinnlos auf die Praxis und an die Praktiker übertragen wurde.)
Als ein Beispiel dafür, wie einerseits Ansprüche aus der Evaluationsforschung an Praktiker
gestellt wurden, die zu der Erwartung verbesserter Legitimierungsmöglichkeiten führten, andererseits daraus für die Praktiker neue Probleme entstanden, und auch dafür, daß hierbei
schlichtweg die unterschiedlichen Legitimationszwänge von Forschung und Entwicklung gegenüber Praxis nicht mehr berücksichtigt wurden, möchte ich darstellen, wie aus Ansätzen der
forschungsmäßigen Testkonstruktion der hausgemachte Kleintest für den Praktiker wurde:
Tests sind Stichproben von Performanzen, also manifesten Verhaltensweisen oder Äußerungen von Personen, die für den Evaluationszweck induziert werden: Wenn ich z.B. Ihre Fahrtüchtigkeit als Pkw-Fahrer überprüfen möchte, würde ich typische Anforderungen an einen
fahrtüchtigen Pkw-Fahrer definieren müssen, z.B. das Einparken in eine Parklücke, die
Kenntnis der Farbsymbolik einer Verkehrsampel, die Fähigkeit, Kupplung, Gaspedal und
Schaltung im richtigen Verhältnis zueinander zu bedienen etc.. Der Test bestünde nun darin,
daß ich Sie solchen typischen Anforderungssituationen bzw. Performanz-Stichproben aussetze, wobei ich nicht immer auf reales Verhalten zurückgreifen müßte, sondern einiges auch
simulieren lassen könnte bzw. schlicht abfragen könnte. Ich müßte Sie nicht alle auf die Straße hinausführen und vor eine Verkehrsampel stellen, ich könnte Ihnen auch ein Bild oder eine
Filmaufzeichnung dieser Einrichtung vorführen und sie nach den Bedeutungen der unterschiedlichen Farben fragen. Ihre Performanzen, also das, was sie dann bei den AufgabenStichproben tun, sagen oder sonstwie handlungsmäßig äußern, wären dann Hinweise für mich
auf Ihre entsprechenden Kompetenzen und Handlungsbereitschaften. Ich müßte einen Auswertungsschlüssel erstellen, um festzulegen, ab welcher Menge von Performanzen ich das
Kriterium der Fahrtüchtigkeit als gegeben ansehe oder nicht. In der Testtheorie haben sich
zwei Wege herauskristallisiert, wie dieses Kriterium. gesetzt werden kann: Entweder ich lege
es inhaltlich vorher fest (sicherlich nicht, ohne mich vorher mit Experten darüber verständigt
zu haben, oder z.B. aufgrund von Erfahrungswerten aus Unfallberichten), oder ich entscheide
aufgrund eines Vergleichsmaßstabes, der einfach auf den Werten einer gegebenen Anzahl von
Personen beruht, die sich diesem Test aussetzen. Wenn ich nun z.B. unter Ihnen 5 Autos zu
verteilen hätte, würden sie dann an die 5 Besten unter Ihnen verteilt werden.
Im Bereich des Bildungs-, Ausbildungs- und Berufswesens haben wir eine Reihe von Tests
solcher Art, die auf die eine oder andere Art, jedenfalls in der Regel nach sehr aufwendigen
Prozeduren entstanden sind. Man kann z.B. bei der Erstellung und Erprobung eines Schulleistungstests, der etwa das Pensum eines Schulfaches für ein Jahr abdecken soll, einen Zeitrahmen von 1 bis 2 Jahren erwarten, den ein etwa dreiköpfiges Team benötigt, bis dieser Test
vorliegt und allgemein eingesetzt werden kann.
Als Mitte der 60er Jahre in der Bundesrepublik die Rezeption der amerikanischen Evaluationsforschung in starkem Ausmaß erfolgte, waren auch die Verfahren der Entwicklung und
des Einsatzes von solcherart erstellten Tests diskutiert und angewendet worden. Sehr bald
erschienen Veröffentlichungen, die Ansprüche dieser Verfahren auf die Leistungsmessung in
15
der täglichen Praxis von Bildungseinrichtungen übertrugen. Man sprach zumeist vom "teacher-made test". Dabei machte man sich den Charakter der Stichprobe zunutze, indem die
sonst üblichen offeneren Aufgabenstellungen portioniert wurden. Somit entstand durch die
jeweils bei diesen kleineren Portionsmengen zu vollziehende Entscheidung (Teilaufgabe gelöst oder nicht?) eine Quantifizierungsmöglichkeit, die sich dann in einer späteren Summenbildung verrechnen ließ.
1. Eigener Erfahrungs- und Kenntnisstand
 Hochschuldidaktischer Arbeitskreis und einzelnen Beratungen
 Eigene Evaluationstätigkeiten
 Sekundärliteratur zur Evaluationsforschung
 Selbst Betroffener
2. Was sind Kriterien/Bestimmungen einer effektiveren Wissenschaft (Forschung/Lehre
verknüpft)?
 Gesellschaftlicher Auftrag
 Fachliche Dignität
 Verpflichtung gegenüber den „Anvertrauten“
 Eigene Persönlichkeit
3. Was sind akute/chronische Probleme für Forschung/für Lehre?
Forschung
Lehre
Viele forschen überhaupt nicht
Meistens nicht hinreichend elaboriert
Viele forschen nicht nach dem
Fehlender Forschungsbezug
„mainstream“
Vereinzelung besonders in Geistes- und
Fehlender Praxisbezug
Sozialwissenschaften
Mangelnde Kontinuität und „Nachbearbei- Nicht sequenziert
tung“
Zu große Bedeutung für Karriere
Nicht genug honoriert
Mangelnde Infrastruktur, Ressourcen
Erwarteter ökonomischer Mehrwert
Dominanz der Administration
zunehmender Einfluss der Eurokraten,
Umfeld von Lobbyisten,
im Hinblick auf Fragenkomplexe (was soll
erforscht werden?),
Beteiligung/Mittelvergabe (versteckte
Wirtschaftsförderung),
Mangelnde Transparenz der Mittelvergabe
(Agenten in Brüssel!)
4. Inwieweit helfen die Verfahren der Evaluation in der Lehre zur Lösung der Probleme?
Primäres Interesse der Administration an Entlastung von Budgetforderungen
5. Inwieweit helfen die Verfahren der Evaluation in der Forschung zur Lösung der
Probleme?
 Primäres Interesse an Vorbereitung und Legitimation von staatlichen Eingriffen
 Einflussnahme der Administration auf Forschungsschwerpunkte
 Verlagerung der Forschung aus der Grundausstattung (subsidiär für Vorbereitung von
Drittmittelforschungen)
6. Veränderungen erreicht man
16






durch Zwang (Kontrolle),
durch Einsicht (Appell),
durch benefits“ (pekuniäre o.a. direkte Anreize),
durch Erfolgsversprechen (Karrierechancen, Macht, Einfluss),
durch Ressourcenverbesserung,
durch Rückmeldung
Evaluation ist die systematische Sammlung und Bereitstellung von Information über didaktische oder didaktisch relevante Maßnahmen und Entscheidungen verschiedener Handlungsebenen zum Zwecke der Beschreibung, Bewertung und/oder Entscheidung
Literatur:
Lee J. Cronbach: Course improvement through evaluation. In: Teachers College Record, 64,
No. 8, May 1963, S. 672-83.
Elliott Eisner: Instructional and Expressive Educational Objectives: Their Formulation and
Use in Curriculum. In: AERA Monograph series on curriculum evaluation, No. 3. Chicago,
Rand McNally, 1969, S. 1-18.
HIS: Dokumentation „Evaluation der Lehre. - Aktuelle Aktivitäten an deutschen Hochschulen“, 2 Teile, erste Lieferung, Stand 2.2.1992.
Ludwig Huber u.a. (Hrsg.): Auswertung, Rückmeldung, Kritik im Hochschulunterricht. 2
Bände. Blickpunkt Hochschuldidaktik 50. AHD, Hamburg 1978
Michael Scriven: The methodology of evaluation. In: Tyler, Ralph W. et al.: Perspectives of
curriculum evaluation. AERA Monograph series on curriculum evaluation, No. 1. Chicago,
Rand McNally, 1967.
David L. Stufflebeam: Evaluation as Enlightment for Decision-Making, Improving, Educational Assessment and an Inventory of Measures of Affective Behavior. In: W.H. Beatty (ed.):
Association for Supervision an Curriculum Development (ASCD), NEA, Washington, D.C.,
1969, Se. 41-73.
Ralph Tyler: Basic Principles of Curriculum and Instruction. Chicago, University of Chicago
Press, 1950.
Wolff-Dietrich Webler u.a.: Lehrberichte, hrsg. vom Bundesminister für Bildung und Wissenschaft, Bonn 1993.
17