Hans-Dieter Haller Evaluation von Lehre - ein Weg zu einer effektiveren Wissenschaft? Vorbemerkung Anlass der folgenden Ausführungen ist die seit einigen Jahren in der Bundesrepublik Deutschland sukzessive ausgebaute Evaluation von Lehr- und Forschungstätigkeiten an Hochschulen. Es wird hierzu die Auffassung vertreten, dass eine Evaluation im Hochschulbereich (wie auch in anderen Bildungsbereichen) sinnvoll und notwendig ist, die bislang eingeschlagenen Verfahren werden aber nicht als weiterführend betrachtet; sie sind offensichtlich primär administrativen Zuschnitts. Aus der „Innenansicht“, d.h. nach den Erfahrungen eines innerhalb von 3 Jahren 3mal Betroffenen, werden Eindrücke geschildert, die den angemeldeten Zweifel belegen sollen. Mit aller Bescheidenheit wird die Frage gestellt, ob nicht Konzepte der Evaluation angemessener wären, die forschungsbezogen sind, den Gesichtspunkten sozialer Interaktion (Umgang der betreffenden Menschen miteinander) in Bildungseinrichtungen entsprechen, sich auf die Verbesserung der hochschuldidaktischen Praxis selbst richten. Um eine Begründung erkennen zu lassen, welche die möglichen Alternativen gegenüber dem durch administrativen und politischen Druck eingeschlagenen Weg berücksichtigt, wird zunächst in einem kurzen Rückblick Bezug genommen auf die Entwicklung der Evaluationskonzepte im Hinblick auf Bildungseinrichtungen. 1. Ein Rückblick: Entstehung grundlegender Evaluationskonzepte aus Forschungs- und Entwicklungszusammenhängen Der Begriff "Evaluation" ist dem angelsächsischen Sprachgebrauch entnommen und bezeichnet soviel wie "Bewertung", "Beurteilung". Als in den 60er/70er Jahren dieser Begriff in der Bundesrepublik in den Sprachschatz der Erziehungswissenschaft aufgenommen wurde, war dies als ein Anspruch verstanden, die seinerzeit vielfältig betriebenen Ansätze der inhaltlichen und organisatorisch-institutionellen Reform des Bildungswesens einer empirisch kontrollierten Bewährungsprobe zu unterziehen. In der seinerzeit vornehmlich auf die Erstellung von Curricula und neue Organisationsmodelle für Bildungseinrichtungen (insbesondere Gesamtschulen, Gesamthochschulen) ausgerichteten didaktischen Entwicklungsforschung z.B. richtete sich die Evaluation auf die Überprüfung der gestellten Lernziele und möglicher Nebenwirkungen: So wollte man z.B. feststellen, ob Schüler, die einen Kurs in Mengenlehre absolvieren, dadurch "besser" lernen und dies möglicherweise auch noch mit "mehr Vergnügen" als andere Schüler mit anderen curricularen Bedingungen. Im Kontext dieser Fragestellungen waren auch die zentralen Ansätze und Methoden der didaktischen Evaluation entstanden. So war z.B. ein entscheidender Gesichtspunkt von Evaluationsmaßnahmen der, ob die Ergebnisse einer Evaluation noch in den eigentlichen Entwicklungsprozess (z.B. eines Curriculum) eingespeist werden könnten (=formative Evaluation) oder aber "lediglich" im Nachhinein zur Verfügung ständen (=summative Evaluation). Es entwickelten sich verschiedene Grundmuster für Evaluationsmaßnahmen, die im wesentlichen orientiert waren an den Fragestellungen, die sich aus dem jeweiligen Reform- oder Innovationsansatz ableiten ließen. Um den Hintergrund dieser Entwicklungen verstehen und beurteilen zu können, erscheint es allerdings angebracht, einen kurzen Blick auf die Vorgeschichte dieser modernen Evaluationsforschung zu werfen. 1 Zunächst einmal ist die Durchführung einer Evaluation im Kontext eines Bildungswesens nicht Neues. So wird berichtet, da schon vor ca. 4000 Jahren in China Personen, die eine öffentliche Funktion ausübten, einer Überprüfung und Bewertung ihres Leistungsvermögens unterzogen wurden. Und natürlich kannte auch die Pädagogik früherer Jahrhunderte in Europa z.B. Formen und Verfahren der Leistungsüberprüfung. Dieses sind nun aber Verfahren gewesen, die den Adressaten eines Bildungssystems oder den Berufsaspiranten als Gegenstand der Evaluationsmaßnahmen angesehen haben. Er hatte sich zu beweisen und er hatte ggf. die Folgen eines ungünstigen Ergebnisses zu tragen. So wird durch Dohse berichtet, dass der Beginn dessen, was wir als Schulzeugnis in unserem Schulwesen kennen, zu Beginn der Neuzeit als Benefizienzeugnis zu verzeichnen war, in welchem den Förderern solcher Schüler, die -heute würden wir sagen- private oder öffentliche Stipendien erhielten, Bericht erstattet wurde über den schulischen Fortschritt, den diese geförderten Schüler genommen hatten. Im Zuge der europäischen Aufklärung entstand dann jedoch ein neuer Gedanke, nämlich die Überprüfung des Systemkontextes, in welchem Lehr- und Lernprozesse organisiert waren und stattfanden. Wir kennen z.B. einen Satz von Kant, dass man erst Versuchsschulen einrichten solle, ehe man Neues auch in Normalschulen einführe. Es ging also nicht so sehr um eine Beurteilung von Lernenden als vielmehr um die Frage, wie am besten mit den Lernenden umzugehen sei. Heute werden diese beiden Grundfunktionen von Evaluation und Leistungsmessung als Adressaten- und Systemevaluation gekennzeichnet. Als Ende des 19. Jahrhunderts in den USA und Europa Versuche unternommen wurden, neue Formen der Leistungsüberprüfung im Bildungswesen zu entwickeln und zu erproben, die insbesondere erfahrungswissenschaftlichen Ansprüchen standhielten, war es denn auch zunächst dieser Gesichtspunkt einer Systemevaluation, der ausschlaggebend war für die gewählten Verfahrensweisen. So wollte Joseph Meyer Rice, der ausgangs des 19. Jahrhunderts in den USA den wohl ersten Schulleistungstest entwickelte, feststellen, welche Fehlwirkungen der Schulunterricht erzeugte, um seiner Überzeugung Nachdruck zu verleihen, dass die Schulzeit ineffizient genutzt würde. Es entwickelten sich daraus in den folgenden Jahrzehnten in den USA, aber auch in Europa Ansätze und Praktiken der Leistungsmessung im Bildungs- und Ausbildungswesen (schon sehr früh übrigens auch in Deutschland im Hinblick auf die Auslese von Berufsaspiranten), die wir als moderne Testverfahren kennen. Darunter ist nicht nur der klassische Test selbst zu verstehen, sondern auch offenere Formen der Leistungsmessung, z.B. Essay-Aufgaben und praktische Handlungssituationen. Insbesondere in den USA, aber auch bei einigen Pädagogen und Psychologen in Deutschland entstand die Vision eines auf solche Testverfahren gegründeten Leistungsmessungssystems im Bildungs- und Ausbildungswesen. Was aber entwickelte sich weiter aus diesen Ansätzen in den USA bis etwa um die Mitte dieses Jahrhunderts? Evaluation und Messverfahren wurden gleichgesetzt, d.h. mit der Entwicklung und dem Einsatz von Messverfahren glaubte man bereits, evaluiert zu haben, ohne zu berücksichtigen, dass hierzu zusätzliche Entscheidungsprozesse und andere Maßnahmen erforderlich sind. Grundmuster für Evaluations- und Messverfahren war ein naturwissenschaftlich orientiertes Paradigma, d.h. der Besonderheiten der Erhebung von sozialen Prozessen wurde nicht hinreichend Rechnung getragen. Evaluation und Messverfahren orientierten sich an interindividuellen Unterschieden; die vorherrschenden Testverfahren waren z.B. mehr dazu geeignet, Rangreihen zwi2 schen Lernenden aufzustellen, als zu überprüfen, ob ein gegebenes Lernziel erreicht war oder nicht. Einen neuen Meilenstein setzte 1950 Ralph Tyler mit seinem Buch "Basic Principles of Curriculum and Instruction", indem er die Zielfrage als das wesentliche Problem der Evaluationsforschung sah. Allerdings ging es ihm nur um die Überprüfung der Frage, ob gegebene Ziele erreicht worden seien, nicht um eine Evaluierung der Ziele selbst, die er als vorgegeben betrachtete. Als nach dem Sputnik-Schock von 1957 in den USA eine breite Welle der Förderung von Innovationen im Bildungswesen einsetzte, und mit anderen Beweggründen und in geringeren Ausmaßen war dies dann 5-10 Jahre später auch in der Bundesrepublik der Fall, war zum einen eine neue Dimension in bezug auf die Funktion von Evaluation eröffnet, indem eben die Förderer und Auftraggeber Rechenschaft über die Verwendung der von ihnen bereitgestellten Mittel forderten (z.B. die Ford Foundation in den USA oder in Deutschland die Stiftung Volkswagenwerk). Der Gedanke der "accountability" („how much education do we get for our money?“) entstand hierbei, war aber anders als bei den Benefizienzeugnissen des 16. Jahrhunderts auf Maßnahmen im Bildungswesen gerichtet (z.B. eine neue Schulorganisationsform oder ein neues Fachcurriculum) und nicht auf Personen wie Schüler oder Studenten. Zum anderen wurde deutlich, dass das bisherige methodologische Instrumentarium nicht ausreichte, um dieser Zielsetzung gerecht zu werden. 1963 formulierte Cronbach in seinem Aufsatz "Course Improvement Through Evaluation" das Problem folgendermaßen: 1. Wenn Evaluation nützlich sein soll für - in diesem Fall - die Entwickler neuer Kurse, dann muss sie sich auf die Entscheidungen beziehen, die diese Entwickler im Entwicklungsprozess zu vollziehen haben. Evaluatoren sollen also nicht danach fragen, welche Ziele jemand im Kopf hat und wie diese erreicht worden sind, sondern vielmehr: Wer sind die Entscheidungsträger? Welche Art von Entscheidungen treffen sie? Welche Kriterien wenden sie dabei an? 2. Evaluation muss sich auf die Verfeinerung und Verbesserung des entwickelten Kurses richten, und zwar im Entwicklungsstadium. 3. Wenn also Evaluation der Kurs- oder Systemverbesserung dienen soll, nutzen Kursoder Systemvergleiche nichts. Die Ausweitung der Innovationsprogramme erforderte nun Evaluationsaktivitäten angesichts zugleich zunehmender Verwirrung über das richtige Evaluationskonzept. In den folgenden Jahren wurden dann mehrere wichtige Beiträge zur Evaluationsforschung vorgelegt, die detailliert darzustellen den Rahmen dieses Referates sprengen würde. 1967 erschien "The Methodology of Evaluation" von Michael Scriven, der mit einem "Sowohl-als-auch" die Diskutanten z.T. versöhnte: Sowohl formative Evaluation (in Weiterführung des Gedankens von Cronbach zur Kursverbesserung) als auch summative Evaluation (gewissermaßen als Feststellung der Summe des Ertrags, den eine Innovation geboten hatte). Evaluation also für je verschiedene Zwecke; professionell, aber auch vom Amateur; sowohl 3 intrinsische oder Prozess-Evaluation als auch pay-off- oder Ergebnis-Evaluation. Allerdings optierte Scriven anders als Cronbach klar auch für den Kurs- oder Systemvergleich. Er ging dann auch so weit, von einer Hybrid-Evaluation zu sprechen, also einer Mischform im praktischen Betätigungsfeld. Eine weitere Ausdehnung des Evaluationsanspruches war 1969 das Ergebnis eines Aufsatzes von Elliot Eisner über "Instructional and Expressive Objectives". Lernziele, so Eisner, sind nicht nur nicht wertneutral, sondern die Art und Weise ihrer Formulierung, Entwicklung und Kodifizierung ist Ausdruck eines je spezifischen metaphorischen Denkens; dominant seien 3 Metaphern: die industrielle Metapher nach dem Muster des scientific management; die behavioristische Metapher (angelehnt an die positivistische Verhaltenspsychologie; die biologische Metapher (angelehnt an die biologische Entwicklungstheorie). Lehrende, so Eisner, seien es im Gegensatz zur Riege der Forscher und Evaluatoren gewohnt, in den Dimensionen der 3. Metapher zu denken und zu handeln. Evaluation nach dem Muster der ersten beiden Metaphern greife jedoch an diesem Denken und Handeln der Praktiker vorbei. Es müsse demgegenüber bei jeder Evaluation deren Denkweise dadurch berücksichtigt werden, dass "Einzigartigkeit und Bedeutsamkeit dessen, was hervorgebracht wurde, bedacht" werde. Zweierlei lässt sich aus diesem Konzept von Eisner profitieren: Zum einen erkennen wir, dass in jeder Evaluationsmaßnahme nicht nur die Wägbarkeiten zu beachten sind, dass nicht nur das Kommensurable in den Evaluationsaspekt einzubeziehen ist. Der gegenteilige Ansatz ist nicht per se falsch, sondern nur im Hinblick auf seinen Absolutheitsanspruch, wenn er allein Quantitäten und Quantifizierbares berücksichtigen möchte. Mehr noch: die Vorstellungen und das Bewusstsein der Beteiligten (ihre Sicht der Dinge) sind als Element eigener Art mit zu berücksichtigen. Zum anderen wird deutlich, dass in Forschung und Praxis unterschiedliche Denkweisen vorherrschen, die nicht unbedingt auf einen Nenner zu bringen sind. Mehr noch: Forschung und Praxis stehen unter unterschiedlichen Funktionen und Bedingungen im Hinblick auf Evaluationsmaßnahmen und folglich auch im Hinblick auf Evaluationskonzepte und -ansprüche. Dieser Gedankengang spielt für die folgenden Bemerkungen eine zentrale Rolle; es kommt hier als drittes Element noch der politisch-administrative Sektor hinzu. Dass es kein allgemeingültiges Konzept von Evaluation im Bildungssystem geben kann, wurde dann im gleichen Jahr vollends betont durch Stufflebeam (1969), der einen Bezug herstellt zum Entscheidungsbedarf und den vollzogenen Entscheidungen. Evaluation ist im (Bildungs-)Forschungssinn eine Reihe komplexer und oftmals sehr aufwendiger Verfahren, um Wirkungen oder Nebenwirkungen von Maßnahmen im Bildungswesen zu überprüfen und um Entscheidungen vorzubereiten bzw. zu treffen. Es besteht dabei kein Zweifel mehr, dass im Zusammenhang didaktischer Entwicklungsforschung der Systemevaluation gegenüber einer Adressatenevaluation Vorrang gewidmet werden soll. Die im Folgenden zu zeigende Entwicklung eines politisch-administrativ gelenkten Evaluationsverfahrens bringt als Gegenstand und Ziel einer Evaluation die betreffenden Einrichtungen als neue Größe ins Spiel. 2. Entwicklungen und Erfahrungen zur Evaluation der Lehre an deutschen Hochschulen 4 Traditionell kennt die deutsche Universität keine staatliche Kontrolle nach Art der z.B. im Allgemeinbildenden Schulwesen üblichen Aufsichtsinstanzen. „Forschung und Lehre sind frei“, so heißt es im Grundgesetz. Eine Qualitätssicherung ist dabei auch nicht erkennbar. Bis Anfang der 70er Jahre war immerhin mit dem Mittel der Hörergelder ein gewisses Regulativ gegeben, das dann aber abgeschafft wurde und keinen Ersatz fand. Zur Sprache gekommen waren zwar die studentischen Veranstaltungskritiken, die sich aber nie allgemein durchsetzen konnten (eine sehr detaillierte Dokumentation von Beispielen und Erfahrungen geben Huber u.a. 1978). Die Bemühungen um einen Ausbau der Hochschuldidaktik (wesentliche Impulse hatten in der zweiten Hälfte der 60er Jahre die Bundesassistentenkonferenz und der SDS mit entsprechenden Denkschriften zur Hochschulreform gesetzt) hatten nur vorübergehenden Erfolg in der Einrichtung von hochschuldidaktischen Einrichtungen, die aber großenteils wieder aufgelöst oder umorientiert wurden. Einen neuen Akzent setzte die seit Anfang der 90er Jahre in der Bundesrepublik Deutschland kontinuierlich ausgebaute Evaluation der Lehre in den Hochschulen (und nachfolgend auch der Forschung) auf der Grundlage von Selbstberichten. Dieses Verfahren war vorher schon vor allem in den Niederlanden und Großbritannien entwickelt worden und üblich geworden. Im wesentlichen besteht es aus drei Komponenten, einmal die von den betreffenden Einrichtungen (Fakultäten, Fächern bzw. Institute oder Seminare) anzufertigenden Lehrberichte, zum anderen die daran anschließenden Begehungen dieser Einrichtungen in Form von „peer-reviews“ (durch Gutachter/-innen aus dem Kreis von Kolleginnen/Kollegen aus einem anderen Bundesland) und schließlich dem Maßnahmenkatalog, mit dem die betreffende Einrichtung auf die Gutachten bzw. Ergebnisse zu reagieren verspricht. Die Lehrberichte sind von den Einrichtungen selbst zu erstellen, sie folgen einem Katalog von voraus gestellten Fragen (bezogen auf Ausstattung, Absolventenzahlen, Noten etc.). Die Begehungen erfolgen in Form von ca. zweitägigen Besuchen mit Gruppengesprächen und einem rückmeldenden Vortrag der Gutachtergruppe, dem der eigentliche schriftliche Bericht später folgt. Darauf gründet sich auch der Maßnahmenkatalog, mit dem die betreffende Einrichtung ihre Reaktionen bzw. Neuorientierungen ankündigt, die später wiederum zu überprüfen sein werden. Die Organisation und Dokumentation wird von einer Evaluationsagentur betrieben, die dafür einen Auftrag und entsprechende Ausstattung durch das Ministerium erhält. Dieses Evaluationsmuster kann als typisch für Administrationen angesehen werden, die ihrerseits über keinerlei Kompetenz verfügen, eine Evaluation selbst durchzuführen.1 Grundlegendes Merkmal dieses Musters ist es, die zu evaluierenden Einrichtungen/Personen selbst die erforderlichen Daten und Dokumente beschaffen zu lassen und in Form einer Selbstverpflichtung Besserung geloben zu lassen. Dies spart Kosten und sichert Legitimation! 2 Es hat sich gezeigt, dass ein Großteil der erforderlichen Daten nicht bereits routinemäßig erfasst worden war, sondern aus Anlass der Lehrevaluation erst einmal erstellt werden musste. Dies hatte sicherlich Auswirkungen im Sinne von Nachdenklichkeit und Betroffenheit (insbesondere wurden manche Fächer dadurch erst auf hohe Abbrecherquoten bei den Studierenden aufmerksam, von denen man zuvor nur kursorisch wusste), zeigt aber auch, dass hier über die Evaluierung ein administrativer Eingriff erfolgte, der eigentlich als Maßnahme zuvor hätte Auffallend sind die Analogien zu Optimierungsverfahren aus der Produktion („Qualitätssicherung“) und die Rezeption allgemeiner Verwaltungsreformbemühungen („neue Steuerungsmodelle“). 1 2 Die Anfertigung eines Lehrberichtes für ein Fach wie Pädagogik an der Universität Göttingen dürfte mindestens 500 Arbeitsstunden in Anspruch genommen haben, etwa zur Hälfte in Form von Gremiensitzungen und –beratungen einerseits und den Datenzusammenstellungen und –analysen sowie den eigentlichen Schreibtätigkeiten einzelner Personen andererseits. 5 eingeleitet werden müssen. Mit anderen Worten: die Administration hätte längst schon Gelegenheit gehabt und wäre gut beraten gewesen, die Hochschuleinrichtungen zum Aufbau einer vernünftigen und vergleichbaren Statistik und Studienanalyse aufzufordern und die dafür notwendigen Voraussetzungen (Finanzierung, welches Datenbanksystem, welche Variablen etc.) zu schaffen.3 Vorbereitet wurde dieses Evaluationsverfahren in der Bundesrepublik Deutschland Ende der 80er Jahre durch die Westdeutsche Rektorenkonferenz mit Unterstützung des Bundesministeriums für Bildung und Wissenschaft; vorgestellt wurde es 1993 in einer Schrift in einer Veröffentlichungsreihe dieses Ministeriums (Webler u.a. 1993), zu welcher der damalige Minister Ortleb ein Vorwort schrieb, in dem er u.a. die geforderte Verwendung deutlich macht: „Lehrberichte sind sicherlich ein geeignetes Instrument, die aktuelle Entwicklung in Studium und Lehre des jeweiligen Fachbereiches oder Fakultät zu dokumentieren. Sie können auf Beispiele einer besonderen Leistungsstärke aufmerksam machen, aber auch Schwachstellen und der Struktur und Organisation bloßlegen. Wer solche Berichte erarbeiten will, um die Wirksamkeit und Effizienz akademischer Lehre transparent zu machen oder auf gegenteilige Entwicklungen hinzuweisen, der benötigt allerdings Kriterien oder Indikatoren, mit denen sich Qualität der Lehre oder ihr Gegenteil messen lassen. Gleichzeitig muss bei den Beteiligten ein Konsens darüber bestehen, dass die gewählten Kriterien auch tatsächlich für eine Aussage über das angestrebte Ziel geeignet sind“ (s. dort S. III). Eine Veranstaltung des „Interdisziplinären Zentrums für Hochschuldidaktik“ Bielefeld 1994, bei der das Konzept und Verfahren dieser Lehrevaluation vorgestellt wurde, war von großer Resonanz, aber auch Verunsicherung gekennzeichnet. Verunsicherung insofern, als viele der Teilnehmenden ihre Besorgnis bekundeten, es komme etwas auf ihre Einrichtungen zu, was diese insgesamt und sie selbst als Durchführungsbeauftragte nicht bewältigen und dessen Folgewirkungen sie nicht abschätzen könnten. Mit drei anekdotischen Berichten aus eigener Erfahrung will ich nun einige Schwachstellen dieser Lehrevaluation beleuchten. Sie sollen und können nicht das Verfahren infrage stellen, sollen aber deutlich machen, dass das alles von einer forschungsbezogenen Konzeption von Evaluation und von einer Hochschulreform noch sehr weit entfernt ist. Zugespitzt formuliert drängt sich der Verdacht auf, das es sich um eine Therapie handelt, bei der dem Patienten zunächst eine eigene Anamnese abverlangt wird („nun schreib’ mal alles schön auf, was Dir wehtut und wo etwas nicht in Ordnung ist“), des weiteren ein Patient aus einem anderen Krankenhaus, der aber an den gleichen Symptomen leidet, die Diagnose stellt, und schließlich die Selbstheilungskräfte in Zukunft alles wieder herrichten sollen. Nachdem in den ersten beiden Fächern an der Universität X die Lehrevaluation durchgeführt worden war, gab es eine Zusammenkunft von Vertretern/-innen der Studierenden und „Mittelbaus“, auf der über Konsequenzen berichtet wurde. Ein entmutigendes Ergebnis für alle Reformwilligen war der Bericht eines der Anwesenden, in seinem Fach sei eine solche Forderung nach Maßnahmen zur Verbesserung der Lehrsituation aufgestellt, aber von einem der Seminardirektoren mit dem Hinweis beschieden worden, nun habe man ja die Lehrevaluation hinter sich und könne zur gewohnten Tagesroutine übergehen, 3 Als ich 1993/94 als Vorsitzender des Magisterprüfungsausschusses der Fakultät versuchte, die Absolventendaten (über die ich ja verfügen konnte, weil die Prüflinge im Prüfungsbüro erfasst und begleitet wurden) mit den Einschreibungen abzugleichen, wurde das als nicht möglich abgetan. 6 jetzt sei erst einmal Ruhe im Institut, und bis zur nächsten Lehrevaluation habe man ja noch eine Reihe von Jahren Zeit. Bei einem anderen Fall, der mehrere Einzelfächer der betreffenden Fakultät umfasst hatte, war schon im Vorfeld eine Diskussion geführt worden, ob man die Evaluation „ernst“ nehmen und positiv aufgreifen oder minimalistisch erledigen solle. Mehrheitlich war in der Studienkommission und im Fakultätsrat für die erste Alternative gestimmt worden. Es gibt nun eine Militärtaktik, an die man sich hier erinnert fühlen konnte: Wenn man ungeschützt und auf freier Fläche ist, muss man sich einnebeln und viel Krach machen, um erstens nicht gesehen und zweitens in seiner Zahl und Wirksamkeit überschätzt zu werden. Hier geschah dies nun durch eine Reihe von Aktionen (z.B. Wandzeitung: „Wie verbessern wir unsere Lehre?“, Einrichtung eines paritätischen Lenkungsgruppe), die dann im Lehrbericht bereits als fait accompli berichtet werden konnten und das begeisterte Erstaunen der Evaluatoren hervorriefen. In der Senatskommission für Lehre wurde 1994/95 an der Universität X die Einführung eines Fragebogens für studentische Veranstaltungs- oder Lehrkritik diskutiert. Verschiedene Muster waren vorgelegt worden. Eine große Aufregung entstand um die Frage, ob an der gesamten Universität ein verbindlicher Fragebogen einzusetzen sei und ob die Ergebnisse aller bewerteten Personen mit Namensnennung (und in welcher Form) bekannt gegeben werden sollten. Beruhigung entstand dann aber, als ein Jurist mit der ganzen Würde seines Faches die Wogen mit dem Hinweis glättete, eine Bekanntgabe verstöße natürlich gegen den Grundsatz der Lehrfreiheit, eine Beteiligung an solchen Lehrkritiken könne überhaupt nur auf freiwilliger Grundlage geschehen. Der Hinweis, man solle doch eine maschinelle Auswertungsform anstreben, die jedem/jeder Lehrenden die Ergebnisse (ob nun anonym oder nicht) in kürzester Zeit aufbereitet vorlege, wurde nicht befolgt. So blieb alles freiwillig, auch die Auswertung. Berücksichtigt man den Aufwand, z.B. in einer Vorlesung mit hunderten von Fragebogen eine Auswertung vorzunehmen, so ist allein schon deshalb klar, warum somit wenige Lehrveranstaltungen in dieser Form evaluiert werden.4 Seit einigen Jahren nun ist dieses Konzept umgesetzt worden und bereits gängige Praxis. Auf der Webseite der ZEVA (Zentrale Evaluations- und Akkreditierungsagentur für Norddeutschland: http://www.zeva.uni-hannover.de/) werden inzwischen detaillierte Materialien angeboten, einerseits die Berichte und Ergebnisse bisheriger Evaluationen (18 Berichte einzelner Fächer bzw. Studiengänge, die landesweit entstanden sind, liegen zum Zeitpunkt Ende 2001 vor), andererseits die Verfahrensbeschreibungen, erwünschten Datenstrukturen etc. aufgrund derer sich Einrichtungen und Personen auf eine solche Evaluationsprozedur vorbereiten können. Ein Beispiel ist folgender Hinweis auf die Daten zur Studiendauer: 4 An der medizinischen Fakultät meiner Universität ist eine solche maschinelle Auswertung inzwischen üblich, dabei können auch verschiedene Lehrveranstaltungen miteinander verglichen werden! Vielleicht verfügen Mediziner/-innen aufgrund gängiger Supervisionsverfahren bereits über mehr Toleranz in der kollegialen Kontrolle? 7 Innerhalb weniger Jahre ist so in Deutschland eine Infrastruktur der Lehr- und ansatzweise inzwischen auch Forschungsevaluation entstanden, mit Vernetzungen in nationalen und internationalen Vereinigungen (z.B. evanet.his.de, Deutsche Gesellschaft für Evaluation, European Evaluation Society EES)5. Eine rechtliche Grundlage, die übrigens die von Skeptikern vermuteten Zusammenhänge zwischen Finanzrestriktion und Evaluation der Hochschulen6 nicht nur deutlich macht, sondern geradezu als konstitutiv herausstellt, bietet das Hochschulrahmengesetz: Auszug aus dem vierten Gesetz zur Änderung des Hochschulrahmengesetzes vom 24. August 1998: §5: Staatliche Finanzierung Die staatliche Finanzierung der Hochschulen orientiert sich an den in Forschung und Lehre sowie bei der Förderung des wissenschaftlichen Nachwuchses erbrachten Leistungen. Dabei sind auch Fortschritte bei der Erfüllung des Gleichstellungsauftrags zu berücksichtigen. §6: Bewertung der Forschung, Lehre, Förderung des wissenschaftlichen Nachwuchses und der Gleichstellung der Geschlechter Die Arbeit der Hochschulen in Forschung und Lehre, bei der Förderung des wissenschaftlichen Nachwuchses sowie der Erfüllung des Gleichstellungsauftrags soll regelmäßig be- 5 gegründet 1994 in Den Haag: “The society´s primary goal is to promote theory, practice and utilization of high quality evaluation especially, but not exclusively, within the European countries. This goal is obtained by bringing together academics and practicians from all over Europe and from any professional sector, thus creating a forum where all participants can benefit from the co-operation and bridge building.” (s. www.europeanevaluation.org/general/general.htm) http://fachschaft.psycho.uni-osnabrueck.de/FlatLine/497/perspektiven.html: „Seit das Geld überall im Lande knapp wird, ist der Ruf nach Evaluation in der Bildungspolitik laut geworden, ohne daß so richtig klar wird, was eine Evaluation wirklich bringen soll.“ 6 8 wertet werden. Die Studierenden sind bei der Bewertung der Qualität der Lehre zu beteiligen. Die Ergebnisse der Bewertungen sollen veröffentlicht werden. Es geht also ganz deutlich um eine leistungsorientierte Finanzierung, wobei allerdings weitgehend unklar bleibt, welche Leistungen erwartet und wonach und von wem sie bewertet werden sollen. (Gerade dieses aber sind die spannenden Fragen, wie der erste Abschnitt um Evaluationskonzepte im historischen Abriss deutlich machen sollte.) Mit den von den bisher durchgeführten Verfahren der Lehrevaluation bekannten Ergebnissen kann diese Frage wenigstens ansatzweise beantwortet werden, indem nämlich weiter gefragt wird, welche Folgen daraus erkennbar werden. Neben den Bemühungen um straffere und transparentere Studienorganisation (mit dem geringere Ausfallquoten und kürzerer Studienzeiten) scheinen vor allem Angleichungen an internationale Entwicklungen als notwendig verstanden zu werden. Es geht inzwischen in der Bundesrepublik Deutschland um Modelle der Studienorganisation („modularer Aufbau“ ist hier das Zauberwort), die Einführung neuer Studiengänge wie B.A., M.A. und „Intensivstudiengänge“, neue Formen der Leistungsnachweise (Kreditpunkte nach angelsächsischem Vorbild), kurzum: wieder eine politischadministrativ orientierte Entwicklung, nämlich größere Einheitlichkeit im Verband der Europäischen Union. Was hingegen nach wie vor fehlt, ist eine Diskussion um die Lehrpraxis und die Verbesserung der Lehr-/Lernprozesse selbst.7 Hochschuldidaktik ist bislang nicht besonders mehr gefragt als zuvor. Allerdings kommt zur Zeit eine Entwicklung in Gang, deren Folgen noch überhaupt nicht abschätzbar sind: seit etwa 5 bis 6 Jahren wird der Telematikbereich („Neue Medien“, „E-Learning“, „Teleteaching“, „Virtuelle Universität“ u.ä. Bezeichnungen) für die Hochschulen (wie auch andere Bildungseinrichtungen) systematisch erschlossen und ausgebaut, z.T. mit enormen Finanzmitteln. Auch hier liegt die Vermutung nahe, dass es sich letztlich um Einsparpotentiale handelt, in die z.Zt. investiert wird, können doch somit Fächer oder Institute standortübergreifende Lehre anbieten, Lehrveranstaltungen individuell nachbearbeitet werden, etc. Mehr noch scheint es sich dabei jedoch darum zu handeln, den akademischen Lehrbereich auf eine Privatisierung oder wenigstens pseudostaatliche Ökonomisierung (das nennt man jetzt „Stiftungsuniversität“) vorzubereiten. Welche didaktischen Änderungen die neuen Technologien ermöglichen oder gar hervorrufen werden, ist bislang allerdings noch sehr offen. 3. Ein Plädoyer für wirksame Rückmeldung im Hochschulunterricht Vom Grundsatz her ist zu fragen, wo kann mit solchen Verfahren tatsächliche Verbesserung erzielt werden (nicht nur Schönfärberei). Da muss man schon nach den Motiven und Überzeugungen derer suchen, welche von den Evaluationen und ihren Implikationen betroffen sind! Das wissen wir nun spätestens seit den Forschungen zu Innovationswirkungen und Implementierungen von gesellschaftlichen Innovationen aus den 70er Jahren, und als gute Pädagogen und Didaktiker schon allemal: „You can lead a horse to water, but you cannot make it drink“, hatte Ernst Rothkopf mit seinem mathemagenischen (lernerzeugendes Verhalten) Ansatz gegen Ende der behavioristischen und zu Beginn der kognitivistischen Instruktionspsychologie gesagt. Nach Lage der Dinge, und das sind die menschlichen Verhältnisse, muss das in den Köpfen und Wünschen der Betroffenen angesiedelt sein; sie müssen Änderungen Unter 965 Dokumenten, die eine Suchmaschine im Internet zum Stichwort „Lehrevaluation“ aufwies, war die weit überwiegende Mehrzahl nur auf die Darstellung des Verfahrens sowie die Berichte selbst bezogen, ganz wenig konnte man darunter hingegen finden, was auf eine Auseinandersetzung mit der vorgängigen Lehrpraxis selbst deuten ließ (so die bereits zitierte Webseite der Fachschaft Psychologie an der Universität Osnabrück).. 7 9 wollen, und wenn es nicht wollen, finden auch keine Änderungen statt. Dazu müssen sie zunächst einmal von den Defiziten der vorhandenen Situation überzeugt sein, dann entspringen die Wünsche nach Verbesserung der Einsicht8. Oder sie haben einen ganz starken äußeren Anreiz (Geld, Karriere, Macht), dann müssten aber auch die Sanktionsmechanismen darauf abgestimmt sein.9 Die Evaluation über Lehrberichte und peer-reviews ist institutionell bezogen: Wie in einer Schulklasse angesichts eines diffusen (weil an alle gerichteten) Donnerwetters des Lehrers alle die Köpfe einziehen, aber sich nicht als persönlich gemeint betrachten, ist dieses Verfahren nicht besonders gut geeignet, den einzelnen Beteiligten ihren individuellen Stärken und Schwächen so vor Augen zu führen, dass sie die ersteren noch ausbauen und die letzteren abbauen. Lernen, sich verändern wollen, ist in hohem Maße das Resultat einer Einsicht in die Notwendigkeit einer Veränderung und die anschließende Bestätigung des Veränderungsprozesses. Voraussetzung für diese Entwicklung von Einsicht und Veränderung ist wiederum die Kenntnis der Wirkungen des bisherigen Tuns. Wer z.B. Bogenschießen erlernt, seine Pfeile dabei aber abschießt, ohne jemals zu erfahren, wo sie gelandet sind, wird sich kaum verbessern können. Und wenn man ihm sagt, wohin er fehlgeschossen hat, und er dieses nicht glaubt, so kann er hingehen und sich selbst davon überzeugen! Bei guten Seminaren (d.h. wenn von den Studierenden weitgehend übereinstimmend festgestellt wird, dass es ein gutes Seminar gewesen sei) wird von Studierenden auffällig oft die sorgfältige Rückmeldung durch den Dozenten resp. die Dozentin gelobt, was auf zweierlei Gesichtspunkte verweist: Zum einen ist dies ein Indikator dafür, dass Studierende Rückmeldungen erwarten, zum anderen lässt sich danach vermuten, dass Rückmeldungen nicht allzu üblich sind. Ein gleiches –oder gar noch mehr- gilt für die Lehrenden, denn auch sie unterliegen ja dem Prinzip, dass uns die Folgen unserer Handlungen aufgezeigt werden müssen, wenn daraus Rückschlüsse gezogen werden sollen, was gut und was veränderungsbedürftig bei dem ist, was wir tun. Der Erkenntnis der Lernforschung folgend, dass Lernstrategien, Lernmethoden sich als Lernstile niederschlagen, die Ausdruck individueller Vorlieben oder Abneigungen sein können, haben wir im Hochschuldidaktischen Arbeitskreis der Universität Göttingen einen Fragebogen entwickelt, in dem einerseits eine Gewichtung der Funktionen von Lehrevaluationen erfasst wird, andererseits auch die individuellen Wünsche oder Erwartungen hinsichtlich der Gestaltung oder Ausführung von Rückmeldungen an die Studierenden. Die folgenden Ergebnisse stammen aus einer Befragung der Teilnehmer/-innen einer Vorlesung in Jura (N=42); sie sind natürlich nicht repräsentativ, illustrieren aber den Stellenwert der hier vorgetragenen Überlegungen: 8 Im Zusammenhang einer hochschuldidaktischen Betreuung einer Lehrveranstaltung an einer anderen Fakultät lobte ich die erkennbar gute Betreuung der Studierenden für Referate und Präsentationen und erhielt als Antwort: „Ja, wir mussten uns auch etwas einfallen lassen angesichts der dramatischen Rückgänge der Studierendenzahlen vor ein paar Jahren.“ 9 Vor einigen Jahren war ein Kollege aus Chile zu Besuch an unserer Fakultät und hielt einen Vortrag über die Privatisierungstendenzen im Bildungswesen seines Landes. Er berichtete u.a., dass die staatlichen Universitäten schlechten Unterricht böten, die privaten hingegen einen deutlich besseren, gleichwohl sei ein großer Teil des Lehrpersonals der privaten Universitäten im Hauptberuf an einer staatlichen Universität angestellt. Mit anderen Worten: Hier der Job und das sichere (bescheidene) Einkommen, aber kein großes Bemühen; dort der einträgliche (aber unsichere) Nebenverdienst, für den man sich schon bemühen muss. 10 Funktion: Welche Funktionen sollten Lehrevaluationen erfüllen? 1.Individuelle Rückmeldung an alle Lehrenden über Stärken und Schwächen ihrer Lehrtätigkeit 2.Kontrolle durch den Staat, ob Lehrende ihre Dienstaufgaben ordentlich/gewissenhaft wahrnehmen 3.Rückmeldung an Fächer/Institute/Fakultäten über Stand und Qualität der Lehre in ihrem Bereich 4.Informationen für potentiell Studierende und ihre Eltern über die Qualität der Lehre an verschiedenen Standorten 5.Sammlung von Hinweisen zur strukturellen Verbesserung der Lehre (z.B. neue Organisationsmodelle) 6.Vorbereitung von Entscheidungen über Verlagerung finanzieller Ausstattungen von Fächern/Instituten (z.B. mehr Geld für Fächer/Institute mit hoher Lehrbelastung und effizienter Lehre) 7.Individuelle Rückmeldung an alle Lehrenden über Effektivität (Wirksamkeit) ihrer Lehrtätigkeit 8.Vorbereitung von Entscheidungen über veränderte Besoldungsmodelle (z.B. Anpassung der Besoldung an Erfolge in der Lehre) Rangplatz: die wichtigste Funktion=1, dann 2, etc. Mittel Streuung Rang 2,76 1,7 1 3,71 2,3 5 3,36 1,8 2 5,07 2,3 7 3,52 2,0 3 4,76 2,1 6 3,64 2,1 4 5,98 2,4 8 Hinsichtlich ihrer Wünsche für Rückmeldungen zu ihren eigenen Studienleistungen erkannten wir Unterschiede im Hinblick auf einerseits eine offene Rückmeldung, die dann aber auch den Schutz der Gruppe für den Betreffenden bieten würde, andererseits bei manchen auch eine verborgene Rückmeldung (nur an mich persönlich gerichtet, die anderen Studierenden sollen nichts davon erfahren, wie ich bewertet wurde). Ein erster Faktor scheint dann noch der Wunsch nach Berücksichtigung der individuellen Person (Rückmeldung muss mir persönlich nutzbringende Informationen bieten zu sein, als 2. Faktor zeichnete sich ab die Orientierung an der Sache, der Sachbezug in der Rückmeldung. Wenn man versucht, weitreichender darüber nachzudenken, welchen Stellenwert Rückmeldungen faktisch gesehen in der akademischen Lehre haben, so stößt man bald schon darauf, dass das Prinzip des Wirkungsnachweises (Rückmeldung muss die Folgen der Handlungen aufwiesen) selten realisiert ist. Hochschulen in Deutschland haben keine Rückmeldungskultur! Auch die studentische Veranstaltungskritik ist nicht gleich mit diesem Prinzip verbunden, vor allem dann nicht, wenn sie anonym im Fragebogen erfolgt und gar nicht sichergestellt ist, dass die Ergebnisse der Befragung für alle Beteiligten bekannt werden und in einer Diskussionsrunde erörtert werden können. Um nicht folgenlos (oder nur „symbolische Handlung“) zu bleiben, muss mit ihr eine Wirkungsmöglichkeit verbunden sein. Wie nun könnte man die Rückmeldung zur akademischen Lehre unter diesem Gesichtspunkt gestalten, den Beteiligten (und es müssten ja Dozierende und Studierende sein) die Folgen aufzuweisen, ohne zu symbolischen Mitteln wie beiderseitigen Notengebungen zu greifen? Es ist ein Nachweis der Art und Qualität des Lernerfolges unter realistischer Betrachtung des jeweiligen eigenen Anteils am Zustandekommen dieses Lernerfolgs notwendig. Da nun nicht jede Lehrveranstaltung begleitend erforscht werden kann im Hinblick auf diese Frage der Verursachung, kann dieses nur rudimentär erfolgen oder in einer exemplarischen Evaluationsstudie. Einen Einstieg in solches Nachdenken über Lehrkausalitäten stellt eine Praxis in einem Fach an der medizinischen Fakultät der Universität Göttingen dar, bei der Vorlesungen telematisch unterstützt werden: Ein 11 paar Tage vor der Vorlesung werden den Studierenden über das Internet Bilddokumente und Aufgabenstellungen verfügbar gemacht, die sie bearbeiten und zu denen sie dem betreffenden Dozenten Lösungsvorschläge zurückschicken. Dieser bekommt nun einen Einblick in den Kenntnisstand der Studierenden und kann in der eigentlichen Vorlesungsstunde auf die Lösungsvorschläge gezielt zu sprechen kommen. Er gibt den Studierenden Rückmeldung zu ihrem Lernstand und erfährt aus den Einsendungen der Studierenden seinerseits Rückmeldung, nämlich Hinweise zur Qualität seines Unterrichts. Zusätzlich werden am Ende des Semesters Fragebogen angeboten und ausgewertet, die dem jeweiligen Dozenten diachronisch (wie ist der Entwicklungsverlauf über die letzten Semester hinweg?) und synchronisch (wie stehe ich im Vergleich zu den Kollegen/Kolleginnen, deren Werte ebenfalls berichtet sind?) Vergleichsmöglichkeiten vorlegen. Wesentliche Voraussetzung für den Nutzen aus solchen Veranstaltungsbewertungen sind die kontinuierliche und allgemein so betriebene Praxis, die leichte, maschinell betriebene Auswertung und Ergebnisdarstellung sowie der Hinweis darauf, was nun konkret als gut und was als nicht so gut, also veränderungsbedürftig anzusehen ist. Wer gute Lehrveranstaltungen durchführt, wird in aller Regel Zulauf durch Studierende erfahren. Nach dem Rollen- und Selbstverständnis vieler Lehrender ist das aber eine nicht erwünschte Wirkung! Hohe Studierendenzahl sind dann eben auch verbunden mit hohen Zahlen an Klausuren und Hausarbeiten, die zu bewerten sind, mit hohen Prüfungszahlen und den damit zusammenhängenden Beratungsaktivitäten. Demgegenüber ist nach wie vor die wissenschaftliche Reputation eine Sache von Forschungsarbeiten, Veröffentlichungen, Kongressauftritten und Verbandsarbeit, alles Dinge für die man weniger Zeit hat, wenn man die Lehre gut machen will. Eine Verbesserung der Lehre muss also eine zeitliche und „energetische“ Balance zu anderen Anteilen der Hochschulprofession gewährleisten. Auch die gegenwärtigen Bemühungen, eine „leistungsgerechte“ Bezahlung der Hochschullehrer und Hochschullehrerinnen einzuführen, wird man unter dem Gesichtspunkt bewerten müssen, inwieweit sie eine solche Balance zwischen den verschiedenen Professionsfunktionen oder –teilen herstellen bzw. gewährleisten können. Und ein dritter Punkt ist darzustellen, welche Rückmeldungen die Lehre dergestalt erfahren könnte, dass die Wirkungen den Beteiligten offensichtlich werden: mehr Bezug zur Lebenswirklichkeit, den Gegebenheiten der sozialen, materiellen und natürlichen Umwelt. Die Wissenschaften selbst, das Fach, die Methoden und Ergebnisse des Erkenntnisgewinns sind ja die Quelle der akademischen Lehre, aber das merkt man oft nicht mehr; einem Studienanfänger dürfte es oft und besonders schwer fallen, diesen Zusammenhang herzustellen angesichts dessen, was ihm vorgetragen und zum Lernen vorgestellt wird. Die Liste der didaktischen Möglichkeiten ist hier groß, und es könnten auch zahlreiche Beispiele aufgeführt werden, bei denen dieser Wirklichkeitsbezug hergestellt wurde (Projekte sind eines davon). Aber hier gilt noch mehr das Postulat nach der Balance, denn in aller Regel setzen solche Lehrveranstaltungen wiederum mehr Aufwand für Vorbereitung, Materialzusammenstellung etc. voraus. 12 Erfahrungen aus Begleitung zur telematischen Unterstützung von Pathologievorlesungen Erfahrungen aus microteachung (autotelische Rückmeldung?) Seneca, Epistulae 106, 12, 2. Rückmeldung in verschiedenen Formen: Lehrende an Studierende Studierende an Lehrende Studierende an Studierende Gutachten zu Hausarbeiten Veranstaltungsbelegung Gruppenarbeit Klausurbewertung Veranstaltungsbesuch peer-Beratung mündliche Prüfungen informelle Resonanz Dokumentation Erörterung von mdl./schrftl. Referaten Lernqualität, Entwicklung Lehrende an Lehrende Handlungssituationen ermög- praktische Produkte lichen einzelne Diskussionsbeiträge Veranstaltungskritik Sprechstunde/ Beratungsgespräch informelle Kontakte 3. Grundsätzliche Gesichtspunkte über Rückmeldungen: „Lob und Tadel" als klassische pädagogische Interventionen Emile und die zerbrochene Fensterscheibe bei Rousseau positive Verstärkung nicht nur im Behaviorismus Auswirkungen von fehlender Rückmeldung (Bsp. Schießen, Simulation) Ergebnisse der Forschungen zur Kausalattribuierung Selbst-Bestätigung, -Kontrolle (eigener Maßstab) Maßstäbe von Fächern Vergleich mit „peers"(sozialer Maßstab) individuelle Rückmeldungserwartungen Dokumentation? 4. Prinzipien für die Durchführung von Rückmeldungen 13 Gerechtigkeit Konsistenz Begründung Transparenz Ermunterung Folgewirkungen eingebunden in das System der „benefits", zumindest keine Bestrafung für dejenigen, welche sich die Mühe machen selbst-referentiell (zum Thema oder Sachverhalt) Im Tertiärbereich scheint von vornherein ein administrativer Weg eine Rolle gespielt zu haben. Man kann sehr schön an den einzelnen Heften und Jahrgängen der Zeitschrift „Das Hochschulwesen“ drei Entwicklungslinien verfolgen; zum einen (studentische) Lehrkritik (die gab es schon einmal in den 70er Jahren) und Lehrberichte (Selbstentblößung?), Demgegenüber müssen wir feststellen, dass dort, wo von Evaluation im Zusammenhang des Bildungswesens als praktikablen Maßnahmen von Lehrenden gesprochen wird, diese Orientierung nicht vorherrscht. Was ist der Hintergrund dieser Tatsache? Lehrer, Ausbilder und Prüfer stehen in Hinblick auf Maßnahmen der Leistungsmessung, die sie aufgrund administrativ gesetzter Vorgaben zu vollziehen haben, unter sehr beträchtlichen legitimatorischen Zwängen. Wenn sie eine Bewertung des Lernerfolgs ihrer Schüler, Studenten oder Berufsanfänger aussprechen, so resultieren aus diesen Bewertungen teilweise weitreichende Entscheidungen über den Lebensweg dieser konkreten Personen. Die Bewertungen müssen also legitimiert oder zumindest prinzipiell legitimierbar sein. Worauf diese Legitimation sich gründet, ist gesellschaftlich definiert; z.B. war früher einmal die soziale Herkunft hinreichender Ausgangspunkt solcher Legitimation. Die bürgerliche Emanzipation des 19. und 20. Jahrhunderts konnte das dann natürlich nicht mehr gelten lassen, wenngleich sie sich sicherlich noch mit Resten dieses Legitimationshintergrundes zu schaffen macht. Für sie war das Leistungsprinzip der wesentliche Legitimationshintergrund. Dies führte zu der Anforderung an Prüfungsverfahren, möglichst gerecht zu sein, oder - um Gütekriterien der Forschung zu verwenden - objektiv (unabhängig von der Person des Bewertenden), zuverlässig (methodisch richtig) und gültig (inhaltlich richtig). Als in der Bundesrepublik in den 60er/70er Jahren im Zusammenhang der Maßnahmen zur Bildungsreform auch der Gesichtspunkt der Evaluationsforschung eine Rolle zu spielen begann, wurde aus dieser Diskussion auch die Diskussion um die Angemessenheit oder Fragwürdigkeit der Zensurengebung durch Lehrer gespeist. Ansprüche der forschungsmäßigen Evaluation wurden auf die alltägliche Praxis der Leistungsmessung und -bewertung in Bildungsinstitutionen übertragen. 14 Wir sollten bei diesem Gesichtspunkt noch ein wenig verweilen und ihn genauer aufschlüsseln, denn er bringt uns der Antwort auf die Frage näher, unter welche Ansprüche Prüfungsbewertungen gestellt werden und gestellt werden können. (Interessanterweise sind in dem Verlauf der Reformdiskussionen zum Bildungswesen in den 60er und 70er Jahren weitere Übertragungen von Ansprüchen an die Forschung auf die Praxis zu verzeichnen, so insbesondere hinsichtlich der Forderung nach besseren Formulierungsmodellen für die Erstellung von Lernzielen, wo der für die didaktische Entwicklungsforschung aufgestellte Anspruch auf operationalisierte Lernziele ungerechtfertigt und sinnlos auf die Praxis und an die Praktiker übertragen wurde.) Als ein Beispiel dafür, wie einerseits Ansprüche aus der Evaluationsforschung an Praktiker gestellt wurden, die zu der Erwartung verbesserter Legitimierungsmöglichkeiten führten, andererseits daraus für die Praktiker neue Probleme entstanden, und auch dafür, daß hierbei schlichtweg die unterschiedlichen Legitimationszwänge von Forschung und Entwicklung gegenüber Praxis nicht mehr berücksichtigt wurden, möchte ich darstellen, wie aus Ansätzen der forschungsmäßigen Testkonstruktion der hausgemachte Kleintest für den Praktiker wurde: Tests sind Stichproben von Performanzen, also manifesten Verhaltensweisen oder Äußerungen von Personen, die für den Evaluationszweck induziert werden: Wenn ich z.B. Ihre Fahrtüchtigkeit als Pkw-Fahrer überprüfen möchte, würde ich typische Anforderungen an einen fahrtüchtigen Pkw-Fahrer definieren müssen, z.B. das Einparken in eine Parklücke, die Kenntnis der Farbsymbolik einer Verkehrsampel, die Fähigkeit, Kupplung, Gaspedal und Schaltung im richtigen Verhältnis zueinander zu bedienen etc.. Der Test bestünde nun darin, daß ich Sie solchen typischen Anforderungssituationen bzw. Performanz-Stichproben aussetze, wobei ich nicht immer auf reales Verhalten zurückgreifen müßte, sondern einiges auch simulieren lassen könnte bzw. schlicht abfragen könnte. Ich müßte Sie nicht alle auf die Straße hinausführen und vor eine Verkehrsampel stellen, ich könnte Ihnen auch ein Bild oder eine Filmaufzeichnung dieser Einrichtung vorführen und sie nach den Bedeutungen der unterschiedlichen Farben fragen. Ihre Performanzen, also das, was sie dann bei den AufgabenStichproben tun, sagen oder sonstwie handlungsmäßig äußern, wären dann Hinweise für mich auf Ihre entsprechenden Kompetenzen und Handlungsbereitschaften. Ich müßte einen Auswertungsschlüssel erstellen, um festzulegen, ab welcher Menge von Performanzen ich das Kriterium der Fahrtüchtigkeit als gegeben ansehe oder nicht. In der Testtheorie haben sich zwei Wege herauskristallisiert, wie dieses Kriterium. gesetzt werden kann: Entweder ich lege es inhaltlich vorher fest (sicherlich nicht, ohne mich vorher mit Experten darüber verständigt zu haben, oder z.B. aufgrund von Erfahrungswerten aus Unfallberichten), oder ich entscheide aufgrund eines Vergleichsmaßstabes, der einfach auf den Werten einer gegebenen Anzahl von Personen beruht, die sich diesem Test aussetzen. Wenn ich nun z.B. unter Ihnen 5 Autos zu verteilen hätte, würden sie dann an die 5 Besten unter Ihnen verteilt werden. Im Bereich des Bildungs-, Ausbildungs- und Berufswesens haben wir eine Reihe von Tests solcher Art, die auf die eine oder andere Art, jedenfalls in der Regel nach sehr aufwendigen Prozeduren entstanden sind. Man kann z.B. bei der Erstellung und Erprobung eines Schulleistungstests, der etwa das Pensum eines Schulfaches für ein Jahr abdecken soll, einen Zeitrahmen von 1 bis 2 Jahren erwarten, den ein etwa dreiköpfiges Team benötigt, bis dieser Test vorliegt und allgemein eingesetzt werden kann. Als Mitte der 60er Jahre in der Bundesrepublik die Rezeption der amerikanischen Evaluationsforschung in starkem Ausmaß erfolgte, waren auch die Verfahren der Entwicklung und des Einsatzes von solcherart erstellten Tests diskutiert und angewendet worden. Sehr bald erschienen Veröffentlichungen, die Ansprüche dieser Verfahren auf die Leistungsmessung in 15 der täglichen Praxis von Bildungseinrichtungen übertrugen. Man sprach zumeist vom "teacher-made test". Dabei machte man sich den Charakter der Stichprobe zunutze, indem die sonst üblichen offeneren Aufgabenstellungen portioniert wurden. Somit entstand durch die jeweils bei diesen kleineren Portionsmengen zu vollziehende Entscheidung (Teilaufgabe gelöst oder nicht?) eine Quantifizierungsmöglichkeit, die sich dann in einer späteren Summenbildung verrechnen ließ. 1. Eigener Erfahrungs- und Kenntnisstand Hochschuldidaktischer Arbeitskreis und einzelnen Beratungen Eigene Evaluationstätigkeiten Sekundärliteratur zur Evaluationsforschung Selbst Betroffener 2. Was sind Kriterien/Bestimmungen einer effektiveren Wissenschaft (Forschung/Lehre verknüpft)? Gesellschaftlicher Auftrag Fachliche Dignität Verpflichtung gegenüber den „Anvertrauten“ Eigene Persönlichkeit 3. Was sind akute/chronische Probleme für Forschung/für Lehre? Forschung Lehre Viele forschen überhaupt nicht Meistens nicht hinreichend elaboriert Viele forschen nicht nach dem Fehlender Forschungsbezug „mainstream“ Vereinzelung besonders in Geistes- und Fehlender Praxisbezug Sozialwissenschaften Mangelnde Kontinuität und „Nachbearbei- Nicht sequenziert tung“ Zu große Bedeutung für Karriere Nicht genug honoriert Mangelnde Infrastruktur, Ressourcen Erwarteter ökonomischer Mehrwert Dominanz der Administration zunehmender Einfluss der Eurokraten, Umfeld von Lobbyisten, im Hinblick auf Fragenkomplexe (was soll erforscht werden?), Beteiligung/Mittelvergabe (versteckte Wirtschaftsförderung), Mangelnde Transparenz der Mittelvergabe (Agenten in Brüssel!) 4. Inwieweit helfen die Verfahren der Evaluation in der Lehre zur Lösung der Probleme? Primäres Interesse der Administration an Entlastung von Budgetforderungen 5. Inwieweit helfen die Verfahren der Evaluation in der Forschung zur Lösung der Probleme? Primäres Interesse an Vorbereitung und Legitimation von staatlichen Eingriffen Einflussnahme der Administration auf Forschungsschwerpunkte Verlagerung der Forschung aus der Grundausstattung (subsidiär für Vorbereitung von Drittmittelforschungen) 6. Veränderungen erreicht man 16 durch Zwang (Kontrolle), durch Einsicht (Appell), durch benefits“ (pekuniäre o.a. direkte Anreize), durch Erfolgsversprechen (Karrierechancen, Macht, Einfluss), durch Ressourcenverbesserung, durch Rückmeldung Evaluation ist die systematische Sammlung und Bereitstellung von Information über didaktische oder didaktisch relevante Maßnahmen und Entscheidungen verschiedener Handlungsebenen zum Zwecke der Beschreibung, Bewertung und/oder Entscheidung Literatur: Lee J. Cronbach: Course improvement through evaluation. In: Teachers College Record, 64, No. 8, May 1963, S. 672-83. Elliott Eisner: Instructional and Expressive Educational Objectives: Their Formulation and Use in Curriculum. In: AERA Monograph series on curriculum evaluation, No. 3. Chicago, Rand McNally, 1969, S. 1-18. HIS: Dokumentation „Evaluation der Lehre. - Aktuelle Aktivitäten an deutschen Hochschulen“, 2 Teile, erste Lieferung, Stand 2.2.1992. Ludwig Huber u.a. (Hrsg.): Auswertung, Rückmeldung, Kritik im Hochschulunterricht. 2 Bände. Blickpunkt Hochschuldidaktik 50. AHD, Hamburg 1978 Michael Scriven: The methodology of evaluation. In: Tyler, Ralph W. et al.: Perspectives of curriculum evaluation. AERA Monograph series on curriculum evaluation, No. 1. Chicago, Rand McNally, 1967. David L. Stufflebeam: Evaluation as Enlightment for Decision-Making, Improving, Educational Assessment and an Inventory of Measures of Affective Behavior. In: W.H. Beatty (ed.): Association for Supervision an Curriculum Development (ASCD), NEA, Washington, D.C., 1969, Se. 41-73. Ralph Tyler: Basic Principles of Curriculum and Instruction. Chicago, University of Chicago Press, 1950. Wolff-Dietrich Webler u.a.: Lehrberichte, hrsg. vom Bundesminister für Bildung und Wissenschaft, Bonn 1993. 17