Zusammenfassung: Seit einigen Jahren wird Unterrichtsforschung vermehrt videobasiert angegangen. Die methodologische Diskussion, die die Weiterentwicklung des Instrumentariums begleitet, kreist dabei zentral um die Frage der Invasivität der Aufzeichnungstechnik und möglicher Kameraeffekte. Je nach methodologischer Ausrichtung wird diesem Problem anders begegnet: So versucht die abbildtheoretische Unterrichtsvideografie, die Invasivität zu kontrollieren. Qualitative Methoden wie die Kameraethnografie dagegen machen mögliche Kameraeffekte wie die Performanz vor der Kamera oder die Blickrichtung, die durch das Kameraauge fixiert wird, zum Ausgangspunkt neuer, ästhetischer Verfahrensweisen. Der vorliegende Artikel geht einen dritten Weg: Anhand eines Rückgriffs auf den Wissenschaftssoziologen LATOUR und anhand der methodologischen Reflexion eines forschungspraktischen Beispiels sollen grundsätzliche Probleme der Unterrichtsforschung herausgearbeitet werden, die sich mit dem Einsatz der Videografie besonders deutlich zeigen und mit der sich die Unterrichtsforschung vermehrt auseinandersetzen müsste.

"So wird handgreiflich, dass es eine andere Natur ist, die zu der Kamera als die zum Auge spricht. Anders vor allem dadurch, dass an die Stelle eines vom Menschen mit Bewusstsein durchwirkten Raums ein unbewusst durchwirkter tritt."

Spätestens seit den TIMSS-Videostudien (REUSSER & PAULI 2003) gehört die videogestützte Beobachtung zum methodischen Grundinventar evidenzbasierter Unterrichtsforschung. Im Fokus stehen dabei die allgemeindidaktische und die fachdidaktische Prozessqualität von Unterricht. In den allermeisten Fällen wird diese an der Angebotsseite von Unterricht festgemacht, nämlich an der Lehrperson und ihrem Arrangement des Lernprozesses. Methodologisch wird die Videografie zumeist mit einer Reihe von Argumenten begründet, insbesondere mit der Behauptung, Videodaten hätten eine weniger subjekt- und theoriegebundene Qualität (PETKO, WALDIS, PAULI & REUSSER 2003), und sie könnten – aufgrund ihres simultanen und sukzessiven Dokumentationscharakters – das komplexe Geschehen von Unterricht am ehesten noch abbilden (a.a.O.). Selbstverständlich wird gerade innerhalb des quantitativen Paradigmas die Frage nach den Kameraeffekten und der Invasivität der Aufzeichnungstechnik nicht ignoriert; vielmehr wird nach methodischen Möglichkeiten gesucht, welche geeignet sein sollen, invasive Effekte zu kontrollieren und zu vermindern. Das Ideal, das dabei angestrebt wird, ist eine Art Null-Invasivität. Oder anders gesagt: ein Unsichtbarmachen der Technik – ein Bestreben, das in anderen, nämlich wissenschaftstheoretischen Kontexten mit dem Begriff "Transparenz der Technik" bezeichnet worden ist (BORCK 2001, S.388). Das Paradigma, dem die abbildungstheoretisch ausgerichtete Unterrichtsforschung verpflichtet ist, kann als "starkes Dokumentieren" bezeichnet werden (MOHN 2011). Erstrebtes Ziel ist es hier, ein Aufnahmesetting zu finden, in dem die Subjektivität der Beobachter/innen diszipliniert und der Konstruktionscharakter des Dokumentierens minimiert werden kann. Die "Daten sollen sprechen" – und in Anlehnung an das Diktum vom Bild, das mehr als tausend Worte sagt, wird darauf vertraut, dass Videodaten mehr sagen als nicht-visuelle Daten. Videografie kann, so die Überzeugung, dem gleichzeitigen Nebeneinander und der Vielschichtigkeit der Unterrichtswirklichkeit eher gerecht werden und diese umfassender abbilden als andere Datenformate. Dabei wird das Paradox, dass mit zunehmendem Anspruch an eine totale Erfassung des Geschehens auch die technische Ausrüstung und damit die Invasivität der Kamera zunimmt, zwar bisweilen erwähnt (PETKO et al. 2003, S.271), im Allgemeinen aber eher ausgeblendet. [1]

Innerhalb der rekonstruktiven Unterrichtsforschung dagegen wird – der Name ist dafür Programm – dem Konstruktionscharakter sowohl sozialer Prozesse wie auch deren Nachzeichnung in sozialwissenschaftlicher Forschung grundsätzlich Aufmerksamkeit geschenkt. Die Dauerskepsis gegenüber dem Phänomen und gegenüber jeglichem Anspruch von Authentizität und Realismus führt im schlechteren Fall zu einem ceterum censeo und einem Grundvorbehalt gegenüber jeglicher Form des Abbildens und Dokumentierens und im besseren Fall zur methodologisch reflektierten Entwicklung innovativer visueller Verfahrensweisen. Dabei kann der Schwerpunkt eher auf der Produktion oder eher auf der Rezeption visueller Daten liegen. Im Folgenden soll für jeden Methodenstrang je ein Ansatz genannt werden, welcher für die gegenwärtige Methodendiskussion von besonderer Bedeutung ist. [2]

Die dokumentarische Bild- und Videoanalyse von Ralf BOHNSACK (2009) leitet sich von der kunsthistorisch orientierten Bildanalyse ab und fokussiert dementsprechend die Interpretation eines visuellen Datums, beispielsweise eines Standbilds. Bei der zweischrittigen Analysemethode kommt der formulierenden Interpretation mit dem Benennen dessen, was zu sehen ist, die Aufgabe zu, die Informationsdichte und die Überkonnotation des Bildes zu reduzieren und die Selektivität der sprachlichen Interpretation dabei offenzulegen. Die reflektierende Interpretation sagt nicht, was das Bild zeigt, sondern benennt, was im Bild Gegenstand der Interpretation sein soll. Sie stellt eine erste Übersetzung des Bildes in Sprache dar und markiert einen ersten Selektionsentscheid dafür, was als wichtig angesehen werden soll. Im zweiten Analyseschritt, der reflektierenden Interpretation, liegt das Hauptgewicht auf den bildformalen Mitteln, dem "Wie" des Bildes. Ihr kommt die eigentlich "rekonstruktive Potenz" (HIETZGE 2009) zu; ihr sollte es gelingen, das Erkenntnisinteresse, nämlich die Rekonstruktion von Habitus und atheoretischen Wissensbeständen, einzulösen. Das zweischrittige Vorgehen, welches bildformale Kriterien wie planimetrische Komposition, Perspektivität oder szenische Choreografie zentral setzt, nimmt für sich in Anspruch, die Spezifität des Ikonischen für die sozialwissenschaftliche Analyse fruchtbar zu machen. Dabei ist die formale Dimension der (Bild-) Gestaltung zentral; in ihr zeigt sich das, was Sozialwissenschaftler/innen Mannheimscher Prägung erkennen möchten, nämlich das atheoretische Wissen derer, die im Bild erscheinen, oder derer, die das Bild hergestellt haben. Es wird hier deutlich, dass die Bildproduktion innerhalb der dokumentarischen Methode nur dann ein Thema ist, wenn die ProduzentInnen Teil des "Feldes" und damit zu Erforschende sind. Technische Entscheide wie Kameraposition, Kameraeinstellung und Kameraführung sind also nur dann Inhalt der Analyse, wenn sie von den Beforschten selbst getroffen worden sind und von den Forschenden im Nachhinein aus dem Material herausgelesen werden können. Das Problem der Invasivität der Kamera, der Performanz vor der Kamera und der Blickrichtung, die durch die Kamera des Forschers/der Forscherin fixiert wird, wird dabei mehrheitlich ausgeblendet. [3]

Letzteres bildet dagegen das Hauptinteresse des zweiten Methodenstrangs, den ich hier erwähnen möchte: der Kamera-Ethnografie, wie sie v.a. von Bina Elisabeth MOHN entwickelt worden ist. Wenn die abbildtheoretische Unterrichtsvideografie die Invasivität der Kamera kontrollieren will, die dokumentarische Methode die Invasivität ausblendet, so macht die Kamera-Ethnografie diese zum systematischen Ausgangspunkt ihrer Vorgehensweise. [4]

MOHN geht es nicht um ein Verfilmen vorgängiger oder unabhängig existierender Inhalte, sondern um die Gestaltung ethnografischer Verstehensprozesse (MOHN 2011). Anders als die meisten methodologischen Ansätze in der Videografie trennt sie nicht zwischen Erhebungs- und Auswertungsprozess, sondern verschränkt diese miteinander und macht bereits das Finden von Videobildern zum Moment des Forschens. Denn: "Auch wenn visuelle Reize kaum ein Ende nehmen und es überaus viel zu sehen gibt, so fliegen dennoch im Feld keine Bilder umher, die einfach eingesammelt werden könnten. Bilder sind Formulierungen (...)" (MOHN 2008a, S.62) Die Selektivität des Zeigens rückt dabei ins Zentrum; die Rede von den "Blickschneisen", die mit der Kamera gezogen werden, verdeutlicht dies. Es ist die Forscherin mit ihrer Kamera, die eine Schneise in das dichte und komplexe Geschehen des Feldes zieht und damit eine Blickrichtung vorschlägt, welcher der Erkenntnisprozess folgen wird. Im methodischen Dreischritt von Blickschneise, fokussiertem Kameraschnitt und mehrperspektivischer Rezeption wird versucht, bewusste Entscheide zu treffen darüber, was gesehen, verstanden und gezeigt werden soll. Zeigen ist immer auch Nicht-Zeigen, es basiert auf Ausschnitten, Blickrichtungen und Fokussierungen, welche etwas ins Bild rücken, indem anderes daraus ausgeschlossen wird. Mit dieser selbstreflexiven Verfahrensweise nimmt die Kamera-Ethnografie Abschied von einem flächendeckenden Dokumentationsanspruch und plädiert stattdessen für ein "paradoxes Dokumentieren". In diesem pendelt der forschende Blick zwischen Nähe und Distanz, zwischen Feld und Wissenschaft. Wenn im Ideal des "starken Dokumentierens" die Distanz zum Feld und das möglichst störungsfreie "Abbilden" des realen Geschehens im Vordergrund stehen, im "Anti-Dokumentieren" dagegen die Invasivität der Kamera selbst zum Thema gemacht wird, so wird im "paradoxen Dokumentieren" zwischen diesen beiden Extrempolen hin- und hergependelt, indem verschiedene Formen des Dokumentierens auf verschiedene Forschungsphasen verteilt werden. Ziel eines solchen Vorgehens ist ein "dichtes Zeigen", welches durch kreativen Kameragebrauch die visuellen Ausdrucksmittel auszuschöpfen versucht und für den Forschungsprozess nutzbar machen will. Die Kamera-Ethnografie, wie sie von MOHN praktiziert und methodologisch reflektiert wird, ist eine ästhetisch-künstlerische Verfahrensweise, welche als sozialwissenschaftliche Methode eingesetzt und weiterentwickelt wird. Ihre Nähe zur Kunst bringt es mit sich, dass Fragen nach ihrer disziplinären Verortung und ihrem "Denkstil" – schon Kunst? nicht mehr Kunst? – unumgänglich sind (MOHN 2008b). Entscheidend für den Argumentationszusammenhang hier ist jedoch der Anspruch, den die Kamera-Ethnografie hat oder eben besser: nicht hat. Die filmische Darstellung beansprucht nämlich immer eine Differenz zu der Ursprungssituation. Es geht ihr um eine Auseinandersetzung mit dieser, nicht um deren Abbildung. Die Differenz beruht wesentlich auf der Selektivität des "dokumentierenden" Zugriffs. Videografie – dies gilt im Besonderen auch gerade für diejenige im Schulzimmer – kann Komplexität so wenig abbilden wie sprachliche Beschreibung. Die Wirklichkeit ist in ihrer Komplexität unüberschaubar. [5]

Dass Forschung die Wirklichkeit, die sie erforschen will, in ihrer Komplexität reduzieren muss, haben die wissenschaftssoziologischen Arbeiten von Bruno LATOUR, an den die Kamera-Ethnografie von MOHN im Übrigen auch anknüpft, deutlich gemacht. Seine Überlegungen sind geeignet, zentrale methodische und methodologische Fragestellungen, wie sie sich im Zusammenhang mit dem Videografieren in Schule und Unterricht ergeben, zu verdeutlichen und schärfer herauszuarbeiten. Sie sollen im Folgenden knapp referiert werden. [6]

In der kleinen Schrift "Le 'pédofil' de Boa Vista" [Der "Pedologen-Faden" von Boa Vista] beschreibt LATOUR (1993), wie aus einem Stück brasilianischem Urwald ein Forschungsgegenstand wird. Die Wissenschaft, so die Hauptthese, konstruiert Repräsentationen von der Welt, die uns die Welt näher bringen, indem sie sie von uns wegrücken: "Les sciences ne parlent pas du monde mais en construisent artificiellement des représentations qui semblent l'éloigner toujours davantage et qui, pourtant, le rapprochent" [Die Wissenschaften sprechen nicht über die Welt, sondern konstruieren davon künstliche Repräsentationen, die die Welt scheinbar immer weiter wegrücken, in Wirklichkeit sie aber heranholen] (S.176). Wenn aus einem Stück realem Urwaldboden erforschter Boden wird, so ist dies ein Prozess, der durch Ambivalenz gekennzeichnet ist: Reduktion und Amplifikation, Wirklichkeitsverlust und Wirklichkeitsgewinn gehen dabei Hand in Hand. [7]

LATOUR interessiert sich für die vielfachen Transformationen, die die Welt eingehen muss, damit überhaupt exakte Aussagen über sie gemacht werden können. Ein erster Schritt ist derjenige der Dekontextualisierung, der Abstraktion – des Herauslösens aus einem ursprünglichen materiellen Zusammenhang. So wird Semiotisierung oder Transformation von Ding in Zeichen möglich – im Übergang vom Kontinuierlichen ins Diskontinuierliche, hier im Entnehmen einer Bodenprobe. In einem zweiten Schritt werden die Proben in entsprechenden Gefässen deponiert, geordnet, klassifiziert – der Übergang vom Boden zum Zeichen geschieht durch Arrangieren, Disponieren, Kodieren. Im dritten Schritt werden die geordneten und kodierten Bodenproben überführt in Diagramme, Schrift, Berechnungen. Dadurch werden sie unabhängig von Zeit und Raum, gewissermaßen "reisefähig" (vgl. "aussi facilement transportable qu'une valise" [so leicht transportierbar wie ein Koffer], S.199). Entscheidend bei diesem Transformationsprozess ist, dass es keinen Bruch zwischen den Dingen und den Zeichen gibt, sondern dass wir eine kontinuierliche Serie von eingepassten Elementen haben, von denen jedes für das vorangegangene die Rolle des Zeichens spielt und für das nachfolgende diejenige des Dings. Je weiter dieser Prozess fortschreitet, desto kompatibler wird die ursprüngliche Bodenprobe mit Berechnungen und Diskurs, desto "reisefähiger" wird sie, desto anschlussfähiger an Theorieansätze und Wissensdiskurse. Dadurch wiederum entsteht Verdichtung, Amplifikation, Komplexität. Was tun die Wissenschaften? "Elles nous relient, par étapes succesives, au monde lui-meme aligné, transformé, construit" [Sie verbinden uns sukzessive mit einer Welt, die ihrerseits kohärent transformiert und konstruiert worden ist] (S.216). [8]

Diese sukzessiven Etappen oder vermittelnden Wege gilt es genau zu beschreiben; es gilt herauszuarbeiten, wie Forschung Wirklichkeit in ihrer Komplexität reduziert, um sie durch Diskursivierung wiederum erweitern zu können. Verlassen wir hierzu den brasilianischen Urlaub und gehen in ein Schulzimmer in einer Berner Vorortsgemeinde. Ich beschreibe im Folgenden anhand eines kleinen Beispiels die Wege, die die Videografie im Dienste der Unterrichtsforschung einschlagen kann, und die Transformationsschritte, die sie dabei vornimmt. [9]

Das Videografiebeispiel, das im Folgenden besprochen werden soll, ist Teil eines Forschungsprojekts, das von 2010 – 2012 an der PH Bern durchgeführt wurde. Inhaltlich wird darin eine allgemein-didaktische Fragestellung untersucht; diejenige nämlich, wie unterschiedliche Repräsentationsmodi, in denen Wissen erarbeitet wird, den Lernprozess von Schülerinnen und Schülern strukturieren und beeinflussen. Die Fallstudie wurde in einer 5. Klasse in einer Berner Vorortsgemeinde durchgeführt; Unterrichtsthema war ein Sachthema, nämlich "Geografie des Nahraums"; die Kompetenzen, die prioritär zur Anwendung kamen, waren "Beobachten und Beschreiben". Untersucht wurde, wie Schülerinnen und Schüler in unterschiedlichen Repräsentationsmodi – dem bildlichen einerseits, dem sprachlichen andererseits – beobachten und beschreiben, welche Herangehensweisen an die zu beobachtenden Gegenstände sie zeigen, wie sie ihre Beobachtungen verarbeiten und zu welchen Ergebnissen sie schließlich kommen. Hierzu wurde die Klasse in zwei gleich große Untersuchungsgruppen unterteilt. Während die einen an ausgewählten Stationen ihrer Wohngemeinde mithilfe von Papier und Bleistift Beobachtungen sammeln sollten, mussten andere dieselbe Aufgabe mit dem Fotoapparat angehen. In einem zweiten Schritt wurden die Schülerinnen und Schüler dann angewiesen, ihr gesammeltes Material in Partner/innenarbeit zu Plakaten zu verarbeiten. [10]

In einem Triangulationsverfahren wurden unterschiedlichste Daten erhoben und ausgewertet: Schüler/innenarbeiten (Texte, Fotografien, Plakate), Schüler/inneninterviews, Fragebögen und videografierte Unterrichtssequenzen. Analysiert wurden die Daten sowohl in der Vertikalen wie der Horizontalen: Einzelfallstudien zu ausgewählten Fokuskindern wurden ergänzt durch Gruppenvergleiche, in denen spezifische Fragestellungen zur Wirkungs- und Funktionsweise von bildlichem und sprachlichem Repräsentationsmodus untersucht wurden. Zu Letzterem gehört auch das Videografiebeispiel, das hier vorgestellt und diskutiert werden soll (vgl. FANKHAUSER 2012). [11]

Die Sequenz, um die es hier geht, beinhaltet den Anfang einer Unterrichtsstunde und wurde untersucht im Hinblick auf die Frage nach der motivationsunterstützenden Funktion von Sprachmodus und Bildmodus. [12]

In dieser Unterrichtsstunde erhielten die Schülerinnen und Schüler den Auftrag, ihr im Feld, d.h. in ihrer Wohngemeinde gesammeltes Material zu Plakaten zu verarbeiten. Die Schülerinnen und Schüler wurden dabei auf zwei Halbklassen verteilt, denen je ein Unterrichtsraum zugewiesen wurde. Das Kriterium für die Bildung der Halbklassen war der Repräsentationsmodus, in dem die Schülerinnen und Schüler ihre Feldaufgabe tags zuvor hatten lösen müssen. In den beiden Unterrichtsräumen lag das Material, das als Resultat der Beobachtungen im Feld zusammengetragen worden war, bereit; im einen die sprachlichen Aufzeichnungen, im anderen die geschossenen Fotos – geordnet nach Kind und platziert auf einem auf dem Tisch bereitgelegten Plakat.

Das Kameraskript für die Aufnahme des Unterrichtsgeschehens sah in jedem Raum eine Standkamera und eine Handkamera vor; die Standkamera wurde dabei frontal vor der Halbklasse positioniert, und zwar aus leicht erhöhter Perspektive ("Kavaliersperspektive"), die Handkamera dagegen sollte flexibel dem Tun und Agieren von acht ausgewählten Kindern, den sogenannten "Fokuskindern", folgen. [14]

Die Analyse der beiden Eingangssequenzen stützte sich ausschließlich auf die Aufnahme durch die beiden Standkameras; es handelt sich dabei um je eine einminütige Sequenz, während der die Kinder nach der Pause den Raum betraten, ihre Plätze aufsuchten und auf den Arbeitsauftrag warteten. Der Vergleich der beiden Eingangssequenzen sollte zeigen, ob die beiden Gruppen im Übergang von der Pause in den Unterricht ein unterschiedliches Verhalten zeigten, ob dieses Aufschluss über ihre Motivation geben könnte und inwiefern eventuelle Unterschiede mit den Repräsentationsmodi in Verbindung gebracht werden könnten. [15]

Halten wir hier kurz inne und vergegenwärtigen wir uns die Situation, die dem Drücken des Aufnahmeknopfes an der Videokamera vorausging: Deutlich wird, dass der "Urwald" des "wirklichen" Unterrichtsgeschehens vorgängig zu der Aufnahme, die diesen abbilden möchte, bereits zünftig bearbeitet wurde. Da wurden bereits etliche Schneisen geschlagen. Neben den gewohnten, institutionell gegebenen Strukturierungen ist es v.a. das aus dem Forschungsdesign abgeleitete Arrangement, welches strukturierend wirkt: eine Aufteilung in Halbklassen, vorgängiges Bereitstellen von Unterrichtsmaterial, Vorplatzierung der individuellen Materialien und dadurch Arbeitsplatzzuweisung an die Schülerinnen und Schüler. Auch die Vorentscheide bezüglich der Kameraregie wirken strukturierend, da damit eine bestimmte Perspektive auf das Geschehen gegeben ist: die frontale, leicht erhöhte Sicht auf das Ganze des Klassengeschehens. [16]

Ein relativ hoher Grad an Invasivität also, könnte man meinen. Nur: Ist das vorbereitete Klassenzimmer, in dem die Materialien und Lerngegenstände sorgfältig arrangiert worden sind, nicht der Idealtypus einer didaktisch durchdachten "Lernumgebung"? Ist die Platzierung der Unterrichtsmaterialien und damit die Platzzuweisung nicht die normale Aufforderung an den Schüler/die Schülerin, seinen/ihren Platz im Ganzen der Klasse zu suchen und zu finden? Und ist der gewählte Kamerablick – von vorne, von oben – nicht der idealtypische des frontal unterrichtenden Lehrers bzw. der frontal unterrichtenden Lehrerin? [17]

So betrachtet ist der Schluss naheliegend, dass die Kamera nicht den fremden Blick von außen repräsentiert, nicht den normalen Unterrichtsalltag stört und verändert, sondern vielmehr diesen verdoppelt und als eine Art "institutionelles Auge" fungiert: Die Kamera und das Setting, in dem diese zum Einsatz kommt, machen die institutionelle Struktur sichtbar, sie sind sozusagen Zeichen für diese Struktur; eine Struktur, welche sich nicht nur durch Kontrolle des "Emergenzpotentials" (MESETH, PROSKE & RADTKE 2012), sondern v.a. auch durch permanente Beobachtung resp. permanentes Beobachtetwerden charakterisieren lässt. [18]

Durch den Einsatz der Kamera jedoch wird das, was in dieser ersten Minute in den beiden Klassenzimmern geschieht, zunehmend anschlussfähig an einen bestimmten Diskurs; dadurch, dass die Eingangssequenz aufgezeichnet wird, wird sie aus dem zeitlichen und räumlichen Kontinuum des schulischen Alltags herausgelöst. Was bei der Dekontextualisierung herausfällt, ist das Vorher der Pause, das Verborgene der Nischen, Gänge und Toiletten, sind all die Randzeiten und Nebenbühnen, die doch eventuell die Hauptsache sind im schulischen Alltag der Kinder. Was bleibt, ist je eine Minute aufgezeichneten Unterrichtsbeginns, welcher nun wieder und wieder betrachtet, in entsprechende Software überführt und nach Belieben genau transkribiert werden kann. Die Transkription – in der Methodendiskussion um die Videografie eines der meist diskutierten Themen (vgl. z.B. MILLER 2010) – ist dabei nicht der entscheidende, sondern ein weiterer Schritt auf dem Weg der zunehmenden Diskursivierung. [19]

Im hier beschriebenen Beispiel wurde eine "Transkriptionsform" gewählt, welche die Wege und Ereignisse der beiden Sequenzen festhält: Dies sind zum einen die Wege der Schülerinnen und Schüler hin zu ihren Pulten; diese wurden in eine Art Visiogramm überführt, welches die Wegverläufe als Linien und Kurven zeichnet und in ihrer räumlichen Ausprägung vergleichbar macht.

Abbildung 2: Visiogramme der Wegstrecken (Klicken Sie bitte auf die jeweilige Abbildung für eine Vergrößerung) [20]

Zum andern sind es die Ereignisse, die auf diesen Wegen stattfinden und die sich um das bereitliegende Material auf den Pulten zentrieren: Zeigen, Lachen, Sprechen, Herbeirufen etc. Damit diese in der Häufigkeit ihres Auftretens miteinander verglichen werden konnten, wurden sie direkt aus dem Filmmaterial hinaus inhaltsanalytisch identifiziert, kodiert und schließlich ausgezählt. Klar ist, dass die Definition eines Ereignisses als Ereignis Resultat einer Kodierung, d.h. einer Überführung in einen Begriff ist. Dabei wird das fluide Geschehen vor Stundenbeginn, das zu einem wesentlichen Teil aus gleichzeitig stattfindenden Mikroaktionen, aus flüchtigen Konstellationen und semantischem Flimmern besteht, in distinkte Einheiten aufgegliedert; das Ziel sowohl von Kodierung wie auch von Transformation in grafische Schemata ist das gleiche: es geht darum, eine Situation oder ein Geschehen vergleichbar, klassifizierbar und schließlich, um mit LATOUR zu sprechen, "reisefähig" zu machen.

Die Differenzen, die sich in den beiden Unterrichtsgruppen manifestieren, können also einen Hinweis geben auf die unterschiedlichen Funktionsweisen des sprachlichen und des bildlichen Repräsentationsmodus. Sie können – wenn ergänzt um weiteres Material und kontrastiert mit anderen Auswertungsergebnissen – zu Hypothesen verdichtet werden. Eine dieser Hypothesen lautet, dass das Lernen und Lehren im Bildmodus, in unserem Fall die Fotografie, spontanes Interagieren begünstigt und an die Peer-Erfahrungen leichter anschließen kann als das Lernen im (schriftlichen) Sprachmodus. Umgekehrt aber ist zu vermuten, dass sich das Medium Fotografie – so wie es hier eingesetzt worden ist – gegen instruktive Bemühungen und linear gesteuerte Kommunikationsprozesse eher resistent erweisen dürfte. Und damit würde sich das Kontingenzproblem des Unterrichts, d.h. seine Offenheit und die nicht absehbaren Effekte, hier um einiges verschärfen (MESETH et al. 2012). [22]

Mit dieser letzten theoretischen Anstrengung hat sich unser Beispiel weit vom ehemaligen Schulzimmer in einem Berner Vorort wegbewegt. Ein dichter Moment ursprünglicher sozialer Praxis wurde auf ein paar wenige beobachtbare Aspekte reduziert; gleichzeitig hat dies ermöglicht, ein Konstrukt wie den Repräsentationsmodus theoretisch stärker zu strukturieren und an allgemeinere didaktische Fragen anzubinden. Aus einer Minute Unterricht ist ein diskursives Phänomen geworden, das – reisefähig in Zeit und Raum – schließlich in Artikeln wie diesem hier landen kann. [23]

Mit der Darstellung des Videografiebeispiels wurde versucht, die diversen Transformationsschritte nachzuzeichnen, die der Weg der Forschung geht; dabei sollte klar werden, wie sowohl Reduktion wie Amplifikation dabei Hand in Hand gehen. [24]

Dass die hier skizzierte Forschung sich visueller Mittel bedient, ändert nichts am prinzipiellen Transformationscharakter; insofern unterscheidet sich visuelle Forschung nicht von anderen, nicht-visuellen Forschungsmethoden. Die methodologische Reflexion, wie hier angedacht, kann jedoch einen wesentlichen Unterschied herausarbeiten. Der Einsatz der Kamera in der Unterrichtsforschung verdeutlicht nämlich mehr als andere Methoden grundsätzliche Probleme von Unterrichtsforschung. Dies soll zum Schluss erläutert werden. [25]

Ein erstes Problem ist dasjenige der Selektivität der Beobachtung: Engagierte Verfechter/innen der Videografie propagieren diese u.a. mit dem Argument, dass hier ein weniger theoretisch vorgeformter Blick auf das Unterrichtsgeschehen möglich werde, weil die Beobachtungskriterien erst im Nachhinein, also nach der Aufzeichnung durch die Kamera, entwickelt werden müssten. Dem ist ein Argument entgegenzuhalten, welches die verschiedenen Arten des Sehens bedenkt und zwischen der Wahrnehmung einer Situation und dem Deuten eines Zeichens einen Unterschied ansetzt. Bei dem Sichten von Videomaterial, das zum Entwickeln der Beobachtungskriterien führt, handelt es sich um Letzteres: Für die Videosequenz und für das Standbild gilt, dass sie Bildzeichen sind und als solche Eigenschaften aufweisen, wie sie durch die semiotische Analyse herausgearbeitet worden sind. Bilder sind "syntaktisch dicht" und "syntaktisch voll" (GOODMAN 1995). Ein Symbolsystem ist dann syntaktisch dicht, wenn zwischen zwei beliebigen Entitäten immer noch ein drittes Platz hat, wenn es also nicht disjunkt ist. Mit syntaktischer Fülle dagegen ist gemeint, dass ein so strukturiertes symbolisches Gebilde letztlich unendlich viele Merkmale aufweist, die konstitutiv sein können und also nicht kontingent sind. Anders ausgedrückt: bildliche Formate sind nicht buchstabierbar. Da sie über einen "schwachen Code" verfügen (ECO 1994), ist deren Lektüre, deren Kodierung, wie wir sie insbesondere im sozialwissenschaftlichen Forschungsprozess vornehmen (müssen), an eine unzählige Reihe von Selektionsentscheiden gebunden. Das grundsätzliche Problem der Selektivität, das jedem Beobachtungsprozess inhärent ist (EVERTSON & GREEN 1986), verschärft sich hier deutlich. Es ist anzunehmen, dass die Zahl derjenigen Aspekte, die als kontingent beurteilt und ausgeschlossen werden, viel höher ist als die Zahl derer, die als konstitutiv definiert und zu Beobachtungskriterien gemacht würden. Es sind insbesondere diejenigen Aspekte, die sich der begrifflichen Handhabung widersetzen, die hier ausgeschlossen werden müssen. Wenn etwas im Bilddeutungsprozess nicht Kodiert oder nicht kriterial festgelegt werden kann, bedeutet dies aber noch lange nicht, dass es in leibsinnlicher Anwesenheit nicht erfahren werden könnte. Das schwer Kodierbare, das schwer Einzuordnende, lässt sich im Begriff des Atmosphärischen, wie er von Gernot BÖHME (2001) theoretisch entwickelt worden ist, zusammenfassen. BÖHME definiert Atmosphäre als "etwas, demgegenüber eine vollständige Distanzierung nicht möglich ist, ohne dass es, wie wir schon sagten, zusammenbricht oder sich auf ein Ding zusammenzieht" (S.46) Die Wahrnehmung von Atmosphäre ist an leibsinnliche Anwesenheit gebunden. Sie ist das Spüren von Anwesenheit anderer oder anderem, samt der affektiven Betroffenheit, die diese mit sich bringt. [26]

Das Atmosphärische widersetzt sich nicht grundsätzlich der Kamera, es ist aber durch eine simple Aufnahme – einer Standkamera oder einer Handkamera, die einem festen Kameraskript folgt – sicher nicht einzufangen. Und es fragt sich, welche Art von Unterrichtsforschung wir betreiben, wenn wir dieses ganz aus unserer Beobachtung ausschließen. [27]

Das Problem der Entsinnlichung der Beobachtung durch Nichterfassen des Atmosphärischen, das damit angesprochen wurde, betrifft das "Was" der Unterrichtsbeobachtung. Ein weiteres Problem, das oben bereits erwähnt wurde und sich noch vor der Bedienung des Aufnahmeknopfes stellt, betrifft das "Wie" der Beobachtung. Es handelt sich um das Problem des Kamerastandpunktes und der Kameraführung, d.h. also um das Problem der Blickrichtung. Ich möchte diese sowohl im wörtlichen wie im übertragenen Sinn verstanden haben. [28]

Was verdeutlicht der Kamerastandpunkt? Die Perspektive des oder der Forschenden auf sein/ihr Feld – die Blickrichtung der Unterrichtsforschung. Die Diskussion des Beispiels aus der Berner Studie hat es bereits an den Tag gebracht: Die Blickrichtung der Unterrichtsbeobachtung schlägt üblicherweise zwei gegenläufige Schneisen in das zu Beobachtende. Als Exempel für diese Richtung kann wiederum die TIMSS-Studie mit ihrer Regieanweisung zur Kameraführung herangezogen werden: "Eine Kamera dokumentierte das Klassengeschehen statisch im Überblick aus einer vorderen Ecke des Klassenraums, üblicherweise neben der Tafel" (PETKO et.al.2003, S.271). Die Handkamera dagegen "hatte primär die Aufgabe, die Lehrperson in ihrer Interaktion mit den Schülerinnen und Schülern zu dokumentieren. Leitgedanke bei diesen Aufnahmen war das Prinzip 'Folge immer der Lehrperson' " (PETKO et al. 2003, S. 271). [29]

Unschwer ist zu erkennen, dass hier der Blick der Lehrperson auf ihre Klasse und derjenige des Schülers/der Schülerin auf ihre Lehrperson auf die beiden Kameraaugen übertragen worden sind. Die beiden Perspektiven verdeutlichen ein Strukturmodell von Unterrichtsinszenierung, wie sie vielen Unterrichtsbeobachtungen zugrunde liegt: hier die Lehrperson, auf der Hauptbühne neben der Tafel, die das Geschehen in der Klasse verfolgt, orchestriert und steuert – dort der oder die einzelne Lernende, dessen/deren Anpassungsfähigkeit sich nicht zuletzt darin zeigt, wie gut er/sie der Lehrperson "folgen" kann. Der Statik der Standkamera, die gewissermaßen das Lehrer/innenauge repräsentiert, welches das Ganze überblicken soll, steht dabei die Flexibilität der Handkamera, die das Schüler/innenauge verbildlicht, komplementär gegenüber. [30]

So betrachtet wiederholen viele Unterrichtsvideografien die Rollenförmigkeit eines institutionell gerahmten Unterrichts – und damit normative Setzungen und Interessen. Gerade Videografien, für die doch in Anspruch genommen wird, dass sie nur aufzeichnen, was da ist, nicht aber bewerten oder bereits interpretieren, produzieren eine Art idealisierte institutionelle Wirklichkeit. Der "somewhat idealized version of what the teacher normally does in the classroom" (STIGLER 1998, S.141) dürfte eine idealisierte Version des Schüler/innenhandelns entsprechen. Der "unbewusst durchwirkte Raum", von dem BENJAMIN im vorangestellten Motto spricht und den er in der Kameraaufnahme zu erkennen meint, ist im Falle der Unterrichtsvideografie der Raum, der sich zwischen den institutionell geformten Rollen des Lehrers und des Schülers aufspannt. In diesem dyadisch strukturierten Raum liegt die Hauptrolle bei der Lehrperson; Unterricht innerhalb dieses Strukturrahmens zu beobachten bedeutet, den Hauptfokus auf das Lehrer/innenhandeln zu richten und das Unterrichtsgeschehen von diesem aus zu erklären. Daraus resultiert in vielen Fällen von Unterrichtsvideografie eine "zusammenfassende und abstrahierende Kategorie Schüler" (BREIDENSTEIN 2002, S.25), welche weder der Individualität der Schülerin/des Schülers noch der Komplexität des sozialen Phänomens Unterricht gerecht werden kann. [31]

Dass diese Fokussierung und Abstrahierung in manchen Fällen, sprich der didaktischen Reflexion, sinnvoll ist, soll hier nicht infrage gestellt werden. Will die Didaktik allerdings mehr sein als Technologieentwicklung, so müsste sie Unterricht auch als soziale Praxis analysieren und rekonstruieren. Dafür stehen ihr verschiedene Methoden zur Verfügung. Im Falle der Unterrichtsvideografie – das haben die hier bewusst zugespitzten Überlegungen zu zeigen versucht – ist eine skeptische Zurückhaltung angebracht. Je bescheidener der Anspruch, desto größer die Chance, dass er eingelöst werden kann. [32]

Benjamin, Walter (1963). Das Kunstwerk im Zeitalter seiner technischen Reproduzierbarkeit. Frankfurt/M.: Suhrkamp.

Böhme, Gernot (2001). Aisthetik. Vorlesungen über Ästhetik als allgemeine Wahrnehmungslehre. München: Suhrkamp.

Bohnsack, Ralf (2009). Qualitative Bild- und Videointerpretation. Opladen: Verlag Barbara Budrich.

Borck, Cornelius (2001). Die Unhintergehbarkeit des Bildschirms: Beobachtungen zur Rolle von Bildtechniken in den präsentierten Wissenschaften. In Bettina Heintz & Jörg Huber (Hrsg.), Mit dem Auge denken. Strategien der Sichtbarmachung in wissenschaftlichen und virtuellen Welten (S.383-396). Zürich: Edition Voldemeer.

Breidenstein, Georg (2002). Interpretative Unterrichtsforschung – eine Zwischenbilanz und einige Zwischenfragen. In Georg Breidenstein, Arno Combe, Werner Helsper & Bernhard Stelmaszyk (Hrsg.), Forum Qualitative Schulforschung 2. Interpretative Unterrichts- und Schulbegleitforschung (S.11-27). Opladen: Leske + Budrich.

Evertson, Carolyn M. & Green, Judith L. (1986). Observation as inquiry and method. In Merlin C. Wittrock (Hrsg.), Handbook of research on teaching: A project of the American Educational Research Association (S.162-213). New York: MacMillan.

Fankhauser, Regula (2012). Ich mach' mir ein Bild. Ästhetische Lehr- und Lernformen im Sachunterricht. In Evelyne Wannack, Susanne Bosshart, Astrid Eichenberger, Michael Fuchs, Elisabeth Hardegger & Simone Marti (Hrsg.), 4- bis 12-Jährige – ihre schulischen und ausserschulischen Lern- und Lebenswelten (S.216-224). Münster: Waxmann.

Goodman, Nelson (1995). Sprachen der Kunst. Entwurf einer Symboltheorie. Frankfurt/M.: Suhrkamp.

Hietzge, Maud (2009). Von der Bildinterpretation zur Videografie – nur ein Schritt?. Review Essay: Ralf Bohnsack (2009). Qualitative Bild- und Videointerpretation. Forum qualitative Sozialforschung / Forum: Qualitative Social Research, 11(1), Art.11, http://nbn-resolving.de/urn:nbn:de:0114-fqs1001111 [Zugriff: 3.12.2012].

Latour, Bruno (1993). Le "pédofil" de Boa Vista – montage photo-philosophique. In Bruno Latour (Hrsg.), La clef de Berlin et autres lecons d'un amateur de sciences (S.171-225). Paris: Editions la découverte.

Meseth, Wolfgang; Proske, Matthias & Radtke, Frank-Olaf (2012). Kontrolliertes Laissez-faire. Auf dem Weg zu einer kontingenzgewärtigen Unterrichtstheorie. Zeitschrift für Pädagogik, 58(2), 223-241.

Miller, Monika (2010). Videografie in der kunstpädagogischen Forschung – Methoden der Videointerpretation. In Constanze Kirchner, Johannes Kirschenmann & Monika Miller (Hrsg.), Kinderzeichnung und jugendkultureller Ausdruck. Forschungsstand – Forschungsperspektiven (S.501-520). München: kopaed.

Mohn, Bina Elisabeth (2008a). Die Kunst des dichten Zeigens. Aus der Praxis kamera-ethnographischer Blickentwürfe. In Beate Binder, Dagmar Neuland-Kitzerow & Karoline Noack (Hrsg.), Kunst und Ethnographie: Zum Verhältnis von visueller Kultur und ethnographischem Arbeiten (S.61-72). Münster: LIT Verlag.

Mohn, Bina Elisabeth (2008b). Im Denkstilvergleich entstanden: Die Kamera-Ethnographie. In Birgit Griesecke & Erich-Otto Graf (Hrsg.), Ludwig Flecks vergleichende Erkenntnistheorie (S.211-234). Berlin: Parerga Verlag.

Mohn, Bina Elisabeth (2011). Methodologie des forschenden Blicks. Die vier Spielarten des Dokumentierens beim ethnographischen Forschen. In Peter Cloos & Marc Schulz (Hrsg.), Kindliches Tun beobachten und dokumentieren (S.79-98). Weinheim: Juventa.

Petko, Dominik; Waldis, Monika; Pauli, Christine & Reusser, Kurt (2003). Methodologische Überlegungen zur videogestützten Forschung in der Mathematikdidaktik. Ansätze der TIMMS 1999 Video Studie und ihrer schweizerischen Erweiterung. Zentralblatt für Didaktik der Mathematik, 3(6), 265-280.

Reusser, Kurt, & Pauli, Christine (2003). Mathematikunterricht in der Schweiz und in weiteren sechs Ländern: Bericht über die Ergebnisse einer internationalen und schweizerischen Video-Unterrichtsstudie. Zürich: Pädagogisches Institut der Universität.

Stigler, James (1998). Video surveys: New data for the improvement of classroom instruction. In Scott G. Paris & Henry M. Wellman (Hrsg.), Global prospects for education. Development, culture and schooling (S.129-168). Washington, DC: American Psychological Association.

Wagner-Willi, Monika (2005). Kinder-Rituale zwischen Vorder- und Hinterbühne. Der Übergang von der Pause zum Unterricht. Wiesbaden: Verlag für Sozialwissenschaften.

Wagner-Willi, Monika (2007). Videoanalysen des Schulalltags. Die dokumentarische Interpretation schulischer Uebergangsrituale. In Ralf Bohnsack, Iris Nentwig-Gesemann & Arnd-Michael Nohl (Hrsg.), Die dokumentarische Methode und ihre Forschungspraxis (S.125-145). Wiesbaden: Verlag für Sozialwissenschaften.

Regula FANKHAUSER, Dr. phil., wissenschaftliche Mitarbeiterin am Institut für Weiterbildung der Pädagogischen Hochschule Bern, Lehrbeauftragte an einem Gymnasium. Forschungsschwerpunkte: ästhetische Bildung, Literalität und Bildmedium, visuelle Forschungsmethoden.

Pädagogische Hochschule Bern
Institut für Weiterbildung
Weltistr. 40
CH-3006 Bern

Fankhauser, Regula (2013). Videobasierte Unterrichtsbeobachtung: die Quadratur des Zirkels? [32 Absätze]. Forum Qualitative Sozialforschung / Forum: Qualitative Social Research, 14(1), Art. 24,
http://nbn-resolving.de/urn:nbn:de:0114-fqs1301241.

Forum Qualitative Sozialforschung / Forum: Qualitative Social Research (FQS)

ISSN 1438-5627

Creative Commons Attribution 4.0 International License