Instruktionale Videos

Grundlagen des E-Learning

Letztes Update: 9. Mai 2021

Kaum ein E-Learning Kurs kann ohne. Instruktionale Videos sind das Medium, um Lernenden Wissen zu vermitteln. Aus gutem Grund: Mit ihnen lassen sich Visualisierungen und "echte" Menschen darstellen. Visualisierungen können hilfreich sein, da das menschliche Gedächtnis visuelle und auditive Informationen getrennt verarbeitet und wir daraus Nutzen schlagen können (siehe Multimedia Learning). Menschen in Videos sprechen zu hören und sehen zu können, hilft uns zudem, ein als wenig sozial wahrgenommenes Lernprodukt, sozialer zu machen. Instruktionale Videos sind daher nicht einfach eine Art des multimedialen Lernens, sondern eine besondere Form von Erklärungen mit sozialen Hinweisen. Menschen nutzen Gesten und Mimik, um Inhalte zu vermitteln. Die Perspektive von Videos kann uns einen Einblick geben, wie eine reale Person die Umwelt betrachtet. Die Beforschung dieser sozialen Hinweisreize ist besonders in den letzten Jahren voran getrieben worden. Wir wissen manches, aber noch lange nicht alles darüber, wie lernförderliche Videos entwickelt werden können.

Eine andere Frage betrifft die Art und Weise wie Lernende Videos verarbeiten. Im Kapitel zum Thema Constructive Alignment haben wir bereits gesehen, dass Lernende wenig darauf geben, welche Intentionen wir mit einem E-Learning Kurs haben. Ihre Perspektive ist die der Prüfungsmethoden. Ein ähnliches Muster finden wir für instruktionale Videos. Lernende schauen sich Videos nicht brav von Anfang bis Ende an. Gute E-Learning EntwicklerInnen sollten daher wissen, wie Lernende Videos betrachten, um diese entsprechend den Erwartungen der Lernenden zu gestalten.

In diesem Kapitel werden wir beide Fragen ausführlich besprechen. Erneut werden wir eine didaktische Perspektive einnehmen und uns überlegen, inwieweit bestimmte Maßnahmen in instruktionalen Videos unter welchen Bedingungen lernförderlich sind. Zuvor werden wir allerdings verschiedene Formate an instruktionalen Videos kennen lernen.

Formate instruktionaler Videos

Bei der Konzipierung instruktionaler Videos können wir eine hohe Anzahl an Parametern verändern. Soll das Video eine Aufzeichnung einer Vorlesung darstellen? Soll eine PowerPoint besprochen werden? Sollen die Inhalte dynamisch erstellt oder statisch abgebildet werden? Soll die Lehrperson am Bildschirm sichtbar sein? Soll der Bildschirm aufgezeichnet werden? Nicht alle dieser Entscheidungen sind didaktisch. Finanzielle Engpässe können dazu führen, dass wir auf einer besprochene PowerPoint zurückgreifen. Die Thematik kann dazu führen, dass wir auf klassische Filmeinstellungen zurückgreifen, bei denen man den Körper bzw. das Gesicht der Lehrpersonen sieht (siehe Einstellungsgröße). Einführungsvideos von E-Learning Kursen beispielsweise verwenden häufig halbnahe Aufnahmen, in denen die Lehrperson den Kurs vorstellt (navigiere dich einfach mal durch Udemy). Das Beispiel zeigt zudem, dass auch nicht jedes Video instruktional ist. Promovideos verfolgen nicht das Ziel, die Lernenden näher an die intendierten Lernziele zu bringen. Wenn wir daher später von instruktionalen Videos sprechen, meinen wir Videos, die konzipiert worden sind, um Lernen zu fördern.

Die erste und klassischste Form der instruktionalen Videos sind Videos im Vorlesungsformat. In diesen Videos werden Vorlesungsaufzeichnungen aufgenommen und in das Netz gestellt (beispielsweise Justice von edX). Die OpenCourseWare Plattformen beispielsweise verwendet in der Regel Videos im Vorlesungsformat. Der Vorteil ist, dass die Erstellung mit geringem Aufwand verbunden ist, da die Präsenzveranstaltung ohnehin stattfindet und die Videos kaum nachbearbeitet werden müssen. Der Nachteil ist unter anderem, dass die Videos nicht für Lernende erstellt werden, die Videos im Netz anschauen. Beispielsweise kommt es vor, dass Inhalte, die nicht relevant für Online-Lernende sind, in den Videos erhalten bleiben (z.B., Tutorate, die nicht im E-Learning Kurs angeboten werden). Ebenso sind diese Videos häufig relativ lang (~ 60 - 90 Minuten), sodass sie es Lernenden erschweren, zu bestimmten relevanten Stellen zu navigieren.

Nah verwandt mit dem Vorlesungsformat sind Portraitformate, in denen eine Lehrkraft von einer Kamera aufgenommen wird. In Deutschland ist dieses Format unter anderem durch Harald Lesch bekannt geworden. In Videos im Portraitformat wird eine Lehrperson ohne begleitende Visualisierungen aufgenommen. Das Format lebt daher von der Art und Weise wie die Lehrpersonen die Inhalte vermitteln. Beispiele für Videos im Portraitformat finden sich unter anderem in dem Kurs The Science of Happiness oder Think Again I: How to Understand Arguments. Im Bereich des E-Learning verwenden Videos im Portraitformat nur selten alle Einstellungsgrößen der Filmindustrie (siehe hier und hier für einen Überblick). Die meisten Videos werden mit einer nahen oder halbnahen Aufnahme erstellt, in denen der Oberkörper und das Gesicht der Lehrperson zu sehen ist. Totale bzw. halbtotale Aufnahmen gibt es vor allem für instruktionale Videos im Bereich des Sports (siehe Yoga with Adriene) bzw. der Vermittlung von Präsentationskenntnissen. In Videos im Portraitformat werden manchmal Geschichten von der Lehrperson erzählt. Dieser Stil wird fast immer in TED-Talks eingesetzt (beispielsweise der TED-Talk von BJ Miller). Eine besondere Form des Portraitformat ist das Interview. In dem Kurs The Science of Everyday Thinking beispielsweise interviewen die Lehrenden mehrere renommierte WissenschaftlerInnen zu einem Thema. In Interviews nehmen wir die Rolle der BeobachterInnen ein und hören einem Gespräch zweier oder mehrerer Personen zu. Wie dem Zuhören von Geschichten, erfüllen Interviews ein urmenschliches Bedürfnis: Dinge durch den Austausch mit anderen zu lernen (siehe Borrowing und Reorganising Principle von Sweller et al., 2019, S. 273).

Die häufigste Form ist das PowerPointformat. Im PowerPointformat spricht die Lehrkraft eine PowerPoint zu einem Thema ein. Ganz ähnlich dem Vorlesungsformat ist das PowerPointformat eine Adaption der Präsenzlehre und ist insbesondere für E-Learning Produkte geeignet, die keine GrafikerInnen im Team haben. Daher werden PowerPointformate in der Regel von Dozierenden umgesetzt, die an der Universität oder anderen Bildungseinrichtungen arbeiten. Beispielsweise verwendet der Kurs The Analytics Edge von edX oder der Kurs Writing in the Sciences Videos in diesem Format. Die im letzten Kapitel gelernten Multimedia Prinzipien kommen erst bei diesem Videoformat zu tragen, da wir im Gegensatz zu Videos im Portraitformat und im Vorlesungsformat visuelle Darstellungen einsetzen können. Videos im PowerPointformat werden häufig als Ablageort des Gesprochenen verwendet. Videos im PowerPointformat sind daher immer in der Versuchung, einen Redundanzeffekt hervorzurufen. Lehrende lieben es, ihren gesprochenen Text zu verschriftlichen. Peter Norvig hat sich einmal einen Spaß daraus gemacht und die berühmte Gettysburg Rede von Abraham Lincoln als PowerPoint umformuliert. Die Folge ist eine Karikatur der Rede von Abraham Lincoln, welche durch die Darstellung in PowerPoint ihren Esprit und ihre Feuerkraft verliert. E-Learning EntwicklerInnen, die PowerPoint für Videos einsetzen, sollten sich darüber bewusst sein, dass PowerPoint die Affordanz für Lehrende hat, Listen anzulegen und selten optimal im Sinne des multimedialen Lernens eingesetzt wird. Eine Möglichkeit Lehrende zu unterstützen, ist es ihnen Templates an die Hand zu geben, durch welches Lehrende vermehrt gezwungen sind, die gesprochenen Inhalte visuell zu vermitteln.

Eine besondere Form der PowerPointformate sind sogenannte Talking-Head Formate. Talking-Head Formate sind eingesprochene PowerPoints in denen das Gesicht der Lehrkraft in einem Eck des Videos zu sehen ist. DataCamp beispielsweise verwendet diese Formate sehr häufig. Warum nur sollte man die Lehrkraft in einem Video zeigen? Im Abschnitt zu sozialen Präsenztheorie werden wir mehr darüber erfahren, sicher ist, dass es keine direkt instruktionale Funktion hat. Sofern wir nicht die Gestik und Mimik der Lehrperson lernen sollen (z.B. bei Präsentationskursen) hilft uns die Lehrkraft nicht direkt, Konzepte und Prinzipien zu lernen. Allerdings können Lehrpersonen durch ihre Gestik auf bestimmte Aspekte in einer Präsentation zeigen und damit unsere Aufmerksamkeit auf diese Aspekte lenken. Andererseits fördert die Darstellung von Lehrpersonen den sozialen Bezug und kann uns daher indirekt dazu bringen, uns intensiver mit dem Video auseinander zu setzen.

Das KhanStyle-Format wurde durch Salman Khan bekannt, der 2006 begann für seine Nichten Mathematikvideos ins Netz zu stellen. In den ersten Videos verwendete Khan ein digitales Malbrett durch das er dynamisch seine Gedanken auf das Brett aufzeichnete und dazu sprach (siehe Basic addition). Das Malbrett hat eine unendliche Größe, so dass er in der Lage ist die Zeichnungen beliebig zu erweitern und darin zu navigieren. Die Zeichnungen in KhanStyle-Videos sind einfach und könnten von jedem gezeichnet werden. Ein großer Vorteil dieses Videoformats ist zudem, dass die Erklärungen langsam erzählt werden, da die sprechende Person die Inhalte simultan aufzeichnen muss. Hierdurch erhalten Lernende mehr Zeit mit dem Lernstoff. Da nur so viele Dinge erklärt werden können, wie gerade visualisiert werden, wiederholt Salman Khan zentrale Begriffe immer wieder. Schau dir beispielsweise das Video Parts of a cell an und achte darauf wie häufig Khan die Begriffe wiederholt, wenn er sie aufschreibt. Ein weiterer Vorteil von Videos im KhanStyle-Format ist, dass die visuelle Darstellung und der gesprochene Text immer einen Bezug zueinander haben. Bittet man Lehrpersonen ihre Gedanken aufzuzeichnen, werden sie nie Dinge aufzeichnen, die nicht im Einklang mit dem Gesprochenen sind. Bei PowerPoints kann dies durchaus passieren, da Lehrpersonen nicht gezwungen werden, zeitsimultan auf die Inhalte der PowerPoint einzugehen. Khan-Style Videos schaffen daher immer eine enge zeitliche Kontiguität zwischen den visuellen und den gesprochenen Informationen. Mittlerweile verwenden viele Anbieter Khan-Style Videoformate. Die Firma Udacity beispielsweise hat in den letzten Jahren vermehrt auf dieses Format zurück gegriffen (z.B. dieses Video).

Eine Adaption des Khan-Style Formats sind Transparente Bildschirme. Der Forscher Rene Kizilcec verwendet beispielsweise dieses Format (siehe dieses Video). Das Format verbindet sowohl Videos im Portraitformat mit Videos im KhanStyle Format. Eine Besonderheit dieses Formats ist, dass nur ein beschränkter Bereich des Bildschirms für visuelle Darstellungen genutzt werden kann. Dies ist nicht zwingend schlecht, da sich hierdurch Lernende auf wenige, aber zentrale Inhalte konzentrieren können. Dieses Format ist relativ neu und wird nur selten in E-Learning Kursen eingesetzt.

Es gibt noch weitere Formate, die in der Regel Elemente dieser Videos verbinden. Nicht unerwähnt sollten die Videos von Grant Sanderson bleiben, der durch programmierte Lernvideos Millionen an Nutzern Mathematikkenntnisse vermittelt hat (siehe Ted-Talk What Makes People Engage With Math). Grant Sanderson verwendet dynamische Visualisierung und erklärt in seinen Videos zentrale Konzepte der Mathematik. Die Videos achten streng auf die Prinzipien des multimedialen Lernens und nutzen durch die visuelle Darstellung beide Kanäle des Gedächtnisses aus.

Die Wahl des Videoformats ist immer an didaktische und praktische Fragen gebunden. Jedes Videoformat hat allerdings bestimmte Affordanzen. PowerPointvideos haben die Affordanz Texte in Form von Listen visuell darzustellen, Khan-Style Formate haben die Affordanz eine hohe zeitliche Kontiguität zwischen den Zeichnungen und dem gesprochenen Text herzustellen. Portraitformate haben die Affordanz des Betrachtens und verleiten daher ein Stück mehr in einen Zuschauermodus (siehe Salomon, 1984). Videos in denen Personen zu sehen sind, sollten vor allem verwendet werden, wenn die sprechenden Personen eine hohe Autorität für die Lernenden haben. In dem Kurs The Science of Everyday Thinking beispielsweise wird der Wirtschaftsökonom Daniel Kahnemann interviewt. Sobald Lernende das Gefühl haben, die sprechende Person hat eine hohe Autorität, werden sie dem Video länger und aufmerksam folgen. Genau deswegen funktioniert die Gettysburg Rede nicht als PowerPoint.

Wie betrachten Lernende instruktionale Videos?

Das beste instruktionale Video ist nichts wert, wenn es nicht angeschaut wird. Das kommt durchaus vor, insbesondere, sobald die Inhalte der Videos nicht mit den intendierten Lernzielen und vor allem den Prüfungsformen verzahnt werden (siehe Constructive Alignment). Lernende wissen nicht wie viel Mühe wir uns mit der Produktion eines Videos gemacht haben, es ist ihnen auch herzlich egal. Lernende möchten durch instruktionale Videos etwas dazu lernen und den Kurs erfolgreich abschließen. Da Lernende instruktionale Videos zielorientiert betrachten, schauen sie Videos so gut wie nie von Anfang bis Ende an. Insbesondere im Netz, in dem es immer nur ein paar Sekunden dauert, Videos zu einem anderen Thema anzusehen. Wir müssen daher lernen, zu verstehen, wie Lernende Videos nutzen, um diese im Sinne der Lernenden zu konzipieren. Überraschenderweise gibt es nicht so viel Forschung zu diesem Thema. Zwei Forscher haben sich mit diesem Thema im Detail auseinander gesetzt: Juho Kim und Philip Guo. In ihrer Forschung untersuchten sie mehrere Millionen Videobetrachtungen von Lernende in verschiedenen MOOCs.

Das Jahr 2014 war das Jahr der MOOCs, welche damals die Hoffnung weckten, die Bildung zu demokratisieren. Dies ist nicht eingetreten, als Folge gab es allerdings ein gesteigertes Forschungsinteresse, wie Lernende in diesen Kursen lernen. Unter anderem untersuchten Guo et al. (2014) wie Lernende instruktionale Videos betrachten. Die Forscher hatten eine breite Datenbasis zur Verfügung und analysierten 6.9 Millionen Videobetrachtungen von 127.000 Lernenden aus vier Kursen der Plattform edX. Sie fragten sich, wann und unter welchen Bedingungen Lernende aufhören, ein instruktionales Video zu betrachten und ob sie nach dem Betrachten der Videos Prüfungsaufgaben lösen. Die Themen der Videos waren größtenteils formal-logisch (Programmierung, künstliche Intelligenz, Statistik, Chemie). Unter anderem konnten die Forscher analysieren, wie lange Lernende die Videos betrachteten, ob und wie oft sie Pause und Play drückten, und welche Wiedergabegeschwindigkeit die NutzerInnen verwendeten (z.B. 1.25x, oder 1.5x). Alle Videos, die nur für fünf Sekunden betrachten wurden, wurden aus der Analyse entfernt, da diese Videos darauf hindeuteten, dass die NutzerInnen die Videos nicht wirklich betrachteten. Um heraus zu finden, ob NutzerInnen nach dem Betrachten der Videos ein weiteres Problem lösen, nahmen Guo und Kollegen ein Zeitfenster von 30 Minuten an. Wenn beispielsweise eine Nutzerin ein Video ansieht und nach 29 Minuten eine Multiple-Choice Frage zu diesem Video beantwortet, wurde dies als Versuch gewertet, dass die Lernende nach dem Videoschauen eine Aufgabe gelöst hat.

Der erste zentrale Befund ihrer Studie war, dass Lernende kurze Videos länger betrachten als lange Videos. Im Schnitt (Median) schauten die Lernenden Videos für sechs Minuten an. Je kürzer die Videos waren, desto wahrscheinlicher schauten die Lernenden die Videos bis zum Ende an. Videos mit einer Dauer von null bis drei Minuten wurden beispielsweise zu 75% bis zum letzten Drittel bis zum Ende angeschaut. Ebenso war die Wahrscheinlichkeit geringer, das Lernende Übungsaufgaben nach dem Video lösen, je länger das Video wurde. War das Video zwischen null und drei Minuten lang, wurde mit einer Wahrscheinlichkeit von 56% ein Problem danach gelöst. Bei einem Video von einer Länge zwischen neun und zwölf Minuten lag diese Wahrscheinlichkeit bei 41%, also 15% weniger wahrscheinlich.

Ein weiterer Befund war, dass Lernende, die ein Video im Talking-Head Format anschauten, die Videos länger betrachteten als Lernende, die Videos in einem PowerPoint-Format betrachteten. Die Unterschiede wurden besonders deutlich bei Videos mit einer Länge zwischen sechs und zwölf Minuten. Bei Videos mit einer Länge von sechs bis neun Minuten beispielsweise war die Wahrscheinlichkeit, dass Lernende das Video mit einem Talking-Head Video bis zum letzten Drittel anschauten in etwa 20% höher als mit einem PowerPoint Video.

Ein dritter und durchaus interessanter Befund war, dass die Art der Aufnahme einen Einfluss darauf hat, wie lange Lernende die Videos betrachten. Einige der Videos wurden im Büro der Lehrpersonen aufgezeichnet. In diesen Videos saßen die Lehrenden an ihrem Schreibtisch und blickten direkt in die Kamera. In anderen Videos standen die Lehrenden hinter einem Pult und schauten nicht immer direkt in die Kamera. Die technisch einfacheren Videos, in denen die Lehrpersonen in ihrem Büro saßen, wurden länger angeschaut als Videos, welche professioneller mit Stehpult und Bildschirmen aufgezeichnet wurden. Schau dir beispielsweise einmal die Videos von Walter Sinnott-Armstrong aus dem Kurs How to Reason and Argue an. Die Videos haben eine schlechte Qualität und sind mit wenig technischem Aufwand erzeugt worden. Dennoch, der Kurs ist äußerst beliebt und wurde von tausenden Lernenden durchgeführt. Ganz ähnliche Befunde fanden Guo und Kollegen mit Videos im Khan-Style Format. Khan-Style Videos wurden länger angeschaut als Videos im PowerPoint-Format oder in Videos, in denen Programmiercode gezeigt wurde. Ebenso erhöhten Khan-Style Videos die Chance, dass danach Übungsaufgaben gelöst wurden um ungefähr 9%.

Die Ergebnisse von Guo und Kollegen zeigen vor allem, dass kurze Videos wahrscheinlicher angeschaut werden als lange Videos. Für E-Learning EntwicklerInnen ist dies eine wichtige Botschaft, da sie darauf hindeutet, dass Lernenden kurze Videos bevorzugen und dies zudem dazu führt, dass mehr Übungsaufgaben nach dem Betrachten der Videos gelöst werden. Den vorteilhaften Effekt von kurzen Videos hatten wir bereits unter dem Begriff Segmentierungseffekt, in der Einheit zum multimedialen Lernen, kennen gelernt. Vermutlich führt die Segmentierung von Videos dazu, dass Lernende ein kohärenteres mentales Modell der Lerninhalte der Videos aufbauen können, da sie besser in der Lage sind, Sinnabschnitte zu erkennen. Eine zweite Botschaft der Befunde ist, dass soziale Hinweise das Nutzerverhalten beeinflussen. Die Sichtbarkeit von Lehrpersonen als auch informellere Videos, in denen Lehrende an ihrem Schreibtisch sitzen, in die Kamera gucken oder auf einem Zeichenbrett zeichnen, erhöht die Wahrscheinlichkeit, dass NutzerInnen die Videos länger anschauen. Wir werden im nächsten Abschnitt genauer auf diese sozialen Hinweisreize eingehen. An dieser Stelle genügt die Feststellung, dass diese sozialen Hinweisreize einen positiven Einfluss auf das Nutzerverhalten in E-Learning Kursen haben können.

Eine weitere Studie wurde von Kim et al. (2014) durchgeführt. In dieser Studie wurden 862 Videos der Plattform edX analysiert. Im Gegensatz zu Guo und Kollegen untersuchten Kim und Kollegen stärker das Nutzerverhalten von Lernenden in MOOCs. Beispielsweise wollten sie wissen, wann Lernende ein Video abbrechen. Als Datengrundlage nahmen Kim und Kollegen die gleichen Videos der Studie von Guo und Kollegen. Zunächst fanden die Autoren, dass nur in etwa 55% der Videos zu Ende geschaut wurden. Das heißt, dass die Hälfte der Lernenden den zweiten Teil der Videos oft nicht ansehen wird. Lernende entscheiden zudem relativ schnell, ob sie einen Nutzen aus einem Video haben. Nach bereits 3% der Videolänge stiegen bereits über 36% der Lernenden aus. Bei einem Video mit einer Länge von drei Minuten sprechen wir hierbei von den ersten fünf Sekunden. Schauen Lernende ein Video ein zweites Mal steigt die Dropout Rate deutlich auf 78% an. Dies bedeutet, dass Lernende beim zweiten Betrachten eines Videos zielorientierter vorgehen und sich nur die "guten Stücke" des Videos betrachten. Für die Entwicklung von instruktionalen Videos kann man daher schlussfolgern, dass man es Lernenden erleichtern sollte, zu bestimmten Abschnitten in einem Video zu springen. Dies ist einerseits möglich, indem man kurze Videos mit aussagekräftigen Titeln konzipiert als auch eine Art Inhaltsverzeichnis für die NutzerInnen anbietet. Kim und Kollegen schauten sich weiter an, an welchen Stellen Lernenden zurück auf ein Video klicken, das sie bereits angesehen haben. 61% dieser Anstiege geschahen, wenn es eine Blende von einer Folie auf eine andere Folie gab. Vermutlich dienen diese Transitionen Lernende als Marker, dass anderen Inhalte ab diesem Abschnitt in dem Video besprochen werden. Erneut ein Befund, dass Lernende beim Betrachten von instruktionalen Videos bestimmte Ziele verfolgen und ihr Verhalten danach ausrichten.

Die beiden Studien von Guo und Kim zeigen uns sehr deutlich, dass wir Lernende darin unterstützten sollten, Videos selektiv zu betrachten. Wir werden Lernende nicht dazu bringen können, Videos in voller Länge zu betrachten. Wir können sie allerdings darin unterstützen, wichtige Stellen in Videos erneut zu finden. Solange wir in einem Kurs sicher gestellt haben, dass das Constructive Alignment umfassend umgesetzt ist, ist das selektive Verhalten der Lernenden nicht von Nachteil, da wir wissen, dass Lernende auf die Lernmaterialien zurück gehen werden, um sich auf die Prüfungsmethoden vorzubereiten. Es ist daher sogar erwünscht, Lernende zu unterstützen, die für sie relevanten Stellen zu finden. Um die Lernenden dabei zu unterstützen können wir einerseits Videos in kleine Abschnitte aufteilen und ihnen sehr klare Hinweise geben, welche Inhalte in welchem Video zu erwarten sind.

Die zweite wichtige Botschaft aus diesen Botschaften ist, dass die Art und Weise, ob und wie wir Menschen in Videos betrachten, einen Einfluss darauf hat, wie lange Videos angeschaut werden. Um zu verstehen, weshalb, beschäftigen wir uns als nächstes mit der sozialen Präsenztheorie.

Der menschliche Faktor - die soziale Präsenztheorie

Wenn wir instruktionale Videos ansehen, sehen oder hören wir fast immer Menschen. Menschen können ganz unterschiedlich in Videos eingebettet werden. In manchen Videos begleitet das Video Menschen, die in einem Auto fahren und sich unterhalten. In anderen Videos unterhalten sich Lehrende in einem Raum. Manchmal schlüpfen wir als Lernende ebenso in die Beobachterrolle und schauen uns ein Gespräch zweier Menschen an. Kurzum: In vielen Videos werden Menschen bewusst eingesetzt, um eine reale soziale Situation zu simulieren (siehe Reeves & Nass, 1996). Diese Situationen weisen viele Muster realer menschlicher Kommunikationen auf. Wir hören einer Person beim Sprechen zu, wir sitzen mit Personen in einem Auto und unterhalten uns. Die Personen sehen uns direkt in die Augen. Jedes dieser sozialen Elemente ist ein sozialer Hinweisreiz. Selbstredend gibt es bei instruktionalen Videos deutlich weniger soziale Hinweisreize als im realen Leben. Wir können in einem Video kein Gespräch führen, wir riechen auch nicht die Luft, in der sich die Lehrperson befindet und die Lehrperson reagiert nicht auf uns. Beispielsweise geben uns die Blicke von Personen sehr viele Informationen darüber, worauf eine Person achtet. Blicke haben in anderen Worten eine duale Funktion, indem wir Informationen zu unseren GesprächspartnerInnen kommunizieren und ebenso Informationen von unseren GesprächspartnerInnen aufnehmen (siehe Risko et al., 2016). Diese Blicke können die Interaktion zwischen Menschen verändern. Schaut eine Person uns nicht in die Augen, fragen wir uns, ob die Person gerade desinteressiert ist. Beim Betrachten instruktionaler Video bricht diese duale Blickfunktion allerdings, da wir lediglich Informationen der Lehrperson empfangen, jedoch keine Informationen zur Lehrperson mit unseren Blicken kommunizieren können. Ein Beispiel für dieses Phänomen wurde von Risko und Kingstone (2011) untersucht. Sie ließen 24 Studierende in ein Labor kommen, mit dem Hinweis, dass sie einen kognitiven Test ausführen sollten. Der Hälfte der Gruppe wurde ein Eye-Tracker aufgesetzt, der anderen nicht. Zur Mitte des Experiments verließ die Versuchsleitung für eine Minute den Raum. Was die Probanden nicht wussten, war, dass nicht der Test untersucht wurde, sondern wie oft die Probanden auf einen aufreizenden Bademodekalender schauten, der in dem Raum hing. Die Resultate waren deutlich. Hatten die Probanden einen Eye-Tracker auf, schauten sie in ~ 38% der Fälle auf den Kalender. Ohne einen Eye-Tracker schauten die ProbandInnen in über 90% der Fälle auf den Bademodekalender. ProbandInnen mit Eye-Tracker fühlen sich offenbar beobachtet und vermieden daher eher auf den Kalender zu schauen als ProbandInnen, die keinen Eye-Tracker trugen. In anderen Worten, sie ahnten, dass ihre Blicke Informationen kommunizieren. Lernende, die instruktionale Videos betrachten, müssen dies nicht befürchten.

Die Gretchenfrage für die Konzeption für instruktionale Lernvideos ist, inwieweit soziale Hinweisreize lernförderlich sind. Man kann sich hierfür zwei Fragen stellen. Die erste Frage ist, wie ausgeprägt wird die über den Laptop stattfindende kommunikative Gesprächssituation als real empfunden und wie sehr fühlen sich die Lernenden mit der Lehrperson emotional verbunden. Die zweite Frage ist, wie spezifische soziale Hinweisreize einen Einfluss auf das Lernen haben. Zum Beispiel: Ist es nützlich, Lehrpersonen in Videos darzustellen? Welche Rolle hat die Gestik als ein Signalhinweis für Lernende? Wir werden beide Fragen in diesem Modul beantworten, beginnen allerdings mit der ersten Frage nach der sozialen Präsenz.

Was ist soziale Präsenz und wie beeinflusst sie das Nutzerverhalten von Lernenden?

Das SIPS-Modell der sozialen Präsenz

Der Begriff der sozialen Präsenz wurde von Short et al. (1976) geprägt. Man ist sich uneinig, was soziale Präsenz ist (Weidlich & Bastiaens, 2017). Zwei Komponenten scheinen allerdings entscheidend zu sein. Einerseits beschreibt die soziale Präsenz die Frage, wie real wir eine Person in einer über einen elektrisches Gerät vermittelten Person empfinden. Diese Komponente wird als soziale Präsenz beschrieben. Dass wir Personen als real empfinden, die wir über Bildschirme betrachten, lässt sich kaum anzweifeln. Warum würden wir sonst durch Filme weinen oder nach Horrorfilmen nicht das Zimmer verlassen wollen? Diese Komponente beschreibt daher die Präsenz einer Person in einer medialen kommunizierten Gesprächssituation. Vergleiche nur einmal eine typische PowerPointaufnahme mit einem Interview. Eindeutig wirkt ein Interview realer, selbst wenn wir in Wirklichkeit nicht mit den Personen am gleichen Ort sind. Die zweite Komponente betrifft die Frage, wie sehr wir in einem Online-Setting beziehungsweise instruktionalen Videos das Gefühl haben, mit anderen Personen in sozialem Kontakt zu stehen. Diese Komponente wird als Sozialer Raum beschrieben. Selbst wenn wir eine Person als "echt" wahrnehmen (soziale Präsenz), könnte es sein, dass wir nicht das Gefühl haben, eine Bindung zu dieser Person aufzubauen. Der soziale Raum wird bei Weidlich und Bastiaens auch als der Grad der Interaktion mit den anderen Lernenden in einem Kurs beschrieben: "Verbunden aber nicht identisch mit sozialer Präsenz ist der zweite Teil der Definition, indem ein Lernender das Gefühl haben kann, dass eine zwischenmenschliche Beziehung zu einem Kommunikationspartner besteht" [aus dem Englischen übersetzt] (S. 480). Beide Komponenten sind unabhängig voneinander. Weidlich und Bastiaens haben das SIPS-Modell entworfen, um zu beschreiben, wie diese beiden Komponenten entstehen und wie sich diese gegenseitig beeinflussen:

SIPS Modell
SIPS Modell

Am Anfang des Modells steht die Geselligkeit, also die Frage, inwieweit das Medium eine spontane und informelle Konversation ermöglicht. Es beschreibt damit die Grenze der möglichen sozialen Präsenz eines Mediums. In einem Chat haben wir beispielsweise mehr Möglichkeiten eine soziale Situation zu schaffen als in einem E-Reader. Der Begriff der sozialen Interaktion beschreibt die realen Interaktionen zwischen Lehrenden und Lernenden in einer digitalen Lernumgebung. In instruktionalen Videos wird soziale Präsenz unter anderem durch die Gestik und Mimik der Lehrperson, die Formalität der Sprache, als auch dem Blickkontakt zu den Lernenden hergestellt. Auf Grundlage der sozialen Interaktion bilden wir uns einen Eindruck über die Lehrperson. In anderen Worten: "Wie stark habe ich das Gefühl, die Lehrperson in dem Video zu kennen?". Hierfür benötige ich als Lernende Informationen über diese Person. Wie sieht sie aus? Was macht diese Person? Wie verhält sie sich? Ist sie wohlwollend oder nicht? Wie kleidet sich diese Person? Aus dieser Wahrnehmung bildet sich die soziale Präsenz, also der Eindruck, wie real mir eine Person über den Bildschirm erscheint. Ein anderer Pfad verläuft über die Art und Weise des Kommunikationsverhaltens. Das positive Kommunikationsverhalten beschreibt, wie stark ich die Kommunikationsperson mit der Lehrperson oder den Peers als konstruktiv und positiv empfinde. Wenn ich beispielsweise den TED-Talk von BJ Miller ansehe, empfinde ich eine durchaus positivere Kommunikationssituation als wenn ich dieses Promovideo von Tobias Hauser ansehe. Ich empfinde Herrn Miller freundlicher und positiver. Er versucht mir nichts zu verkaufen und sitzt ruhig auf einem Stuhl. Tobias Hauser steht in einem hergerichteten Büro und möchte mich überzeugen, Geld für sein Produkt auszugeben. Die Gestik von Herrn Hauser wirkt gelernt, die Gestik von Herrn Miller wirkt echt. Das SIPS-Modell geht davon aus, dass dieser positive Eindruck mein Handeln in einer digitalen Lernumgebung positiv beeinflusst. Beispielsweise indem ich das Video länger ansehe oder mich intensiver mit dem Video beschäftige. Sowohl der soziale Raum als auch die soziale Präsenz haben laut dem Modell einen Einfluss darauf, wie überzeugt ich von meinen Fähigkeiten zu den Inhalten des Kurses bin, wie zufrieden ich mit den Inhalten des Kurses bin und wie viel ich glaube aus diesem Kurs zu lernen.

Die Ergebnisse ihrer Studie zeigen folgende Befunde. Zunächst hängt der Grad des sozialen Raums positiv mit der Zufriedenheit der Lernenden zusammen. Man kann die Ergebnisse so deuten: Je positiver ich die Kommunikationssituation mit der Lehrperson in einem instruktionalen Video empfinde, desto eher such ich den kommunikativen Austausch in der Lernumgebung, wodurch wiederum meine Zufriedenheit mit dem Kurs positiv beeinflusst wird. Der gleiche Wirkmechanismus findet sich mit dem wahrgenommenen Lernen der Studierenden. Je größer der soziale Raum ist, desto stärker glauben Lernende, etwas aus einem Kurs gelernt zu haben. Wahrgenommenes Lernen ist selbstverständlich kein "echtes" Lernen, dennoch ist es ein wichtiger Faktor in E-Learning Kursen, da diese Überzeugung wiederum die Zufriedenheit der Lernenden steigert. Die soziale Präsenz hat ebenso einen positiven Einfluss auf die wahrgenommene Lernleistung. Ein weiterer wichtiger Befund der Studie ist, dass der Grad der sozialen Interaktion einen großen Effekt auf die Eindrucksbildung hat. Dies bedeutet, dass eine soziale Interaktion uns ermöglicht eine digital vermittelte Person als reale Person mit Eigenschaften wahrzunehmen.

Das SIPS-Modell zeigt, das soziale Faktoren durchaus einen Einfluss auf die Zufriedenheit von Lernenden haben und eine gesteigerte soziale Präsenz und ein gesteigerter sozialer Raum mit positiven Auswirkungen verbunden ist. Diese Ergebnisse haben ganz praktische Auswirkungen. Einerseits sollten wir uns als E-Learning EntwicklerInnen Gedanken darüber machen, welche Personen wir als Lehrpersonen in instruktionalen Videos einsetzen. Im besten Fall sollten die Lernenden diese Person als authentisch und positiv empfinden. Die Ergebnisse deuten ebenso darauf hin, dass eine teure Produktion von animierten Avataren nicht sonderlich lernförderlich ist, da es ihnen an sozialen Hinweisreizen mangelt.

Die Social-Agency Theorie nach Mayer

Ein anderes Modell der sozialen Präsenz wurde von Mayer (2014) vorgeschlagen. Die Social-Agency Theorie besagt, dass soziale Hinweise in instruktionalen Videos bei den Lernenden soziale Reaktionen auslösen. Eine soziale Reaktion ist beispielsweise die Mühe, die sich Lernende geben, die Inhalte eines Lehrstoffs besser zu verstehen. Ebenso ist eine gesteigerte Aufmerksamkeit eine soziale Reaktion auf soziale Hinweisreize. Als Folge der sozialen Reaktionen steigern Lernende ihre kognitiven Aktivitäten. Damit meint Mayer die Aktivitäten der Selektion, Organisation und Integration. Diese Prozesse wiederum führen zu einem höheren Lernerfolg.

Social-Agency Theorie
Social-Agency Theorie

Die Theorie macht deutlich, dass soziale Hinweisreize in instruktionalen Videos nicht direkt auf den Lernerfolg wirken, sondern über andere Prozesse vermittelt werden. Nicht die sozialen Hinweisreize führen zu gesteigertem Lernen, sondern die förderlichen Prozesse, die damit verbunden sind. Zudem macht die Social-Agency Theorie im Gegensatz zum SIPS-Modell direktere Aussagen über den realen Lernerfolg der Studierenden.

Untersucht wurde die Social-Agency Theorie bisher anhand von drei Prinzipien: Dem Personalisierungsprinzip, dem Voice-Prinzip und dem Image-Prinzip. Das Personalisierungsprinzip besagt, dass ein informeller Sprachstil höhere soziale Hinweise liefert als ein formeller Sprachstil. Stell dir beispielsweise vor, eine Lehrkraft spricht in dem Video die Lernenden direkt an oder verwendet die Worte "ich" und "du". Die Studien, welche Mayer zu diesem Prinzip gemacht hat, zeigen, dass diese Techniken durchaus den Lernerfolg steigern können. Gleiches gilt für das Voice-Prinzip. Das Voice-Prinzip besagt, dass eine als authentisch wahrgenommene Stimme zu mehr sozialen Reaktionen führt als eine synthetische Stimme. Diese Studien sind heutzutage nicht mehr ganz relevant, da synthetische Stimmen immer authentischer werden, sie zeigen dennoch, dass soziale Hinweisreize einen Einfluss auf unser Lernverhalten haben können. Auch das Voice-Prinzip zeigt durchweg positive Effekte (d = 0.79). Deutlich weniger lernförderlich ist das Image-Prinzip, auf welches wir später im Detail eingehen werden. Das Image-Prinzip besagt, dass eine Lehrkraft, die in ein instruktionales Video eingebettet wird, ebenso zu den in der Theorie angenommenen Prozessen führt. Die Studien zu diesem Prinzip zeigen allerdings nur einen kleinen positiven Effekt auf die Lernleistung. In manchen Studien führte dieser Effekt gar zu nachteiligen Lernleistungen.

Ein Grund für diese unterschiedlichen Effekte des Image-Prinzips ist unter anderem, dass die Lehrperson als Seductive Detail wirken kann und daher ein zentrales Prinzip des Kohärenzprinzips der kognitiven Theorie des multimedialen Lernens nicht berücksichtigt. Lernende, die auf eine Lehrkraft schauen, schauen per Definition zu diesem Zeitpunkt nicht auf den Lernstoff, der visuell dargestellt wird. Andererseits könnte man davon ausgehen, dass durch die Darstellung der Lehrperson soziale Reaktionen aktiviert werden, die wiederum zu einer besseren kognitiven Verarbeitung führen. Die Darstellung von Lehrpersonen bewegen sich daher immer im Spannungsfeld der Frage, wie stark die Lehrpersonen ablenken und wie intensiv die Lehrpersonen soziale Reaktionen fördern, die wiederum förderlich für die kognitiven Prozesse der Lernenden sind. Ein Urteil über dieses Spannungsfeld ist noch nicht gefallen.

Meta-Analyse zur sozialen Präsenztheorie

Eine der jüngeren unabhängigen Studien zur Wirksamkeit der sozialen Präsenz auf die Zufriedenheit und die Lernleistung von Lernenden wurde von Richardson et al. (2017) durchgeführt. Die Autoren machen deutlich, dass der Einfluss der sozialen Präsenz auf den wahren Lernerfolg der Lernenden noch nicht umfassend untersucht wurde. Meistens wurde die Zufriedenheit und die wahrgenommen Lernleistung der Lernenden untersucht. Die Ergebnisse zeigen daher nicht, inwieweit die soziale Präsenz Lernen fördern.

Insgesamt untersuchten die Autoren die Daten aus 19 aus 98 Studien, die sowohl die Zufriedenheit der Lernenden und ihre wahrgenommene Lernleistung untersuchten, soziale Präsenz theoretisch untersuchten, und den Einfluss der sozialen Präsenz quantitativ anhand von Korrelationskoeffizienten untersuchten. Die Ergebnisse zeigten, dass es eine mittlere Korrelation von .56 der sozialen Präsenz mit der Zufriedenheit der Lernenden gab. Das heißt, je höher Lernende die soziale Präsenz wahrnahmen, desto zufriedener waren sie mit dem Kurs. Dieses Ergebnis ist ähnlich zu Weidlich und Bastiaens (2017), welche einen ähnlichen Zusammenhang fanden. Die Ergebnisse zeigten aber auch, dass der Zusammenhang stark variierte, was darauf hindeutet, dass der Kontext einen Einfluss auf den Zusammenhang hat. Weitere Analysen ergaben, dass der Zusammenhang zwischen sozialer Präsenz und der Zufriedenheit der Lernenden größer ist, je länger Kurse dauern. Für die wahrgenommene Lernleistung fanden die Autoren einen Zusammenhang von .51. Je höher die soziale Präsenz war, desto höher nahmen die Lernenden an, etwas gelernt zu haben. Erneut gab es eine große Heterogenität in den Ergebnissen. Ähnlich wie bei der Zufriedenheit der Studierenden war die Korrelation höher, je länger die Kurse dauerten.

Die Ergebnisse von Richardson und Kollegen unterstützten die beiden theoretischen Modelle von Weidlich und Mayer: Die soziale Präsenz in Lernvideos bzw. E-Learning Kursen hat einen positiven Effekt auf die Zufriedenheit und die wahrgenommene Lernleistung von Lernenden. Es macht daher durchaus Sinn, in der Konzeption von instruktionalen Videos darauf zu achten, dass verschiedene soziale Hinweise eingebettet werden. Insbesondere, wenn E-Learning Kurse über mehrere Wochen angeboten werden. Die Forschung zur sozialen Präsenztheorie macht allerdings keine spezifischen Aussagen darüber, inwieweit soziale Hinweisreize in instruktionalen Videos einen Einfluss auf die kognitiven Prozesse von Lernenden haben. Daher macht es Sinn, sich als nächstes die Literatur zu diesen instruktionalen Maßnahmen anzusehen.

Spezifische soziale Hinweisreize in instruktionalen Videos

Es gibt mehrere Methoden, soziale Hinweise in instruktionale Videos einzubetten. Zunächst kann man sich dafür entscheiden, eine Lehrperson in einem instruktionalen Video zu zeigen. In diesem Fall dient die Anwesenheit der Lehrperson als sozialer Hinweisreiz. Lehrpersonen selbst führen weitere soziale Hinweisreize aus. Beispielsweise verwenden sie Gesten, um auf bestimmte Stellen der Folien zu zeigen. Ebenso können sie ihre Blicke auf bestimmte Stellen lenken. Transparente Whiteboards beispielsweise, wie sie Rene Kizilcec verwendet, haben den Vorteil, dass Lernende die Blickrichtung der Lehrenden erkennen können und hierdurch die Aufmerksamkeit der Lernenden auf bestimmte Aspekte gelenkt werden kann. Eine weitere Methode ist die Perspektive der Kamera. Entweder kann die Kamera die Perspektive der Lehrperson einnehmen, beispielsweise bei instruktionalen Videos zum Autofahren, oder die Kamera zeigt die Lehrperson aus dem Blickwinkel einer anderen Person. Wir werden im Folgenden auf diese verschiedenen sozialen Hinweisreize eingehen.

Anwesenheit von Lehrpersonen

Die Social-Agency Theorie hat bereits angedeutet, dass die Darstellung von Lehrpersonen nicht zwingend lernförderlich sein muss. Lehrpersonen können als Seductive Detail wirken und die Aufmerksamkeit der Lernenden vom Lernstoff lenken. Sie können aber auch die im SIPS-Modell und der Social Agency Theorie angenommenen förderlichen Prozesse auslösen. Wie die Anwesenheit von Lehrpersonen in instruktionalen Videos wirkt, wurde bisher in ein paar experimentellen Studien untersucht (siehe Kizilcelc et al., 2014, Kizilcec et al., 2015, Pierson, 2017, van Gog et al., 2014, van Wermerskerken et al., 2018, van Wermerskernen & van Gog, 2017, Wang & Antonenko, 2017).

Die Mehrzahl dieser Studien fand, dass die Anwesenheit von Lehrpersonen in instruktionalen Videos dazu führt, dass die Lernenden sehr häufig auf die Lehrperson schauen. In der Studie von Kizilcec et al. (2014) beispielsweise schauten die Lernenden, die Videos betrachteten, auf denen die Lehrpersonen zu sehen waren, 41% der Zeit auf das Gesicht der Lehrenden. Die Ergebnisse der Studien zeigen, dass Gesichter für Lernende eine hohe Anziehungskraft haben und dazu führen, dass wir die Gesichter betrachten. Fragt man Lernende, ob sie lieber Videos mit oder ohne einer Lehrperson sehen möchten, entscheiden sie sich meist für Videos, in denen die Lehrpersonen sichtbar sind (Kizilcelc et al., 2015). Nicht nur präferieren sie es, Lehrende in instruktionalen Videos zu sehen, sie sind ebenso zufriedener als Lernende, die Videos ohne eine Lehrperson sehen (Wang & Antonenko, 2017). Obwohl Gesichter die Aufmerksamkeit auf sich ziehen und Studierende angeben, dass sie mehr lernen, wenn sie die Lehrpersonen in instruktionalen Videos sehen, führt die Anwesenheit von Lehrpersonen nur selten zu einem erhöhten tatsächlichen Lernerfolg. Wang und Antenonko beispielsweise gaben Lernenden Mathevideos, die für die Lernenden entweder einfach oder schwierig zu verstehen waren. In Transferaufgaben schnitten alle Lernenden gleich ab, unabhängig davon, welches Video sie sahen, noch ob die Lehrperson sichtbar war. Lediglich waren Lernende, die das einfache Video sahen und die Lehrperson sahen, besser in der Lage, sich Fakten zu merken, als Lernende, die keine Lehrperson sahen. Einen ähnlichen Effekt fanden van Gog et al. (2014), allerdings nur, als die Lernenden das Video ein zweites Mal betrachteten. Alle anderen Studien zeigen allerdings, dass die Anwesenheit von Lehrpersonen zwar für die Lernenden in ihrer Wahrnehmung besser und lernförderlicher ist, jedoch der Lernerfolg nur selten davon beeinflusst wird.

Diese Ergebnisse unterstützten die von Mayer gefundene Effekte zum Image-Prinzip. Obwohl eine Lehrperson die Aufmerksamkeit vom Lernstoff ablenkt, scheinen andere Prozesse kompensatorisch auf diese Ablenkung zu wirken. Beispielsweise, indem die Lernenden - ganz nach der Social-Agency Theorie - förderlichere kognitive Prozesse ausführen. Für die Gestaltung von instruktionalen Videos für E-Learning EntwicklerInnen lässt sich daher schließen, dass es gute Gründe gibt, die Lehrpersonen in den Videos zu zeigen. Einerseits sind Studierende zufriedener mit solchen Videos, andererseits scheint es keinen nachteiligen Effekt auf das Lernen zu haben. Einschränkend muss man aber sagen, dass immer noch ein beträchtlicher Teil an Lernenden (~ 35%) lieber darauf verzichtet, Lehrpersonen in Videos zu sehen (siehe Kizilcec, 2015). Zuletzt sollte man nicht vergessen, dass dies sehr generische Tipps sind. Lehrpersonen können unterschiedliche Reaktionen bei Lehrpersonen hervorrufen. Wir sollten daher nicht vergessen, dass SIPS-Modell ebenso davon ausgeht, dass die positive Wahrnehmung einer Lehrperson einen Einfluss auf die soziale Präsenz hat. Es ist daher durchaus ratsam, sich vor der Produktion instruktionaler Videos zu überlegen, welche Lehrperson positiv auf die Lernenden wirkt.

Gestik und Blickverhalten in instruktionalen Videos

Es macht einen Unterschied, ob eine Lehrperson in einem instruktionalen Video nur dasteht oder mit dem Lernstoff interagiert. Menschen verwenden beispielsweise beim Sprechen häufig Beat-Gesten (siehe dieses Beispiel), welche die Sprache rhythmisch begleiten, allerdings keine Referenz auf Objekte der Umwelt machen. Beat-Gesten dienen vor allem dazu, Aussagen zu akzentuieren, vermitteln aber keine Bedeutung. Gesten werden auch verwendet, um auf bestimmte Objekte der Umwelt zu zeigen. Kinder möchten damit häufig die Aufmerksamkeit ihrer Eltern auf bestimmte Objekte richten (siehe dieses Beispiel). Solche Gesten werden als deiktische Gesten bezeichnet. Metaphorische Gesten werden eingesetzt, um abstrakte Informationen über die Bewegung einer Gestik zu kommunizieren. Beispielsweise indem ich beschreibe wie groß eine Person ist und meine Hand über den Kopf hebe. Die Höhe meiner Hand steht in diesem Sinn metaphorisch für die Größe einer Person. Zuletzt gibt es noch ikonische Gesten, welche sich auf ein konkretes Objekt oder eine Handlung beziehen und semantisch mit der Sprache verbunden sind. Ein wackelndes Schiff beispielsweise kann durch eine Hand symbolisiert werden, die sich hin und her bewegt. In der Forschung zu instruktionalen Videos wurden bisher der Unterschied zwischen deiktischen, Beat-Gesten bzw. gar keine Gesten untersucht.

Die umfangreichste Untersuchung bisheriger Studien zur lernwirksamen Wirkung von Gesten wurde von Dargue et al. (2019) durchgeführt. Sie untersuchten die Ergebnisse von 64 Studien. Sie fanden, dass Gesten im Mittel eine lernförderliche Wirkung bei Erklärungen haben (g = 0.61). Lediglich vier Prozent der Studien berichteten einen negativen Einfluss von Gesten auf Lernen. Besonders wirksam scheinen ikonische, metaphorische, deiktische Gesten oder ein Mix dieser Gesten zu sein; Gesten, die eine inhaltliche Bedeutung haben. Beat-Gesten hatten keinen lernförderlichen Effekt in ihrer Meta-Analyse. Zudem waren Gesten sowohl für die Erinnerungsleistung als auch für das Verständnis von Lernenden förderlich. Eine weitere umfassende Untersuchung zum Einfluss von Gesten in instruktionalen Videos wurde von Bhat et al. (2015) durchgeführt. Bhat und Kollegen ließen Lernende in einem Kurs der Plattform Coursera entscheiden, ob sie Videos sehen möchten, in denen Lehrende im Video zu sehen sind und mit den Lerninhalten interagieren, oder ob die Lehrende als Picture-in-Picture im Video zu sehen waren und nicht mit dem Lernstoff interagierten. Bei weitem entschieden sich die Lernenden für die Videos, in denen die Lehrkraft mit den Inhalten der Videos interagierte. Zudem schauten Lernende, die diese Videos ansahen, die Videos für eine längere Zeit an. Ähnlich zu den Ergebnissen zur Darstellung von Lehrpersonen in Videos bevorzugen Lernende anscheinend eine starke Präsenz der Lernenden in Lehrvideos. Deiktische Gesten ändern nicht nur die Dauer der Auseinandersetzung mit instruktionalen Videos, sie sorgen auch dafür, dass die Lernenden eine stärkere Aufmerksamkeit auf den Lernstoff richten, der in den Videos dargeboten wird. Wir hatten bei der Darstellung von Lehrpersonen in instruktionalen Lehrvideos festgestellt, dass Lehrpersonen eine hohe Aufmerksamkeit auf sich ziehen. Wenn Lehrende allerdings deiktische Gesten verwenden, die sich auf den Lernstoff beziehen, richten Lernende mehr Aufmerksamkeit auf den Lernstoff, als wenn die Lehrenden Beat-Gesten verwenden (siehe Li et al., 2019, Ouwehand et al., 2015, Pi et al., 2017). Anscheinend haben Gesten eine aufmerksamkeitsleitende Funktion, indem Lernende auf die Objekte schauen, auf die sich die Gesten beziehen. Gesten können daher ebenso als Signalingmethoden verstanden werden, die die Selektionsprozesse vereinfachen. Wenig verwunderlich ist es daher, dass Studien zu deiktischen Gesten in instruktionalen Videos zeigen, dass diese in der Regel lernförderlich sind (siehe Dargue & Sweller, 2020, Li et al., 2019, Pi et al., 2017, Rueckert et al., 2017). Dass Gesten allerdings nicht mit Signalingmethoden gleichzusetzten sind, fanden Pi et al. (2017) heraus. Sie gaben Probanden entweder deiktische Gesten, Signalingpfeile, die auf bestimmte Objekte im Video zeigten und keine Gesten oder Signalingmethoden. Sie fanden, dass nur deiktische Gesten zu einer höheren Behaltensleistung führt. Offensichtlich steuern menschliche Gesten die Aufmerksamkeit von Lernenden mehr als alternative Signalingmethoden.

Lehrende in instruktionalen Videos verwenden allerdings nicht nur Gesten als soziale Hinweise, sondern ebenso Blicke. Wer kennt nicht die Lehrenden, die während einer Vorlesung gegen die Tafel reden. Blicke können uns ebenso helfen, unsere Aufmerksamkeit auf bestimmte Objekte zu lenken. Blicke sind allerdings zwangsläufig unspezifischer als Gesten, da sie sich nur auf einen bestimmten Bereich beziehen können und erst informativ werden, wenn wir genügend Vorwissen über eine bestimmte Situation haben. Paare beispielsweise sind in der Regel sehr gut in der Lage über Blicke zu kommunizieren. Sie schaut kurz auf den Esstisch und er weiß, dass er mal wieder seinen Müll wegräumen muss. Im Bereich der instruktionalen Videos ist der Einfluss von Blickbewegungen weniger klar als der, der Gesten. Fiorella et al. (2018) beispielsweise ließen ProbandInnen mit Hilfe von zwei unterschiedlichen Videos lernen, wie Nieren funktionieren. Eine Gruppe erhielt ein Videoformat, bei dem eine Lehrkraft vor einem Whiteboard steht und den Blickkontakt zu den Lernenden meidet. Eine weitere Gruppe erhielt ein Videoformat, bei dem eine Lehrkraft hinter einem transparenten Whiteboard steht und mit den Lehrenden Blickkontakt hält. Lernende, die mit dem transparenten Whiteboard malten, zeigten eine bessere Transferleistung als die Lernende, die die Lehrenden vor einem traditionellen Whiteboard ohne Blickkontakt sahen. Es gab allerdings keine Unterschiede in der Lernleistung für das Behalten einzelner Fakten. Lernende, die mit dem transparenten Whiteboard malten, gaben zudem an, ein größeres Interesse an der Thematik zu haben als Lernende, die mit dem herkömmlichen Whiteboardformat lernten. Stull et al. (2018) untersuchten ebenso den Unterschied dieser beiden Whiteboardformate. Im Unterschied zu der Studie von Fiorella verwendeten Lehrende in diesen Videos für beide Formate Blickbewegungen. Lernende, die mit dem transparenten Whiteboard malten, folgten den Blicken der Lernenden weniger als Lernende, die mit dem herkömmlichen Whiteboardformat lernten. Es fanden sich allerdings keine Unterschiede in der Lernleistung. Wang et al. (2018) verglichen, ob Blickbewegungen von Lehrenden und die Art des zu erlernenden Wissens miteinander interagieren. Lernende sahen eines von vier Videos. In zwei der Videos blickte die Lehrkraft auf den in der PowerPoint dargestellten Folieninhalt. Zudem lernten Lernende entweder etwas deklaratives (Farbtheorie) oder etwas prozedurales (Photoshop). Die Blickbewegungen führten dazu, dass Lernende mehr Aufmerksamkeit auf die Folien richteten als ohne Blickbewegungen. Unabhängig der Art des Wissens, welches vermittelt wurde, lernten Lernende mehr aus Videos, in denen die Lehrkraft auf den Lernstoff blickte. Ebenso gaben die Lernenden an, eine höhere soziale Präsenz wahrzunehmen, wenn Lehrende den Lernstoff betrachteten. Die lernförderlichen Effekte der Blickbewegungen waren umso höher ausgeprägt, je stärker sich die Lernenden mit der Lehrperson verbunden fühlten. Dies spricht erneut dafür, dass wie im SIPS-Modell vorgeschlagen, nicht nur die Frage wie real ich eine Person empfinde, sondern auch wie positiv ich das soziale Setting empfinde, einen unterschiedlichen Einfluss auf die Effekte der sozialen Präsenz hat. Pi et al. (2020) konnten ebenso zeigen, dass durch Blickbewegungen Lernende mehr Aufmerksamkeit auf den Lernstoff der Folien richten. Ebenso lernten Lernende aus Videos, in denen die Lehrende Blicke zur Aufmerksamkeitssteuerung einsetzten, mehr als aus Videos ohne diese deiktischen Blicke.

Die Ergebnisse zeigen, dass Blicke und Gesten in der Regel positive Auswirkungen sowohl auf die wahrgenommene soziale Präsenz der Lernenden als auch auf den Lernerfolg haben. Sowohl Blicke als auch Gesten lenken die Aufmerksamkeit von Lernenden auf bestimmte Aspekte des Lernstoffs und fördern hierdurch vermutlich die Selektionsprozesse der Lernenden. Setzt man nun Lehrpersonen in instruktionalen Videos ein, sollten diese am besten mit dem Lernstoff interagieren, indem sie durch ihre Gestik und ihre Blicke eine gemeinsame Aufmerksamkeit auf zentrale Aspekte der Folien richten. Gesten scheinen für diese Aufmerksamkeitssteuerung wirksamer zu sein als Blicke. Zudem deuten die Ergebnisse der Forschung dahin, dass Lernende, die eine Lehrperson als positiv wahrnehmen, stärker von diesen deiktischen Gesten und Blicken profitieren. Eventuell sind diese Lernenden eher bereit, die sozialen Hinweisreize zu verarbeiten.

Sprechgeschwindigkeit von Lehrenden

Lehrpersonen variieren nicht nur in ihrer Verwendung von Gesten und Blicken, sie sprechen auch unterschiedlich schnell. Zudem erlauben moderne Videoplayer, Videos unterschiedlich schnell abzuspielen. Intuitiv müssen wir davon ausgehen, dass unser Verständnis ab einer bestimmten Sprechgeschwindigkeit leidet. Nichtsdestotrotz wünschen sich E-Learning AnbieterInnen häufig eine neue effizientere Lern- oder Lehrmethode. Könnte man daher Videos nicht einfach schneller abspielen? Aus der Leseforschung wissen wir allerdings, dass wir uns an weniger Textinhalte erinnern je schneller wir lesen (Rayner et al., 2016). Ganz ähnlich verhält es sich in instruktionalen Videos. Pastore et al. (2015) fassten die Forschung zur Auswirkung der Sprechgeschwindigkeit in instruktionalen Videos systematisch zusammen. Sie fanden, dass ab einer Sprechgeschwindigkeit von 275 Worten pro Minute das Verständnis zunehmend leidet. Zum Vergleich, wir sprechen im Schnitt mit einem Sprechtempo von 140 Worten pro Minute. Die Autoren empfehlen, die Sprechrate zwischen 150 und 275 Worte pro Minute zu halten. Im Vergleich zu einer normalen Sprechrate ist eine erhöhte Sprechgeschwindigkeit von 1.5 noch vertretbar, ohne, dass das Verständnis leidet. Sie betonen auch, dass Lernende das Sprechtempo manipulieren können sollten. Nicht jedes Video muss von Anfang bis Ende angesehen werden und viele Videos werden angesehen, um Lerninhalte zu wiederholen. Eine erhöhte Sprechgeschwindigkeit muss daher nicht nachteilig sein, wenn Lernende bereits wissen, welche Inhalte in einem Video besprochen werden.

Blickpunkt und andere Einflüsse sozialer Hinweise

Gesten und Blicke sind nicht die einzigen sozialen Hinweisreize, sie sind jedoch bisher umfassender untersucht worden als andere soziale Hinweisreize. Beispielsweise ermöglichen instruktionale Videos die Perspektive einer Person einzunehmen. Stell dir vor, du sollst durch ein Video lernen, wie man einen elektrischen Kreislauf aus verschiedenen Teilen baut (das Zusammenbauen eines Ikea-Regals wäre ein ähnliches Beispiel). Entweder du siehst ein Video, dass die einzelnen Schritte aus der Perspektive der Person zeigt, die den Kreislauf zusammen baut, oder ein Video aus der Perspektive einer beobachtenden Person, die dir gegenüber sitzt. Genau dies haben Fiorella et al. (2017) untersucht. Lernende, die das Video aus der ersten Perspektive ansahen, lernten fast immer mehr. Der Effekt war allerdings abhängig von der Komplexität der Aufgabe. Je schwieriger die Aufgabe war, desto förderlicher war der Effekt der Perspektive der Lehrperson. Die Lernenden waren akkurater und schneller darin, den Kreislauf selber zusammen zu bauen. Warum? Vermutlich, da die Beobachterperspektive Lernende zwingt, die einzelnen Schritte mental umzudrehen. Die Perspektive sorgt daher für lernfremde Prozesse und ist damit hinderlich für das Erlernen der Prozedur. Diese Ergebnisse haben direkte praktische Implikationen für die Gestaltung instruktionaler Videos. Meist werden beispielsweise Screencasts, in denen der Bildschirm aufgezeichnet wird, automatisch in der Perspektive der Lernenden aufgezeichnet. Das gleiche gilt für Bastelanleitungen (siehe dieses Video). Allerdings nicht immer. In diesem Video werden drei Kartenmischtechniken erklärt, jedoch aus der Beobachterperspektive. Diese Videos würden auf dem Hintergrund der Studie von Fiorella von der anderen Perspektive profitieren.

Während Fiorella und Kollegen nur eine Perspektive untersuchten, schauten sich Boucheix et al. (2018) an, welchen Einfluss verschiedene Kameraperspektiven auf das Lernen haben. Lernende sollen anhand von instruktionalen Videos lernen, wie man einen Katheter anlegt. Die Probanden sahen entweder ein Face-To-Face Video, welches eine Beobachterrolle einnahm, ein Over-the-Shoulder Video, welches die Perspektive der behandelnden Person einnimmt, oder ein Mix beider Videos. Lernende, die die gemischte Version sahen, konnten die Operation am Ende am besten simulieren. Follow-Up Analysen zeigten allerdings, dass bestimmte Segmente der Videos, in denen eine spezifische Prozedur gezeigt wird, am besten durch ein Over-the-Shoulder Video erklärt werden sollte.

Unter vielen Menschen geistert die Überzeugung, dass für das Lernen gilt: Viel hilft viel: Animationen sind besser als statische Bilder (siehe Clark & Mayer, 2008. Oder, eine virtuelle Umgebung ist besser als einen Bildschirm zu betrachten. Nicht unbedingt. LaFortune und Macuga (2018) beispielsweise ließen ProbandInnen verschiedene Tanzschritte unter folgenden Bedingungen lernen. ProbandInnen sahen entweder ein instruktionales Video, indem die Schritte aus einer 180° Perspektive oder einer 0° Perspektive zu sehen waren, beziehungsweise ein Video mit virtueller Realität oder nicht. Diejenigen ProbandInnen, welche das Video aus einer 0° Perspektive ansahen, das heißt aus einer statischen Sicht, konnten die Schritte akkurater nachtanzen als Probanden mit einer 180° Perspektive. Der Grad der Immersion (virtuelle Realität oder nicht) hatte keinen Einfluss auf die Akkuratheit der Tanzschritte. Offensichtlich ist die Immersion in die Umgebung beziehungsweise die Kamerabewegung eher lernhinderlich und führt zu lernfremden Prozessen.

Diese Studien liefern erste, allerdings keine hinreichenden Hinweise für die Gestaltung von instruktionalen Videos. Die Forschung zu der Wirksamkeit instruktionaler Videos hat in den letzten Jahren deutlich zugenommen. Es ist zu erwarten, dass in den nächsten Jahren eine breitere Evidenzgrundlage existiert, die noch spezifischere Empfehlungen für die Gestaltung von Videos ermöglicht.

Zusammenfassung

Videos sind das Medium, um Lerninhalte in E-Learning Kursen zu vermitteln. Videos sind zudem nicht nur eine Form des multimedialen Lernens. Dadurch, dass in Videos fast immer Lehrpersonen sprechen und sichtbar sind, erfüllen sie ebenso eine soziale Funktion. Wir haben in diesem Kapitel gesehen, dass die soziale Präsenz dieser Lehrpersonen einen Einfluss auf die Zufriedenheit und die wahrgenommene Lernleistung von Lernenden hat. Wir haben ebenso gesehen, dass die Sichtbarkeit von Lehrpersonen nicht unbedingt lernwirksam ist oder gar vom eigentlichen Lerninhalt ablenken kann. Spezifische Gesten hingegen haben sich als lernwirksam erwiesen, da sie Lernenden helfen, einen gemeinsamen Fokus auf die Inhalte zu legen, die die Lehrkraft zu einem jeden Zeitpunkt erklärt. Die Forschung zur Wirksamkeit instruktionaler Videos steht noch am Anfang. Dennoch, die Ergebnisse sind zum Großteil im Einklang mit der kognitiven Theorie des multimedialen Lernens. E-Learning EntwicklerInnen tun sich daher gut darin, bei der Gestaltung instruktionaler Videos, die zentralen Aussagen dieser Theorie zu beachten.

Weiterführende Literatur

Einführende Literatur

Mayer, R. E., Fiorella, L., & Stull, A. (2020). Five ways to increase the effectiveness of instructional video. Educational Technology Research and Development, 68(3), 837-852. https://doi.org/10.1007/s11423-020-09749-6

Fachliteratur

Fiorella, L., van Gog, T., Hoogerheide, V., & Mayer, R. E. (2017). It’s all a matter of perspective: Viewing first-person video modeling examples promotes learning of an assembly task. Journal of Educational Psychology, 109(5), 653-665. https://doi.org/10.1037/edu0000161

Fiorella, L., Stull, A. T., Kuhlmann, S., & Mayer, R. E. (2019). Instructor presence in video lectures: The role of dynamic drawings, eye contact, and instructor visibility. Journal of Educational Psychology, 111(7), 1162–1171. https://doi.org/10.1037/edu0000325

Kizilcec, R. F., Bailenson, J. N., & Gomez, C. J. (2015). The instructor’s face in video instruction: Evidence from two large-scale field studies. Journal of Educational Psychology, 107(3), 724-739.

Li, W., Wang, F., Mayer, R. E., & Liu, H. (2019). Getting the point: Which kinds of gestures by pedagogical agents improve multimedia learning? Journal of Educational Psychology, 111(8), 1382–1395. https://doi.org/10.1037/edu0000352

Richardson, J. C., Maeda, Y., Lv, J., & Caskurlu, S. (2017). Social presence in relation to students' satisfaction and learning in the online environment: A meta-analysis. Computers in Human Behavior, 71, 402-417. https://doi.org/10.1016/j.chb.2017.02.001

Wang, J., & Antonenko, P. D. (2017). Instructor presence in instructional video: Effects on visual attention, recall, and perceived learning. Computers in Human Behavior, 71, 79-89. https://doi.org/10.1016/j.chb.2017.01.049

Wang, H., Pi, Z., & Hu, W. (2019). The instructor's gaze guidance in video lectures improves learning. Journal of Computer Assisted Learning, 35(1), 42-50. https://doi.org/10.1111/jcal.12309

Weidlich, J., & Bastiaens, T. J. (2017). Explaining social presence and the quality of online learning with the SIPS model. Computers in Human Behavior, 72, 479-487. https://doi.org/10.1016/j.chb.2017.03.016