key: cord-0028299-bl2b3ifu authors: Funk, Yannick Andreas; Haase, Henrike; Remmers, Julian; Nussli, Noé; Deml, Barbara title: Entwicklung und Validierung einer computerbasierten Aufgabe zur Induktion eines psychischen Beanspruchungsspektrums date: 2022-03-10 journal: Z Arbeitswiss DOI: 10.1007/s41449-022-00304-y sha: f9753fdef3b661b0c3feb18187b843bf275b9a30 doc_id: 28299 cord_uid: bl2b3ifu As part of the driver’s cab 4.0 project funded by the BMBF, an adaptive human-machine interface for agricultural machinery, which detects the current level of mental workload by analysing physiological data is being developed. For this purpose, an experimental task is designed and evaluated, which can induce a mental workload spectrum from little to very strenuous in humans. In three laboratory studies, mental workload is generated by a monitoring activity, with varying difficulty levels. The complexity of the activity is increased by a visual and/or an auditory secondary task. Subjectively perceived mental workload is evaluated by using the Rating Scale Mental Effort, collecting reaction times and error rates. The studies with N = 17, N = 8 and N = 21 participants show that a dynamic combination of main and secondary tasks can induce significantly different degrees of workload (F (2.40) = 54,834, p < 0.001). Practical Relevance: The experimental task developed in this paper will be used to design a measuring system for mental workload based on physiological indicators for combine harvesters. In low-workload situations (e.g. automated harvesting) additional recommendations for action should be proposed by the system. During high workload sections excessive demands on the user should be avoided by only showing the information necessary to carry out the task at hand. Der erfolgreiche Einzug intelligenter Mensch-Maschine-Systeme in die Arbeitswelt 4.0 führt zu einem grundlegenden Wandel in der Arbeitsplatzgestaltung: Routinetätigkeiten in allen Wirtschaftssektoren werden teilweise oder vollständig digitalisiert und automatisiert (Eichhorst und Buhlmann 2015) . Die Arbeitsaufgaben werden größtenteils komplexer, interaktiver und kreativer. Der bereits begonnene Trend -weg von Routinetätigkeiten und hin zu Nicht-Routinetätigkeiten -wird sich weiter und möglicherweise beschleunigt fortsetzen (Eichhorst und Buhlmann 2015) . Dieser Wandel in der modernen Arbeitswelt führt zu einem Anstieg der psychischen Beanspruchung der Arbeitenden (vgl. z. B. Diebig et al. 2018; Schaff 2019; Poppelreuter und Mierke 2018) . Wiederholte Einwirkung hoher psychischer Belastungen kann beispielsweise zu Entfremdungserscheinungen (einer Komponente des Burnout-Syndroms) führen (DIN EN ISO 10075-1:2018 . Vor diesem Hintergrund rückt die Entwicklung nutzeradaptiver Schnittstellen zunehmend in den Fokus der Forschung. Ein Ziel personenadaptiver Schnittstellen ist es, den Zustand des Nutzers mit objektiv messbaren und validen Indikatoren zu identifizieren, um gegebenenfalls im Arbeitsprozess Unterstützung oder Zusatzinformationen bereitzustellen (Bornewasser et al. 2018) . Im Rahmen des vom BMBF geförderten Verbundvorhabens "Fahrerkabine 4.0" (Fahrerkabine 4.0 2019) wird am KIT eine adaptive Mensch-Maschine-Schnittstelle für Landmaschinen entwickelt, die in der Lage ist, das aktuelle Beanspruchungsniveau der Fahrer und Fahrerinnen mit Hilfe physiologischer Daten zu detektieren. Daraus sollen Handlungsempfehlungen abgeleitet werden: so können z. B. bei geringer Beanspruchung während einer automatisierten Erntefahrt zusätzliche Büroaufgaben, die andernfalls am Ende eines langen Tages bearbeitet werden müssen, vorgezogen werden. Bei hoher Beanspruchung, wie etwa bei Wendemanövern, lassen sich unkritische Teilaufgaben oder die Verarbeitung sekundärer Informationen verzögern. Bei der Entwicklung einer (psychischen) Nutzerzustandserfassung gilt es, zwischen den Begriffen "psychischer Belastung" und "psychischer Beanspruchung" zu unterscheiden. Die DIN EN ISO 10075-1:2018 definiert psychische Belastung als "die Gesamtheit aller erfassbaren Einflüsse, die von außen auf einen Menschen zukommen und diesen psychisch beeinflussen". Psychische Beanspruchung beschreibt die unmittelbare Auswirkung der psychischen Belastung auf das Individuum in Abhängigkeit des aktuellen Zustands. Der Begriff der psychischen Beanspruchung bezieht sich dabei sowohl auf kognitive als auch auf emotionale Vorgänge im arbeitenden Menschen. Diese Prozesse stehen eng miteinander in Beziehung und es ist kaum möglich sie sinnvoll getrennt voneinander zu betrachten (DIN EN ISO 10075-1:2018 . Psychische Beanspruchung beschreibt also die individuelle Reaktion eines Menschen auf alle äußeren, psychischen Einwirkungen (Belastung) und hängt darüber hinaus von den individuellen Fähigkeiten, Fertigkeiten und Eigenschaften der belasteten Menschen ab: Eine gleiche Belastung kann zu individuell unterschiedlicher Beanspruchung führen (Rohmert 1983) . Hieraus ergibt sich die Forderung, dass Methoden zur Beanspruchungsmessung die Individualität der Beanspruchungsreaktionen berücksichtigen und speziell für die jeweilige Nutzerin oder den jeweiligen Nutzer kalibriert werden müssen. Zu diesem Fazit kommen auch Jeschke et al. (2016) , die den Zusammenhang von psychischer Beanspruchung und physiologischen Indikatoren auf Stichprobenebene -nicht auf individueller Ebene -untersuchten. Die bisherige Forschung zeigt, dass die adaptive Gestaltung von Unterstützungsmaßnahmen sich positiv auf die menschliche Leistungsfähigkeit und Motivation in der Mensch-Maschine-Interaktion auswirkt und die Effektivität des gesamten Mensch-Maschine-Systems verbessert werden kann (Kyriakidis et al. 2015; Schwarz 2019; Ulahannan et al. 2020; Ramakrishnan et al. 2021) . Aktuelle Systeme zur Nutzerzustandserfassung sind größtenteils Totmannschalter, bei denen der Fahrer oder die Fahrerin kontinuierlich ihre Verfügbarkeit signalisieren, z. B. durch Berührung des Lenkrads (Diederichs et al. 2020) . Komplexere Systeme, z. B. die Bewertung psychischer Beanspruchung werden bisher nicht in Serienproduktionen verbaut und bedürfen noch weiterer Forschung (Khan und Lee 2019). Ursachen hierfür sind u. a. mangelnde regulatorische Klarheit, die schwankende Zuverlässigkeit der Messsysteme und die Akzeptanz, bzw. das Vertrauen in diese Systeme (Stuiver et al. 2010; Manzey 2012; Khan und Lee 2019; Morales-Alvarez et al. 2020; Pretto et al. 2020; Kalayci et al. 2021) . Zukünftig soll es möglich sein, anhand der in dieser Arbeit entwickelten Experimentalaufgabe psychische Beanspruchungsmesssysteme mit beliebigen physiologischen Indikatoren auf eine individuelle Versuchsperson zu kalibrieren. Damit ein solches System zunächst im Labor entwickelt und anschließend an einem Demonstrator erprobt werden kann, wird eine Experimentalaufgabe konzipiert, mit deren Hilfe sich ein Spektrum psychischer Beanspruchungszustände reproduzierbar in Versuchspersonen induzieren lässt. Auf dieser Arbeit aufbauend können in Zukunft verschiedene Messsysteme (EKG, Eye Tracker, Stimmfrequenzanalyse, etc.), im Rahmen diverser Forschungsprojekte und Abschlussarbeiten, im Hinblick auf ihre Eignung zur psychischen Beanspruchungsanalyse in einem validierten Umfeld untersucht werden. Die Quantifizierung psychischer Beanspruchung erfolgt in drei Kategorien: subjektiv erlebt, physiologisch gemessen und leistungsbasiert. Die Erhebung subjektiv erlebter psychischer Beanspruchung geschieht mit Hilfe von Ratingskalen, Fragebögen, Checklisten oder Interviews. Dem liegt die Annahme zugrunde, dass das Beanspruchungsempfinden von Individuen auf eine tatsächliche äußere Belastung zurückzuführen ist und diese von den Versuchspersonen differenziert wiedergegeben werden kann (Schlick et al. 2018) . Psychophysiologische Messungen (z. B. Herzschlagfrequenz und Augenbewegungen) gelten -im Gegensatz zur subjektiven Befragung -als objektiv, da die Versuchspersonen diese für gewöhnlich nicht bewusst beeinflussen können. Ein weiterer Vorteil physiologischer Messungen ist die kontinuierliche Datenerfassung, wobei die Arbeitstätigkeit nicht durch Befragungen unterbrochen werden muss (Schlick et al. 2018; Jeschke et al. 2016) . De Waard (1996) identifizierte einen n-förmigen Zusammenhang zwischen Leistung und psychischer Beanspruchung. Demnach führen sowohl eine sehr geringe Beanspruchung (Monotonie) als auch eine sehr große Beanspruchung (Überforderung) zu einem Leistungsabfall. Die Leistung einer Person hängt dabei nicht nur von ihrer individuellen Kapazität, sondern auch von ihrem Willen ab, die Aufgabe zu lösen. Diese Bereitschaft, eine Aufgabe zu lösen, kann sich während einer Tätigkeit mehrfach ändern. So kann eine Versuchsperson Ermüdung und steigende Aufgabenschwierigkeit zu einem gewissen Grad durch Willenskraft kompensieren. Die psychische Beanspruchung kann also variieren, während die gemessene Leistung gleichbleibt. Die Erforschung psychischer Beanspruchung und deren diagnostisches Potenzial für adaptive Mensch-Maschine-Interaktion sind nicht neu. Rouse (1988) (Schwarz 2019, p. 42) scher Messverfahren findet sich beispielsweise bei Hancock et al. (2021) . Wickens (1984, 2002, 2008) Multiple Resource Theory untersucht unterschiedliche Ressourcendimensionen mit Bezug zu psychischer Beanspruchung und stellt diese grafisch in einem Würfelmodell dar (vgl. Abb. 1). Die kognitive Informationsverarbeitung wird in die drei Stufen Perzeption (Gesamtheit der Wahrnehmung), Kognition (Verarbeitung der wahrgenommenen Informationen) und Ausführung (Reaktion auf wahrgenommene Information) eingeteilt. Wickens (2002) konnte durch Untersuchungen an Dual-Task-Situationen zeigen, dass perzeptive und kognitive Prozesse dieselbe Ressource beanspruchen, während die Ausführung einer Handlung auf andere Ressourcen zurückgreift. Die parallele Ausführung einer perzeptiven und kognitiven Aufgabe, z. B. eine visuelle Überwachungsaufgabe (Perzeption) gekoppelt mit einer mentalen Rotation (Kognition), führt also zu Interferenzen und damit zu hoher psychischer Beanspruchung und gegebenenfalls zu Leistungseinbußen. Neben den Verarbeitungsstufen unterscheidet Wickens (1984 Wickens ( , 2002 Wickens ( , 2008 die räumliche und verbale Kodierung von Informationen sowie die Wahrnehmungsmodalitäten visuell und auditiv. Intramodale Dual-Task-Situationen wie das Lesen eines Textes (visuell) während des Autofahrens (hohe visuelle Anforderungen) führen zu Interferenz und damit zu höherer psychischer Beanspruchung als übermodale Situationen wie das Hören eines Textes (auditiv) während des Autofahrens. Analog beeinflusst die Kodierung einer Information die erlebte psychische Beanspruchung: übermodale Informationsverarbeitung führt zu Interferenz, falls die Information in beiden Fällen gleich kodiert ist. So fällt es schwer, Nachrichten zu hören (verbal, auditiv) und gleichzeitig einen Text zu lesen (verbal, visuell). Zusammenfassend bedeutet dies für die Gestaltung der Experimentalaufgabe, dass die empfundene psychische Beanspruchung einer (Haupt-) Aufgabe durch Hinzufügen einer oder mehrerer paralleler (Neben-) Aufgaben gesteigert werden kann. Der Grad der gesteigerten Beanspruchung richtet sich dabei danach, ob die angesprochenen Ressourcendimensionen bei der Kombination miteinander interferieren oder, wie im Falle einer übermodalen Situation mit unterschiedlicher Kodierung, unterschiedliche Ressourcen beanspruchen. In der Arbeitswissenschaft wird psychische Beanspruchung oft über sog. Dual- Task Leitwarten oder Luftüberwachung angepasst werden. Während des Videos werden randomisiert die Buchstaben "W", "A" oder "D" in fünf Frequenzstufen auf dem Bildschirm eingeblendet (alle 15, 10, 5, 3 oder 2 s, im Folgenden als Stufe 1-5 bezeichnet). Die Aufgabe der Versuchspersonen besteht darin, die angezeigten Buchstaben auf einer Computertastatur mit der linken Hand zu drücken. Die auditive Nebenaufgabe besteht aus zehn Mal 13 Fragen, die den Versuchspersonen parallel zur Hauptaufgabe über Kopfhörer präsentiert werden. Ein Block aus 13 Fragen dauert zwei Minuten, inklusive Antworten. Die Antworten der Probanden und Probandinnen werden dabei über ein externes USB-Mikrofon aufgezeichnet. Der Fragenkatalog baut auf den Arbeiten von Batliner et al. (2006) , Fernandez und Picard (2003) , Scherer et al. (2008) und Wittels et al. (2002) auf und wurde unter zwei Hauptkriterien entwickelt: (1) Jeder 13-Fragen-Block sollte denselben Gesamtschwierigkeitsgrad aufweisen, um eine konstante Belastung der Versuchspersonen zu realisieren. (2) Psychische Beanspruchung ist umso besser messbar, je präziser die Antwortvariable des Trainingsdatensatzes sie repräsentiert. Für die zu entwickelnde Aufgabe fiel die Wahl auf die vielfach erprobte und etablierte Rating Scale Mental Effort (RSME; Zijlstra 1993), bei der die Bewertung der subjektiven Beanspruchung auf einer Skala von 0 bis 150 erfolgt. Als Orientierung dienen auf der Skala neun verbal kodifizierte Ankerpunkte von "gar nicht anstrengend" bis "außerordentlich anstrengend". Als Einskalen-Fragebogen bietet die RSME ein wenig invasives Messinstrument und liefert vergleichbare Beanspruchungseinschätzungen zum NASA TLX (Ghanbary Sartang et al. 2016; Longo und Orrú 2020) . Die RSME wird in dieser Arbeit zweifach angewendet: Im ersten Schritt (vgl. Abschn. 4.1) bewerten die Versuchspersonen die induzierte psychische Beanspruchung einzelner, randomisierter Aufgabenkombinationen. Im zweiten Schritt (vgl. Abschn. 5.2) wird anhand die-ser Bewertung eine feste Aufgabenreihenfolge definiert, die als fertige Experimentalaufgabe zum Einsatz kommt. Mithilfe der so entwickelten Experimentalaufgabe werden zukünftig physiologische Messdaten und RSME-Bewertungen gesammelt, um individuelle, an Versuchspersonen angepasste Beanspruchungsmodelle zu errechnen. Alle Aufgaben sind in Python (2021) implementiert und lassen sich beliebig kombinieren. Zwischen Juli 2020 und Mai 2021 wurden insgesamt drei Laborstudien zur Evaluierung von Kombinationen aus Haupt-und Nebenaufgaben durchgeführt. In Studie 1 wurden RSME-Bewertungen und Leistungsdaten für die Hauptaufgabe ohne Nebenaufgaben erhoben. Studie 2 diente als Vorstudie zu Studie 3. Dabei wurde der Einfluss der visuellen Nebenaufgabe untersucht, um die Validität des Gesamtvorhabens abzuschätzen. In Studie 3 wurden schließlich drei verschiedene Kombinationen aus Hauptund Nebenaufgabe evaluiert. Das Probandenkollektiv umfasste 17 Personen (11 Frauen, 6 Männer) im Alter von 22 bis 42 Jahren (M = 26,5, SD = 4,55) in Studie 1, 8 Personen (3 Frauen, 5 Männer) im Alter von 23 bis 29 Jahren (M = 26,71, SD = 2,85) für Studie 2 und 21 Personen (9 Frauen, 12 Männer) im Alter von 20 bis 30 Jahren (M = 23,6, SD = 2,89) in Studie 3. Alle Stichproben wurden aus freiwilligen Studierenden und Mitarbeitenden des KIT rekrutiert. Die Studien wurden durch die Ethikkommission des KIT genehmigt. Alle Versuchspersonen wurden vorab über den Untersuchungsablauf, ihre Rechte und die Anonymität der Daten informiert. Einverständniserklärungen liegen vor. Es wurde darauf geachtet, dass keine Einschränkungen des Sehvermögens vorlagen bzw. dass geeignete Sehhilfen für die Experimente benutzt wurden. Die Studien begannen mit der Instruktion der Versuchspersonen. Die Probanden und Probandinnen wurden gebeten, eine Versuchsbeschreibung, eine Datenschutzerklärung und eine Einverständniserklärung zu lesen und zu unterschreiben. Nach Erhebung der versuchsrelevanten demografischen Daten (Geschlecht, Alter, Sehhilfen) und der Beantwortung von Fragen nahmen die Versuchspersonen vor einem Bildschirm Platz, um das Experiment durch Drücken der Leertaste selbständig zu beginnen (vgl. Abb. 3). Bei allen drei Studien wurden die Teilnehmenden angewiesen, Post-Hoc paarweise Vergleiche wurden mit der konservativen Bonferroni-Korrektur durchgeführt. Die Berechnung der Effektstärke erfolgte über das partielle Eta-Quadrat, und einer Bewertung nach Cohen (1988) mit ge-ringen (0,1-0,3), mittleren (0,3-0,5) und stärkeren (>0,5) Effekten. Die Ergebnisse aus Studie 2 wurden auf Grund der geringen Stichprobengröße und ihrer Einstufung als Vorstudie nicht statistisch analysiert. In diesem Abschnitt werden die Ergebnisse der statistischen Analyse der subjektiven Beanspruchungsbewertung (RSME) und der Leistungsdaten (Reaktionszeit und Fehlerrate) dargestellt. Die Leistungsdaten werden dabei getrennt nach Aufgabentyp betrachtet (Hauptaufgabe, visuelle oder auditive Nebenaufgabe). Tab. 1 zeigt einen Überblick der gemittelten subjektiven Beanspruchung der Studien 1, 2 und 3. Die deskriptiven Daten lassen bereits einen Trend im Hinblick auf die zu überprüfenden Hypothesen (vgl. Abschn. 2) erkennen: Die Erhöhung der Buchstabenfrequenz (Hypothese 1), das Hinzufügen von Nebenaufgaben (Hypothese 2) und deren Kom- Abb. 4 Mittelwerte und Konfidenzintervalle der RSME-Bewertungen aus Studie 1 und 3 Fig. 4 Mean values and confidence intervals of the RSME scores from studies 1 and 3 binationen (Hypothese 3) führen zu einem quasi-monoton steigenden Verlauf der psychischen Beanspruchung (vgl. Abb. 4). Eine einfaktorielle Varianzanalyse (ANOVA) mit Messwiederholung und Greenhouse-Geisser Korrektur ergab, dass sich die RSME-Bewertung der fünf Stufen in Studie 1 statistisch signifikant mit geringer Effektstärke unterscheiden (F (1,96, 31,35) = 6,092, p = 0,006, partielles η 2 = 0,276). Mit einem Bonferroni Post-Hoc-Test waren keine signifikanten Unterschiede zwischen den einzelnen Stufen festzustellen. Eine zweifaktorielle ANOVA mit Messwiederholung mit den Ergebnissen aus Studie 3 zeigte, dass sich die RSME-Bewertung sowohl für die Aufgabenkombinationen mit starkem Effekt (F (2,40) = 54,834, p < 0,001, partielles η 2 = 0,733), als auch für die Frequenzstufen mit mittlerem Effekt (F (4,80) = 18,265, p < 0,001, partielles η 2 = 0,477) signifikant unterscheiden. Zwischen den Kombinationen und den Frequenzstufen bestehen geringe Interaktionseffekte (F (8,160) = 2,754, p = 0,007, partielles η 2 = 0,121). Die Untersuchung der Interaktionseffekte durch Sichtung der Profildiagramme ergab eine hybride Interaktion. Die Randmittel des Faktors "Aufgabenkombination" verlaufen mit ähnlichem Trend, ohne Überschneidungen. Die Linienzüge des Faktors "Stufen" überschneiden sich für die Stufen 4 & 3 und 1 & 2. Daraus folgt, dass der Haupteffekt Tab. 2 Post-Hoc-Test der Aufgabenkombinationen aus Studie 3 (RSME) Die Mittelwerte der Reaktionszeiten der Hauptaufgabe sind in Abb. 5 dargestellt. Eine einfaktorielle ANOVA mit Messwiederholung und Greenhouse-Geisser Korrektur über die mittleren Reaktionszeiten je Stufe aus Studie 1 zeigte signifikante Unterschiede mit mittlerer Effektstärke (F (1,84, 29 ,50) = 8,030, K Z. Arb. Wiss. Abb. 5 Mittelwerte und Konfidenzintervalle der Reaktionszeiten der Hauptaufgabe aus Studie 1 und 3 Fig. 5 Mean values and confidence intervals of reaction times of the main task from studies 1 and 3 Tab. 4 Post-Hoc-Test der Frequenzstufen aus Studie 1 (Reaktionszeiten) Abb. 6 Mittelwerte und Konfidenzintervalle der Reaktionszeit der auditiven Nebenaufgabe je Stufe aus Studie 3 Fig. 6 Mean values and confidence of reaction times of the aural side task from study 3 tielles η 2 = 0,147). Zwischen den Kombinationen und den Frequenzstufen bestehen geringe Interaktionseffekte (F (2,581, 51.630) = 3,349, p = 0,032, partielles η 2 = 0,143). Die Sichtung der Profildiagramme (vgl. Field 2013) zeigt, dass zwischen dem Faktor "Kombination" keine Interaktionseffekte bestehen. Im Faktor "Stufe" treten jedoch Überschneidungen der Linienzüge für die Stufen 1-4 auf; dieser Haupteffekt kann nicht ohne Einschränkungen interpretiert werden. Ein Bonferroni-Post-Hoc-Test der Stufen über die Kombinationen hinweg ergab keine signifikanten Ergebnisse. Abb. 7 stellt die Mittelwerte der Fehler dar, die von den Versuchspersonen bei der Bearbeitung der Hauptaufgabe gemacht wurden. Unter dem Begriff "Fehler" werden dabei sowohl falsch ausgewählte Buchstaben (z. B. "W" angezeigt, "A" ausgewählt), als auch übersprungene Buchstaben (keine Reaktion auf Stimulus) zusammengefasst (analog auch in Abschn. 4.2.5 und 4.2.6). Aufgrund der Beschaffenheit der Hauptaufgabe ergibt sich, dass Fehler nicht zwischen den Frequenzstufen verglichen werden können: In jeder Stufe werden unterschiedlich viele Buchstaben angezeigt, bspw. in Stufe 1 acht und in Stufe 5 sechzig Stück. Ein Fehler in Stufe 1 kann nicht mit einem Fehler in Stufe 5 gleichgesetzt K Angezeigte Buchstaben je Stufe: . 7 Mean values and confidence intervals of the error rate in the main task per level from studies 1 and 3 werden, weil in Stufe 5 insgesamt mehr Stimuli angezeigt werden und so ein größeres Fehlerpotential besteht. Aus Sicht der Autoren ist auch die Bildung eines Fehlerquotienten (gemachte Fehler/angezeigt Buchstaben), aus obengenannten Gründen nicht zielführend. Stattdessen werden die Stufen getrennt voneinander betrachtet und dabei zwischen den Aufgabenkombinationen differenziert. In ihrem Artikel verglichen Delacre et al. (2019) dein Einfluss verschiedener Annahmenverletzungen auf die Alpha-Fehler von ANOVA, Welch-ANOVA und Brown-Forsythe Test. Die Autoren kamen zu dem Ergebnis, dass die Welch-ANOVA bei ungleichen Stichprobengrößen und Varianzheterogenität im Vergleich die zuverlässigsten Ergebnisse liefert und sich die Alpha-Fehlerrate innerhalb der von Bradley (1978) definierten Grenzwerte bewegt. Aufgrund von vorliegender Varianzheterogenität und der unterschiedlichen Stichprobengröße werden die Ergebnisse der Studien 1 und 3 in einer einfaktoriellen Welch ANOVA kombiniert untersucht. Die Haupteffekte und alle signifikanten Ergebnisse der Bonferroni-Post-Hoc-Tests sind in Tab. 7 dargestellt. Die Mittelwerte der Fehler der visuellen Nebenaufgabe sind in Abb. 8 in einem gestapelten Balkendiagramm dargestellt. Die unteren Balkenteile repräsentieren dabei die falsch identifizierten Formenpaare. Die oberen Balkensegmente zeigen die verpassten Formenpaare, also keine Eingabe der Versuchspersonen. Eine zweifaktorielle ANOVA mit Messwiederholung zeigt sowohl einen signifikanten Unterschied mit starkem Effekt für die Fehlerrate zwischen den Aufgabenkombinationen HA + visuelle NA und HA + auditive + visuelle NA (F (1,20) = 45,808, p < 0,001, partielles η 2 = 0,696) als auch einen signifikanten Unterschied mit geringem Effekt für die Frequenzstufen (F (4,80) = 4,559, p = 0,002, partielles η 2 = 0,187). Zwischen der Aufgabenkombination und den Stufen bestehen keine Interaktionseffekte. Zwischen den Frequenzstufen konnten post-hoc keine Unterschiede in den Fehlerraten der visuellen Nebenaufgabe gefunden werden. Die Mittelwerte der Fehler der auditiven Nebenaufgabe sind in Abb. 9 dargestellt. Eine zweifaktorielle ANOVA mit Messwiederholung zeigte signifikante Unterschiede zwischen den Fehlerraten der Kombinationen HA + auditive NA und HA + auditive + visuelle NA mit geringer Effektstärke (F (1,20) = 7,427, p = 0,013, partielles η 2 = 0,271). Zwischen den Stufen über die Kombinationen hinweg konnte kein signifikanter Unterschied festgestellt werden (F (4,80) = 1,602, p = 0,182, partielles η 2 = 0,074). Gleicher-K Tab. 7 Haupteffekte und Post-Hoc-Tests der Stufen 1-5 aus den Studien 1 und 3 (Fehler) Nachfolgend werden die in Abschn. 2 formulierten Hypothesen auf ihre Gültigkeit geprüft, eine neue Experimentalaufgabe erarbeitet, die Limitationen dieser Arbeit beschrieben und ein Ausblick auf zukünftige Forschungsarbeiten gegeben. Die Hypothese 1 einer ansteigenden psychischen Belastung bei steigender Aufgabenfrequenz kann teilweise bestätigt werden. Einschränkungen bei der Interpretation der Ergebnisse sind die geringen Stichprobengrößen (N1 = 17, N2 = 8, N3 = 21) und die Vergleichbarkeit der Studien 1, 2 und 3 untereinander. Oberfeld und Franke (2013) untersuchten in ihrem Artikel den Einfluss verschiedener Stichprobengrößen (N = 3 bis 100), Faktorstufen (K = 4, 8, 16) und Verteilungsformen (normal, nicht normal) auf den Alpha-Fehler univarianter und multivarianter Testverfahren, unter anderem auch für die hier verwendete messwiederholte ANOVA mit Greenhouse-Geisser Korrektur. Die Autoren zeigten, dass sich der Alpha-Fehler, unter Annahme einer Normalverteilung, ab einer Stichprobengröße von N = 8 bei K = 4 und N = 16 bei K= 16 in dem von Bradley (1978) definierten Intervall für akzeptable Alpha-Fehler-Abweichungen bewegt. Stiger et al. (1998) untersuchten in ihrem Artikel nicht nur den Einfluss kleinerer Stichproben (N = 20), sondern auch den Effekt einer ordinalskalierten abhängigen Variable auf u. a. messwiederholte ANOVA mit und ohne Greenhouse-Geisser Korrektur. Unter Annahme einer Normalverteilung kommen die Autoren auch hier zu dem Schluss, dass eine messwiederholte ANOVA mit kleineren Stichproben keine übermäßige Abweichung zum erwarteten Alpha-Fehler aufweist. Aufgrund limitierender Maßnahmen zur Kontaktbeschränkung und längerer Schließungen der Laborräume durch die Corona-Pandemie konnten weniger Versuchspersonen rekrutiert und getestet werden als üblich. Mit N = 17, N = 21 und maximal 2 Faktoren (5 Stufen und 3 Aufgabenkombinationen) wird nach Oberfeld und Franke (2013) und Stiger et al. (1998) keine relevante Beeinträchtigung der ANOVA durch die Stichprobengröße in dieser Arbeit erwartet. Die Studien 1, 2 und 3 unterscheiden sich nicht im Aufbau der Hauptaufgabe (Frequenzen, Bearbeitungszeit der Kombinationen und Evaluation), fanden jedoch in unterschiedlichen Zeiträumen und mit leicht abweichenden Randbedingungen statt, wie z. B. einer gegenüber den Studien 1 und 2 modifizierten Übungsphase der Studie 3. Aus unserer Sicht ist eine Vergleichbarkeit der 3 Studien grundsätzlich gegeben. Im Zuge der Anwendung der hier entwickelten Experimentalaufgabe in bevorstehenden Experimenten wird die Validität der Ergebnisse fortlaufend weiter überprüft werden. Trotz der beschriebenen Einschränkungen können die Hypothesen 1 und 3 mit Vorbehalt und die Hypothese 2 vollständig angenommen werden. Durch die strategische Kombination von Frequenzstufen mit Nebenaufgaben unter zusätzlicher Variation ihrer Reihenfolge konnte eine Experimentalaufgabe entwickelt werden, die 20 erhebliche Belastungswechsel mit einem Spektrum von geringer bis sehr hoher Beanspruchung (vgl. Abb. 7) in Versuchspersonen induziert. Aufbauend auf diesen Ergebnissen soll in zukünftigen Studien ein System zur Messung psychischer Beanspruchung durch physiologische Indikatoren entworfen und erprobt werden. Danksagung Ein ganz herzlicher Dank gilt allen Versuchspersonen für ihre Teilnahme an den Laborexperimenten und dem Bundesministerium für Bildung und Forschung (BMBF) für ihre Förderung des Projekts "Fahrerkabine 4.0". Funding Open Access funding enabled and organized by Projekt DEAL. Open Access Dieser Artikel wird unter der Creative Commons Namensnennung 4.0 International Lizenz veröffentlicht, welche die Nutzung, Vervielfältigung, Bearbeitung, Verbreitung und Wiedergabe in jeglichem Medium und Format erlaubt, sofern Sie den/die ursprünglichen Autor(en) und die Quelle ordnungsgemäß nennen, einen Link zur Creative Commons Lizenz beifügen und angeben, ob Änderungen vorgenommen wurden. Die in diesem Artikel enthaltenen Bilder und sonstiges Drittmaterial unterliegen ebenfalls der genannten Creative Commons Lizenz, sofern sich aus der Abbildungslegende nichts anderes ergibt. Sofern das betreffende Material nicht unter der genannten Creative Commons Lizenz steht und die betreffende Handlung nicht nach gesetzlichen Vorschriften erlaubt ist, ist für die oben aufgeführten Weiterverwendungen des Materials die Einwilligung des jeweiligen Rechteinhabers einzuholen. Weitere Details zur Lizenz entnehmen Sie bitte der Lizenzinformation auf http://creativecommons.org/licenses/by/4.0/deed.de. Aharonson V (2006) Combining efforts for improving automatic classification of emotional user states Informatorische Assistenzsysteme in der manuellen Montage: Ein nützliches Werkzeug zur Reduktion mentaler Beanspruchung? Statistical power analysis for the behavioral sciences Taking parametric assumptions seriously: arguments for the use of Welch's F-test instead of the classical F-test in one-way ANOVA Inhalts-und prozessbezogene Anforderungen an die Gefährdungsbeurteilung psychischer Belastung im Kontext Industrie 4.0. Z Arbeits Organisationspsychologie Adaptive transitions for automation in cars, trucks, buses and motorcycles Ergonomische Grundlagen bezüglich psychischer Arbeitsbelastung -Teil 1: Allgemeine Aspekte und Konzepte und Begriffe Deutsche Fassung EN ISO Performance-based and subjective assessment of workload in multi-task environments Die Zukunft der Arbeit und der Wandel der Arbeitswelt The effects of driving environment complexity and dual tasking on drivers' mental workload and eye blink behavior Modeling drivers' speech under stress Discovering statistics using IBM SPSS statistics Evaluation of Rating Scale Mental Effort (RSME) effectiveness for mental workload assessment in nurses Mental workload The mental machine: classifying mental workload state from unobtrusive heart rate-measures using machine learning IBM (2021) IBM SPSS-Software Vergleich subjektiver und objektiver Beanspruchungsmessung bei dual-2-back-Aufgaben Triangulated investigation of trust in automated driving: Challenges and solution approaches for data integration A comprehensive survey of driving monitoring and assistance systems The deployment of advanced driver assistance systems in Evaluating instructional designs with mental workload assessments in university classrooms Towards real-time recognition of users mental workload using integrated physiological sensors into a VR HMD Systemgestaltung und Automatisierung The psychometrics of mental workload: multiple measures are sensitive but divergent Significance test for sphericity of a normal n-variate distribution Effects of workload and workload transitions on attention allocation in a dual-task environment: Evidence from eye tracking metrics Olaverri-Monreal C (2020) Automated driving: a literature review of the take over request in conditional automation Evaluating the robustness of repeated measures analyses: the case of small sample sizes and nonnormal data Online multimodal inference of mental workload for cognitive human machine systems Psychische Belastungen in der Arbeitswelt 4.0. Entstehung -Vorbeugung -Maßnahmen Fluid interface concept for automated driving Python (2021) Python Homepage Cognitive load estimation for adaptive human-machine system automation Belastungs-Beanspruchungs-Konzept Adaptive aiding for human/computer control Arbeit 4.0: Risiken für die psychische Gesundheit Emotion recognition from speech: stress experiment Is it really robust? Reinvestigating the robustness of ANOVA against violations of the normal distribution Blickbasierte Beanspruchungsmessung: Entwicklung und Evaluation eines Kalibrierungssystems zur individuellen Bewertung der mentalen Beanspruchung in der Mensch Multifaktorielle Echtzeitdiagnose des Nutzerzustands in adaptiver Mensch-Maschine-Interaktion Objective measures, sensors and computational techniques for stress recognition and classification: a survey Event-related potentials as indices of mental workload while using an in-vehicle information system Augmented cognition: an overview ANOVA for repeated ordinal data with small sample size? A comparison of ANOVA, MANOVA, WLS and GEE methods by simulation Adaptive task support based on dynamic human state estimation Designing an adaptive interface: using eye tracking to classify how information usage changes over time in partially automated vehicles The generalization ofstudent's' problem when several different population variances are involved Multiple resources and performance prediction Multiple resources and mental workload The limits of multiple resource theory in display formatting: effects of task integration Voice monitoring to measure emotional load during short-term stress Tracing the physiological response and behavioral performance of drivers at different levels of mental workload using driving simulators