1.4 Externe Validität
Ein paar hypothetische Untersuchungsergebnisse: In einer Untersuchung mit Ratten stellt sich heraus, dass die Inaktivierung eines bestimmten Gens zu erheblichen Störungen der Verdauungsfunktionen führt. In Studien mit isolierten Makrophagen kann gezeigt werden, dass diese auf eine Antigenstimulation vermehrt Intereukin-1β freisetzen. Im Schlaflabor zeigen gesunde Probanden unter der Wirkung eines bestimmten Medikaments einen deutlichen Anstieg der REM-Schlafphasen gegenüber Plazebobedingungen. In einer experimentellen Studie mit Klinikpatienten führt die gleiche Tagesdosis eines β-Blockers dann zu günstigeren Blutdruckkurven, wenn sie in vier Teildosen statt in zwei Teildosen eingenommen wird.
Nehmen wir einmal an, die interne Validität der zugrundeliegenden Untersuchungen wäre perfekt. Könnten wir auf der Basis der Ergebnisse ganz allgemein sagen: „Das Gen ist verantwortlich für die Verdauungsregulation“; „Antigenstimulation steigert die Interleukin-1β-Freisetzung von Makrophagen“; „Das Medikament bewirkt einen Anstieg der REM-Schlafphasen“; „Eine Einnahme der β-Blocker in vier Teildosen ist einer Einnahme in zwei Teildosen vorzuziehen“?
Sicher nicht! Um wissenschaftlich präzise zu bleiben, müssten wir unsere Aussagen auf genau das beschränken, was wir untersucht haben, also etwa: „Das Gen ist bei Ratten, unter den und den Untersuchungsbedingungen an der Verdauungsregulation beteiligt“; „Die Stimulation mit dem und dem Antigen bewirkt in den gegebenen Dosierungsstufen, bei isolierten Makrophagen in der und der Kultur eine Freisetzung von Interleukin-1β“; „Im Schlaflabor bewirkt das Medikament in der Dosierung XY bei gesunden Probanden einen Anstieg der REM-Schlafphasen“; „Bei Klinikpatienten (also auch unter Klinikbedingungen!) führt die Aufteilung der Tagesdosis in vier Teildosen zu günstigeren Ergebnissen als die Verabreichung in nur zwei Teildosen“.
In der Regel wollen wir es aber nicht bei solchen Beschränkungen belassen. Vielmehr sollen unsere wissenschaftlichen Aussagen über die konkrete Untersuchung hinaus Gültigkeit haben. Das Ausmaß, in dem sie diese Gültigkeit besitzen, nennen wir externe Validität.
Externe Validität bezeichnet die Wahrscheinlichkeit, mit der die Ergebnisse einer wissenschaftlichen Untersuchungen Gültigkeit haben für Situationen, Personen (bzw. Beobachtungseinheiten) und Operationalisierungen der Hypothetischen Wirkvariablen, die außerhalb der konkreten Untersuchung anzutreffen sind.
Damit hat der Begriff „externe Validität“ drei Facetten: Die Übertragbarkeit auf
- Personen (bzw. Beobachtungseinheiten1) außerhalb der konkret untersuchten Stichprobe von Personen,
- Situationen außerhalb der konkret untersuchten Stichprobe von Untersuchungssituationen,
- Hypothetische Wirkvariablen außerhalb der konkret untersuchten Operationalisierung der Hypothetischen Wirkvariable.
Unter welchen Bedingungen sind nun Untersuchungsergebnisse auf Bedingungen außerhalb der wissenschaftlichen Untersuchung übertragbar. Betrachten wir nochmals die obigen Beispiele:
Sicher haben wir vom Grundsatz her kein Problem, die an Ratten gewonnenen Daten auf Ratten zu übertragen – zumindest auf Ratten des gleichen Stammes. Wollen wir die Daten aber auf Menschen übertragen, kommen Zweifel auf. Auch wenn wir von der Krankenhaussituation auf Bedingungen außerhalb des Krankenhauses schließen wollen, wird es schwierig.
In nahezu jeder empirischen Untersuchung analysieren wir Stichproben, von denen aus wir auf größere Populationen zurückschließen. Wir untersuchen Stichproben von Personen, Stichproben von Untersuchungssituationen, und Stichproben von möglichen Operationalisierungen einer Hypothetischen Wirkvariable. Unproblematisch ist das Übertragen von Untersuchungsergebnissen auf Populationen, mit denen die untersuchten Stichproben große Ähnlichkeit haben. Wenn wir also männliche Lewis-Ratten im Alter von zehn Monaten untersucht haben, können die Daten recht gut auf die Population männlicher Lewis-Ratten im Alter von zehn Monaten übertragen werden. Haben wir unsere Erkenntnisse zur Blutdruckregulation im Sommer auf der Station 03 der Klinik für Kardiologie des Universitätsklinikums gewonnen, so haben die Daten zunächst Gültigkeit für Situationen, die sich auf genau dieser Station im Sommer ergeben.
Repräsentiert unsere Stichprobe nur eine sehr kleine Population, dann ist auch die Übertragbarkeit der Ergebnisse nur auf eine sehr kleine Population möglich. Repräsentiert die Stichprobe eine größere Population, ist das Ergebnis für eine entsprechend größere Population gültig – die externe Validität ist größer. Über die externe Validität einer Untersuchung entscheidet also ganz wesentlich die Größe der Populationen, für die die untersuchten Stichproben von Personen, Situationen und Operationalisierung der Hypothetischen Wirkvariablen repräsentativ sind.
Eine Untersuchung hat eine umso höhere externe Validität,
- je größer die Population von Personen1 ist, für die die konkret untersuchte Personenstichprobe repräsentativ ist
- je größer die Population von Situationen ist, für die die konkret untersuchte Situationenstichprobe repräsentativ ist und
- je größer die Population möglicher Operationalisierungen der Hypothetischen Wirkvariable ist, für die die aktuelle Operationalisierung der Hypothetischen Wirkvariable repräsentativ ist
Im nächsten Abschnitt werden wir uns daher der Frage zuwenden, wie Untersuchungen so geplant werden können, dass sie eine hohe Repräsentativität aufweisen, das heißt für eine große Population von Personen, Situationen und Operationalisierungen der Hypothetischen Wirkvariable Gültigkeit besitzen.
In diesem Abschnitt wird aber auch deutlich werden, dass hohe Repräsentativität von Untersuchungen nur selten gewährleistet werden kann. Unter diesen Umständen gilt es, andere Kriterien heranzuziehen, um die Übertragbarkeit der Ergebnisse auf einzelne Anwendungsbereiche zu überprüfen. Ein Thema, das der übernächste Abschnitt behandelt. Wir werden in diesem Kontext das Konzept der Moderatorvariablen näher beleuchten und die Frage differentieller Befunde, also von Befunden, die für unterschiedliche Teile der Population unterschiedliche Gültigkeit haben können.
1.4.1 Externe Validität und Repräsentativität
Repräsentativ ist etwas dann, wenn es dem, was es repräsentieren soll hinsichtlich seiner Zusammensetzung und spezifischen Eigenschaften sehr ähnlich ist.
Repräsentativität: Unter Repräsentativität verstehen wir die Ähnlichkeit einer untersuchten Stichprobe mit einer zugrundeliegenden Population.
Eine Personenstichprobe ist also dann repräsentativ für die Gesamtbevölkerung, wenn in der Stichprobe Männer wie Frauen, Ausländer wie Deutsche, Kinder wie Alte, Berufstätige wie Arbeitslose etc., in eben der gleichen Verteilung repräsentiert sind wie in der Gesamtbevölkerung. Außerdem entspräche das mittlere Einkommen in der Stichprobe dem der Bevölkerung ebenso, wie das mittlere Alter, die mittlere Schulbildung, etc. Hier könnten noch unendlich viele weitere Merkmale aufgeführt werden, hinsichtlich derer Ähnlichkeit bestehen sollte. Darunter auch Merkmale, die wir gar nicht messen können (z. B. Länge des Colons) oder Merkmale, von deren Existenz wir gar nichts wissen.
Ähnlich verhält es sich mit der Situationenstichprobe. Eine Situationenstichprobe ist dann repräsentativ für Alltagssituationen, wenn die untersuchten Situationen Alltagssituationen sehr ähnlich sind. Sie müssten also in gleichem Maße wie Alltagssituationen variieren hinsichtlich der aktuellen Körperhaltung der Probanden, ihrer unterschiedlichen Beanspruchung durch andere Aufgaben, der unterschiedlichen Umgebungstemperaturen, in denen sich die Probanden im Alltag aufhalten, etc. Erneut gilt: wir kennen gar nicht alle Merkmale, die Alltagssituationen charakterisieren oder hinsichtlich derer sie variieren; zudem können wir einen Großteil der Merkmale gar nicht erfassen.
Wäre aber nicht die Fähigkeit, die Charakteristika der Population genau beschreiben und messen zu können eine Voraussetzung, um Repräsentativität herstellen zu können? Hier stehen wir vor einem ähnlichen Problem wie in Kapitel 1.3.2.1. Dort ging es darum, unbekannte und nicht messbare Personenmerkmale gleichmäßig auf die Untersuchungsgruppen zu verteilen, um den Stichprobenfehler zu kontrollieren. Wir haben uns in diesem Kapitel erstmals des Zufallsprinzips bedient, mit dem die Lösung solcher Probleme möglich wird. Dort hatten wir nämlich die Personen per Zufall, das heißt randomisiert den Untersuchungsbedingungen zugeordnet. Mit Hilfe des Zufallsprinzips konnten wir sicherstellen, dass sich die Personenmerkmale bis auf zufällige Effekte gleich auf die Stufen der Hypothetischen Wirkvariable verteilen.
In ähnlicher Weise können wir auch für unsere aktuelle Problemstellung das Zufallsprinzip nutzen: Wenn wir eine Zufallsstichprobe von Personen,...