Mai
2012
Fehlschluss #21: Der Selektionsfehler
Geschrieben von Michael Hohner am 12. Mai 2012, 13:24:49 Uhr:
Zur Landtagswahl 2012 im Saarland machte Oskar Lafontaine eine etwas kuriose Bemerkung, sinngemäß:
Ich erwarte ein besseres Ergebnis für die LINKE als die Umfragen zeigen, weil viele Leute kein Festnetztelefon mehr haben.
Prompt handelte er sich damit ein paar Lacher im deutschen Comedy-TV ein. Aber tatsächlich war das Endergebnis für die LINKE durchgehend etwas besser als die letzten Umfragen vor der Wahl vermuten ließen. Noch deutlicher war der Unterschied bei der Piratenpartei, die wesentlich besser abschnitt als in den Umfragen, während z. B. die FDP deutlich weniger Stimmen bekam als die Meinungsforscher vorhersagten. Hatte Lafontaine also Recht, und was genau hat er gemeint?
Wahlumfragen werden in der Regel so durchgeführt, dass aus öffentlichen Telefonverzeichnissen per Zufall eine größere Anzahl von Nummern herausgesucht wird, und die so ermittelten Personen zur anstehenden Wahl befragt werden. Nun ist es tatsächlich so, dass in den letzten Jahren immer mehr Leute ausschließlich per Handy telefonieren und den Festnetzanschluss allenfalls für DSL verwenden. Diese Telefonnummern stehen aber in keinem öffentlichen Telefonbuch. Diese Leute sind tendenziell jünger, während bei älteren Leuten das Festnetztelefon noch fast durchgängig vorhanden ist. Eine Auswahl von Nummern von Festnetzanschlüssen wird also im Schnitt einen älteren Personenkreis ergeben als der Durchschnitt des Wahlvolkes. Wahlumfragen per Telefon werden also tendenziell die Parteien bevorzugen, die mit älteren, konservativeren Anhängern assoziiert werden, während Parteien mit junger Wählerschaft benachteiligt werden.
Lafontaines Statement wirkte nur in seiner extremen Verkürzung leicht wirr, ist aber im Grunde korrekt. Dieses Phänomen bei Wahlumfragen ist ein Beispiel für den Selektionsfehler. Allgemein gesprochen: Wenn aus den Eigenschaften einer Stichprobe auf die Eigenschaften der Grundgesamtheit geschlossen wird, aber die Stichprobe so gewählt wurde, dass sie nicht repräsentativ ist (zumindest in Bezug auf die untersuchten Eigenschaften), dann spricht man von einem Selektionsfehler. Die Stichprobe kann auch durch den puren Zufall nicht-repräsentativ sein. Dies kann man durch eine ausreichend große Stichprobe vermeiden. Der Selektionsfehler ist aber ein systematischer Fehler und ist nicht einfach durch Vergrößern der Stichprobe auszumerzen.
Die Meinungsforscher kennen natürlich dieses Problem, und deshalb versuchen sie, diesen Verzerrungsfaktor genauer zu ermitteln und in die Vorhersagen einfließen zu lassen.
Deutlich krasser waren diese Umfragefehler in der Anfangszeit der Wahlumfragen. Bei der US-Präsidentschaftswahl von 1936 trat der Republikaner Alf Landon gegen den Demokrat Franklin Roosevelt an. Die Zeitschrift Literary Digest startete damals eine für heutige Verhältnisse riesige Umfrage mit einer besonders niedrigen statistischen Ungenauigkeit von 0,06 Prozentpunkten. Das Ergebnis war, dass Landon 54 Prozent der Stimmen erhalten und so gewinnen würde. Bei der tatsächlichen Wahl bekam er aber nur 37 Prozent, und Roosevelt wurde Präsident. Auch diese riesige Abweichung hatte mit dem Telefon zu tun: Der Literary Digest ermittelte die Adressen der befragten Bürger aus Telefonbüchern und anderen Verzeichnissen wie Mitgliederlisten von Automobilclubs. Sowohl Telefone als auch Autos waren aber damals nur für Wohlhabende erschwinglich, und diese wählten überwiegend konservativ. So ergab sich zwar ein besonders niedriger statistischer Fehler durch die große Teilnehmerzahl, aber ein riesiger systematischer Fehler durch die Auswahl der Teilnehmer.
Auch in anderen Bereichen gibt es den Selektionsfehler. So werden z. B. für soziale oder psychologische Studien gerne die Studenten der eigenen Hochschule herangezogen. Diese stehen den Studiendurchführenden prinzipiell näher, sind evtl. experimentierfreudig, haben genügend Freizeit (bzw. sind flexibler in der Zeiteinteilung) und sind auch durch eine geringe Vergütung noch für eine Studie zu haben. Es ist immer Vorsicht geboten, wenn aus den Ergebnisse solcher Studien verallgemeinerte Schlüsse gezogen werden, denn Studenten stehen nicht repräsentativ für die Gesamtbevölkerung. Sie sind z. B. höher gebildet und jünger als der Bevölkerungsdurchschnitt. Vielleicht gelten die Ergebnisse nur für junge, gebildete, experimentierfreudige Personen, und nicht unbedingt auch allgemein.
Bei medizinischen Studien hat man das Problem, dass die Probanden, die man bekommen kann, eventuell den Bevölkerungsdurchschnitt nicht korrekt darstellen. So werden praktisch nie neue Medikamente an Kindern und Schwangeren getestet (aus naheliegenden Gründen), während sie aber nach der Zulassung trotzdem für diese zur Therapie vorgesehen sind. Eventuell wirkt das Medikament besonders gut oder besonders schlecht bei Kindern oder Schwangeren, oder es hat stärkere oder schwächere Nebenwirkungen, aber man würde es wegen der Probandenauswahl nicht merken.
Allgemein gibt es bei wissenschaftlichen Studien das Problem, dass solche mit einem Nullergebnis (Therapie wirkt nicht, Effekt nicht nachweisbar, Hypothese bestätigt sich nicht) seltener veröffentlicht werden oder überhaupt erst die Veröffentlichung angestrebt werden. Solche Studien gelten in der Regel als uninteressant und landen öfter in der Schublade als die mit einem nachgewiesenen Effekt. Diese Verzerrung wird Publikationsfehler genannt, und ist im Grunde der Selektionsfehler von der anderen Seite her gesehen. Will man nun eine Übersicht (Review) über die Studien zu einem Thema erstellen, dann wird man die Auswahl unter den veröffentlichten Studien treffen, und die haben ein anderes Ergebnis als der Durchschnitt der durchgeführten Studien. Bei einem Review läuft man Gefahr, im Schnitt zu große Effekte zu finden. Man sollte also zusätzlich die Richtung des Publikationsfehlers ermitteln und die gefundenen Ergebnisse entsprechend einordnen.
Selbstselektion
Der größte Selektionsfehler ergibt sich, wenn die Probanden sich selbst auswählen, und wenn diese Auswahl zudem von z. B. der Meinung abhängt, die der Proband abgeben wird. Man spricht in dieser Situation von Selbstselektion. Ein Beispiel dafür sind die Produkt- und Servicebewertungen im Internet. Hier ist es nicht so, dass ein Shop wie bei einer Wahlumfrage seine Kunden direkt anspricht und sie sanft bedrängt, ihre Meinung abzugeben. Stattdessen entschließen sich die Kunden selbst, ob sie eine Meinung abgeben wollen oder nicht. Je extremer die Meinung ist, desto eher werden die Befragten ihre Meinung abgeben wollen, und je aufwändiger die Meinungsabgabe ist (z. B. weil man auch einen Begründungstext schreiben muss), desto stärker wird das Ungleichgewicht. Wer also total begeistert ist oder auch mal richtig Dampf ablassen will, der wird seine Meinung trotz der Anstrengung geltend machen. Die große Mitte der durchschnittlich zufriedenen Kunden wird so massiv unterrepräsentiert.
Auch wenn man z. B. Supportforen im Internet durchsucht, wird man kaum repräsentative Daten über die Fehleranfälligkeit eines Produktes bekommen. Die Mehrheit der Besitzer des Produkts ohne Fehler wird nämlich nicht täglich über diese Tatsache in einem Forum berichten.
Wer Personen so befragt, dass die Antwort freiwillig ist und es gleichzeitig notwendig macht, dass man eine Postkarte zum Briefkasten trägt und evtl. sogar noch das Porto selbst bezahlt, kann kaum mit aussagekräftigen Ergebnissen rechnen.
Den Einfluss der Selbstselektion kann jeder erkennen, wer einmal die „Wahlumfragen” im Videotext diverser Fernsehsender mit denen renommierter Meinungsforschungsunternehmen vergleicht (oder auch mit echten Wahlergebnissen). Der Unterschied könnte kaum größer sein. Generell sind praktisch alle Online-Umfragen mit Selbstselektion völlig wertlos. Sie werden nur veranstaltet, um eine neue Nachricht auch ohne ein neues Ereignis zu generieren.
Weitere Beispiele
- In der Anfangszeit der Entdeckung extrasolarer Planeten fand man hauptsächlich große bis sehr große Planeten in der Nähe ihrer Sterne mit kurzen Umlaufzeiten. Man hätte daraus schließen können, dass die meisten anderen Planetensysteme so aufgebaut sind und unser eigenes Sonnensystem eine Ausnahme darstellt. Auch dies wäre ein Selektionsfehler gewesen. Diese Funde waren nämlich ein Ergebnis der Messmethode, den Planet anhand der Schwankungen des Sterns zu erkennen, die der Planet durch seine Schwerkraft erzeugt. Auf diese Weise sind besonders solche Planeten leicht zu entdecken, die besonders schwer sind und durch die kurzen Umlaufzeiten starke Schwankungen in kurzen Perioden zu erzeugen. Mit neueren Methoden, z. B. die der Kepler-Sonde, konnte man bereits eine Menge von weniger extremen Planetensystemen entdecken, die dem unseren deutlich ähnlicher sind.
- Immer wieder erscheinen Bücher, die Biographien erfolgreicher Personen der Zeitgeschichte analysieren, die gemeinsame Strategien, Charaktereigenschaften und Methoden finden wollen, aus welchen die Autoren dann ein Erfolgsrezept für die Allgemeinheit destillieren. Wird ein solches Buch zum Verkaufsschlager, dann fällt auf, dass damit vor allem die Autoren und Verlage verdienen, aber die Käufer und Leser nicht mehr oder weniger Erfolg haben als der Bevölkerungsschnitt. Der Grund, warum solche Unternehmungen in der Regel scheitern, ist der Selektionsfehler. Wenn man sich nämlich an den erfolgreichen Personen orientiert, dann übersieht man die große Masse der Leute, die vielleicht die gleiche Strategie X verfolgten, aber eben keinen Erfolg damit hatten. Und über die Erfolglosen werden natürlich praktisch keine Biographien verfasst, die in eine Analyse einfließen könnten (siehe Publikationsfehler oben). Ob Strategie X also einen Erfolg begünstigt, kann man wegen der einseitigen Auswahl der Stichprobe gar nicht erkennen.