RatioBlog
3.
November
2012

Fehlschluss #23: Texas Sharpshooter Fallacy

Geschrieben von Michael Hohner am 3. November 2012, 16:14:06 Uhr:

oder: Der Zielscheibenfehler

Es war einmal ein Cowboy in Texas. Der nahm seine zwei Revolver, feuerte sie grob gezielt auf ein Scheunentor ab, und wo sich die meisten Einschüsse wiederfanden, dort malte er eine schöne Zielscheibe auf das Tor. Fortan wurde er als Scharfschütze gefeiert.

Diese kleine Geschichte illustriert, wie der Fehlschluss des Texas Sharpshooter funktioniert: Man nimmt eine große Datenbasis, die weitgehend natürlich zustande gekommen ist, und darin sucht man nach Häufungen von bestimmten Aspekten. Und wenn man dann (fast zwangsläufig) einige gefunden hat, dann deklariert man diese Häufungen als echten Effekt.

Ein solches Vorgehen ist ein voreiliger Schluss. Eine Häufung in großen Datenmengen ist nicht unbedingt ein Zeichen für einen Effekt, der auf Ursache und Wirkung basiert. Auch bei rein zufällig zustande gekommenen Daten sind Häufungen nichts ungewöhnliches, sie sind sogar geradezu zu erwarten. Rein intuitiv betrachten wir eine Häufung als etwas Besonderes. Menschen haben aber ein schlechtes Gespür für Wahrscheinlichkeiten, und das scheinbar Besondere kann sich bei systematischer Untersuchung schnell als statistisch banal herausstellen.[1]

Das Finden von Häufungen in Daten ist ein geeigneter Weg, um neue Hypothesen zu formulieren, z. B. in epidemiologischen Untersuchungen. Man kann beispielsweise die Diagnosen, die bei Krankenkassen zur Abrechnung eingereicht wurden, statistisch auswerten. Findet man dann Häufungen bei unerwarteten Altersgruppen, dann kann man eventuell auf ein mögliches neues Krankheitsbild in der Bevölkerung schließen. Der Fehlschluss ergibt sich aber dann, wenn man an dieser Stelle aufhört! Die Häufung könnte auch reiner Zufall sein, oder könnte sich aus ganz anderen Gründen ergeben haben, die nichts mit der Bevölkerungsgesundheit oder neuen Krankheitsphänomenen zu tun haben. Wissenschaft hört nicht mit dem Formulieren von Hypothesen auf, sondern sie fängt damit an. Es ist in der Folge notwendig, die Hypothese zu überprüfen. Erst wenn der Effekt auch bei anderen Nebenbedingungen zu finden ist, erhärtet sich der Verdacht. Ein Fehler wäre es, die Hypothese mit den gleichen Daten zu überprüfen, aus denen sie gebildet wurde. Die Bestätigung ergibt sich dann automatisch, und man hätte am Ende lediglich einen Zirkelschluss. Für eine Überprüfung braucht man zwingend neue Daten, z. B. von anderen Krankenkassen, aus anderen Ländern, usw.

Ebenso sind gute Begründungen für die getroffene Auswahl von Daten nötig. Warum wurde Krankheit X untersucht? Warum wurden die Altersgruppen A bis B zusammengefasst, und nicht weniger oder mehr Jahrgänge? Warum wurde überhaupt nach Alter gruppiert, und nicht nach Geschlecht, Beruf, ökonomischem Status, etc.? Oft genügt es, die Auswahl leicht anders zu gestalten, damit die Häufung wieder verschwindet.

Recht beliebt sind bei klinischen Studien Betrachtungen von Teilgruppen der Probanden, besonders wenn man, bezogen auf die Gesamtheit der Probanden, keine Hinweise auf eine Wirkung einer Behandlung gefunden hat. Dann wird oft darauf hingewiesen, dass bei (übertrieben gesprochen) blonden Männern im Alter von 35 bis 38 Jahren doch ein Effekt zu vermelden ist. Derartige Untersuchungen von Subpopulationen sind meistens wenig wert. Die Probandenzahl dieser Untergruppen ist meist zu klein für ein aussagekräftiges Ergebnis. Des Weiteren stellt sich die Frage, warum ausgerechnet bei dieser Gruppe eine echte Wirkung vorhanden sein soll, und nicht bei anderen. Die Auswahl wurde schließlich erst getroffen, nachdem die Daten schon bekannt waren. Hier wird meistens nur versucht, ein negatives Studienergebnis ein bisschen aufzupolieren.

Eine Hypothese kann man nur dadurch bestätigen oder widerlegen, dass man sie vor einem Test formuliert und anhand neuer Daten überprüft. Bei unserem Cowboy muss also die Zielscheibe schon vorher auf der Scheune aufgemalt sein, damit seine Behauptung, ein Scharfschütze zu sein, schlüssig überprüft werden kann.


  1. Im Gegenteil, sind Daten allzu gleichmäßig verteilt, dann ist das eher ein Zeichen dafür, dass diese Daten nicht natürlich entstanden sind, sondern auf (scheinbar unauffällige) Gleichmäßigkeit getrimmt wurden.