Wie man (mit) Stichproben manipulieren kann

Die Stichprobe (auch „Sample“ genannt) ist die Grundlage vieler statistischen Auswertungen. Die Idee der Stichprobe ist, dass man nur einen kleinen Teil einer großen Gruppe kennen muss um zu einer vernünftigen Aussage über die ganze Gruppe zu kommen. Ein klassisches Beispiel dafür sind Wahlumfragen.

Mit ihnen kann aus der Präferenz von nur wenigen hundert Menschen eine vernünftige Prognose über die Entscheidung von mehreren Millionen Menschen getroffen werden – sofern das gut gemacht wird.

Die Bezeichnung Stichprobe kommt aus der Eisenverhüttung und bezeichnete den Abstich am Hochofen zur Entnahme einer Probe des flüssigen Metalls. Aber auch bei Getreidesäcken gab es Stichproben. Zur Entnahme einer Getreideprobe wurde eine kegelförmige Sonde in den nicht geöffneten Jute-Sack geschoben (gestochen) und damit eine Probe entnommen, ohne dass der Sack beschädigt wurde. (Quelle: Wikipedia)

Sowohl beim Ursprung des Wortes, als auch bei Wahlumfragen wird klar, was der Beweggrund für Stichproben ist: es ist sehr unpraktisch oder (wirtschaftlich) unmöglich die Gesamtheit (Menschen, Hochofen oder Getreidesäcke) zu befragen oder zu überprüfen. Daher ist das Ziel mit einem vernünftigen Aufwand eine brauchbare Aussage zu erhalten.

Auftritt der repräsentativen Stichprobe.

Die Zusammenstellung einer repräsentativen Stichprobe ist eine eigene Wissenschaft. Während es z.B. bei der Produktion von Schrauben genügt eine hinreichend große Stichprobe zu ziehen (je nachdem wie sicher das Ergebnis sein soll), müssen für Umfragen in der Bevölkerung sehr viele Faktoren berücksichtigt werden.

Zwei gravierende Fehler der Meinungsforschung wurden etwa bei den US-Präsidentschaftswahlen 1936 gemacht. Zum einen wurden die 10 Millionen Befragten aus Telefonverzeichnissen, registrierten Autobesitzern, Listen von Mitgliedern bestimmter Vereine und Abonnenten der Zeitschrift „The Literary Digest“ ausgewählt. Der Besitz eines Autos, eines Telefons oder der Bezug des The Literary Digest war nach der Weltwirtschaftskrise jedoch nur gut-situierten Haushalten möglich – die eher republikanisch wählten. Und, wie später nachgewiesen wurde, war das Hauptproblem, dass die Beantwortung der Befragung freiwillig war. Von den 10 Millionen befragten kamen 2,4 Millionen Antworten. Das Rücksenden des Fragebogens hing davon ab, wie stark die Befragte an der Wahl interessiert war; was bei den Roosevelt-Gegnern (republikanern) stärker der Fall als bei den Roosevelt-Unterstützern (demokraten).

Das Ergebnis dieser Umfrage sah den Herausforderer Alf Landon mit 60% deutlich vor dem demokratischen Amtsinhaber Roosevelt. Die Wahl fiel dann jedoch mit 60,8% erdrutschartig für Roosevelt aus – der sogar alle bis auf zwei Bundesstaaten für sich gewinnen konnte. Als Konsequenz führte dieses Vorhersage-Desaster zu einer tiefgreifenden Überarbeitung der Umfrage- und Auswahltechniken in der Meinungs- und Umfrageforschung und wird oft als Beginn der modernen wissenschaftlichen Meinungsforschung betrachtet. (Quelle: Wikipedia)

Wie kann nun mit Stichproben (bewusst) manipuliert werden?

Die einfachste Methode ist die, dass eine zu kleine Stichprobe gewählt wird und ein Test oder eine Umfrage so lange wiederholt wird, bis sie das passende Ergebnis liefert. Angenommen wir wollen ein neues Shampoo verkaufen. Da am Markt alle Shampoos mehr oder weniger gleich gut sind, müssen wir uns etwas einfallen lassen: zum Beispiel eine „klinische Studie“!

Bild zur Verfügung gestellt von Lori Erickson via Flickr (CC-by-Lizenz)

Wir suchen 10 Freiwillige die unser Shampoo eine Woche testen und bitten sie vorher und nachher zu bewerten ob ihre Haare sich besser oder schlechter anfühlen. Da das Ergebnis vermutlich weniger vom Shampoo als von der allgemeinen Befindlichkeit abhängt, nehmen wir an, dass die Wahrscheinlichkeiten für besser und schlechter 50:50 sind. Mit diesem Zufallsgenerator können wir ausprobieren wie das aussieht: Kopf ist „besser“ und Zahl „schlechter“. Und nach nur wenigen Wiederholungen des Versuchs werden wir mindestens 8 Köpfe haben.
Anm.: In 50% der Fälle sollte binnen 12 Wiederholungen (der Versuchsreihe/10 Münzwürfe) ein entsprechend passendes Ergebnis auftauchen. (Es kann aber auch (viel) länger dauern; siehe Anm. unten.*)

Für unsere Stichprobe aus 10 KandidatInnen heißt das: mindestens 80% stufen ihre Haare als „besser“ ein – ein sensationelles Ergebnis! Jetzt brauchen wir nur mehr die „klinischen Tests“ die kein so gutes Ergebnis hatten in die Schublade stecken und unsere Werbekampagne starten.

„Klinische Studien belegen:
80% der AnwenderInnen fühlen eine deutliche Verbesserung in nur 1 Woche!“

Ja, klar, wir haben hier eine deutlich zu kleine Stichprobe genommen. Und wir haben das erfolgreiche Experiment auch nicht wiederholt um es zu überprüfen (ganz im Gegenteil). Aber müssen wir das wirklich aufs Shampoo drucken?

Eine zweite Möglichkeit zur Manipulation ist, dass wir uns die Fehler der Wahlumfrage von oben zunutze machen. Angenommen wir haben von einem Autofahrerclub den Auftrag eine geplante Fußgängerzone schlecht zu machen. Wir könnten natürlich auf eine bestehende Fußgängerzone gehen und unter den Fußgängern eine Umfrage zur geplanten FuZo machen. Oder uns auf den Hauptbahnhof stellen und die Personen befragen, die gerade von einem öffentlichen Verkehrsmittel in ein anderes (um)steigen. In diesen beiden Fällen würden wir vermutlich eher auf Menschen stoßen, die die Vorteile von öffentlichem Verkehr und Fußgängerzonen schätzen.

Viel schlauer wäre es unter den AbonnentInnen des Autoclub-Magazins eine Umfrage durchzuführen. Oder die Menschen befragen, welche in der geplanten Fußgängerzone ihren aktuellen Parkplatz haben und also verlieren werden!

Und schließlich können wir uns auch noch mit einem schönen Trick helfen: Suggestivfragen!

Die Ergebnisse bei einer neutral gestalteten Umfrage mit der Frage „Sind sie für die Beibehaltung der Straße XY in ihrer jetzigen Form oder für die Umwidmung in eine Fußgängerzone?“ sind eventuell nicht das, was sich unsere Auftraggeberin gewünscht hat. Aber wie wäre es mit der folgenden Fragestellung:

„Was ist ihre Meinung zur Straße XY?“

  • Nach meiner Ansicht wäre es ein harter Schlag für die Wirtschaft und alle Gewerbetreibenden, wenn die KundInnen nicht mehr per PKW ihre Einkäufe erledigen könnten. Außerdem würde die Parkplatzsituation in der gesamten Umgebung noch zusätzlich verschärft werden.
  • Die wirtschaftlichen Konsequenzen einer Umwidmung sind mir egal.

Ich bin mir sicher, dass wir mit der zweiten Variante deutlich mehr Stimmen gegen die Fußgängerzone sammeln würden!

Fazit: Frag immer nach, wie groß die Stichprobe ist, wie die Daten erhoben worden sind, und wer damit was aussagen oder erreichen will!

 

* Anm. zur Anm.: Statistisch gesehen erreicht man ein passendes Ergebnis (8, 9 oder 10x Kopf) bei 12 Versuchen in 50% der Fälle. Es ist aber nicht möglich zu sagen wann man sicher so ein passendes Ergebniss (oft auch „günstiges Ereignis“ genannt) erhält. Nach 29 Versuchen stellt es sich in 80% Wahrscheinlichkeit ein, aber um mit 99% Wahrscheinlichkeit ein passendes Ergebnis zu erhalten sind bereits 123 Versuche notwendig. Und 100% Wahrscheinlichkeit sind nicht erreichbar. Theoretisch könnte man als ausgesprocher (Un-)Glückspilz bis ans Lebensende wiederholen ohne zum Erfolg zu kommen. Aber praktisch wird das wohl niemand schaffen 😉

Das Beitragsbild wurde von antony_mayfiled via Flickry unter der CC-By-Lizenz zur Verfügung gestellt.