Bei einem Signifikanztest gelten die Art der Wahrscheinlichkeitsverteilung – im Folgenden die Binomialverteilung – und alle Parameterwerte bis auf einen als bekannt. Ein Signifikanztest wird nur dann durchgeführt, wenn es Zweifel an einer bereits aufgestellten Hypothese über diesen unbekannten Parameterwert gibt. Weil sich eine solche Hypothese mit Hilfe eines Signifikanztests als null und nichtig erweisen soll, wird sie als Nullhypothese bezeichnet. Es ist allerdings unmöglich, mit Hilfe eines Signifikanztests die Gültigkeit oder Ungültigkeit einer Hypothese zu beweisen. Das Ziel eines Signifikanztests besteht lediglich darin, eine Entscheidung darüber zu ermöglichen, ob die Nullhypothese zugunsten einer Alternativhypothese abgelehnt oder lieber beibehalten werden sollte. Dabei besteht stets die Gefahr eines Irrtums. Um die Wahrscheinlichkeit zu begrenzen, irrtümlicher Weise zugunsten von abzulehnen, wird vor dem Durchführen des Tests ein Signifikanzniveau vorgegeben, das als obere Schranke für diese Irrtumswahrscheinlichkeit dient.
Im Folgenden wird eine Bernoulli-Kette der Länge mit einer unbekannten Erfolgswahrscheinlichkeit betrachtet. Die zugehörige Zufallsvariable , welche die Anzahl der Erfolge beschreibt, ist also binomialverteilt und soll als Prüfgröße dienen. Die Nullhypothese, , über den Wert von wird nur dann zugunsten einer Alternativhypothese abgelehnt, wenn der empirische Befund auf dem vorgegebenen Niveau in einem statistisch signifikanten Gegensatz zu steht, der für die Annahme von spricht. Je nach Beschaffenheit von kann man verschiedene Arten von Signifikanztests unterscheiden:
Diese vier Arten von Signifikanztests können Sie im Folgenden – im Rahmen der klassischen Testtheorie – untersuchen. Der Übersichtlichkeit zuliebe kann für die Länge der Bernoulli-Kette höchstens der Wert 50 eingestellt werden. In der Praxis sind oftmals deutlich größere Werte sinnvoll.
Bei jeder Art von Signifikanztest muss eine Entscheidungsregel aufgestellt werden, nach der zu entscheiden ist, ob zugunsten von abgelehnt wird oder nicht. wird nur dann zugunsten von abgelehnt, wenn der empirische Befund in die kritische Region fällt, die stets mindestens die folgende Bedingung erfüllen muss:
.
Die Wahrscheinlichkeit, mit der die Nullhypothese im Fall ihrer Gültigkeit trotzdem zugunsten von abgelehnt wird, darf also nicht größer als das vorgegebene Signifikanzniveau sein. Ob ein empirischer Befund diese – vor dem Durchführen des Tests festzulegende – Bedingung erfüllt, kann man auch prüfen, ohne zuvor die Grenzen von bestimmt zu haben. Dazu berechnet man die Wahrscheinlichkeit, mit der man oder einen noch stärker für das Ablehnen von zugunsten von sprechenden Befund erhielte, wenn gültig wäre. Diese Wahrscheinlichkeit, die als empirisches Signifikanzniveau¹ bezeichnet wird, darf nicht größer als sein:
.
Bei handelt es sich nicht um eine Irrtumswahrscheinlichkeit, die nämlich eine Eigenschaft des Tests wäre, sondern um eine – von abhängige – Eigenschaft eines einzelnen empirischen Befunds , die nur dann für eine Testentscheidung herangezogen werden darf, wenn bereits vor dem Durchführen des Tests das vorgegebene Signifikanzniveau festgelegt worden ist. Ohne Kenntnis von lässt sich nämlich keine Entscheidungsregel aufstellen, die für das Treffen einer seriösen Entscheidung notwendig ist und Aussagen über die Irrtumswahrscheinlichkeit überhaupt erst möglich macht.
Beim Aufstellen der Entscheidungsregel sind je nach Art des Signifikanztests spezielle Bedingungen, die ggf. zusätzlich erfüllt werden müssen, zu berücksichtigen.
Beim beidseitigen Test werden die kritischen Zahlen und der kritischen Region
so bestimmt, dass die größte und die kleinste derjenigen ganzen Zahlen ist, welche die Bedingung
erfüllen.
Ein empirischer Befund fällt genau dann in die kritische Region , wenn gilt:
.
Beim linksseitigen Test wird die kritische Zahl der kritischen Region
so bestimmt, dass die größte derjenigen ganzen Zahlen ist, welche die Bedingung
erfüllen.
Ein empirischer Befund fällt genau dann in die kritische Region , wenn gilt:
.
Beim rechtsseitigen Test wird die kritische Zahl der kritischen Region
so bestimmt, dass die kleinste derjenigen ganzen Zahlen ist, welche die Bedingung
erfüllen.
Ein empirischer Befund fällt genau dann in die kritische Region , wenn gilt:
.
Beim Alternativtest sind zwei Fälle zu unterscheiden. Im 1. Fall ist und im 2. Fall .
Im Fall wird die kritische Zahl der kritischen Region
so bestimmt, dass die größte derjenigen Zahlen ist, welche die Bedingung
erfüllen.
Ein empirischer Befund fällt genau dann in die kritische Region , wenn gilt:
.
Im Fall wird die kritische Zahl der kritischen Region
so bestimmt, dass die kleinste derjenigen ganzen Zahlen ist, welche die Bedingung
erfüllen.
Ein empirischer Befund fällt genau dann in die kritische Region , wenn gilt:
.
Grundsätzlich sind bei Signifikanztests – unter der Voraussetzung einer korrekten Durchführung – bis zu drei Arten von Fehlern möglich. Ein Fehler 1. Art wird begangen, wenn gültig ist, aber zugunsten von abgelehnt wird:
Fehler 1. Art: .
Wenn dagegen gültig ist, aber beibehalten wird, so wird ein Fehler 2. Art begangen:
Fehler 2. Art: .
Von einem Fehler 3. Art spricht man, wenn sowohl als auch ungültig sind und deshalb jede Testentscheidung falsch ist:
Fehler 3. Art: .
Die folgende Tabelle soll einen Überblick über alle möglichen Fälle liefern, die beim Durchführen von Signifikanztests eintreten können.
Tatsächlicher Zustand der Wirklichkeit | |||
---|---|---|---|
Testentscheidung | ist gültig. | ist gültig. | und sind ungültig. |
wird zugunsten von abgelehnt. | Fehler 1. Art | Richtige Entscheidung | Fehler 3. Art |
wird beibehalten. | Richtige Entscheidung | Fehler 2. Art |
Bedauerlicher Weise lässt sich in der Regel keine der Wahrscheinlichkeiten, mit denen die drei möglichen Arten von Fehlern jeweils eintreten, berechnen, sondern bestenfalls ihr möglicher Maximalwert. Dies liegt daran, dass die Wahrscheinlichkeiten und , mit denen und jeweils gültig sind, sowohl vor als auch nach dem Durchführen des Tests unbekannt sind. und lassen sich auch nicht abschätzen, um dadurch eine der beiden Hypothesen glaubwürdiger erscheinen zu lassen. Beide Hypothesen können nämlich nach der klassischen Testtheorie jeweils nur entweder gültig oder ungültig sein:
.
Im Spezialfall, in dem es als sicher gilt, dass oder gültig ist, – wie es beim beidseitigen Test der Fall ist – kann allerdings der Fehler 3. Art innerhalb des mathematischen Modells, das von einer binomialverteilten Prüfgröße ausgeht, ausgeschlossen werden:
.
Unter der Annahme, sei gültig, lässt sich die bedingte Wahrscheinlichkeit berechnen, mit der man einen Fehler 1. Art beginge, falls gültig wäre. Diese hypothetische Wahrscheinlichkeit, die vom vorgegebenen Signifikanzniveau nach oben beschränkt wird, bezeichnet man als Irrtumswahrscheinlichkeit 1. Art:
Irrtumswahrscheinlichkeit 1. Art: .
Sie ist der Maximalwert, den die unbekannte Wahrscheinlichkeit des Fehlers 1. Art, die schließlich auch gleich null sein kann, haben kann.
Wenn zusätzlich zur Irrtumswahrscheinlichkeit 1. Art auch noch die Wahrscheinlichkeit , mit der gültig ist, bekannt wäre, ließe sich auch die Wahrscheinlichkeit des Fehlers 1. Art berechnen:
.
Diese Wahrscheinlichkeit gibt das Risiko an, dass ein Fehler 1. Art passiert. Sie ist wegen entweder gleich null oder gleich der Irrtumswahrscheinlichkeit 1. Art:
.
Somit stellt das vorgegebene Signifikanzniveau nicht nur eine obere Schranke der (hypothetischen) Irrtumswahrscheinlichkeit 1. Art, sondern auch des Risikos, dass ein Fehler 1. Art passiert, dar.
Aus der bloßen Angabe des vorgegebenen Signifikanzniveaus lassen sich
und auch
folgern. Über die Wahrscheinlichkeit weiß man dagegen nur, dass sie jeden Wert von bis haben kann. Aus diesem Grund kann ein Testergebnis, welches das Beibehalten von zur Folge hat, auch nicht stützen. Wie wenig sich aus einem Testergebnis folgern lässt, wenn man lediglich weiß, ob es signifikant oder nicht signifikant zum Niveau ist, soll das folgende Baumdiagramm verdeutlichen.
Die Kenntnis der maximalen Wahrscheinlichkeit des Fehlers 1. Art ermöglicht leider keine Aussage über die Wahrscheinlichkeit dafür, dass eine richtige Entscheidung getroffen worden ist. Die aus einer Irrtumswahrscheinlichkeit 1. Art von gefolgerte Aussage „Die Testentscheidung für die Alternativhypothese ist dann entsprechend zu richtig“, die der Autor auf der Homepage eines renommierten deutschen Unternehmens gefunden hat, das weltweit Dienstleistungen zur Statistik mit Tätigkeitsschwerpunkt Medizin und Pharmazie erbringt, ist also völlig falsch und auf erschreckend gefährliche Weise irreführend.²
Es stellt sich nun die Frage, welche Aussagen sich aus Kenntnissen über die Irrtumswahrscheinlichkeit 2. Art folgern lassen.
Unter der Annahme, sei gültig, kann es – je nach Art des Signifikanztests – auch möglich sein, die bedingte Wahrscheinlichkeit zu berechnen, mit der man einen Fehler 2. Art beginge, falls gültig wäre. Diese hypothetische Wahrscheinlichkeit bezeichnet man als Irrtumswahrscheinlichkeit 2. Art:
Irrtumswahrscheinlichkeit 2. Art: .
Diese Wahrscheinlichkeit ist allerdings nur dann definiert, wenn einen konkreten Zahlenwert für die unbekannte Erfolgswahrscheinlichkeit festlegt, wie es beim Alternativtest der Fall ist. Dann ist sie der Maximalwert, den die unbekannte Wahrscheinlichkeit des Fehlers 2. Art, die schließlich auch gleich null sein kann, haben kann.
Wenn zusätzlich zur Irrtumswahrscheinlichkeit 2. Art auch noch die Wahrscheinlichkeit , mit der gültig ist, bekannt wäre, ließe sich auch die Wahrscheinlichkeit des Fehlers 2. Art berechnen:
.
Diese Wahrscheinlichkeit gibt das Risiko an, dass ein Fehler 2. Art passiert. Sie ist wegen entweder gleich null oder gleich der Irrtumswahrscheinlichkeit 2. Art:
.
Um die Güte eines Signifikanztests beurteilen zu können, genügt es nicht, nur die Irrtumswahrscheinlichkeiten 1. und 2. Art zu betrachten. Die Güte wird erst dann erkennbar, wenn man das Verhalten des Tests für alle möglichen Werte desjenigen Parameters, dessen tatsächlicher Wert unbekannt ist, untersucht. Diesem Zweck dient die Gütefunktion , die jedem möglichen Parameterwert diejenige Wahrscheinlichkeit zuordnet, mit der die Nullhypothese abgelehnt werden würde, wenn es sich um den tatsächlichen Parameterwert der Wirklichkeit handelte.
Im obigen Beispiel der Bernoulli-Kette mit unbekannter Erfolgswahrscheinlichkeit ordnet jedem die zugehörige Ablehnwahrscheinlichkeit von zu:
.
Am Graphen von lässt sich u. a. erkennen, ob bereits kleinste Abweichungen von zu einer hohen Ablehnwahrscheinlichkeit von führen, was je nach Sachlage gar nicht sinnvoll ist.
Viele Menschen sind zwar in der Lage, Signifikanztests – ähnlich einer Maschine – korrekt durchzuführen, haben aber Schwierigkeiten beim Interpretieren ihrer Ergebnisse. Dies liegt in der Regel an weit verbreiteten Fehlvorstellungen von der Bedeutung des Signifikanzniveaus. Deshalb können missbräuchlich interpretierte Testergebnisse genutzt werden, um Menschen zu täuschen oder gar zu manipulieren.
Testen Sie Ihr Wissen über die Bedeutung eines signifikanten bzw. nicht signifikanten Testergebnisses anhand der folgenden Aufgabe.
Mit Hilfe eines Signifikanztests soll geprüft werden, ob die Abweichung eines empirischen Befunds vom Erwartungswert der Nullhypothese statistisch signifikant zum Niveau ist. Als Testergebnis sind zwei Fälle möglich:
Es stellt sich heraus, dass die Abweichung statistisch nicht signifikant zum Niveau ist. wird also beibehalten.
Entscheiden Sie für jede der folgenden fünf Aussagen, ob sie sich aus dem nicht signifikanten Testergebnis folgern lässt.
Es stellt sich heraus, dass die Abweichung statistisch signifikant zum Niveau ist. wird also zugunsten der Alternativhypothese abgelehnt.
Entscheiden Sie für jede der folgenden fünf Aussagen, ob sie sich aus dem signifikanten Testergebnis folgern lässt.
Überprüfen Sie Ihr Ergebnis, nachdem Sie alle 10 Entscheidungen getroffen haben.
Fußnoten
Abbildungen