MathePrisma Logo

Konfidenzintervalle und Hypothesentests

Konfidenzintervalle und Hypothesentests

Stichprobenerhebungen



Die Eichung des Lügendetektors

Mit welcher Wahrscheinlichkeit kann beispielsweise der Hersteller des Lügendetektors davon ausgehen, dass sein Gerät korrekt geeicht ist?

Die Testreihe, die der Hersteller des Lügendetektors bei der Eichmessung angewandt hat, ergab für die gelogenen Antworten der 100 Testpersonen einen mittleren Detektorwert von 6 und eine Standardabweichung von 1,53:

Detektorwert (gerundet)   0     1     2     3     4     5     6     7     8     9     10  
Absolute Personenanzahl   0     0     1     4     11     21     25     21     11     4     1  
Mittelwert   6,00
Standardabweichung   1,53

Die Formeln zur Berechnung dieser Parameter sowie die für dieses Kapitel erforderlichen Fachbegriffe werden auf einem Nebenpfad kurz zusammengestellt.   

Der Hersteller des Lügendetektors ist davon ausgegangen, dass die Stichprobe mit 100 zufällig ausgewählten Personen einen guten Mittelwert liefert. Wir werden dies überprüfen, indem wir weitere solcher Testreihen mit Hilfe einer Simulation durchführen.

Wir untersuchen nun mit einer Stichprobe, ob dieses Testverfahren in Ordnung war, also ob der Mittelwert in der Nähe des Wertes liegt, der sich beim Testen der gesamten Bevölkerung ergeben würde. Es wird also untersucht, wie gut man Erkenntnisse über die Gesamtmenge durch die Untersuchung einer zufällig ausgewählten Teilmenge erhalten kann.

Simulation weiterer Testreihen

Detektorwert (gerundet)  0 1 2 3 4 5 6 7 8 9 10
 Absolute Personenanzahl 
Mittelwert 
Standardabweichung 

Beobachtungen

In den einzelnen Testreihen für gelogene Antworten kommen fast alle möglichen Detektorwerte zwischen 0 und 10 vor. Der Mittelwert liegt aber immer in der Nähe von 6. Allerdings kommt der exakte Wert 6,0 fast nie als Stichprobenmittel vor.   

Wie kann man also geeignete Intervalle bestimmen? Zum Beispiel können wir das Stichprobenmittel auf eine Nachkommastelle runden. Dann gehören alle Werte, die nicht mehr als 0,05 von diesem Wert abweichen, zu dem Intervall mit Durchmesser 0,1.

Für obige Simulation bedeutet dies, aus dem Mittelwert m= bildet man das Intervall [m-0,05 ; m+0,05] = [ ; ].


Wie oft die durch die Simulation gebildeten Intervalle den tatsächlichen Wert 6,0 enthalten, werden wir jetzt in einer "Langzeitstudie" untersuchen, indem wir 100 mal die obige Testreihe mit jeweils 100 Einzeluntersuchungen durchführen.



Achtung: Diese Simulation rechnet ein paar Sekunden

Anzahl der Mittelwerte, die auf eine Nachkommastelle gerundet den Wert 6,0 ergeben: 

Beobachtung

Bei mehrfacher Anwendung der Simulation erkennst du, dass

  • etwa 25% der Intervalle [m-0,05 ; m+0,05] den tatsächlichen Mittelwert der gesamten Bevölkerung (hier kurz: wahrer Mittelwert) von 6,0 enthalten.

Welche Aussage formuliert eine treffende Schlussfolgerung dieser Simulation, die durch Rundungen des Mittelwertes auf eine Nachkommastelle ein Intervall für den wahren Mittelwert ergibt?

Der wahre Mittelwert der Gesamtbevölkerung ist im Gegensatz zum Mittelwert einer Stichprobe keine Zufallsgröße! Insofern kann er nur zu 100% in dem Intervall oder zu 100% außerhalb liegen.

Trotzdem ist in der Literatur häufig zu lesen, dass der gesuchte Wert mit einer bestimmten Wahrscheinlichkeit in einem gegebenen Intervall liegt.

Wir können ein solches Intervall nun interpretieren und führen auf Grund dessen wichtiger Bedeutung für die beurteilende Stochastik folgende Definition ein:

Definition

Um den Mittelwert einer Stichprobe wird ein Intervall gebildet (z.B. durch Rundungen des Stichprobenmittels). Dieses bezeichnet man als Konfidenzintervall.
Bei mehrfacher Anwendung der Stichprobe sieht man, dass dieses den Erwartungswert (wahren Mittelwert) mit der sogenannten Konfidenzwahrscheinlichkeit 1 - \(\alpha\) enthält.

Die Konfidenzwahrscheinlichkeit hängt vom Konfidenzintervall ab und umgekehrt. Der genaue Zusammenhang sowie die Berechnungsvorschrift werden im folgenden Kapitel beschrieben.