Statistische Aussagekraft

Bea Overbeck April 6, 2016 S 1 0
FONT SIZE:
fontsize_dec
fontsize_inc

Die Leistung oder Empfindlichkeit eines statistischen Tests ist die Wahrscheinlichkeit, dass es richtig lehnt die Nullhypothese, wenn sie falsch ist. Es kann äquivalent man sich als die Wahrscheinlichkeit für die alternative Hypothese korrekt akzeptieren, wenn es wahr ist, - das heißt, die Fähigkeit einer Test um eine Wirkung zu erkennen, wenn der Effekt tatsächlich existiert. Das ist,

Die Leistung ist im Allgemeinen eine Funktion der möglichen Verteilungen, die oft durch einen Parameter bestimmt, unter der Alternativhypothese. So steigt die Ausgangsleistung, die Chancen einer Fehler vom Typ II, die als die falsch-negative Rate bezeichnet werden, zu verringern, da die Leistung gleich 1-β ist. Ein ähnliches Konzept ist Typ-I-Fehler, oder "falsch-positiven".

Power-Analyse kann verwendet werden, um die minimale Probengröße erforderlich, so dass man mit großer Wahrscheinlichkeit um einen Effekt einer bestimmten Größe erkennen können berechnet werden. Power-Analyse kann auch verwendet werden, um die minimale Effektstärke, die wahrscheinlich in einer Studie nachgewiesen werden soll, unter Verwendung einer gegebenen Stichprobengröße zu berechnen. Darüber hinaus wird das Konzept der Leistung verwendet, um Vergleiche zwischen verschiedenen statistischen Testverfahren machen: beispielsweise zwischen einer parametrischen und nicht-parametrischen Test der gleichen Hypothese.

Hintergrund

Statistische Tests verwenden Daten aus Proben zu beurteilen, oder machen Sie Rückschlüsse auf eine statistische Bevölkerung. In der konkreten Einstellung eines Zweimustervergleich, das Ziel ist zu beurteilen, ob die Mittelwerte einiger Attribute für Personen in zwei Teilpopulationen erhalten abweichen. Zum Beispiel, um die Null-Hypothese, dass die Mittelwerte von Männern und Frauen auf einem Test nicht unterscheiden, Proben von Männern und Frauen, getestet werden gezogen, wird der Test, um sie verabreicht wird, und der mittlere Wert der einen Gruppe mit derjenigen verglichen die andere Gruppe mit einem statistischen Test, wie die zwei Stichproben z-Test. Die Leistung des Tests ist die Wahrscheinlichkeit, dass der Test einen statistisch signifikanten Unterschied zwischen Männern und Frauen zu finden, in Abhängigkeit von der Größe der echten Unterschied zwischen diesen beiden Populationen.

Einflussfaktoren auf Strom

Statistische Aussagekraft kann von einer Anzahl von Faktoren ab. Einige dieser Faktoren können insbesondere zu einer spezifischen Testsituation, aber zumindest die Leistung hängt fast immer auf den folgenden drei Faktoren ab:

  • Die statistische Signifikanz Kriterium in dem Test verwendet
  • das Ausmaß der Wirkung von Interesse in der Bevölkerung
  • die Stichprobengröße verwendet werden, um den Effekt zu erkennen

Ein Signifikanzkriterium ist eine Erklärung dafür, wie wahrscheinlich ein positives Ergebnis muss es sein, wenn die Nullhypothese ohne Wirkung ist wahr, für die Nullhypothese zurückgewiesen werden. Die am häufigsten verwendeten Kriterien sind Wahrscheinlichkeiten von 0,05, 0,01 und 0,001. Wenn das Kriterium von 0,05, die Wahrscheinlichkeit der Daten impliziert eine Wirkung mindestens so groß wie die beobachtete Wirkung, wenn die Nullhypothese wahr muß kleiner als 0,05 sein, denn die Nullhypothese ohne Wirkung zurückgewiesen werden. Ein einfacher Weg, um die Leistung eines Tests zu erhöhen, ist die Durchführung einer weniger konservativen Test durch Verwendung einer größeren Bedeutung Kriterium, zum Beispiel 0,10 statt 0,05. Dies erhöht die Chance, die Zurückweisung der Nullhypothese, wenn die Null-Hypothese falsch ist, das heißt, verringert das Risiko eines Fehlers vom Typ II. Sondern erhöht auch das Risiko des Erhaltens ein statistisch signifikantes Ergebnis, wenn die Null-Hypothese nicht falsch ist; Das heißt, das Risiko eines Fehlers vom Typ I erhöht sie.

Das Ausmaß der Wirkung von Interesse in der Bevölkerung im Hinblick auf eine Effektstärke, wo es mehr Leistung, größere Wirkungen zu erkennen quantifiziert werden. Eine Effektgröße kann eine direkte Schätzung der Menge von Interesse sein, oder es kann ein standardisiertes Maß, das auch entfallen die Variabilität in der Bevölkerung. Beispielsweise bei einer Analyse den Vergleich Ergebnissen in einer behandelten und der Kontrollpopulation, die Differenz des Ergebnisses bedeutet Y - X würde ein direktes Maß für die Wirkgröße, wohin / σ wobei σ die gemeinsame Standardabweichung der Ergebnisse in der behandelten und Kontrollgruppen, würde eine standardisierte Effektstärke sein. Wenn entsprechend ausgebildeten, eine standardisierte Effektstärke, zusammen mit dem Stichprobenumfang wird vollständig bestimmen die Macht. Eine nicht standardisierte Effektstärke wird nur selten aus, um die Macht zu bestimmen, da es keine Informationen über die Variabilität der Messungen enthalten.

Die Probengröße bestimmt die Höhe der Stichprobenfehler, das in einer Testergebnis. Unter sonst gleichen Bedingungen sind Wirkungen schwerer zu kleineren Proben nachzuweisen in. Wachsendem Stichprobenumfang ist oft der einfachste Weg, um die statistische Aussagekraft eines Tests zu steigern.

Die Präzision, mit der die Daten gemessen werden, beeinflusst auch die statistische Aussagekraft. Folglich kann Energie oft durch Verringerung der Messfehler in den Daten verbessert werden. Ein verwandtes Konzept ist es, die "Zuverlässigkeit" der Maßnahme zu verbessern geprüft.

Das Design eines Experiments oder Beobachtungsstudie häufig auch Auswirkungen auf die Leistung. Beispielsweise in einem Zweiprobentestsituation mit einer gegebenen Stichprobengröße n ist es optimal, die verglichen werden, um die gleiche Anzahl von Beobachtungen aus den zwei Populationen. In der Regressionsanalyse und die Varianzanalyse, gibt es eine umfangreiche Theorie und praktische Strategien zur Verbesserung der Leistung bei optimaler Einstellung der Werte der unabhängigen Variablen in dem Modell.

Deutung

Obwohl es keine formale Standards für Leistung, die meisten Forscher beurteilen die Macht ihrer Prüfungen mit π = 0,80 als Standard für die Angemessenheit. Diese Konvention beinhaltet ein Vier-zu-Eins-Kompromiss zwischen β-Risiko und α-Risiko .. Allerdings wird es Zeiten geben, wenn Sie dieses 4-zu-1-Gewichtung unangebracht ist. In der Medizin, beispielsweise Tests werden oft in einer Weise, dass keine falschen Negativen produziert werden entwickelt. Aber das wirft unweigerlich die Gefahr der Erlangung eines falsch-positiven. Das Grundprinzip ist, dass es besser ist, einen gesunden Patienten sagen, "wir etwas gefunden haben - wir testen weiter", als einen kranken Patienten "alles ist gut" zu sagen.

Power-Analyse ist angemessen, wenn die Sorge ist, mit der richtigen Ablehnung, oder nicht, eines Nullhypothese. In vielen Zusammenhängen, weniger über die Bestimmung ist die Frage, ob es oder ist kein Unterschied, sondern vielmehr mit dem Erhalt einer verfeinerten Schätzung der Bevölkerung Effektstärke. Zum Beispiel, wenn wir erwartet hatten eine Bevölkerung Korrelation zwischen Intelligenz und Arbeitsleistung der around.50 wird eine Probengröße von 20 geben uns ca. 80% Leistung an die Nullhypothese der Nullkorrelation abzulehnen. Doch dabei diese Studie sind wir wahrscheinlich mehr daran interessiert zu wissen, ob die Korrelation is.30 or.60 or.50. In diesem Zusammenhang haben wir eine viel größere Probengröße brauchen würde, um das Konfidenzintervall von unserer Schätzung auf einen Bereich, der für unsere Zwecke akzeptabel ist, zu reduzieren. Ähnlich wie in einem herkömmlichen Kraftanalyse verwendeten Techniken können verwendet werden, um die Probengröße für die Breite eines Konfidenzintervalls erforderlich, um kleiner als ein vorgegebener Wert zu bestimmen.

Viele statistische Analysen umfassen die Bestimmung von mehreren Unbekannten. In einfachen Fällen ist alles andere als eine dieser Mengen ein Ärgernis Parameter. In dieser Einstellung betrifft die einzige relevante Leistung an die Einzelmenge, die formale statistische Inferenz durchlaufen wird. In einigen Einstellungen, vor allem wenn die Ziele sind "explorative", kann es eine Reihe von Mengen von Interesse in der Analyse sein. Zum Beispiel in einer multiplen Regressionsanalyse können wir mehrere Kovariaten von potenziellem Interesse sind. In solchen Situationen, wo mehrere Hypothesen in Betracht, ist es üblich, dass die Kräfte mit den verschiedenen Hypothesen zugeordnet abweichen. Zum Beispiel in Mehrfach-Regressionsanalyse ist die Leistung zum Erfassen einer Wirkung einer gegebenen Größe zu der Varianz des covariate. Da verschiedene Kovariablen unterschiedliche Varianzen haben, werden ihre Befugnisse sowie abweichen.

Alle statistischen Analysen, die mehrere Hypothesen unterliegen Aufblasen des Typ-I-Fehlerrate, wenn geeignete Maßnahmen getroffen werden. Derartige Maßnahmen in der Regel Anwendung eines höheren Schwelle Stringenz an eine Hypothese, um für mehrfache Vergleiche gemacht kompensieren abzulehnen. In dieser Situation wird die Leistungsanalyse soll die Mehrfachprüfungen Ansatz Rechnung verwendet werden. So kann zum Beispiel eine bestimmte Untersuchung kann auch betrieben werden, um eine bestimmte Wirkungsgröße zu erfassen, wenn nur ein Test durchgeführt werden soll, aber die gleiche Wirkung Größe kann sehr viel weniger Strom, wenn mehrere Tests durchgeführt werden sollen.

Es ist auch wichtig, um die statistische Aussagekraft eines Hypothesentest prüfen, bei der Interpretation der Ergebnisse. Macht ein Test ist die Wahrscheinlichkeit, dass die Nullhypothese richtig abzulehnen, wenn sie falsch ist; Kraft eines Test wird durch die Wahl des Signifikanzniveau für den Test beeinflußt wird, wobei die Größe des Effekts gemessen wird, und die Menge der verfügbaren Daten. Ein Hypothesentest fehlschlagen kann, die null zurückzuweisen, wenn beispielsweise eine wahre Differenz von zwei Populationen von einem t-Test verglichen existiert, aber der Effekt ist gering, und die Probengröße zu klein ist, um die Wirkung von Zufall zu unterscheiden. Viele klinische Studien, zum Beispiel, eine niedrige statistische Aussagekraft von Unterschieden bei Nebenwirkungen von Behandlungen zu detektieren, da solche Effekte selten sind und die Zahl der betroffenen Patienten sehr klein ist.

A priori gegen Post-hoc-Analyse

Power-Analyse kann entweder vor oder nach Daten erhoben werden, durchgeführt werden. A priori Netzanalyse wird vor der Studie durchgeführt und wird typischerweise bei der Schätzung eine ausreichende Stichprobengröße verwendet, um eine angemessene Leistung zu erreichen. Post-hoc-Power-Analyse durchgeführt wird, nachdem eine Studie abgeschlossen ist, und verwendet die erhaltenen Probengröße und Effektgröße, um festzustellen, was der Macht war in der Studie, unter der Annahme, die Effektstärke in der Probe gleich der Effektgröße in der Bevölkerung ist. Während die Nützlichkeit von prospektiven Stromanalyse im experimentellen Design wird allgemein akzeptiert, ist die Nützlichkeit der Retrospektive Techniken umstritten. Fallen für die Versuchung, die statistische Analyse der gesammelten Daten verwenden, um die Leistung zu schätzen wird in wenig informativ und irreführende Werte ergeben. Insbesondere hat es sich in seiner einfachsten Form gezeigt, dass die post-hoc-Netz eine Eins-zu-Eins-Funktion der p-Wert erreicht hat. Dieser wurde erweitert, um zu zeigen, dass alle Post-hoc-Analysen Energie leiden an der sogenannten "Power-Ansatz paradox", in dem eine Studie mit einem Null-Ergebnis wird gedacht, um mehr Beweise, dass die Nullhypothese tatsächlich wahr ist, wenn die p- zeigen Wert kleiner, da die Scheinleistung, um eine tatsächliche Wirkung zu erfassen wäre höher. In der Tat ist eine kleinere p-Wert richtig verstanden, um die Null-Hypothese weniger wahrscheinlich, um wahr zu sein zu machen.

Anwendung

Förderorganisationen, Ethikräten und Forschungsprüfungsgremien verlangen häufig, dass ein Forscher führen Sie eine Power-Analyse, zum Beispiel, um die minimale Anzahl von Tierversuchspersonen für ein Experiment benötigten informativ zu bestimmen. In frequentistischen Statistiken, ist ein untermotorisiert Studie unwahrscheinlich, erlauben es, zwischen Hypothesen an der gewünschten Signifikanzniveau zu wählen. In Bayes-Statistik, Hypothesentests ist von der Art, in der klassischen Stromanalyse verwendet nicht getan. In der Bayes-Rahmen, aktualisiert man seine Überzeugungen vor Verwendung der in einem gegebenen Studie gewonnenen Daten. Im Prinzip könnte eine Studie, die als zu schwach aus der Perspektive der Hypothesenprüfung würde immer noch in einem solchen Aktualisierungsverfahren verwendet werden. Allerdings bleibt Leistung eine sinnvolle Maßnahme, wie viel ein bestimmtes Experiment Größe zu erwarten, seine Überzeugungen zu verfeinern. Eine Studie mit niedrigem Strom ist unwahrscheinlich, dass eine große Änderung in der Überzeugungen führen.

Beispiel

Wir untersuchen die Wirkung einer Behandlung auf einige Menge und Versuchspersonen Vergleich durch Messen der Menge vor und nach der Behandlung, die Analyse der Daten unter Verwendung eines gepaarten t-Test. Lassen Sie und bezeichnen die Vorbehandlung und Nachbehandlung Maßnahmen unterliegen i sind. Der mögliche Effekt der Behandlung sollten die Unterschiede, von denen wir annehmen, unabhängig verteilt werden sichtbar sein, alle mit dem gleichen erwarteten Wert und die Varianz.

Wir gehen durch Analysieren D wie in einseitiger t-Test. Die Nullhypothese wird :, wobei bezeichnet die erwartete Wert einer Größe. In diesem Fall ist die Alternative. Der statistische Prüfwert ist:

wobei n die Probengröße ist der Durchschnitt der und ist die Probenvarianz. Die Nullhypothese wird auf Stufe 0,05 bei abgelehnt

wobei 1,64 ist die ungefähre Entscheidungsschwelle für ein Niveau von 0,05-Test auf der Grundlage einer normalen Annäherung an die Teststatistik, dh 1,64 wird von der Quantil-Funktion bei 1-0,05 bewertet = 0,95 erhalten.

Nehmen wir nun an, dass die alternative Hypothese wahr ist und. Dann ist die Macht

Da folgt annähernd einer Standardnormalverteilung, wenn die alternative Hypothese wahr ist, kann die ungefähre Leistung berechnet werden

Darauf, dass gemäß dieser Formel steigt die Leistung mit den Werten des Parameters. Für einen bestimmten Wert von einer höheren Macht kann durch die Erhöhung der Stichprobenumfang n erhalten werden.

Es ist natürlich nicht möglich, eine ausreichend große Leistung für alle Werte zu garantieren, wie sie sehr nahe bei 0. In der Tat wird der Minimalwert der Leistung, die gleich der Größe des Tests ist, in diesem Beispiel 0,05. Allerdings ist es nicht von Bedeutung, um zwischen und kleine positive Werte unterscheiden. Wenn es wünschenswert ist, um genügend Strom, sagen mindestens 0,90, auf Werte, kann die erforderliche Probengröße näherungsweise berechnet werden, zu detektieren:

woraus folgt, dass

Daher

oder

wo ist ein Standard-Normal Quantil; siehe Probit nach einer Erklärung für die Beziehung zwischen und Z-Werte.

Software für die Energie und Stichprobenumfang Berechnungen

Zahlreiche Programme sind zum Durchführen von Macht und Stichprobengröße Berechnungen zur Verfügung. Dazu gehören kommerzielle Software

  • nQuery Advisor
  • BESTEHEN
  • SAS Stromversorgung und Stichprobengröße
  • Stata

und freie Software

  • PS
  • Russ Lenth Macht und Probengröße Seite
  • G * Power
  • WebPower Kostenlose Online statistische Power-Analyse für die t-Test, ANOVA, Zwei-Wege-ANOVA mit Interaktion, wiederholte Messungen ANOVA und Regression kann in einem Web-Browser WebPower durchgeführt werden
  • Ein kostenloser Online-Rechner, der die Formeln und Annahmen hinter den Berechnungen zeigt zumin powerandsamplesize.com verfügbar
  • R-Paket PWR
  Like 0   Dislike 0
Vorherige Artikel William Louey
Nächster Artikel Wasabi Anime
Bemerkungen (0)
Keine Kommentare

Fügen Sie einen Kommentar

smile smile smile smile smile smile smile smile
smile smile smile smile smile smile smile smile
smile smile smile smile smile smile smile smile
smile smile smile smile
Zeichen übrig: 3000
captcha