Ich möchte wissen, wie man einen Datensatz in Excel auf Normalität prüft, um sicherzustellen, dass die Voraussetzungen für die Verwendung eines t-Tests erfüllt sind.
Ist es für den rechten Schwanz angemessen, einfach einen Mittelwert und eine Standardabweichung zu berechnen, 1, 2 & 3 Standardabweichungen vom Mittelwert zu addieren, um einen Bereich zu erstellen und diesen dann mit dem Normalwert 68/95/99,7 für die Standardnormalverteilung zu vergleichen, nachdem die Funktion norm.dist in Excel verwendet wurde, um jeden Standardabweichungswert zu testen.
Oder gibt es eine bessere Möglichkeit, auf Normalität zu testen?
Sie haben die richtige Idee. Dies kann systematisch, umfassend und mit relativ einfachen Berechnungen durchgeführt werden. Eine grafische Darstellung der Ergebnisse wird als Normalwahrscheinlichkeitsdiagramm (oder manchmal auch als P-P-Diagramm) bezeichnet. Daraus können Sie viel mehr Details erkennen als aus anderen grafischen Darstellungen, insbesondere Histogrammen, und mit ein wenig Übung können Sie sogar lernen, Wege zu finden, Ihre Daten neu auszudrücken, um sie in Situationen, in denen dies gerechtfertigt ist, näher an die Normalverteilung zu bringen.
Hier ist ein Beispiel:
Die Daten befinden sich in Spalte A
(und heißen Data
). Der Rest ist reine Berechnung, obwohl Sie den Wert für den Scharnierrang, der zur Anpassung einer Referenzlinie an das Diagramm verwendet wird, steuern können.
Bei dieser Darstellung handelt es sich um ein Streudiagramm, in dem die Daten mit Werten verglichen werden, die durch unabhängig voneinander aus einer Standardnormalverteilung gezogene Zahlen erreicht werden würden. Wenn sich die Punkte entlang der Diagonale aufreihen, liegen sie nahe an der Normalverteilung; horizontale Abweichungen (entlang der Datenachse) zeigen Abweichungen von der Normalverteilung an. In diesem Beispiel liegen die Punkte bemerkenswert nahe an der Bezugslinie; die größte Abweichung tritt beim höchsten Wert auf, der etwa 1,5 $-Einheiten links von der Linie liegt. Man sieht also auf den ersten Blick, dass diese Daten sehr nahe an der Normalverteilung liegen, aber vielleicht einen leicht ausgeprägten rechten Schwanz haben. Dies ist für die Anwendung eines t-Tests völlig in Ordnung.
Die Vergleichswerte auf der vertikalen Achse werden in zwei Schritten berechnet. Zunächst wird jeder Datenwert in eine Rangfolge von $1$ bis $n$ gebracht, der Menge der Daten (angezeigt im Feld "Anzahl" in Zelle "F2"). Diese werden proportional in Werte im Bereich von $0$ bis $1$ umgerechnet. Eine gute Formel dafür ist $\left(\text{rank}-1/6\right)/\left(n+2/3\right).$ (Siehe http://www.quantdec.com/envstats/notes/class_02/characterizing_distributions.htm, woher diese Formel stammt.) Anschließend werden diese Werte mit der Funktion "NormSInv" in Standardnormalwerte umgewandelt. Diese Werte erscheinen in der Spalte Normale Punktzahl
. Das Diagramm auf der rechten Seite ist ein XY-Streudiagramm des Normal Score
gegen die Daten. (In einigen Referenzen sehen Sie die Transponierung dieses Diagramms, was vielleicht natürlicher ist, aber Excel bevorzugt es, die Spalte ganz links auf der horizontalen Achse und die Spalte ganz rechts auf der vertikalen Achse zu platzieren, also habe ich es so gelassen, wie es ist).
Tabellenkalkulation: Berechnung der normalen Punktzahl]2
(Wie Sie sehen können, habe ich diese Daten mit unabhängigen Zufallsziehungen aus einer Normalverteilung mit Mittelwert $5$ und Standardabweichung $2$ simuliert. Es ist daher keine Überraschung, dass das Wahrscheinlichkeitsdiagramm so schön aussieht). Es sind eigentlich nur zwei Formeln einzugeben, die Sie nach unten weitergeben, um sie an die Daten anzupassen: Sie erscheinen in den Zellen "B2:C2" und stützen sich auf den in Zelle "F2" berechneten Wert "Anzahl". Das ist wirklich alles, abgesehen vom Plotten.
Der Rest dieses Blattes ist nicht notwendig, aber hilfreich für die Beurteilung des Plots: Es liefert eine robuste Schätzung einer Referenzlinie. Dazu wählt man zwei Punkte aus, die gleich weit links und rechts vom Plot liegen, und verbindet sie mit einer Linie. Im Beispiel sind diese Punkte der drittniedrigste und der dritthöchste, wie durch die $3$ in der Zelle "Scharnierrang", "F3", bestimmt. Als Bonus sind die Steigung und der Achsenabschnitt robuste Schätzungen der Standardabweichung bzw. des Mittelwerts der Daten.
Um die Referenzlinie darzustellen, werden zwei Extrempunkte berechnet und der Darstellung hinzugefügt: Ihre Berechnung erfolgt in den Spalten "I:J", die mit "X" und "Y" bezeichnet sind.
Tabellenkalkulation: Berechnung der Referenzlinie]3
Sie könnten ein Histogramm mit dem Datenanalyse-Toolpack in Excel erstellen. Grafische Ansätze vermitteln eher den Grad der Nicht-Normalität, der in der Regel für die Prüfung von Annahmen relevanter ist (siehe diese Diskussion über die Normalität).
Das Datenanalyse-Toolpack in Excel liefert Ihnen auch Schiefe und Kurtosis, wenn Sie nach deskriptiven Statistiken fragen und die Option "summary statistics" wählen. Sie könnten zum Beispiel Werte der Schiefe über plus oder minus eins als eine Form von substanzieller Nicht-Normalität betrachten.
Allerdings wird bei t-Tests davon ausgegangen, dass die Residuen normalverteilt sind und nicht die Variable. Außerdem sind sie recht robust, so dass selbst bei ziemlich großen Mengen an Nicht-Normalität die p-Werte immer noch recht valide sind.
Auch diese Frage grenzt an die Statistiktheorie - die Prüfung auf Normalität mit begrenzten Daten kann fragwürdig sein (obwohl wir alle dies von Zeit zu Zeit getan haben).
Als Alternative können Sie die Koeffizienten für Kurtosis und Schiefe betrachten. In Hahn und Shapiro: Statistical Models in Engineering finden Sie einige Hintergrundinformationen zu den Eigenschaften Beta1 und Beta2 (Seiten 42 bis 49) und die Abbildung 6-1 auf Seite 197. Weitere theoretische Informationen hierzu finden Sie auf Wikipedia (siehe Pearson-Verteilung).
Grundsätzlich müssen Sie die sogenannten Eigenschaften Beta1 und Beta2 berechnen. Ein Beta1 = 0 und Beta2 = 3 deutet darauf hin, dass sich der Datensatz der Normalität annähert. Dies ist ein grober Test, aber bei begrenzten Daten könnte man argumentieren, dass jeder Test als grober Test betrachtet werden kann.
Beta1 bezieht sich auf die Momente 2 und 3 bzw. Varianz und Schiefe. In Excel sind dies VAR und SKEW. Wenn ... Ihr Datenfeld ist, lautet die Formel:
Beta1 = SKEW(...)^2/VAR(...)^3
Beta2 bezieht sich auf die Momente 2 und 4 bzw. die Varianz und Kurtosis. In Excel sind dies VAR und KURT. Wenn ... Ihr Datenfeld ist, lautet die Formel:
Beta2 = KURT(...)/VAR(...)^2
Dann können Sie diese gegen die Werte 0 bzw. 3 prüfen. Dies hat den Vorteil, dass möglicherweise andere Verteilungen (einschließlich der Pearson-Verteilungen I, I(U), I(J), II, II(U), III, IV, V, VI, VII) identifiziert werden können. Zum Beispiel können viele der häufig verwendeten Verteilungen wie Uniform, Normal, Student's t, Beta, Gamma, Exponential und Log-Normal anhand dieser Eigenschaften angezeigt werden:
Where: 0 <= Beta1 <= 4
1 <= Beta2 <= 10
Uniform: [0,1.8] [point]
Exponential: [4,9] [point]
Normal: [0,3] [point]
Students-t: (0,3) to [0,10] [line]
Lognormal: (0,3) to [3.6,10] [line]
Gamma: (0,3) to (4,9) [line]
Beta: (0,3) to (4,9), (0,1.8) to (4,9) [area]
Beta J: (0,1.8) to (4,9), (0,1.8) to [4,6*] [area]
Beta U: (0,1.8) to (4,6), [0,1] to [4.5) [area]
Impossible: (0,1) to (4.5), (0,1) to (4,1] [area]
Undefined: (0,3) to (3.6,10), (0,10) to (3.6,10) [area]
Values of Beta1, Beta2 where brackets mean:
[ ] : includes (closed)
( ) : approaches but does not include (open)
* : approximate
Diese sind in Hahn und Shapiro Abb. 6-1 dargestellt.
Zugegebenermaßen ist dies ein sehr grober Test (mit einigen Problemen), aber Sie können ihn als vorläufige Prüfung betrachten, bevor Sie zu einer strengeren Methode übergehen.
Es gibt auch Anpassungsmechanismen für die Berechnung von Beta1 und Beta2, wenn die Daten begrenzt sind - aber das würde den Rahmen dieses Beitrags sprengen.