2 Univariate Statistiken und Diagramme
In diesem Kapitel berechnen wir zunächst Kenngrößen einer einzelnen Stichprobe bzw. so genannte empirische Kenngrößen, wie beispielsweise den Mittelwert. Diese können, unter gewissen Voraussetzungen, als Schätzer für „theoretische“ Kenngrößen einer Zufallsvariablen verwendet werden, wie beispielsweise für den Erwartungswert.
2.1 Berechnung von Kenngrößen
Gegeben sei folgende Stichprobe: 167,163,155,167,161,177,173,179. Diese Werte könnten als Körpergrößen von zufällig ausgewählten Schülern einer Schule interpretiert werden.
Die folgenden Daten werden zunächst in SPSS eingegeben.
Kenngrößen können wir auch über das Menü für Häufigkeitstabellen auswählen. Wir wählen → Analysieren →Deskriptive Statistiken →Häufigkeiten und dort wählen wir v1 aus. Man könnte auch unter →Deskriptive Statistiken →Deskriptive Statistiken wählen, nur hier wird kein Median unter "Optionen" angeboten.
Danach klicken wir auf →Statistiken im selben Fenster und hier erscheint dann folgendes (wir haben schon einige Kenngrößen ausgewählt, die Sie auch wählen können):
Wir klicken auf →Weiter und dann auf Diagramme, wo wir ein Histogramm auswählen.
Histogramme sind für metrische Werte geeignet, gerade wenn viele verschiedene Werte auftreten können, aber nicht für jede einzelne Ausprägung ein Balken, wie bei Balkendiagrammen, erscheinen soll.
Balkendiagramme eigenen sich für ordinale oder nominale Daten und Kreisdiagramme für nominale Daten, bei nicht zu vielen Ausprägungen.
Wir klicken nach der Diagrammauswahl auf →Weiter und dann auf →OK.
Statistiken
Körpergröße
N Gültig Fehlend Mittelwert Median Modalwert Standardabweichung Varianz Minimum Maximum Perzentile 25 50 75 | 8 0 167,7500 167,0000 167,00 8,20714 67,357 155,00 179,00 161,5000 167,0000 176,0000 |
Die Ausgabe der Tabelle hätte man auch unterdrücken können (im Menü zu Tabellen den Haken bei „Tabelle anzeigen“ deaktivieren).
Körpergröße
Der Mittelwert liegt bei 167,75cm und der Median bei 167cm, womit ca. die bzw. mindestens die Hälfte der Personen bis zu 167cm groß waren. Der Median ist das 50% Quartil. Da Werte mehrfach vorkommen können, können auch deutlich mehr als 50% der Werte kleiner oder gleich dem (empirischen) Median sein. Im Beispiel sind 62,5% kleiner oder gleich 167cm (siehe Häufigkeitstabelle oben).
Analog gibt es das 25% Quartil, welches hier bei 161,5cm liegt, womit ca. ¼ der Personen bis zu 161,5cm groß waren (hier waren es sogar genau 25%, je nachdem wie groß die Stichprobe ist und wie viele Werte mehrfach vorkommen gibt es Abweichungen zu den %-Zahlen der Quartile).
Die untere Grafik kann mit einem Doppelklick auf selbige bearbeitet werden. D.h. man kann beispielsweise mit einem Doppelklick auf die y-Achse die Skalierung einstellen (den Bereich, der angezeigt wird, aber auch Schrittweiten für die Beschriftung), was ähnlich wie in Excel geht.
Wie man sieht, sind mehr Kenngrößen zur Beurteilung einer Stichprobe notwendig, als nur der Mittelwert. Z.B. hätten die beiden Stichproben 170, 169, 171 und 170, 150, 190 beide denselben Mittelwert, nämlich 170, aber die zweite Stichprobe hat eine deutlich größere Standardabweichung. An der Standardabweichung kann man schon mal erkennen, in wie weit der Mittelwert als Vorhersagewert für eine Beobachtung geeignet ist. Wenn der Mittelwert von Jahreseinkommen 40.000€ ist und die Standardabeichung 100€, dann liegen die Werte (Jahreseinkommen) relativ nahe beieinander, wenn diese aber 30000€ beträgt, gibt es eine beachtliche Streuung.
Nehmen wir einmal 10 Personen, 9 haben 0€ auf ihrem Konto, eine hat 1.000.000€. Im Mittel hat jeder 100.000€. Die Streuung wäre riesig. Betrachtet man hier den Median, der unempfindlich gegenüber Ausreißern ist, dann beträgt dieser 0€. Damit weiß man, dass mindestens 50% der Personen höchstens 0€ hatten. Auch das 75% Quartil wäre 0€, womit man weiß, dass mindestens 75% der Personen 0€ hatten. Dadurch kann man schon eher eine Stichprobe beurteilen, als nur über den Mittelwert. Man könnte zur graphischen Beurteilung auch einen Boxplot oder ein Histogramm erstellen, was wir nach dem Teil für "mathematisch Interessierte" im Beispiel tun.
Für mehr mathematisch Interessierte folgt eine genauere Betrachtung der Kenngrößen:
Ganz oben ist der Stichprobenumfang zu finden, den wir im Folgenden mit n bezeichnen. Die Beobachtungen der Stichprobe werden mit xi (i = 1, 2, …, n) bezeichnet. Die Stichprobe ist dann x1, x2, …, xn.
Hier sind einige Kenngrößen von Stichproben zu sehen:
Das arithmetische Mittel:
Die empirische Varianz:
Die empirische Standardabweichung:
Der kleinste und größte Stichprobenwert:
min(xi) und max(xi).
Der empirische Median (eine Möglichkeit der Berechnung):
Hierzu wird zunächst die Stichprobe x1, x2, xn geordnet in x(1), x(2), ..., x(n). Nun kann der empirische Median berechnet werden.
Falls n gerade ist gilt: = (x(n/2) + x(n/2+1))/2
Falls n ungerade ist gilt: = x((n+1)/2)
Ist z.B. die Stichprobe 165, 168, 185, dann ist der Median 168 (n ist ungerade, „es gibt eine Mitte“). Wäre 168, 170, 172, 180 die Stichprobe, dann ist der Median (170+172)/2 = 171.
Weitere Kenngrößen sind der empirische Variationskoeffizient die empirische Schiefe und die empirische Wölbung (engl. skewness & kurtosis):
Bei symmetrischen Verteilungen nimmt die Schiefe den Wert 0 an. Da es sich jeweils um die entsprechenden empirischen Werte, also um Schätzer der theoretischen Kenngrößen handelt, ist der Wert bei Stichproben, die aus Realisierungen von symmetrisch verteilten Zufallsvariablen bestehen, nicht automatisch gleich Null. Ist die Abweichung vom Wert 0 zu groß, so ist dies ein Hinweis darauf, dass die theoretische Verteilung nicht symmetrisch sein könnte. Die Schiefe ist - wie die Wölbung - dimensionslos. Die Wölbung einer normalverteilten Zufallsvariable hat den Wert 3, während der Exzess hier den Wert 0 annimmt.
Wir erstellen noch einen Boxplot. Dazu wählen wir: →Diagramme → Alte Dialogfelder →Boxplot. Bei älteren SPSS Versionen müssen Sie statt →Diagramme den Menüpunkt →Grafik wählen.
Hier können Sie →Einfach und Auswertung über verschiedene Variablen auswählen und auf →Definieren klicken. Wir haben zwar nur eine Variable für den Boxplot, wir müssen aber nicht mehrere auswählen. Wenn man den Punkt Auswertung über Kategorien einer Variablen auswählt, muss man mindestens eine Variable auswählen, die die Gruppen definiert, z.B. das Geschlecht, was wir noch gleich sehen werden.
Wählen Sie nun im Menü unter „Box entspricht“ Ihre Variable Körpergröße bzw. v1 aus und dann →OK.
Die Grafik, die sie dann sehen, könnten Sie auch nach einem Doppelklick auf selbige bearbeiten (Achsen formatieren, …).
Die Box verläuft vom 25% Quartil (q25) bis zum 75% Quartil (q75). Die Box umfasst damit ca. 50% der Stichprobenwerte (die mittleren ca. 50%). Es sind keine Ausreißer vorhanden. Diese wären oberhalb oder unterhalb der Whiskers, d.h. der Linien, die oben und unten von der Box weg verlaufen und diese würden mit einem Kringel und der Nummer der Beobachtung gekennzeichnet werde. Es könnten auch extreme Werte vorhanden sein, die mit einem Stern gekennzeichnet werden.
Hier sind mehr Details dazu:
Die...