Kapitel 1
Kategoriale Daten zusammenfassen: Häufigkeiten und Prozente
In diesem Kapitel
Als kategoriale Daten werden solche Daten bezeichnet, die jede Beobachtung genau einer Kategorie zuordnen. Typische Beispiele für solche Kategorien sind klein, mittel, groß oder männlich, weiblich oder Deutscher, Franzose, Italiener, Österreicher etc. Wenn Sie kategoriale Daten erhoben haben, liegen diese in den meisten Fällen zunächst als lange Liste vor, in der jede befragte Person (beziehungsweise allgemein jede Beobachtungseinheit) eine Zeile bildet und die Werte der kategorialen Variablen in einer langen Spalte einzeln untereinander stehen. Eine solche unübersichtliche Liste ist jedoch nur selten aussagekräftig. Daher müssen die Daten für eine Auswertung zusammengefasst und in übersichtlicher Form dargestellt werden. Der einfachste Weg hierzu besteht darin auszuzählen, wie viele Beobachtungen in die einzelnen Kategorien fallen, und das Ergebnis als sogenannte Häufigkeitstabelle darzustellen. Genau dies können Sie in diesem Kapitel üben, nämlich das Erstellen und Interpretieren von absoluten und relativen Häufigkeitstabellen für kategoriale Daten.
Auf die Häufigkeit zählen
Die Anzahl der Beobachtungen, die in eine bestimmte Kategorie fallen, wird als absolute Häufigkeit dieser Kategorie bezeichnet. Durch das einfache Auflisten sämtlicher Kategorien mit den dazugehörigen Häufigkeiten erhalten Sie eine Häufigkeitstabelle. Die Summe der Häufigkeiten aller Kategorien sollte dabei stets der Größe der gesamten Stichprobe entsprechen, da ja schließlich jede Beobachtung genau einer Kategorie zugeordnet wurde.
Die folgenden Aufgaben enthalten Beispiele dafür, wie sich kategoriale Daten mithilfe von Häufigkeitstabellen zusammenfassen lassen.
Person Nr. | Handy | Person Nr. | Handy |
---|
Lösung
In der Zusammenfassung werden die erhobenen Daten klar und übersichtlich dargestellt.
Besitzen Sie ein Handy? | Absolute Häufigkeit |
---|
Aufgabe 1
Sie lassen 20 Kunden in einem Supermarkt zwei unterschiedliche Marken eines Softdrinks testen und fragen anschließend, welches Getränk besser geschmeckt hat, Marke A oder Marke B. Die Ergebnisse dieser Befragung sehen wie folgt aus: A, A, B, B, B, B, B, B, A, A, A, B, A, A, A, A, B, B, A, A.
Welche der beiden Marken bevorzugen die Kunden? Erstellen Sie hierzu eine Häufigkeitstabelle und erläutern Sie das Ergebnis.
Aufgabe 2
Die Einwohner einer Stadt sind in einer Volksabstimmung dazu aufgerufen, über die Erhöhung einer Sonderabgabe zur Finanzierung der öffentlichen Schulen abzustimmen. Insgesamt haben 18.726 Wähler ihre Stimme hierzu abgegeben. Davon stimmten 10.479 für die Erhöhung der Sonderabgabe, die übrigen Wähler dagegen.
Aufgabe 3
Ein Zoo führt eine Befragung durch und möchte von 1.000 Personen wissen, ob sie im letzten Jahr den Zoo besucht haben. 592 der Befragten antworten mit Ja, 198 mit Nein und 210 haben gar nicht geantwortet.
Aufgabe 4
Mal angenommen, Sie würden eine Häufigkeitstabelle erstellen, in der für jede Kategorie nicht die absolute Anzahl der Nennungen dieser Kategorie aufgeführt wird, sondern lediglich der Prozentwert (die relative Häufigkeit). Welchen Vorteil hat eine solche relative Häufigkeitstabelle gegenüber einer Häufigkeitstabelle mit absoluten Häufigkeiten?
Kategorien vergleichen mit Prozentwerten
Eine andere Möglichkeit, kategoriale Daten zusammenzufassen und in verdichteter Form darzustellen, besteht darin aufzulisten, welcher prozentuale Anteil der Antworten auf die verschiedenen Kategorien entfällt. Diese Prozentwerte sind die relativen Häufigkeiten der Kategorien. Die relative Häufigkeit einer bestimmten Kategorie ergibt sich aus der absoluten Häufigkeit (der Anzahl der Beobachtungen in einer Kategorie) geteilt durch die gesamte Stichprobengröße. Wenn Sie beispielsweise 50 Personen nach ihren Präferenzen zu einem bestimmten Thema befragen und zehn der Befragten geben sich als Anhänger einer bestimmten Variante zu erkennen, errechnet sich die relative Häufigkeit der Anhänger dieser Variante als 10 ÷ 50 = 0,2 beziehungsweise 20 %.
Durch die Auflistung sämtlicher Kategorien mit ihren jeweiligen relativen Häufigkeiten erstellen Sie eine relative Häufigkeitstabelle. Die Summe der relativen Häufigkeiten aller Kategorien sollte stets 100 Prozent ergeben (wenn man einmal kleine Rundungsfehler außer Acht lässt).
Das folgende Beispiel zeigt, wie kategoriale Daten in einer relativen Häufigkeitstabelle zusammengefasst werden können.
Person Nr. | Handy | Person Nr. | Handy |
---|
Lösung
Die folgende Tabelle zeigt eine relative Häufigkeitstabelle für die Handy‐Daten. 70 % der befragten Personen haben angegeben, ein Handy zu besitzen, während 30 % offenbar noch in der Steinzeit leben und mit Rauchzeichen kommunizieren.
Besitzen Sie ein Handy? | Relative Häufigkeit |
---|
Den Wert 70 % in der Tabelle errechnen Sie, indem Sie die Zahl der Personen mit Handy (also 7) durch die Zahl aller befragten Personen (10) dividieren. Sie rechnen also 7 ÷ 10 = 0,7 beziehungsweise 70 %. Entsprechend ergeben sich die 30 % »Steinzeitmenschen« als 3 ÷ 10 = 0,3 beziehungsweise 30 %.
Aufgabe 5
Sie lassen 20 Kunden in einem Supermarkt zwei verschiedene Softdrinks testen und fragen anschließend, welches Getränk ihnen besser schmeckt, Marke A oder Marke B. Sie erhalten die folgenden Ergebnisse: A, A, B, B, B, B, B, B, A, A, A, B, A, A, A, A, B, B, A, A. Welches Getränk findet bei den Befragten mehr Zuspruch?
Aufgabe 6
Die Bewohner einer Stadt sind aufgerufen, in einer Volksabstimmung über die Erhöhung einer Sonderabgabe zur Finanzierung öffentlicher Schulen zu entscheiden. Insgesamt haben 18.726 Wähler ihre Stimme hierzu abgegeben; davon stimmten 10.479 für die Erhöhung der Sonderabgabe, die übrigen Wähler dagegen. Stellen Sie das Wahlergebnis in einer relativen Häufigkeitstabelle dar.
Aufgabe 7
Ein Zoo führt eine Befragung durch und möchte von 1.000 Personen wissen, ob sie im letzten Jahr den Zoo besucht haben. 592 der Befragten antworten mit Ja, 198 mit Nein und 210 haben gar nicht geantwortet. Erstellen Sie für dieses Ergebnis eine relative Häufigkeitstabelle und ermitteln Sie anhand der Tabelle die Antwortrate, also den Anteil der Personen, die überhaupt auf die Frage nach dem Zoobesuch geantwortet haben.
Aufgabe 8
Nennen Sie einen Nachteil von relativen Häufigkeitstabellen gegenüber einfachen Häufigkeitstabellen mit absoluten Häufigkeiten.
Vorsicht bei der Interpretation von absoluten und relativen Häufigkeiten
Werden umfangreiche kategoriale Daten wie in einer Häufigkeitstabelle zu verdichteten Daten zusammengefasst, können dabei leicht wichtige Informationen verloren gehen, die in den Ursprungsdaten enthalten sind. Zusammengefasste Daten bergen daher stets das Risiko, dass sie unpräzise oder unvollständig sind. Bei der Interpretation von Häufigkeitstabellen und anderen Formen von Datenzusammenfassungen sollten Sie daher stets wissen, auf welche möglichen Schwachstellen Sie achten müssen, um nicht irreführende oder unvollständige Informationen zu erhalten.
Das folgende Beispiel zeigt einige entscheidende Aspekte für einen kritischen Umgang mit zusammengefassten...