Outils :Vous avez un site web ? Un blog ?
Technorati reactions rencontre |
Der Mosaikplot ist ein graphisches Verfahren zur Visualisierung von Datensätzen mit zwei oder mehreren qualitativen Variablen (Merkmalen). Er gibt einen Überblick über die Daten und ermöglicht es, Zusammenhänge zwischen den verschiedenen Merkmalen zu erkennen.
Inhaltsverzeichnis |
Der für dieses Beispiel verwendete Datensatz hat 2201 Beobachtungen und 3 Variablen. Die Beobachtungen sind alle Personen, die sich am 15. April 1912 auf der Titanic befunden haben. Die Variablen sind:
In, zur Grafik analoger Form, ergibt sich folgende Tabelle:
| Geschlecht | Überlebt | 1. Klasse | 2. Klasse | 3. Klasse | Besatzung |
|---|---|---|---|---|---|
| Männlich | Nein | 118 | 154 | 422 | 670 |
| Ja | 62 | 25 | 88 | 192 | |
| Weiblich | Nein | 4 | 13 | 106 | 3 |
| Ja | 141 | 93 | 90 | 20 |
Diese Tabelle ist aber eher mühsam zu lesen und schwierig zu interpretieren.
Am linken Rand ist die erste Variable (Geschlecht) aufgetragen. Die gesamten Daten werden zunächst in zwei Blöcke geteilt: Der unter Streifen beinhaltet alle weiblichen Personen, der obere, größere Block alle männlichen. Man sieht sofort das viel weniger (ca. ein Viertel) der Personen am Schiff weiblich waren.
Am oberen Rand ist die zweite Variable (Klasse) aufgetragen. Die vier senkrechten Spalten stehen also für die vier Ausprägungen dieser Variable (1., 2., 3. Klasse und Besatzung). Diese Spalten sind nicht gleich breit. Die Breite einer Spalte gibt die relative Häufigkeit dieser Ausprägung wieder. Man sieht, dass bei den Männern die Besatzung die größte Gruppe darstellt, bei den Frauen waren die in der 3. Klasse reisenden die größte Gruppe. Bei den Frauen waren nur wenige Besatzungsmitglieder.
Die dritte Variable (Überlebt) ist auf der rechten Seite dargestellt und außerdem durch die Farbgebung hervorgehoben: Die dunkelgrauen Rechtecke stellen die Personen dar, die das Unglück nicht überlebt haben. Man sieht sofort, dass die Frauen in der 1. Klasse die besten Überlebenschancen hatten. Generell war die Wahrscheinlichkeit das Unglück zu überlegen für Frauen höher als für Männer und für Reisende der 1. Klasse höher als für die übrigen Reisenden. Insgesamt haben ca. 1/3 aller Personen überlebt (hellgraue Flächen).
Mosaikplots können insbesondere über die Unabhängigkeit der dargestellten Variablen Auskunft geben. Wären die drei Variablen Geschlecht, Klasse und Überlebt unabhängig voneinander, dann müsste der Mosaikplot der Titanic Daten (links) wie unter independent (rechts) aussehen. Alle waagerechten und senkrechten Zwischenräume zwischen den Rechtecken liegen immer auf der gleichen Höhe bzw. Länge.
Auch die Unabhängigkeit von jeweils zwei Variablen kann man so graphisch nachprüfen; unter Umständen ist eine Umordnung der Variablen zur leichteren Visualisierung nötig.