Streudiagramm Definition

Want create site? Find Free WordPress Themes and plugins.

Anwendung

Man erhofft sich durch das Muster der Punkte im Streudiagramm Informationen über die Abhängigkeitsstruktur der beiden Merkmale, die durch die Koordinaten repräsentiert sind.

Nebenstehendes Beispieldiagramm enthält Punkte, die die beiden Merkmale „Länge“ und „Breite“ von verschiedenen Artillerieschiffen darstellen. Die Schiffe sind in vier Klassen eingeteilt, denen unterschiedliche Farben zugewiesen sind (Zerstörer, leichter Kreuzer, schwerer Kreuzer, Schlachtschiff). Man erkennt durch ein solches Streudiagramm auf einen Blick verschiedene Korrelationen in den erfassten Daten.

Häufig auftretende Korrelationen sind Cluster (Ballungen) und lineare Strukturen. Cluster können mit der Clusteranalyse untersucht werden. Zur Quantifizierung von linearen Korrelationen bietet sich vor allem die Regressionsanalyse an.

Falls ein drittes (metrisches) Merkmal auch noch mit dargestellt werden soll, kann das durch die Größe der Punkte (bzw. Kreise) geschehen. Den dabei entstehenden Diagrammtyp nennt man Blasendiagramm.

Streudiagramme bei ordinalskalierten Merkmalen

Es sind im Allgemeinen nur stetig verteilte Daten für Streudiagramme geeignet. Beobachtungen diskret verteilter Merkmale überlagern sich, wenn gleiche Werte mehrfach vorliegen. Es gibt jedoch auch Möglichkeiten, ordinalskalierte Merkmale in Streudiagramme darzustellen:

  • Durch „Sonnenblumen“: Es wird an jedem Koordinatenpaar ein Kreis eingetragen. Die Zahl der Wertepaare, die auf diesem Punkt liegen, wird durch Striche an den Kreis dargestellt, so dass sich eine stilisierte Sonnenblume ergibt.
  • Durch einen „Jittered Scatterplot“ („Verwackeltes Streudiagramm“): Es werden auf die Daten kleine Zufallszahlen addiert, so dass die Werte leicht auseinandergezogen werden und eine Punktwolke ergeben. Man muss sich allerdings im Klaren sein, dass die Werte eigentlich übereinanderliegen. Man könnte sie als „pseudometrisch“ bezeichnen.

Das folgende Beispiel zeigt beide Möglichkeiten anhand der Evaluation einer Statistik-Vorlesung, bei der die Merkmale „Stoff ist verständlich“ und „Gesamtnote Statistik“ (Noten von 1 bis 4) in ein Streudiagramm eingetragen wurden.

Sonnenblumen-Streudiagramm Jittered scatter plot

Dotplot

Der Dotplot wird auch als das eindimensionale Streudiagramm bezeichnet. In ihm wird eine Variable entweder auf der x-Achse oder auf der y-Achse (wie in den Grafiken) dargestellt. Je nach dem wie viele Werte die Beobachtungen der Variablen annehmen, ergibt sich das Problem, dass man nur einen Datenpunkt sieht, obwohl sich hinter ihm (viele) weitere Beobachtungen verbergen können.

Ähnlich wie beim Sonnenblumen-Streudiagramm können Symbole genutzt werden um die Anzahl der Punkte darzustellen. In der Grafik links symbolisiert ein größerer Kreis, dass sich hinter ihm mehr Beobachtungen verbergen als bei einem kleineren Kreis. In der Grafik rechts wird für jeden Datenpunkt ein Kreis gezeichnet. Tritt der gleiche Wert mehrfach auf, werden rechts neben dem ersten Kreis weitere Kreise gezeichnet.

Eine weitere Möglichkeit ist, auf der einen Achse den Beobachtungswert zu zeichnen und für die andere Achse einen zufälligen, z.B. aus einer Gleichverteilung stammenden, Wert zu wählen. Auch kann man eine Dichteschätzung einzeichnen.

Der Dotplot erlaubt Einblicke in die Verteilung einer Variablen, z.B. wo die Beobachtungen besonders dicht sind oder verteilen sich die Beobachtungen auf nur wenige Werte.

Streudiagramm-Matrix

In einer Streudiagramm-Matrix werden für einen multivariaten Datensatz jeweils für Paare von Variablen ein Streudiagramm gezeichnet. Dabei unterscheiden sich die Streudiagramme oben rechts von denen unten links in der Grafik nur dadurch welche Variable auf die x-Achse bzw. y-Achse abgebildet wird. D.h. die entsprechenden Punktwolken sind nur an der 45 Grad Linie gespiegelt. In Variationen der Streudiagramm-Matrix werden statt den gespiegelten Punktwolken auch weitere Informationen, z.B. Korrelationskoeffizienten oder Regressionfunktionen dargestellt.

Auf der Diagonalen sind in der Grafik rechts nur die Variablennamen eingetragen. Es gibt jedoch auch hier eine Vielzahl von Variationen, z.B. mit weiteren Informationen (Boxplots, Dichteschätzungen) über die jeweilige Variable.

Die Streudiagramm-Matrix hat einige Nachteile:

  • Die Anzahl der Variablen, die dargestellt wird, sollte nicht zu groß werden, da sonst die Fläche für jedes Streudiagramm zu klein und damit unübersichtlich wird. Die Brüder Tukey haben daher Maßzahlen, zusammenfassend mit Scagnostics bezeichnet, vorgeschlagen, die die Eigenschaft der Punktwolke charakterisieren:
Hauptartikel: Scagnostics
  • Die Streudiagramm-Matrix zeigt bei p Variablen genau p(p-1)/2 Projektionen der multivariaten Daten. Eine interessante Datenstruktur muss jedoch nicht in diesen Projektionen sichtbar sein. Dann sollte man entweder auf die Grand Tour oder Projection Pursuit-Verfahren zurückgreifen.

 

 

Alle Quellenangaben finden Sie unter: http://de.wikipedia.org/wiki/Korrelationsdiagramm


    Did you find apk for android? You can find new Free Android Games and apps.
    ×