Histogramm Definition

Anwendung

Anwendung finden Histogramme in der beschreibenden Statistik und in der Bildverarbeitung. Man verwendet Histogramme beispielsweise dann,

  • wenn man den Verlauf der Häufigkeitsverteilung sehen möchte und nicht nur zusammenfassende Daten wie den Mittelwert und die Standardabweichung,
  • wenn man vermutet, dass mehrere Faktoren einen Prozess beeinflussen, und man diese nachweisen will,
  • wenn man sinnvolle Spezifikationsgrenzen für einen Prozess definieren möchte.

In der physikalischen Forschung oder angewandten Gebieten (z. B. Analytik) werden gemessene Spektren als Histogramme dargestellt, siehe z. B. Vielkanalanalysator.

Konstruktion eines Histogramms

Folgende Schritte sind bei der Konstruktion eines Histogramms nötig:

  1. Wertemenge in Klassen aufteilen (Breite der Rechtecke festlegen)
  2. absolute/relative Klassenhäufigkeit bestimmen (Flächeninhalt der Rechtecke festlegen)
  3. Häufigkeitsdichte bestimmen (Höhe der Rechtecke festlegen)
  4. Histogramm grafisch darstellen

Einteilung in Klassen

Zur Konstruktion eines Histogramms wird der Wertebereich der Stichprobe in k aneinandergrenzende Intervalle geteilt, die sog. Klassen.[4] Dabei ist darauf zu achten, dass die Randklassen nicht offen sind. Das heißt, die erste und die letzte Klasse müssen eine untere bzw. obere Grenze besitzen.[5][1] Die Klassen müssen nicht gleich breit sein. Allerdings vereinfachen zumindest im Mittelbereich gleich große Klassen die Interpretation. Über jede Klasse wird dann ein Rechteck errichtet, dessen Fläche proportional zur jeweiligen Klassenhäufigkeit ist. Im Histogramm entsprechen diese Klassen der Breite der einzelnen Rechtecke.

 

Bestimmung der Klassenhäufigkeit

Bei der Erstellung eines Histogramms gibt es zwei Vorgehensweisen: Die Klassenhäufigkeit spiegelt entweder einen absoluten oder einen relativen Wert wider. Der absolute Wert entspricht der Anzahl an Werten, die zu einer Klasse gehören. Der relative Wert hingegen drückt aus, wie viel Prozent der Werte einer Klasse angehören. Je nach Anwendungsfall kann sowohl das Arbeiten mit absoluten als auch mit relativen Werten Vorteile mit sich bringen. Im Histogramm entspricht die Klassenhäufigkeit dem Flächeninhalt der Rechtecke.

Bestimmung der Häufigkeitsdichte

Beispiel für ein Histogramm mit konstanter Klassenbreite, bei dem die absoluten Häufigkeiten auf der Ordinate abgetragen sind.

Da die Fläche des j-ten Rechtecks gleich der Klassenhäufigkeit nj ist, errechnet sich die Höhe des Rechtecks, die sogenannte Häufigkeitsdichte hj, als Quotient nj/dj der Klassenhäufigkeit nj durch die Klassenbreite dj. Dies wird unmittelbar klar, wenn man sich überlegt, dass die Fläche eines Rechtecks das Produkt aus Breite (Klassenbreite) und Höhe (Häufigkeitsdichte) ist. Die Klasse mit der größten Häufigkeitsdichte wird Modalklasse genannt.[1] Sind die Klassen gleich breit, so sind Häufigkeitsdichte und absolute bzw. relative Häufigkeiten proportional zueinander. Die Höhen der Rechtecke sind in diesem Fall vergleichbar und (unter Beachtung der Klassenbreite als Proportionalitätsfaktor) als Häufigkeit interpretierbar.

 

Statistische Schwankung der Klassenhäufigkeit

Oft werden die ermittelten Klassenhäufigkeiten beim Wiederholen der Datenerfassung streuen. So stellt sich, beispielsweise bei einer Wahlprognose, die Frage nach der Präzision der erhobenen Zahlen. Die zu erwartende Schwankungsbreite der Klassenhäufigkeit strebt bei unbegrenzt wachsender Anzahl der Klassen gegen sqrt{n_j}.

Abschätzung der Anzahl der Klassen

Um ein Histogramm zeichnen zu können, muss eine genügend große Anzahl an Messwerten einen sinnvollen Verlauf ergeben. Eine falsche Einteilung der Klassen kann zu einer Fehlinterpretation des Histogramms führen. Für die Festlegung der Anzahl der Klassen bzw. Rechtecke existieren verschiedene Faustregeln:

Anzahl der Messungen Balkenzahl
<50 5 bis 7
50 bis 100 6 bis 10
100 bis 250 7 bis 12
>250 10 bis 20

Gegebenenfalls kann man die Anzahl der Balken k auch nach der Sturges-Regel[6] berechnen:

k = 1 + log_2 n = 1 + 3{,}3 cdot log_{10} n

Die Sturges-Regel sollte aber nicht mehr verwendet werden, weil sie die Streuung nicht berücksichtigt.

Alternativ kann die Klassenbreite h mit der Regel nach Scott[7]

h = frac {3{,}49 cdot sigma} {sqrt[3]{n}}

oder der Regel nach Freedman und Diaconis [8]

h = frac {2 cdot (Q_3-Q_1)} {sqrt[3]{n}}

berechnet werden. Dabei sind sigma die Standardabweichung, n die Anzahl der Messungen und Q_3-Q_1 der Interquartilsabstand.

Die Regel nach Scott ist so nur für normalverteilte Daten definiert. Für andere Fälle führte Scott Korrekturfaktoren in Abhängigkeit von Schiefe und Exzess ein.

Eigenschaften

Ein Histogramm ist eine flächenproportionale Darstellung der vorliegenden Häufigkeiten. Die Fläche eines Rechtecks entspricht c cdot f(x_j), wobei f(x_j), die relative Klassenhäufigkeit der Klasse j, und c, ein Proportionalitätsfaktor ist.

Ist c, gleich dem Stichprobenumfang, das heißt c=n,, so ist die Fläche eines jeden Rechtecks gleich der absoluten Klassenhäufigkeit. Das Histogramm wird in diesem Fall, in dem die Summe der Flächeninhalte der Rechtecke dem Stichprobenumfang n entspricht, absolut genannt.[9] Werden zur Konstruktion des Histogramms exakt die relativen Klassenhäufigkeiten verwendet (c=1,), wird das Histogramm als relativ oder normiert bezeichnet. Da die Flächeninhalte der Rechtecke nun den relativen Klassenhäufigkeiten entsprechen, summieren sich die Flächeninhalte in diesem Fall zu 1.[9]

Bei einem Histogramm grenzen die Rechtecke im Gegensatz zum Säulendiagramm direkt aneinander, das heißt es existieren keine Abstände zwischen ihnen. Denn die Breite der Rechtecke entspricht den gebildeten Intervallen (Klassen), die ebenfalls direkt aneinander grenzen.

Im Unterschied zum Säulendiagramm muss bei einem Histogramm die x-Achse immer eine Skala sein, deren Werte geordnet und gleichabständig sind.

Drei Kennzeichen eines Histogramms können zu dessen Beurteilung herangezogen werden:

  • der allgemeine Kurvenverlauf
  • die Streuung
  • die Zentrierung

 

Geschichte


Wohl erstmals tauchte ein Histogramm 1786 in der Arbeit „The Commercial and Political Atlas“ des um 1800 lebenden schottischen Ingenieurs und Volkswirts William Playfair auf, der zuvor auch das Balken- und Tortendiagramm einführte.[12] Im Jahr 1833 verwendete auch der Franzose André-Michel Guerry Histogramme zur Visualisierung von Daten.[13] Weiterentwickelt wurde das Histogramm durch den belgischen Statistiker und Sozialwissenschaftler Adolphe Quetelet um 1846. Der Begriff „histogram“ (historical diagram)[14] wurde jedoch erstmals vom englischen Mathematiker Karl Pearson im Jahr 1891 in einer Vorlesungsreihe genutzt und schließlich 1895 in seiner heutigen Bedeutung eingeführt

 

Einzelnachweise

  1. a b c Bernd Rönz, Hans G. Strohe, Lexikon Statistik, Gabler Verlag, 1994, S. 157
  2. Larry Wasserman, All of Nonparametric Statistics, Springer, 2005, S. 127
  3. Arens et al., Mathematik, Spektrum Akademischer Verlag, 2008, S. 1226
  4. Thomas A. Runkler: Data Mining: Methoden und Algorithmen intelligenter Datenanalyse. 1. Auflage. Vieweg + Teubner, 2010, S. 47.
  5. Erhard Cramer, Udo Kamps: Grundlagen der Wahrscheinlichkeitsrechnung und Statistik: Ein Skript für Studierende der Informatik, der Ingenieur- und Wirtschaftswissenschaften. 2. Auflage. Springer, 2008, S. 45.
  6. Herbert A. Sturges: The choice of a class interval. In: Journal of the American Statistical Association. Nr. 21, 1926, S. 65-66.
  7. David W. Scott: On optimal and data-based histogram. In: Biometrika. 3, Nr. 66, 1979, S. 605–610, doi:10.1093/biomet/66.3.605.
  8. David Freedman, Persi Diaconis: n the histogram as a density estimator: L_2 theory. In: Zeitschrift für Wahrscheinlichkeitstheorie und verwandte Gebiete. 57, Nr. 4, 1981, S. 453-476, doi:10.1007/BF01025868.
  9. a b Jürgen Bortz: Statistik für Human- und Sozialwissenschaftler. 6. Auflage. Springer, 2005, S. 31-32.
  10. David Scott: Multivariate Density Estimation: Theory, Practice, and Visualization. John Wiley, 1992, ISBN 978-0471547709.
  11. Das bedeutet: Histogramm, test.de vom 25. August 2011, online abgerufen am 7. Januar 2013
  12. Playfair, William; The Commercial and Political Atlas: Representing, by Means of Stained Copper-Plate Charts, the Progress of the Commerce, Revenues, Expenditure and Debts of England during the Whole of the Eighteenth Century, London 1786
  13. André-Michel Guerry: Essai sur la Statistique Morale de la France. Paris 1833.
  14. „He explained that the histogram could be used for historical purposes to create blocks of time of ‘charts about reigns or sovereigns or periods of different prime ministers’.“, zitiert aus The Rutherford Journal
  15. Sheldon M. Ross: Introductory Statistics. 2. Auflage. Elsevier Academic Press, 2005, S. 56-57.
  16. Yadolah Dodge: The Concise Encyclopedia of Statistics. Springer, 2008, S. 236-237.
  17. Eileen Magnello: Karl Pearson’s Gresham Lectures: W. F. R. Weldon, Speciation and the Origins of Pearsonian Statistics. In: The British Journal for the History of Science, Vol. 29, No. 1. Cambridge University Press, 1996, S. 48

     

    Alle Quellenangaben finden Sie unter: http://de.wikipedia.org/wiki/Histogramm


    -- Download Histogramm Definition als PDF --


    ×

    Abonniere das Quality Magagzin und erhalte einen 100€ Gutschein

    Trage Deine E-Mail Adresse ein und erhalte in regelmäßigen Abständen unser Quality Magagzin