Histogram

In der Statistik ist ein histogram eine grafische Darstellung, einen Seheindruck des Vertriebs von Daten zeigend. Es ist eine Schätzung des Wahrscheinlichkeitsvertriebs einer dauernden Variable und wurde zuerst von Karl Pearson eingeführt. Ein histogram besteht aus tabellarischen Frequenzen, die als angrenzende Rechtecke gezeigt sind, die über getrennte Zwischenräume (Behälter) mit einem Gebiet aufgestellt sind, das der Frequenz der Beobachtungen im Zwischenraum gleich ist. Die Höhe eines Rechtecks ist auch der Frequenzdichte des Zwischenraums, d. h., die durch die Breite des Zwischenraums geteilte Frequenz gleich. Das Gesamtgebiet des histogram ist der Zahl von Daten gleich. Ein histogram kann auch normalisiert werden, Verhältnisfrequenzen zeigend. Es zeigt dann das Verhältnis von Fällen, die in jede von mehreren Kategorien mit dem Gesamtgebiet fallen, das 1 gleich ist. Die Kategorien werden gewöhnlich als aufeinander folgende, nichtüberlappende Zwischenräume einer Variable angegeben. Die Kategorien (Zwischenräume) müssen angrenzend sein, und werden häufig gewählt, um derselben Größe zu sein. Die Rechtecke eines histogram werden gezogen, so dass sie einander berühren, um anzuzeigen, dass die ursprüngliche Variable dauernd ist.

Histograms werden verwendet, um Dichte von Daten, und häufig für die Dichte-Bewertung zu planen: das Schätzen der Wahrscheinlichkeitsdichte-Funktion der zu Grunde liegenden Variable. Das Gesamtgebiet eines für die Wahrscheinlichkeitsdichte verwendeten histogram wird immer zu 1 normalisiert. Wenn die Länge der Zwischenräume auf der X-Achse der ganze 1 ist, dann ist ein histogram zu einem Verhältnisfrequenzanschlag identisch.

Eine Alternative zum histogram ist Kerndichte-Bewertung, die einen Kern verwendet, um Proben zu glätten. Das wird eine glatte Wahrscheinlichkeitsdichte-Funktion bauen, die im Allgemeinen die zu Grunde liegende Variable genauer widerspiegeln wird.

Der histogram ist eines der sieben grundlegenden Werkzeuge der Qualitätskontrolle.

Etymologie

Die Etymologie des Wortes histogram ist unsicher. Manchmal, wie man sagt, wird es aus dem griechischen histos abgeleitet 'irgendetwas ist aufrecht' (als die Masten eines Schiffs, die Bar eines Webstuhls oder die vertikalen Bars eines histogram) untergegangen; und gramma 'Zeichnung, Aufzeichnung, schreibend'. Es wird auch gesagt, dass Karl Pearson, der den Begriff 1895 eingeführt hat, den Namen vom "historischen Diagramm" abgeleitet hat.

Beispiele

Das amerikanische Volkszählungsbüro hat gefunden, dass es 124 Millionen Menschen gab, die außerhalb ihrer Häuser arbeiten. Mit ihren Daten auf der durch das Reisen besetzten Zeit, um zu arbeiten, zeigt Tabelle 2 unten die absolute Anzahl der Leute, die mit Fahrzeiten "mindestens 15, aber weniger als 20 Minuten" erwidert hat, ist höher als die Zahlen für die Kategorien oben und darunter. Das ist wahrscheinlich wegen Leute, die ihre berichtete Reise-Zeit rund machen. Das Problem, Werte als etwas willkürlich rund gemachte Zahlen zu melden, ist ein allgemeines Phänomen, wenn es Daten von Leuten sammelt.

:

Dieser histogram zeigt die Zahl von Fällen pro Einheitszwischenraum, so dass die Höhe jeder Bar dem Verhältnis von Gesamtleuten im Überblick gleich ist, die in diese Kategorie fallen. Das Gebiet unter der Kurve vertritt die Gesamtzahl von Fällen (124 Millionen). Dieser Typ von histogram zeigt absolute Zahlen mit Q in Tausenden.

:

Dieser histogram unterscheidet sich von Anfang an nur in der vertikalen Skala. Die Höhe jeder Bar ist der dezimale Prozentsatz der Summe, die jede Kategorie vertritt, und das Gesamtgebiet aller Bars 1, die dezimale Entsprechung von 100 % gleich ist. Die gezeigte Kurve ist eine einfache Dichte-Schätzung. Diese Version zeigt Verhältnisse, und ist auch bekannt als ein Einheitsgebiet histogram.

Mit anderen Worten vertritt ein histogram einen Frequenzvertrieb mittels Rechtecke, deren Breiten Klassenweiten vertreten, und dessen Gebiete zu den entsprechenden Frequenzen proportional sind. Die Zwischenräume werden zusammen gelegt, um zu zeigen, dass die Daten, die durch den histogram, während exklusiv, vertreten sind, auch dauernd sind. (Z.B in einem histogram ist es möglich, zwei in Verbindung stehende Zwischenräume 10.5-20.5 und 20.5-33.5, aber nicht zwei in Verbindung stehende Zwischenräume 10.5-20.5 und 22.5-32.5 zu haben. Leere Zwischenräume werden als leer und nicht ausgelassen vertreten.)

Gestalt oder Form eines Vertriebs

Der histogram gibt wichtige Auskunft über die Gestalt eines Vertriebs. Gemäß den präsentierten Werten wird der histogram entweder nach links oder Recht hoch oder gemäßigt verdreht. Eine symmetrische Gestalt ist auch möglich, obwohl ein histogram nie vollkommen symmetrisch ist. Wenn der histogram nach links verdreht, oder negativ verdreht wird, streckt sich der Schwanz weiter nach links aus. Ein Beispiel für einen Vertrieb verdreht könnte nach links die Verhältnisfrequenz von Prüfungshunderten sein. Die meisten Hunderte sind über 70 Prozent, und nur einige niedrige Hunderte kommen vor. Ein Beispiel für einen Vertrieb verdreht nach rechts oder positiv verdreht ist ein histogram Vertretung der Verhältnisfrequenz von Unterkunft-Werten. Eine relativ kleine Zahl von teuren Häusern schafft den skeweness nach rechts. Der Schwanz streckt sich weiter nach rechts aus. Die Gestalt eines symmetrischen Vertriebs spiegelt den skeweness des verlassenen oder rechten Schwanzes wider. Zum Beispiel der histogram von Daten für IQ-Hunderte. Histograms, kann bi-modal unimodal oder abhängig vom dataset mehrmodal sein.

Tätigkeiten und Demonstrationen

Die SOCR Quellenseiten enthalten mehrere spielerische interaktive Tätigkeiten, die das Konzept eines histogram, histogram Aufbau und Manipulation mit Java applets und Karten demonstrieren.

Mathematische Definition

In einem allgemeineren mathematischen Sinn ist ein histogram eine Funktion M, die die Zahl von Beobachtungen aufzählt, die in jede der zusammenhanglosen Kategorien fallen (bekannt als Behälter), wohingegen der Graph eines histogram bloß eine Weise ist, einen histogram zu vertreten. So, wenn wir n die Gesamtzahl von Beobachtungen und k sein lassen, die Gesamtzahl von Behältern sein, entspricht die histogram M die folgenden Bedingungen:

:

Kumulativer histogram

Ein kumulativer histogram ist kartografisch darzustellen, der die kumulative Zahl von Beobachtungen in allen Behältern bis zum angegebenen Behälter aufzählt. D. h. die kumulative histogram M einer histogram M wird als definiert:

:

Zahl von Behältern und Breite

Es gibt keine "beste" Zahl von Behältern, und verschiedene Behälter-Größen können verschiedene Eigenschaften der Daten offenbaren. Einige Theoretiker haben versucht, eine optimale Zahl von Behältern zu bestimmen, aber diese Methoden machen allgemein starke Annahmen über die Gestalt des Vertriebs. Abhängig vom wirklichen Datenvertrieb und den Absichten der Analyse können verschiedene Behälter-Breiten passend sein, so ist Experimentieren gewöhnlich erforderlich, um eine passende Breite zu bestimmen. Es, gibt jedoch, verschiedene nützliche Richtlinien und Faustregeln.

Die Zahl von Behältern k kann direkt zugeteilt werden oder kann von einer angedeuteten Behälter-Breite h als berechnet werden:

:

Die geschweiften Klammern zeigen die Decke-Funktion an.

Die Formel von Sturges

Die Formel von Sturges wird aus einem binomischen Vertrieb abgeleitet und nimmt implizit eine ungefähr Normalverteilung an.

:

Es stützt implizit die Behälter-Größen auf der Reihe der Daten und kann schlecht leisten, wenn n eine Modifizierung der Formel von Sturges ist, die versucht, seine Leistung mit nichtnormalen Daten zu verbessern.

:

wo des geschätzten kurtosis des Vertriebs zu sein.

Die normale Bezugsregierung von Scott:

:

wo die Beispielstandardabweichung ist. Die normale Bezugsregierung von Scott ist für zufällige Proben von normalerweise verteilten Daten im Sinn optimal, dass sie den einheitlichen karierten Mittelfehler der Dichte-Schätzung minimiert.

Quadratwurzel-Wahl:

:

der die Quadratwurzel der Zahl von Datenpunkten in der Probe nimmt (verwendet dadurch, Übertreffen histograms und viele andere).

Wahl des Freigelassenen-Diaconis'

Die Regierung des Freigelassenen-Diaconis ist:

:

der auf der Interquartile-Reihe basiert, die durch IQR angezeigt ist. Es ersetzt 3.5σ der Regierung von Scott mit 2 IQR, die weniger empfindlich ist als die Standardabweichung zu outliers in Daten.

Wahl hat auf der Minimierung einer geschätzten L-Risikofunktion gestützt:

:

wo und bösartige und voreingenommene Abweichung eines histogram mit der Behälter-Breite sind, und.

Siehe auch

  • Daten binning
  • Regierung des Freigelassenen-Diaconis
  • Image histogram
  • Dichte-Bewertung
  • Kerndichte-Bewertung, eine glattere, aber kompliziertere Methode der Dichte-Bewertung
  • Karte von Pareto
  • Sieben grundlegende Werkzeuge der Qualität

Weiterführende Literatur

  • Lancaster, H.O. Eine Einführung in die Medizinische Statistik. John Wiley and Sons. 1974. Internationale Standardbuchnummer 0-471-51250-8

Links


Hitler (Begriffserklärung) / Menschliche Anatomie
Impressum & Datenschutz