Histogram
Histogram je grafické znázornění četností pomocí sloupcového grafu u souboru hodnot rozděleného do tříd.
Pokud soubor hodnot rozdělíme do tříd a následně určíme četnosti v těchto třídách, můžeme tyto četnosti zobrazit graficky ve formě Histogramu. Histogram nám pak pomůže soubor hodnot posoudit například z hlediska:
- normality dat
- symetrie
- vícemodálnosti
- výskytu odlehlých hodnot.
Pro sestrojení Histogramu je nutné provést následující kroky:
1) V souboru hodnot nalézt xmax a xmin
2) Vypočítat variační rozpětí: V = xmax – xmin
3) Stanovit počet tříd. Je několik pravidel, podle kterých se stanoví počet tříd, například v závislost na velikosti souboru:
Pozn.: [ ] znamená „celá část“.
4) Vypočítat šířku třídy: h = V / k
6) Určit četnost pro jednotlivé třídy. Před stanovováním četností v rámci jednotlivých tříd je nutné určit, jak budou zařazovány hraniční hodnoty. Obvykle je to takto ( ; >
7) Sestrojit Histogram, kdy na ose x jsou zaneseny hranice tříd a na ose y četnosti z těchto tříd.
Ukázkový příklad
Měřením výšky 40 náhodně vybraných lahví, byly zjištěny následující hodnoty:
340,9 | 342 | 340,3 | 341,6 | 341,8 | 342,2 | 342 | 341,1 |
340,7 | 341,9 | 342,2 | 341,8 | 341,3 | 340,1 | 342,5 | 342 |
343,5 | 342,9 | 341,8 | 342,5 | 341,6 | 343,2 | 341,9 | 341,2 |
342,1 | 340,4 | 342,6 | 341,5 | 342,1 | 343 | 341,6 | 342,8 |
342,3 | 343 | 341,7 | 341,4 | 341,2 | 340,8 | 342,4 | 342 |
Výpočty:
ad 1) Xmin = 340,1 Xmax = 343,5
ad 2) V = 343,5 – 340,1 = 3,4
ad 3) K = [1 + 3,32 * log(40)] = 6
Pozn.: Vypočtená hodnota počtu tříd je doporučující. Pokud histogram nemá v oblasti vrcholu optimální tvar a má náznak hřebenu, je vhodné zkusit zvolit jiný počet tříd.
ad 4) h = 3,4 / 6 = 0,566 = cca 0,6
ad 5 a 6) Stanovené třídy a četnosti hodnot v jednotlivých třídách jsou:
Třída | Četnost fi |
(340,1; 340,7> | 3 |
(340,7; 341,3> | 6 |
(341,3; 341,9> | 10 |
(341,9; 342,5> | 12 |
(342,5; 343,1> | 7 |
(343,1; 343,7> | 2 |
ad 7) Sestrojený Histogram pro soubor hodnot z uvedeného příkladu má tvar:
Interpretace některých tvarů histogramů
Data mají normální rozdělení. Bylo by však vhodné zkusit rozdělení pro vyšší nebo naopak nižší počet tříd.
Mezi zpracovanými daty se s velkou pravděpodobností vyskytují odlehlé hodnoty.
Soubor dat nemá normální rozdělení.
Vícemodálnost – soubor dat vznikl pravděpodobně smícháním dvou souborů hodnot s různou střední hodnotou.
Závěr
Graf prezentovaný v této podobě
opravdu není Histogram.