Box-Plot neboli Krabicový graf

Box-plot neboli Krabicový graf je jednou z grafických metod používaných ve statistice, která umožňuje posouzení dat pomocí kvartilů. A v tomto příspěvku bych chtěl pokud možno srozumitelně popsat, jak se sestrojí, co všechno nám o souboru dat řekne, a jak ho můžeme použít v praxi.

1. Pár slov ke kvantilovým charakteristikám

Než se začneme zabývat samotným Box-Plotem, je vhodné něco napsat o kvantilových charakteristikách, protože na těch je Box-Plot postaven.

Kvantily jsou hodnoty, které rozdělují uspořádaný soubor hodnot na určitý počet stejně obsazených částí. Obecně xp , kde „p“ je procentní kvantil.

Nejpoužívanější kvantily jsou kvartily. Jsou to hodnoty, které dělí soubor na čtyři části, z nichž každá obsahuje 25% jednotek, a značíme je následujícím způsobem:

                      x25 = dolní kvartil
                      x50 = druhý kvartil nazývaný též Medián a běžně se také značí jako x  s vlnovkou
                      x75 = horní kvartil

Ve statistických programech se tyto kvartily často označují jako Q25, Q50 a Q75 nebo Q1, Q2 a Q3.

Počítačové programy používají pro výpočet kvartilů vzorce. I bez vzorců však můžete poměrně snadno stanovit kvartily. Soubor hodnot seřadíme podle velikosti (od nejnižší po nejvyšší). Medián je prostřední hodnota seřazeného souboru hodnot. Pokud má soubor dat sudý počet hodnot, tak Medián je průměr dvou prostředních hodnot souboru. Pro hrubé určení prvního a třetího kvartil je potřeba najít hodnotu pořadí kvartilu. Označme ji zp a vypočteme ji následovně:
zp= (n*p/100) + 0,5
Kde:  „n“  je počet hodnot   a   „p“ procento označující kvartil.
 
 

Příklad:   V souboru 30 hodnot nalezněte x25.

Postup:  Nejprve určit  z25 = (30*25/100)+0,5 = 8.   Pak  x25 je v pořadí osmá hodnota seřazeného souboru hodnot.

2. Konstrukce Box-Plotu

Většina dnešních statistických programů umí pro zadaná data zpracovat Box-Plot. Nicméně nemusíte mít žádný speciální statistický program. Box-Plot lze sestrojit i v běžných tabulkových programech, které jsou součástí kancelářských balíků.

Pro sestrojení Box-Plotu je nutné určit a vypočítat následující charakteristiky a hodnoty:
Kvartily x25, x50, x75 a kvartilové rozpětí QR. A dále je nutné určit konce paprsků – označme je A a B.

Kvartily v tabulkový programech jako Excel nebo Tabulky Libre Office /Open Office najdete mezi funkcemi pod názvem Quartil nebo Quartile.

Kvartilové rozpětí QR vypočtete následovně:
QR = x75-x25.  
Toto rozpětí je potřebné pro určení koncových bodů paprsků grafu. Koncové body paprsků A a B se určí následovně:
A = x25 – 1,5*R;   B = x75 + 1,5*R

Nyní máme všechny potřebné hodnoty pro sestrojení Box-Plotu, který vypadá takto:

Box-Plot může být zobrazen v této vodorovné poloze nebo může být zobrazen i ve svislé poloze.

Nejnovější verze Excelu již má Box-Plot mezi standardními grafy. Ve starších verzích nebo v Tabulkách Open Office/ Libre Office  lze graf vytvořit úpravou skládaného sloupečkového grafu.

Na internetu je už poměrně hodně ukázkových videí, jak tento graf „sestrojit“, proto se nebudu zdržovat podrobným popisem jeho tvorby a spíše se dále zaměřím na využití Box-Plotu.

3. Využití Box-Plotu
Box-plot nám u souboru dat umožňuje:
a) identifikovat odlehlé hodnoty (outliers)
b) posoudit symetrie u konců rozdělení
c) porovnat rozptyl u dvou a více souborů hodnot a případně posoudit způsobilost procesů.
3.1 Identifikace odlehlých hodnot

Box-Plot je nástroj, který umožňuje v souboru hodnot identifikovat odlehlé hodnoty („outliers“), které při klasickém zpracování dat zkreslují výsledné statistické charakteristiky jako průměr, rozptyl, indexy způsobilosti…..

Ne vždycky jsou odlehlé hodnoty způsobeny nestabilitou procesu nebo jeho nízkou „způsobilostí“.  Někdy jsou pro „vznik“ těchto odlehlých hodnot objektivní technicko-technologické důvody. Např. pokud odléváte nějaké odlitky, které jsou následně 100% kontrolovány automatickou váhou se záznamem hodnot, tak se vám v souboru pravděpodobně objeví odlehlá hodnota. Poslední kus má extrémně odlišnou váhu, protože je nedolitý – prostě na něj nezbyl materiál.

Nebo někdy jsou to chyby způsobené lidským faktorem při zápisu hodnot. Např. operátor má každých 10 minut provést měření 5 ks a zaznamenat hodnoty do počítače. A pokud se při záznamu nechtěně upíše a místo rozměru 69,1 zapíše 96,1, máte odlehlou hodnotu, která může při zpracování dat ovlivnit výsledek.

Box-Plot nám právě umožňuje identifikovat odlehlé hodnoty, které jsou obvykle zobrazeny jako křížky nebo puntíky na vnější straně paprsků.

Poznámka: Pozor, na internetu, jsou taky návody na konstrukci Box-Plotu, kde ovšem pro velikost paprsků nepočítají A a B dle výše uvedeného způsobu, ale používají hodnoty Max a Min, což samozřejmě znemožňuje identifikovat odlehlé hodnoty.

3.2 Posouzení asymetrie

Pokud mají data dokonale Normální rozdělení, je mediánová čára uprostřed „krabice“ Box-Plotu. Pokud je čára blízko k jednomu z kvartilů x25 nebo x75, může to naznačovat, že data mohou mít i jiné rozdělení.

Mnohdy asymetrie souvisí s technologií výroby. Například u některých výrob lisováním, litím, apod. nelze dostat do formy víc materiálu (zbytek odpadne, odteče, odřeže se) nebo je to obtížnější. Pokud je kontrolovaným a hodnoceným parametrem hmotnost, muže Box-Plot vykazovat asymetrii, protože „lehčí“ výrobky mohou mít větší odchylku hmotnosti od Mediánu.  

3.3 Porovnávání rozptylů dvou a více souborů, posuzování způsobilostí procesů

Při zpracování souboru dat velmi často počítáme rozptyl. Většinou proto, abychom získali směrodatnou odchylku, kterou potřebujeme pro další výpočty.

Vypočtená hodnota rozptylu jako taková nám nic neřekne. Nelze říci, jestli hodnota rozptylu je už velká nebo ještě malá. Posuzovat rozptyl má smysl, když ho můžeme srovnávat s jiným rozptylem jiného souboru dat (samozřejmě pro stejný parametr měřený u srovnatelného procesu).

Takto pak můžeme porovnávat různé linky/stroje, kde se dělá stejný výrobek. Nebo můžeme porovnávat operátory, kteří dělají na jedné lince/stroji, ale na různých směnách. Pokud získaná data ze dvou linek/strojů zpracujeme pomocí Box-Plot grafů, poměrně snadno určíme, který soubor dat má větší rozptyl. Je to ten graf, který má „delší krabici“.

A tímto porovnáváním rozptylů dat různých souborů se dostáváme k tomu, že Box-Plot diagramy lze použít i pro vizuální posouzení způsobilosti procesů.

To, že lze Box-Plot použít pro posuzování způsobilosti procesu, vychází již z jeho konstrukce. Abych se vyhnul složitému vysvětlování, pomůžu si názorným obrázkem:

V obrázku je patrné, že u dat s Normálním rozdělením jsou koncové body paprsků A a B na úrovni ± 2,7 sigma. Při výpočtu asi nejběžnějšího indexu způsobilosti, kterým je Cpk, pracujeme s ± 3 sigma.  Z toho vyplývá, že Box-Plot může být alternativou pro posuzování způsobilosti procesu. Box-Plot sice nedává „číslo“ způsobilosti, ale způsobilost ukazuje graficky. Čím blíže je Mediánová čára v Box-Plotu požadované hodnotě tím lépe. Čím menší je vzdálenost mezi body A a B, tím menší rozptyl data mají (samozřejmě po vyloučení odlehlých hodnot).  

Příklad:  Na směnách provádíte kontrolu stanovených parametrů na výrobku a to tak, že každou půlhodinu pracovníci měří 5 ks a naměřené hodnoty zapisují do regulační karty. Na přelomu týdne/měsíce chcete na základě získaných údajů udělat porovnání směn. Prostě chcete prezentovat, jak se operátorům jednotlivých směn daří držet procesy pod kontrolou.

Na tabuli, kde máte vyvěšeny sloupečkové/koláčové  grafy s vyhodnocením vad a příčin těchto vad, můžete vyvěsit tabulku s hodnocením konkrétního parametru:

…. nebo umístit takovýto rozbor:

Prezentace výsledků prostřednictvím Box-Plotů může být pro zaměstnance mnohdy srozumitelnější, než nějaká vypočtená hodnota zvoleného indexu způsobilosti. 

Stroj nebo linka může být vybavena automatickým zkušebním zařízením, které provádí průběžné měření výrobků a průběžně zpracovává data. A přibývá zkušebních zařízení, které výsledky prezentují právě v podobě Box-Plotů a podle nich operátoři průběžně upravují parametry procesu.

Jako příklad z praxe vkládám snímek obrazovky z kontrolního zařízení, které prostřednictvím kamer průběžně vyhodnocuje některé parametry horkých – čerstvě vyfouknutých lahví.

 
 
Závěr:  

Box-Plot neboli Krabicový graf je jednoduchý a vizuálně velmi dobrý nástroj pro posouzení souboru dat a jejich prezentaci.  Právě díky jeho jednoduchosti a srozumitelnosti se často používá u automatických zkušebních a měřících zařízení, které umožňují průběžně sbírat a zároveň i vyhodnocovat údaje z procesů. 

Napsat komentář

Vaše emailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *