Diagrama de caixa: diferenças entre revisões
nome alternativo: diagrama de extremos e quartis, de acordo com o programa de matemática português |
Correção gramatical. "estremos" --> "extremos". |
||
Linha 1: | Linha 1: | ||
Em [[estatística descritiva]], '''diagrama de caixa''', '''diagrama de |
Em [[estatística descritiva]], '''diagrama de caixa''', '''diagrama de extremos e quartis,''' '''''boxplot''''', ou ainda '''''box plot''''', é um gráfico no qual o:<ref name="itl.nist.gov">[http://www.itl.nist.gov/div898/handbook/eda/section3/boxplot.htm / National Institute of Standards and Technology "1.3.3.7 Box Plot "], e-book web</ref> |
||
* eixo vertical representa a variável a ser analisada; |
* eixo vertical representa a variável a ser analisada; |
||
* eixo horizontal um fator de interesse. |
* eixo horizontal um fator de interesse. |
Revisão das 20h16min de 16 de abril de 2015
Em estatística descritiva, diagrama de caixa, diagrama de extremos e quartis, boxplot, ou ainda box plot, é um gráfico no qual o:[1]
- eixo vertical representa a variável a ser analisada;
- eixo horizontal um fator de interesse.
O diagrama de caixa é uma ferramenta para localizar e analisar a variação de uma variável dentre diferentes grupos de dados.
O diagrama de caixa procura obter as seguintes informações:
- Calcular a mediana e os quartis ( o quartil inferior contém 25% ( 1/4) das menores medidas e o quartil superior contém 75 ( 3/4) de todas as medidas);
- Plotar um símbolo onde se localiza a mediana e uma caixa, daí o nome de diagrama de caixas, onde a base representa o quartil inferior ( 25% ou 1/4) dos menores valores), e o topo da caixa o quartil superior (75% ou 3/4) dos valores observados. A caixa portanto representa 50% de todos os os valores observados ,concentrados na tendência central dos valores, eliminando os 25% menores valores e 25% maiores valores ( 75% - 25% = 50%);
- Um segmento de reta vertical conecta o topo da caixa ao maior valor observado e outro segmento conecta a base da caixa ao menor valor observado, este segmento denomina-se Whisker, ou fio de bigode.
Em resumo, o diagrama de caixa identifica onde estão localizados 50% dos valores mais prováveis, a mediana e os valores extremos.
Mediana
Após a ordenação dos valores a Mediana é o valor que divide a metade inferior da metade superior da amostra.
Exemplo: Do conjunto {-2,1,2,3,4,5,6}, o quarto elemento {3} divide o subjconjunto dos maiores valores dos menores.
Caso o número de valores seja par, a mediana será a média aritmética simples entre os dois valores centrais,
Exemplo: Do conjunto {1,1,2,3,4,5,5,6} , os valores centrais são {3} e {4} , logo a mediana é (3+4)/2), ou {3,5}
O Diagrama de Caixa é método robusto de estatística pois é menos influenciado pelos valores atípicos ou outliers.[2]
Exemplo: Do conjunto {1,1,2,3,4,5,10}, o último elemento {10} é um valor atípico, ou outlier, porém a mediana não é alterada, {3}.
Quartis e Região Interquartis
Para calcular a altura da caixa é necessário antes estimar o quartil inferior, onde estão localizados 1/4, ou 25%, dos menores valores, e o quartil superior, onde estão localizados 3/4 ou 75% dos maiores valores.
O quartil inferior é a mediana do conjunto que representa 50% dos menores valores,
- Exemplo: Do conjunto {-2,1,2,3,4,5,6}
O quartil inferior é o segundo elemento, {1} e o quartil superior é o sexto elemento {5}.
A distância interquartil, ou a altura da caixa é : altura = 5-1 = 4.
Estimativa do Whisker ou fio de bigode
Tanto a altura da caixa como o tamanho do Whisker fornecem informações sobre a dispersão dos dados.
Para estimativa do valor mínimo do whisker, toma-se o maior valor entre
(a) o menor valor das medidas.
(b) o valor quartil inferior -1.5 x altura da caixa.
- Exemplo: Do conjunto {-2,1,2,3,4,5,6}.
(a)menor valor = -2.
(b)quartil inferior igual a 1 e 1,5 x altura = 1,5*4 = 6, logo a estimativa será de 1-6 = -5
Entre os valores {-2} e {-5}, o maior valor é {-2}, logo este será o whisker inferior.
Para a estimativa do valor máximo do whisker, toma-se o menor valor entre
(a) o maior valor das medidas
(b) o valor do quartil superior mais 1,5 x altura
- Exemplo , do mesmo conjunto,
(a) maior valor = 6.
(b) quartil superior igual a 5 e 1,5 x altura = 6, logo a estimativa é : 11.
Entre os valores {6} e {11}, o menor valor é igual a 6, logo o whisker superior é 6.
Outliers ou valores atípicos
Diagrama de caixa é uma ferramenta para detecção de outiliers, ou dados muito diferente do conjunto capaz de levar o pesquisador a cogitar em sua eliminação.
- Exemplo: Do conjunto {-1,0,1,2,3,4,5,6,12}.
O último elemento {12}, parece ser um valor muito diferente dos demais valores. O gráfico ao lado mostra como identificar um outlier. A identificação de outliers é o primeiro passo utilizado em análise de dados multivariados.
Comparando diferentes conjuntos
Com Diagrama de Caixa é possível visualizar se em conjuntos de dados existe ou não equivalência. Os mesmos exemplos mostrados no gráfico 1, mostram que de fato não se trata de um único conjunto, porém de dois sistemas distintos. A evidência fica em realce caso os dados experimentais sejam plotados , em dot plot ou gráficos de pontos, em conjunto com os diagramas de caixa.
Referências
- ↑ / National Institute of Standards and Technology "1.3.3.7 Box Plot ", e-book web
- ↑ BRAGA, L. P. V. Compreendendo Probabilidade e Estatística, pg. 98. E-PAPERS, ISBN 9788576502821.