Diagrama de caixa

Origem: Wikipédia, a enciclopédia livre.
Ir para: navegação, pesquisa
Figura 1. Elements of a boxplot pt

Em estatística descritivadiagrama de caixadiagrama de extremos e quartis, boxplot ou box plot é uma ferramenta gráfica para representar a variação de dados observados de uma variável numérica por meio de quartis (veja Figura 1, onde o eixo horizontal representa a variável). O boxplot tem uma reta (whisker ou fio de bigode) que estende–se verticalmente ou horizontalmente a partir da caixa, indicando a variabilidade fora do quartil superior e do quartil inferior.[1] Os valores atípicos ou outliers (valores discrepantes) podem ser plotados como pontos individuais.[2] O boxplot não é paramétrico, apresentando a variação em amostras de uma população estatística sem fazer qualquer suposição da distribuição estatística subjacente.[3] Os espaços entre as diferentes partes da caixa indicam o grau de dispersão, a obliquidade nos dados e os outliers.[4] O boxplot também permite estimar visualmente vários estimadores como amplitude interquartil, midhinge, range, mid-range, e trimean.[5] Em resumo, o boxplot identifica onde estão localizados 50% dos valores mais prováveis, a mediana e os valores extremos.[6] Essa ferramenta é usada frequentemente para analisar e comparar a variação de uma variável entre diferentes grupos de dados. Veja como exemplo a Figura 2 onde o eixo vertical representa a variável e o eixo horizontal representa o fator de interesse.[6]

Figura 2.Boxplot dos dados do experimento de Michelson–Morley.

História[editar | editar código-fonte]

Na história da civilização, as imagens sempre foram fundamentais para contar histórias e compartilhar ideias. Na matemática, os primeiros casos de uso de imagem para representar números datam de antes de 300 AC na Grécia Antiga. Mais tarde, os matemáticos desenvolveram o uso de gráficos para ajudar em cálculos mais complexos. Depois de mais de 100 anos desde A Geometria, publicado por René Descartes em 1637, em que o filósofo e matemático francês introduziu o sistema de coordenadas cartesianas, cientistas e matemáticos passaram a usar gráficos para informar e educar com a criação de diferentes tipos de gráficos (gráfico de linha, gráfico de barras e gráfico de pizza) e infográficos. Um dos primeiros registros de uso de gráficos na educação vem do matemático Joseph Priestley (1733 – 1804), que usou gráficos semelhantes ao diagrama de Gantt para ajudar a lecionar história na Warrington Academy. Enquanto que um dos primeiros registros de uso de gráficos na informação vem da enfermeira Florence Nightingale (1820 – 1910), que utilizou gráficos polares para mostrar o número de mortes dentro do exercito britânico.[7]

No decorrer do século XX, a visualização de dados aprimorou–se, sobretudo com a revolução digital que permitiu levar informações gráficas para um público cada vez maior. Em 1969, o matemático John W. Tukey (1915 –2000) popularizou o boxplot.[8] Tukey é pioneiro no processo de análise exploratória de dados, tendo desenvolvido várias técnicas para melhorar a visbilidade e a compreensão dos dados, incluindo o diagrama ramo e folha, o five number summary e o próprio boxplot.[9] Entretanto, embora a criação do boxplot seja atribuída à Tukey, o manual gráfico do pacote estatístico Stata sugere que o boxplot tenha sido usado pelo menos desde o trabalho The Analysis of Rainfall Probability: A Graphical Method and its Application to European Data, publicado por P. R. Crowe em 1933.[10] Utilizado em várias ciências quantitativas, o boxplot pode ser considerado um gráfico estatístico padrão, aparecendo em grande parte dos textos estatísticos introdutórios. Os boxplots tinham vários precursores sob diferentes nomes como o gráfico rangebars e os diagramas de dispersão na geografia e na climatologia.[8]

Construção de um boxplot[editar | editar código-fonte]

Figura 1. Boxplot com fio de bigodes do mínimo ao máximo.

A construção do diagrama inclui os seguintes procedimentos (representando os valores de variável no eixo vertical como nas figuras 2 e 3 por exemplo):

  • Calcular a mediana e os quartis (o quartil inferior, primeiro quartil , corresponde a 25% das menores medidas e o quartil superior, terceiro quartil , corresponde a 75% das menores medidas). Por exemplo, em , a mediana é elemento , o quartil inferior é o segundo elemento e o quartil superior é o sexto elemento .
  • Plotar um gráfico, no qual localiza–se a mediana em uma caixa (a base da caixa representa o quartil inferior e o topo da caixa representa o quartil superior lembrando que a variação de variável corresponde a eixo vertical). Portanto, a caixa representa 50% de todos os valores observados, concentrados na tendência central dos valores, eliminando 25% dos menores valores e 25% dos maiores valores (75% - 25% = 50%). A altura da caixa é amplitude interquartil . No exemplo anterior a amplitude interquartil (distância entre os quartis) que determina a altura da caixa é .[6]
  • Traçar os fios de bigodes ou whisker (os segmentos de reta vertical). Os limites dos fio de bigodes podem representar vários valores alternativos:
    1. O mínimo e o máximo de todos os dados (Figura 3);[12] observe que neste caso pela definição não há valores discrepantes. Os fios de bigodes neste caso são: um segmento de reta vertical que liga o topo da caixa ao maior valor observado e outro segmento de reta que liga a base da caixa ao menor valor observado.
    2. Os limites de fio de bigode é comumente definidos através de limite inferior () e limite superior () de acordo com as seguintes representações matemáticas: e , em que é a amplitude interquartil e é uma constante que pertence aos números reais e pode assumir qualquer valor.[13] Geralmente utiliza–se , porque o valor é capaz de captar mais de 99% dos dados embaixo da curva normal para acima e para abaixo do limites superior e do limite inferior.[14] Assim, os limites de fio de bigode são o valor mais baixo dentro da amplitude interquartil de 1,5 do menor quartil (ou valor mais baixo dentro de valores maiores de que ) o ponto mais alto dentro da amplitude interquartil de 1,5 do maior quartil (ou valor mais alto dentro de valores menores de que ). Qualquer dado não incluso entre os fio de bigodes deve ser plotado como um outlier com um ponto. Embora pouco usual, um outlier também pode ser representado como um círculo pequeno ou uma estrela (alguns diagramas de caixa também incluem outro caractere para representar a média dos dados).[15] A identificação de outliers é um dos primeiros passos para análise de dados multivariados.[16] Por exemplo, em , o último elemento é um outlier. Geralmente, esses tipos de boxplot são chamados de boxplot de Tukey (Figura 4).[15][17] Por exemplo, seja o conjunto de dados , em que a amplitude interquartil é igual a 4. O primeiro quartil ou quartil inferior é . Então, o limite inferior é . Entre e , o maior valor é . Portanto, o fio de bigode inferior é . O terceiro quartil ou quartil superior é . Então, o limite superior é . Entre e , o menor valor é . Portanto, o fio de bigode superior é .[13] Não tem valores discrepantes.
    3. O desvio padrão acima e abaixo da média dos dados (fazer figura 3, na sequência das figuras 1 e 2).[18]
Figura 2. O mesmo boxplot com fio de bigodes com máximo .
Boxplot, indicando a mediana, os quartis e os fio de bigodes.
Figura 4. Boxplot e função densidade de probabilidade de uma população normal .

O boxplot é uma forma rápida de examinar um ou mais conjuntos de dados graficamente. Embora pareça mais primitivo que o histograma ou a estimativa de densidade kernel, o boxplot apresenta vantagens sobre esses por prover mais dados além da mediana e/ou a média.[19] A escolha do número e da largura das barras pode influenciar muito na aparência do histograma[20] e da estimativa de densidade kernel,[21] o que não acontece com o boxplot. De fato, a largura do boxplot pode até ser usada como uma medida de informação dos dados, representando em alguma proporção o tamanho do conjunto de dados.[22] Uma comparação (Figura 4) entre o boxplot e uma função densidade de probabilidade (histograma teórico) mostra explicitamente a quantidade de informações que essa ferramenta possui.

Exemplos práticos[editar | editar código-fonte]

Aquecimento Global[editar | editar código-fonte]

A temperatura da atmosfera do planeta Terra tem sido explorada por pesquisadores com finalidade para evidenciar uma alteração climática que pode alterar as atuais condições de vida global. Nesse sentido, a estatística promove a modelagem dos dados coletados pelos pesquisadores e, uma das amostras que aumentam a temperatura da Terra são os gases como (dióxido de carbono) [23].

Uma pesquisa demonstra através de diagramas de caixa (box plot) os veículos leves (carros) como fonte . Na pesquisa, a amostra compara três combustíveis (gassol 22, AEHC e GNV) com a finalidade de entender qual combustível eaior quantidade de . Ou seja, qual o combustível que mais alimenta o aquecimento global.[24]

Diagrama de caixa - Poluentes.svg

Acima, ao observar o diagrama de caixa (box plot), se percebe o combustível GNV com 75% da emissão de abaixo dos 200 g/km. Isso mostra, em relação aos outros dois combustíveis (gassol 22 e AEHC) uma contribuição menor para o aumento de temperatura. A partir dessa informação, a ação para promover a redução do aquecimento global pode ser tomada como modificar a fórmula dos combustíveis gassol 22 e AEHC.[25]

População de municípios[editar | editar código-fonte]

O Instituto Brasileiro de Geografia e Estatística (IBGE), no ano de 2016 realizou uma pesquisa sobre a população dos municípios brasileiros. Através dessa pesquisa é possível construir um diagrama de caixa (box plot) como na imagem abaixo:[26][27]

Diagrama de caixa - População.svg

Este exemplo mostra como é importante um cuidado na análise de dados, pois outlier é considerado como um erro de arredondamento de dados ou erro de observação. No entanto, a quantidade da população de São Paulo é superior em relação as demais cidades brasileiras e isso não é um erro. Portanto, a análise sobre os dados analisados com outlier pode significar erro, mas não sempre.[27]

Figura 5. Quatro boxplots, com e sem entalhes e largura variável.

Variações[editar | editar código-fonte]

Inglês: Desde que o matemático John W. Tukey introduziu este tipo de representação visual de dados em 1969, variações do boxplot tradicional têm sido descritas. Duas das mais comuns são os boxplots com largura variável e os boxplots entalhados (figura 5).

Boxplot com largura variável[editar | editar código-fonte]

Inglês: Os boxplots com largura variável ilustram o tamanho de cada grupo, cujos dados estão sendo plotados tornando a largura da caixa proporcional ao tamanho do grupo. Uma convenção popular é tornar a largura da caixa proporcional à raiz quadrada do tamanho do grupo.[12]

Boxplot entalhado[editar | editar código-fonte]

Inglês: Os boxplots entalhados aplicam um entalhe ou um estreitamento da caixa em torno da mediana. Os diagramas de caixa entalhados são úteis para oferecer um guia aproximado para a significância da diferença entre medianas. Se o entalhe de duas caixa não se sobrepuserem, isto oferece evidência de uma diferença estatisticamente significante entre as medianas. A largura dos entalhes é proporcional à amplitude interquartil da amostra e inversamente proporcional à raiz quadrada do tamanho da amostra. Entretanto, há incerteza sobre o multiplicador mais apropriados (isto pode variar dependendo da similaridade das variâncias das amostras).[12]

Uma convenção é usar .[17]

Boxplot ajustado[editar | editar código-fonte]

Inglês: Os boxplots ajustados são destinados às distribuições distorcidas, baseando—se na estatística medcouple de distorção. Para um valor medcouple de MC, os comprimentos dos fio de bigodes superiores e inferiores são respectivamente definidos por:

[28]

Observa–se que para distribuições simétricas, o medcouple será 0. Isto reduz o bloxplot de Tukey como igual comprimento dos fio de bigodes, de amplitude interquartil de 1,5 para ambos os fio de bigodes.[28]

Figura 7. Os boxplots podem identificar diferenças entre grupos. Os dados de dois grupos distintos foram mesclados e os boxplots dos três conjuntos mostram como os dados pertencem a grupos distintos.

Comparação de diferentes conjuntos[editar | editar código-fonte]

Português: Com o boxplot, é possível visualizar se existe ou não existe equivalência em conjuntos de dados. A figura 7 mostra que de fato não se trata de um único conjunto, mas de dois grupos A e B distintos. Esta evidência é destacada caso os dados experimentais sejam plotados, em dot plot ou em gráficos de pontos, em conjunto com os diagramas de caixa.[29]

Por exemplo, ao analisar uma variável quantitativa como a renda (salário) de trabalhadores que pode ser expressa (plotada) em dot plot ou box plot, é notado um único gráfico. No entanto, trabalhadores são compostos por gêneros, sendo possível diferenciar entre dois grupos (gêneros) que são homem e mulher. Portanto, ao analisar o diagrama Renda de trabalhadores, se observa dois diagramas de caixa diferentes tratando a mesma variável quantitativa: renda.[30]

Box plot sobre os rendimentos-hora de homens e mulheres. As linhas tracejadas à esquerda representam o percentil 10 e as linhas tracejadas à direita representam o percentil 90. As barras brancas representam a mediana das observações e os x's brancos representam a média.

Leituras adicionais[editar | editar código-fonte]

  • BENJAMINI, Yoav. Opening the Box of a Boxplot. The American Statistician, v. 42, n. 4, p. 257-262, 1988.
  • ROUSSEEUW, Peter J.; RUTS, Ida; TUKEY, John W. The bagplot: a bivariate boxplot. The American Statistician, v. 53, n. 4, p. 382-387, 1999.
  • TUKEY, John W. Exploratory data analysis. 1977.

Ligações externas[editar | editar código-fonte]

Referências

  1. Ross, Sheldon (2004). Introduction to Probability and Statistics ofr Engineers and Scientists 3ª ed. [S.l.]: Elsevier. p. 27. 624 páginas 
  2. Mann, Prem S. (2010). Introductory Statistics 7ª ed. [S.l.]: Wiley. p. 115 — 117. 625 páginas 
  3. Navidi, William (2010). «1. Sampling and Descriptive Statistics». Statistics for Engineers and Scientists 3ª ed. [S.l.]: McGraw—Hill Science / Engineering / Math 
  4. The Open University (2013). «1.1.3 Comparing Data Sets Using Boxplots». Interpreting Data: Boxplots and Tables. [S.l.: s.n.] 
  5. Rubin, Allen (2013). Statistics for Evidence-Based Practice and Evaluation 3ª ed. [S.l.]: Cengage Learning. p. 67 — 68. 349 páginas 
  6. a b c Devore, Jay L. (2006). Estatística e Probabilidade para Engenharia e Ciências. [S.l.]: Cengage Learning. p. 35 — 38. 692 páginas 
  7. Redmond, Stephen. «7. Visualizing Data». Mastering QlikView. [S.l.: s.n.] 
  8. a b Cox, Nicholas J. (2009). «Speaking Stata: Creating and Varying Box Plots» (PDF). The Stata Journal. 9 (3): 478 – 496 
  9. Jacobs, Jay; Rudis, Bob (2014). Data–Driven Security: Analysis, Visualization and Dashboards. [S.l.]: Wiley. p. 18. 331 páginas 
  10. Dietz, Thomas; Kalof, Linda (2009). Introduction to Social Statistics: The Logic of Statistical Reasoning. [S.l.]: Wiley–Blackwell. p. 133. 568 páginas 
  11. Redmond, Stephen. «7. Visualizing Data». Mastering QlikView. [S.l.: s.n.] 
  12. a b c MCGILL, Robert; TUKEY, John W.; LARSEN, Wayne A. Variations of box plots. The American Statistician, v. 32, n. 1, p. 12-16, 1978.
  13. a b Lauretto, Marcelo de Souza. «Estatística descritiva básica: Medidas de dispersão» (PDF). Escola de Artes, Ciência e Humanidades - USP. p. 9. Consultado em 7 de fevereiro de 2017 
  14. Bussab, Wilton de O.; Morettin, Wilton de O. (2012). Estatística Básica. São Paulo: Saraiva. p. 50. 548 páginas 
  15. a b FRIGGE, Michael; HOAGLIN, David C.; IGLEWICZ, Boris. Some implementations of the boxplotThe American Statistician, v. 43, n. 1, p. 50-54, 1989.
  16. Ferreira, Márcia M. C. «Quimiometria» (PDF). Universidade Estadual de Campinas (UNICAMP). Consultado em 8 de junho de 2017 
  17. a b «Box Plot Statistics». Consultado em 8 de junho de 2017 
  18. «Display of Statistical Distribution». The College of Saint Benedict and Saint John's University. Consultado em 8 de junho de 2017 
  19. Robbins, Naomi (10 de janeiro de 2012). «Comparing Distributions with Box Plots». Forbes. Consultado em 14 de junho de 2017 
  20. «Histograms, seção Choosing the correct bin width». Laerd Statistics. Consultado em 14 de junho de 2017 
  21. Duong, Tarn (4 de maio de 2001). «An introduction to kernel density estimation» (PDF). Weatherburn Lecture Series para o departamento de Matemática e Estatística da University of Western Australia. Consultado em 14 de junho de 2017 
  22. Altman, Naomi; Krzywinski, Martin (30 de janeiro de 2014). «Points of Significance: Visualizing samples with box plots». Nature Methods. 11: 119-120. doi:10.1038/nmeth.2813. Consultado em 14 de junho de 2017 
  23. Borsari, Vanderlei (2009). [file:///C:/Users/Maria%20Jose/Downloads/VanderleiBorsari%20(1).pdf «Caracterização das emissões de gases do efeito estufa por veículos automotores leves do Estado de São Paulo»] Verifique valor |url= (ajuda) (PDF). p. 41 - 42. Consultado em 27 de agosto de 2017  Verifique data em: |acessodata= (ajuda)
  24. Borsari, Vanderlei (2009). [file:///C:/Users/Maria%20Jose/Downloads/VanderleiBorsari%20(1).pdf «Caracterização da emissão de gases de efeito estufa por veículos automotores leves no Estado de São Paulo»] Verifique valor |url= (ajuda) (PDF). p. 9. Consultado em 27 de junho de 2017 
  25. Borsari, Vanderlei (2009). [file:///C:/Users/Maria%20Jose/Downloads/VanderleiBorsari%20(1).pdf «Caracterização das emissões de gases de efeito estufa por veículos automotores leves no Estado de São Paulo»] Verifique valor |url= (ajuda) (PDF). p. 128. Consultado em 27 de junho de 2017 
  26. «ESTIMATIVAS DA POPULAÇÃO RESIDENTE NO BRASIL E UNIDADES DA FEDERAÇÃO COM DATA DE REFERÊNCIA EM 1º DE JULHO DE 2016» (PDF). IBGE. 14 de junho de 2017. p. 1. Consultado em 21 de junho de 2017 
  27. a b Bussab, Wilton de O.; Morettin, Pedro A. (2010). Estatística Básica. São Paulo: Saraiva. 49 páginas 
  28. a b HUBERT, Mia; VANDERVIEREN, Ellen. An adjusted boxplot for skewed distributions. Computational statistics & data analysis, v. 52, n. 12, p. 5186-5201, 2008.
  29. «How to Compare Data Sets». Stak Trek. Consultado em 14 de junho de 2017 
  30. Santos, Renato Vale; Ribeiro, Eduardo Pontual. «Diferenciais de Rendimentos entre Homens e Mulheres no Brasil revisitado: explorando o "Teto de Vidro"» (PDF). Centro de Economia Internacional. Consultado em 19 de junho de 2017