Amplitude interquartil

Origem: Wikipédia, a enciclopédia livre.
Ir para: navegação, pesquisa

Intervalo interquartil (IIQ) foi desenvolvida na estatística para avaliar o grau de espalhamento (dispersão) de dados em torno da medida de centralidade. Para entender o comportamento dos dados (discretos ou contínuos) de uma forma mais fina, busca-se o estudo sobre a dispersão de dados através de ferramentas que complementam uma análise geral como desvio padrão e a variância.[1] Enquanto desvio padrão e variância calculam a medida de dispersão sem levar em conta a ordem dos dados, o intervalo intequartil avalia a dispersão de dados somente depois de ordena-los em ordem crescente.

Intervalo interquartil calcula-se baseando-se em calculo de quartis, os quais são primeiro quartil (inferior), quartil intermediário (mediana), terceiro quartil (superior) que estão ligados ao conceito de quantil. A diferença entre o quartil superior e o inferior determina a amplitude interquartil.[1]

História[editar | editar código-fonte]

Retrato de Karl Pearson

Os termos quartil inferior e quartil superior foram cunhados por Sir Donald MacAlister em 1879 com a publicação de The Law of the Geometric Mean.[2]

Os termos intervalo interdecil e intervalo interquartil foram cunhados por Francis Galton em 1882 com a publicação de Report of the Anthropometric Committee, embora a ideia de intervalo interquartil tenha aparecido anteriormente nos trabalhos de Carl Friedrich Gauss e Adolphe Quételet. Galton organizou as observações em ordem crescente de magnitude e tomou as frações necessárias de cada extremidade, utilizando a interpolação para obter os pontos de cortes exatos.[3] Galton reconheceu a maior estabilidade dos quantis mais centrais, e usou intervalos interquartis como estatísticas descritivas.

Baseando–se nas fórmulas para covariância entre quantis amostrais, Karl Pearson apontou que enquanto a amplitude semi-interquartílica tem a vantagem de estimar diretamente o erro provável, outros pares de quantis amostrais simetricamente espaçados podem fornecer estimadores mais eficientes da variabilidade no caso normal.[4]

Definição formal[editar | editar código-fonte]

A partir dos números reais os quais particionam em igual quantidade os dados amostrais e de forma ordenada, pode-se encontrar o intervalo interquartil quando se calcula previamente os quartis. Portanto, ao considerar um coletivo de dados e identificar a quantidade absoluta pode-se determinar as partições dos dados ordenados para os quartis. Ou seja,

[5]

[5]

[5]

Onde,

é o número de elementos.

e são os quartis.[6] Para , é possível usar o cálculo da mediana o qual devine a metade dos dados (50% dos dados). Quando determinado os quartis será possível construir a amplitude interquartil (AIQ). Ou seja,

[7]

O cálculo de , e é posicional e não define um valor numérico. Por exemplo, no intervalo existe a posição dos quartis os quais marcam a quantidade de dados ordenados em 25%, 50% e 75% e não diz que o resultado dos cálculos dos quartis são estritamente um número real .

Nos casos dos dados serem ímpar, o cálculo utilizado é o de incluir as medianas dos quartis. Por exemplo, um conjunto de dados em ordem crescente . A mediana de é 17. Incluindo o elemento 17 e observando para a esquerda do conjunto A obtém-se um novo conjunto com mediana 13. Incluindo a mediana 17 e olhando para a direita do conjunto obtém-se um novo conjunto com a mediana 20. Portando, , e . Os quartis são marcados dentro do conjunto posicionamento.


Na coleta de dados pode ocorrer erros de arrendamentos ou de observação e esses dados são considerados discrepantes dentro de uma mesma amostra e podem levar a erros nas análises sobre a distribuição dos dados. Portanto, estabelece-se o critério de limite inferior e superior nos quartis. E, os dados os quais estiverem além dos limites são considerados discrepantes e identifica-los obtém-se uma orientação mais precisa. Então,

Onde, e são respectivamente os limites inferior e superior. [8]Enquanto é uma constante a qual pertence aos números reais e pode assumir qualquer valor. No entanto, usualmente na literatura utiliza-se o valor , pois o valor de consegue para mais e para menos além dos limites superior e inferior captar mais de 99% dos dados embaixo de uma curva normal, mas não capta os 100% dos dados. Portanto, seguramente a definição pode ser utilizada para o cálculo dos limites superior e inferior como: [9]

Definição informal[editar | editar código-fonte]

Boxplot (with an interquartile range) and a probability density function (pdf) of a Normal Predefinição:Maths Population

Na estatística descritiva, o intervalo interquartil e no inglês Interquartile Range (IQR), também denominado média espalhada ou média de 50%, ou tecnicamente propagação de H, é uma medida de dispersão estatística, sendo igual à diferença entre os percentis 75 e 25, ou entre quartis superior e inferior, ou seja IQR = Q3 - Q1.[10][11] Em outras palavras, o intervalo interquartil (IQR) é o 1º quartil subtraído do 3º quartil. Esses quartis podem ser claramente vistos em um gráfico de barras nos dados. É um estimador aparado de fingindo o seu intervalo de 25%, e é a medida robusta básica mais significativa da escala.

O intervalo interquartil (IQR) é uma medida de variabilidade, baseada na divisão de um conjunto de dados em quartis. Os quartis dividem um conjunto de dados classificados em quatro partes iguais. Os valores que separam partes são chamados de primeiro, segundo e terceiro quartis os quais são indicados por Q1, Q2 e Q3, respectivamente.[12]

Diferentemente do intervalo total, o intervalo interquartil tem um ponto de ruptura de 25%, portanto, frequentemente preferida ao intervalo total.[13] O intervalo interquartil (IQR) é usado para construir gráficos de barras, representações gráficas simples de uma distribuição de probabilidade. Para uma distribuição simétrica (onde a mediana é igual ao midhinge, a média do primeiro e terceiro quartis), metade do IQR é igual ao desvio absoluto mediano (MAD). A medida correspondente de tendência central é a mediana. Também o interval interquartil (IQR) pode ser usado para identificar outliers (veja abaixo). E, a partir da metade intervalo interquartil (IQR) é o desvio do quartil ou intervalo semi-interquartil.[14]


Visualização do histograma de uma amostra de uma distribuição simétrica, e seu boxplot em função do desvio padrão. O intervalo interquartil é a região limitada pelas retas verde (Q1) e amarela (Q3); a reta vermelha representa a mediana do conjunto de dados. Abaixo do histograma está o boxplot da amostra; os x's magentas representam os valores aberrantes (outliers)
Visualização do histograma de uma amostra de uma distribuição assimétrica, e seu boxplot em função do desvio padrão. O intervalo interquartil é a região limitada pelas retas verde (Q1) e amarela (Q3); a reta vermelha representa a mediana do conjunto de dados. Abaixo do histograma está o boxplot da amostra; os x's magentas representam os valores aberrantes (outliers)

Amplitude semi-interquartílica[editar | editar código-fonte]

As medidas de tendências centrais realizam uma síntese dos dados para oferecer uma leitura rápida e a partir dos conceitos de média pode-se observar na amplitude interquartil uma medida central a qual chama-se Amplitude Semi-interquartílica ou Desvio Quartílico. Define-se uma amplitude semi-interquatílica como:

[15]

A amplitude interquartil, além de avaliar uma dispersão de dados, oferece uma medida de 50% dos dados. Ou seja, obter uma medida que marca a centralidade de 50% dos dados favorece uma nova leitura e comparações com as demais medidas centrais: moda, mediana e média.[16]

Box plot[editar | editar código-fonte]

Os dados da amplitude interquartil são úteis para a construção de um diagrama chamado de box plot. Isto é, os valores de e favorecem o desenvolvimento da figura abaixo.[17]

Elements of a boxplot pt

Na estatística, usualmente não há uma regra para a largura da caixa em azul. No entanto, com bom senso, se constrói uma caixa de largura adequada ao diagrama o qual, geralmente, é realizado na horizontal para facilitar a visualização, mas pode ser construído em qualquer direção. Com o auxílio de uma escala se marca a posição de e , os dados que estão além dos limites superior e inferior são marcados como pontos ou asterisco, como na figura acima. [18]

Os pontos vermelhos os quais na figura acima são chamados na estatística de outlier, evidenciam algum erro de observação ou de arredondamento de dados. No entanto, não é sempre que os pontos além dos limites superiores e inferiores são outliers. Existem casos que os dados outliers quando não são erros de observações ou arredondamentos são tratados como pontos exteriores ou discrepantes. Um exemplo sobre isso são os 15 municípios brasileiros mais populosos os quais ordenados levam os municípios São Paulo e Rio de Janeiro como pontos exteriores os quais necessariamente não são erros de observações ou arredondamento. [19]

Exemplos[editar | editar código-fonte]

Exemplo com o uso de mediana[editar | editar código-fonte]

Na seguinte série numérica a mediana é o número 10, pois ele é o número que está exatamente no meio da sequência de números apresentados. Em uma sequência com quantidade impar de números, a mediana sempre será o número que está no meio da sequência, independente de valor numérico.[20]

Em uma sequência com quantidade par de números, a mediana é a soma dos dois valores centrais dividido por 2, exemplo: , mediana

Amplitude interquartil é a diferença entre a mediana da segunda parte e a mediana da primeira parte.

Para a série:

Primeira parte:mediana da primeira parte é calculada como

Segunda parte: mediana da segunda parte é calculada como

Dessa forma, a amplitude interquartil é igual a

A partir de um conjunto de dados de uma tabela, como esta abaixo,

TabelaIQ1.png

Pode-se observar os dados e a variação interquartil é [21]

Para o calculo da amplitude semi-interquartílica temos [15]

Exemplo sobre o cuidado com a medida central[editar | editar código-fonte]

As medidas centrais oferecem um resumo de dados amostrais, mas não são suficientes para caracterizar uma avaliação sobre uma sequência numérica. No exemplo a seguir, expõe-se um contra-exemplo de como uma medida central não é suficiente. Ao considerar , e , como:[22]

Nos casos apresentados, todas as sequências possuem a média 11, mas visualmente são sequências entre si diferentes e a variabilidade de dados em não existe, mas a variabilidade de é maior do que . No entanto, os dados de se mostram mais distantes entre si do que os dados de e isso pode induzir ao erro de admitir que os dados de sejam mais dispersos. Por isso, o cálculo sobre os quartis e limites superior e inferior ajudam a evitar erros nas conlusões das análises.[22]

TabelaIQA - exc.pngTabelaIQB - exc.png

Para evidenciar a sequência númerica com maior variabilidade, uma comparação de distribuição de dados através da amplitude interquartil pode ser realizada. Após ordenar os dados tem-se para , e . Para , e . Logo,

Para , [7]

Para , [7]

Dessa forma a dispersão de é maior do que , logo . A amplitude interquartil não é suficiente para justificar o fato de possuir os dados entre si mais distantes do que . Para identificar a modelagem dos dados de e os cálculos de limite superior e inferior são utilizados. Ou seja,

para ,[8]

para ,[8]

Dessa forma, apenas possui dados discrepantes, reafirmando .

Boxplot dos conjuntos de dados A e B. O retângulo azul representa o intervalo interquartil, a linha vermelha a mediana, as hastes pretas representam os limites inferior e superior de cada conjunto e os asteriscos em rosa são os dados discrepantes.

A sínstese sobre a amplitude interquatil é obtida pelo cálculo da amplitude semi-interquartílica e então,

para ,

[15]

para ,

[15]

As conclusões para uma análise de dados amostrais são, as sequências não possui dispersão, se dispersa menos que a e vice-versa. 50% dos dados amostrais estão entre e e portanto a medida central de 50% dos dados, nesse exemplo, para , é e para , . A amplitude interquartílica demonstra a dispersão dos dados em torno da média de 50% dos dados. Ou seja, 50% dos dados amostrais estão no intervalo de, para : e : .[23]

Distribuição do intervalo interquartil[editar | editar código-fonte]

O intervalo interquartil de uma distribuição contínua e pode ser calculado integrando a função de densidade de probabilidade (que produz a função de distribuição cumulativa (FDC) o qual por outro método de calcular, também funcionará). O quartil inferior, Q1, é um número tal que a integral da função de distribuição cumulativa de -∞ a Q1 é igual a 0,25, enquanto que o quartil superior, Q3, é tal que a integral de -∞ a Q3 é igual a 0,75; Em termos da função de distribuição cumulativa, os quartis podem ser definidos da seguinte forma:

Onde a função de distribuição cumulativa (FDC)−1 is the quantile function.

O intervalo interquartil e a mediana de algumas distribuições comuns são mostradas a seguir.

Distribution Median IQR
Normal μ 2 Φ−1(0.75)σ ≈ 1.349σ ≈ (27/20)σ
Laplace μ 2b ln(2) ≈ 1.386b
Cauchy μ

Teste do intervalo interquartil para normalizar a distribuição[editar | editar código-fonte]

O intervalo interquartil, média e o desvio padrão de uma população P pode ser usado em um teste simples onde se quer ou não que P é uma distribuição normal. Se P é normalmente distribuído, então o desvio padrão do primeiro quartil, z1 é -0.67 e a desvio padrão do terceiro quartil, z3, é +0.67. Dado média = X e 'desvio padrão = σ para P e se P é uma distribuição normal, o primeiro quartil

e o terceiro quartil

Se os valores reais do primeiro ou terceiro quartil diferirem substancialmente dos valores calculados, P não é uma distribuição normal. No entanto, uma distribuição normal pode ser trivialmente perturbada para manter o seu Q1 e Q2. Pontuação em 0,67 e -0,67 e não ser distribuído normalmente (de modo que o teste acima produzia um falso positivo). Um melhor teste de normalidade, como o gráfico Q-Q seria indicado aqui.

Outras medidas de dispersão[editar | editar código-fonte]

Desvio padrão

Ver artigo principal: Desvio padrão

Em probabilidade, o desvio padrão ou desvio padrão populacional (comumente representado pela letra grega ) é uma medida de dispersão em torno da média populacional de uma variável aleatória. Já em estatística, o desvio padrão ou desvio padrão amostral (comumente representado pela letra latina ) é uma medida de dispersão dos dados em torno de média amostral. Um baixo desvio padrão indica que os pontos dos dados tendem a estar próximos da média ou do valor esperado.[24] Um alto desvio padrão indica que os pontos dos dados estão espalhados por uma ampla gama de valores. O desvio padrão populacional ou amostral é a raiz quadrada da variância populacional ou amostral correspondente, de modo a ser uma medida de dispersão que seja um número não negativo e que use a mesma unidade de medida dos dados fornecidos.[25][26][27]

Variância

Ver artigo principal: Variância

Na teoria da probabilidade e na estatística, a variância de uma variável aleatória ou processo estocástico é uma medida da sua dispersão estatística a qual indica "o quão longe" em geral os seus valores se encontram do valor esperado.[28]

Outras amplitudes[editar | editar código-fonte]

Amplitude do intervalo de classe[editar | editar código-fonte]

A amplitude do intervalo de classe é dada pela diferença entre o limite superior e inferior da mesma classe. Essa análise permite verificar se em uma distribuição de frequências as classes possuem a mesma amplitude para uma análise de valores equivalentes e evitar erros nos cálculos de quartis os quais se possuem erros, poderá gerar um grande desvio de interpretação.[29]

TabelaIQ - Amplitude de classe.png

Amplitude do intervalo de confiança[editar | editar código-fonte]

A amplitude do intervalo de confiança é definida pela diferença entre os extremos superiores e inferiores do próprio intervalo. Ou seja,

[30]

Esse intervalo depende da confiança , do desvio padrão e do tamanho da amostra . Também é comum na estatística a semi-amplitude, como erro envolvido na estimação. Ou seja,

[30]

Ligações externas[editar | editar código-fonte]

  • a b Pinheiro, João Ismael D.; Carvajal, Santiago R. Ramírez; Cunha, Sonia Baptista da; Gomes, Gastão Coelho (2012). Probabilidade e Estatística. São Paulo: CAMPUS. p. 90 
  • «Statistics How To». Consultado em 16 de fevereiro de 2017 
  • Striteska, H. (2006). «The History of Robust Estimation at the Turn of the 19th and 20th Century» (PDF). Proceedings of Contributed Papers: 27 – 30 
  • David, H. A. (1998). «Early Sample Measures of Variability». Statistical Science. 13 (4): 368 – 377 
  • a b c Pinheiro, João Ismael D.; Carvajal, Santiago S. Ramírez; Cunha, Sonia Baptista da; Gomes, Gastão Coelho (2012). Probabilidade e Estatística. São Paulo: CAMPUS. 247 páginas 
  • Silva, Ermes Medeiros da; Silva, Elio Medeiros da; Gonçalves, Valter; Murolo, Afrânio Carlos (1999). Estatística. São Paulo: Atlas. 89 páginas 
  • a b c Lauretto, Marcelo de Souza. «Estatística descritiva básica: Medidas de dispersão» (PDF). Escola de Artes, Ciência e Humanidades - USP. p. 6. Consultado em 7 de fevereiro de 2017 
  • a b c Lauretto, Marcelo de Souza. «Estatística descritiva básica: Medidas de dispersão» (PDF). Escola de Artes, Ciência e Humanidades - USP. p. 9. Consultado em 7 de fevereiro de 2017 
  • Bussab, Wilton de O.; Morettin, Wilton de O. (2012). Estatística Básica. São Paulo: Saraiva. 50 páginas 
  • Upton, Graham; Cook, Ian (1996). Statistics. United Kingdom: Oxford University Press. 55 páginas. ISBN 0-19-914391-9 
  • ZWILLINGER, DANIEL; KOKOSKA, STEPHEN (2000). CRC Standard Probability and Statistics Tables and Formulae. Washington, D.C: CHAPMAN & HALL/CRC. 18 páginas. ISBN 1-58488-059-7 
  • Bussab, Wilton de O.; Morettin, Pedro A. (2004). Estatística Básica. São Paulo: Saraiva. 42 páginas. ISBN 85-02-03497-9 
  • Rousseeuw, Peter J. (1992). «Explicit Scale Estimators with High Breakdown Point» (PDF). North-Holland. pp. 77 – 92. Consultado em 17 de janeiro de 2017 
  • Yule, G. Udny (1911). An Introduction to the Theory of Statistics. [S.l.]: Charles Griffin and Company. pp. 147 – 148 
  • a b c d Spiegel, Murray R. (2006). Estatística. São Paulo: Pearson. 115 páginas 
  • Spiegel, Murray R. (2006). Estatística. São Paulo: Pearson. 116 páginas 
  • Bussab, Wilton de O.; Morettin, Pedro A. (2012). Estatística Básica. São Paulo: Saraiva. 48 páginas 
  • Farias, Ana Maria Lima de. «O BOXPLOT» (PDF). UNIVERSIDADE FEDERAL FLUMINENSE. 1 páginas. Consultado em 8 de fevereiro de 2017 
  • Bussab, Wilton de O.; Morettin, Pedro A. (2012). Estatística Básica. São Paulo: Saraiva. 49 páginas 
  • Morettin, Pedro A.; Bussab, Wilton de O. Bussab (2004). Estatística Básica. São Paulo: Saraiva. 45 páginas. ISBN 85-02-03497-9 
  • Magalhães, Marcos Nascimento; Lima, Antonio Carlos Pedroso (2007). Noções de Probabilidade e Estatística. São Paulo: EdUSP. 31 páginas 
  • a b SIlva, Ermes Medeiros da (1999). Estatística. São Paulo: Atlas. 100 páginas 
  • Spiegel, Murray R. (2006). Estatística. São Paulo: Pearson. 116 páginas 
  • Bland, J. Martin; Altman, Douglas G. «Measurement Error» (PDF). BMJ. Consultado em 23 de janeiro de 2017 
  • Saporta, Gilbert (2006). Probabilités – Analyse des Données et Statistiques. Paris: Éditions Technip. p. 622. 25 páginas 
  • Saporta, Gilbert (2006). Probabilités – Analyse des Données et Statistiques,. Paris: Éditions Technip. p. 622. 119 páginas 
  • Saporta, Gilbert (2006). Probabilités – Analyse des Données et Statistiques. Paris: Éditions Technip. p. 622. 121 páginas 
  • RUNGER, George C.; MONTGOMERY, Douglas C. Applied Statistics and Probability for Engineers. 3rd ed. Mídia em CD: 2002.
  • Spiegel, Murray R. (2006). Estatística. São Paulo: Pearson. 41 páginas 
  • a b Magalhães, Marcos Nascimento (2007). Noções de Probabilidade e Estatística. São Paulo: EdUSP. 230 páginas