Moda (estatística)

Origem: Wikipédia, a enciclopédia livre.
Ir para: navegação, pesquisa

Em estatística descritiva, a moda é o valor que detém o maior número de observações, ou seja, o valor ou valores mais frequentes, ou ainda "o valor que ocorre com maior freqüência num conjunto de dados, isto é, o valor mais comum".[1]

O termo moda foi utilizado primeiramente em 1895 por Karl Pearson, sob influência do termo moda referindo-se ao uso popular com o significado de objeto que se está usando muito no tempo presente.[2]

A moda não é necessariamente única, ao contrário da média ou da mediana. É especialmente útil quando os valores ou observações não são numéricos, uma vez que a média e a mediana podem não ser bem definidas.[3]

  • Bimodal: possui dois valores modais.
  • Amodal: não possui moda.
  • Multimodal: possui mais do que dois valores modais.
EXEMPLOS:
A moda de {maçã, banana, laranja, laranja, laranja, pêssego} é laranja.
A série {1, 3, 5, 5, 6, 6} apresenta duas modas (BIMODAL): 5 e 6.
A série {1, 3, 2, 5, 8, 7, 9} não apresenta moda (AMODAL).
A série {1, 3, 5, 5, 6, 6, 7, 7} apresenta mais do que duas modas (MULTIMODAL): 5, 6 e 7
Para outros usos, ver Moda.

Intensificando a ideia, a moda é o valor que aparece mais frequentemente em um conjunto de dados. A moda de uma distribuição de probabilidade discreta é o valor x em que a sua função massa de probabilidade leva o seu valor máximo. Em outras palavras, é o valor que é mais provável de ser amostrada. A moda de uma distribuição de probabilidade contínua é o valor x em que sua função densidade de probabilidade tem o seu valor máximo, de modo que, informalmente falando, a moda está no auge.

Como a estatística média e mediana, a moda é uma forma de expressar, em um único número, informações importantes sobre uma variável aleatória ou de uma população. O valor numérico da moda é o mesmo que o da média e mediana de uma distribuição normal, e pode ser muito diferente em distribuição altamente enviesadas.

A moda não é necessariamente única, já que a função de massa de probabilidade ou função densidade de probabilidade pode ter o mesmo valor máximo em vários pontos x1, x2, etc. O caso mais extremo ocorre em distribuições uniformes, onde todos os valores ocorrem igualmente com frequência.

A definição acima nos diz que apenas máximas globais são modas. Ligeiramente confusa, quando uma função de densidade de probabilidade tem vários máximos locais, é comum referir-se a todos os máximos locais como modos de distribuição. Tal distribuição contínua é chamado multimodal (em oposição a unimodal).

Em distribuições unimodais simétricas, como a normal (ou gaussiana) distribuição (distribuição cuja a função densidade, quando representamos graficamente, dá a famosa "curva de sino", a média (definindo-se), mediana e moda coincidem. Para as amostras, sabe-se que elas são elaboradas a partir de uma distribuição simétrica, a média da amostra pode ser utilizada como uma estimativa da população moda.

Moda de uma amostra[editar | editar código-fonte]

A moda de uma amostra é o elemento que ocorre com mais frequência na coleção. Por exemplo, a moda da amostra [1, 3, 6, 6, 6, 6, 7, 7, 12, 12, 17] é 6. Dada a lista de dados [1, 1, 2, 4, 4] da moda não é único - o conjunto de dados pode ser dito para ser bimodal, enquanto que um conjunto de mais do que duas modas podem ser descritos como multimodal.

Para uma amostra de uma distribuição contínua, tal como [... 0.935, 1.211 ..., 2.430 ..., 3.668 ..., 3.874 ...], o conceito é inutilizável em sua forma bruta, uma vez que não há dois valores será exatamente o mesmo, de modo que cada valor irá ocorrer precisamente uma vez. De modo a estimar a moda, a prática usual é a discretizar os dados através da atribuição de valores de frequência para intervalos de igual distância, como para fazer um histograma , substituindo eficazmente os valores pelos valores médios dos intervalos são atribuídos. A moda é o valor em que o histograma atinge o seu pico. Para amostras pequenas ou médias o resultado deste procedimento é sensível à escolha de largura do intervalo, se escolhido muito estreita ou larga, normalmente se deve ter uma fracção considerável dos dados concentrados num número relativamente pequeno de intervalos (de 5 a 10 ), enquanto que a fracção dos dados que caem fora destes intervalos é também considerável. Uma abordagem alternativa é a estimativa densidade de grãos , a qual, essencialmente, borra amostras de ponto para produzir uma estimativa contínua da função densidade de probabilidade, que pode fornecer uma estimativa do modo.

A seguir MATLAB (ou Octave), exemplo de código calcula a moda de uma amostra:

X = sort(x);
indices   =  find(diff([X; realmax]) > 0); % os índices em que valores repetidos mudança
[modeL,i] =  max (diff([0; indices]));     % maior comprimento persistência de valores repetidos
mode      =  X(indices(i));

O algoritmo implica, como primeiro passo para classificar a amostra em ordem ascendente. Em seguida, ele calcula a derivada discreta da lista ordenada, e encontra os índices de onde esta derivada é positiva. Em seguida, ele calcula a derivada discreta deste conjunto de índices, localizando o máximo desta derivada de índices, e, finalmente, avalia a amostra classificada no ponto em que ocorre esse máximo, o que corresponde ao último membro do estiramento de valores repetidos.

Comparação da média, mediana e moda[editar | editar código-fonte]

Veja também: média e mediana
Comparação das médias de valor comum { 1, 2, 2, 3, 4, 7, 9 }
Tipo Descrição Exemplo Resultado
Média Aritmética Soma dos valores de um conjunto de dados dividido pelo número de valores:: \scriptstyle\bar{x} = \frac{1}{n}\sum_{i=1}^n x_i (1+2+2+3+4+7+9) / 7 4
Mediana Valor médio que separa os maiores e menores metades de um conjunto de dados 1, 2, 2, 3, 4, 7, 9 3
Moda Mais freqüente valor em um conjunto de dados 1, 2, 2, 3, 4, 7, 9 2

Uso[editar | editar código-fonte]

Ao contrário de média e mediana, o conceito de moda também faz sentido para "dados nominais" (i.e., não consistindo valores numéricos no caso de média ou mesmo de valores ordenados, no caso do rendimento médio). Por exemplo, tomando uma amostra de nomes de uma família coreana, pode-se achar que "Kim" ocorre com mais frequência do que qualquer outro nome. Então, "Kim" seria a moda da amostra. Em qualquer sistema de votação em que uma pluralidade determina vitória, um valor único modal determina o vencedor, enquanto um resultado multi-modal exigiria algum procedimento de desempate ocorra. Ao contrário de mediana, o conceito de média faz sentido para qualquer variável aleatória assumindo valores de um espaço vetorial, incluindo os números reais (um unidimensional espaço vetorial) e os números inteiros (que podem ser considerados embutidos nas reais). Por exemplo, uma distribuição de pontos no plano terão tipicamente uma média e uma moda, mas o conceito de mediana, não se aplica. A mediana faz sentido quando há uma ordem linear dos valores possíveis. Generalizações do conceito de mediana para espaços de dimensões superiores são a média geométrica e o ponto central.

Singularidade e Definições[editar | editar código-fonte]

Para o restante, a suposição é que nós temos (uma amostra de) uma variável aleatória real.

Para algumas distribuições de probabilidades, o valor esperado pode ser infinito ou indefinido, mas se definido, ele é único. A média de uma (finita) amostra é sempre definida. A mediana é o valor de ,tal modo que, as frações que não excedam-o e não caem abaixo são ambos pelo menos 1/2. Não é necessariamente o único, mas nunca totalmente infinito ou indefinido. Para uma amostra de dados é o valor "no meio do caminho", quando a lista de valores é ordenada no aumento de valor, onde geralmente para uma lista de mesmo comprimento é tomada a média numérica dos dois valores mais próximos a "meio caminho". Por fim, como referido antes, a moda não é necessariamente única. Certas distribuições patológicas (por exemplo, a distribuição de Cantor) não têm a moda definido em tudo. Para uma amostra de dados finito, a moda é um (ou mais) dos valores da amostra.

Propriedades[editar | editar código-fonte]

Assumindo propriedades, e pela simplicidade, singularidade, a seguir estão algumas das propriedades mais interessantes.

  • Todas as três medidas têm a seguinte propriedade: Se a variável aleatória (ou cada valor da amostra) é submetido à linear ou transformação afim que substitui X por ax + b, então são a média, mediana e moda.
  • No entanto, se houver uma transformação monótona arbitrária, apenas a mediana segue, por exemplo, se X é substituído por exp (X), as alterações médias de m para exp (m), mas a moda significativo e não irá.
  • A mediana é também muito forte na presença de valores extremos, enquanto que a média é muito sensível.
  • Em distribuições unimodais contínuas, a mediana se encontra, como uma regra do polegar, entre a média e a moda, cerca de um terço do caminho que vai de modo significativo a. Em uma fórmula, (Modo 2 × média +) médio ≈ / 3. Esta regra, devido à Karl Pearson, aplica-se frequentemente e ligeiramente a distribuições não simétricas que se assemelham a uma distribuição normal, mas não é sempre verdadeira e, em geral, as três estatísticas podem aparecer em qualquer ordem. [4] [5]
  • Para distribuições unimodais, a moda está dentro \sqrt{3} desvios padrão da média, e o desvio quadrático médio sobre a moda é entre o desvio padrão e duas vezes o desvio padrão.[6]

Exemplo para uma distribuição assimétrica[editar | editar código-fonte]

Um exemplo de uma enviesada distribuição é a riqueza pessoal : Poucas pessoas são muito ricos, mas entre aqueles que alguns são extremamente ricos. No entanto, muitos são bastante pobres.

[[Image:Comparação da média, mediana e moda de duas distribuições log-normais com diferentes assimetrias.]]

Uma classe bem conhecida de distribuição que podem ser arbitrariamente distorcida é dada pela distribuição log-normal. Ela é obtida através da transformação de uma variável aleatória X tendo uma distribuição normal em variável aleatória Y = eX. Em seguida, o logaritmo da variável aleatória Y é normalmente distribuída, daí o nome.

Tomando a média μ de X ser 0, a mediana de Y será um, independente do desvio padrão σ de X. Isto é assim porque X tem uma distribuição simétrica, pelo que a sua média é também 0. A transformação de X para Y é monótona, e assim encontramos a mediana e0 = 1 para Y.

Quando X tem desvio padrão σ = 0,25, a distribuição de Y é fracamente enviesada. Usando fórmulas para a distribuições log-normais , encontramos:

\begin{array}{rlll}
\text{média}   & = e^{\mu + \sigma^2 / 2} & = e^{0 + 0.25^2 / 2} & \approx 1.032 \\
\text{moda}   & = e^{\mu - \sigma^2}     & = e^{0 - 0.25^2}     & \approx 0.939 \\
\text{mediana} & = e^\mu                  & = e^0                & = 1
\end{array}

De fato, a mdiana é de cerca de um terço no caminho da média para o modo.

Quando X tem um elevado desvio padrão, σ = 1, a distribuição de Y é fortemente distorcida. Agora

\begin{array}{rlll}
\text{média}   & = e^{\mu + \sigma^2 / 2} & = e^{0 + 1^2 / 2} & \approx 1.649 \\
\text{moda}   & = e^{\mu - \sigma^2}     & = e^{0 - 1^2}     & \approx 0.368 \\
\text{mediana} & = e^\mu                  & = e^0             & = 1
\end{array}

Aqui, regra de ouro de Pearson falha.

Condição de Van Zwet[editar | editar código-fonte]

Derivada de Van Zwet é uma desigualdade que fornece condições suficientes para essa desigualdade de segurar.[7] A desigualdade

Moda ≤ Mediana ≤ Média

tem se que

F( Mediana - x ) + F( Mediana + x ) ≥ 1

para todos os x onde F() é a função de distribuição cumulativa da distribuição.

Distribuições Unimodais[editar | editar código-fonte]

A diferença entre a média e a moda da distribuição contínua unimodal é limitada pelo desvio padrão multiplicado pela raiz quadrada de três.[8] Em símbolos

\frac{| \text{média} - \text{moda} |}{\text{desvio padrão}} \leq \sqrt{3}

Onde | | é o valor absoluto. Aliás, esta fórmula é também o modo de Pearson ou primeiro coeficiente de assimetria.[9]

A diferença entre a moda e a mediana tem o mesmo limite.[8] Em símbolos

\frac{| \text{mediana} - \text{moda} |}{\text{desvio padrão}} \leq \sqrt{3}

Intervalo de confiança para o modo com um único ponto de dados[editar | editar código-fonte]

É uma crença comum, mas falso que a partir de uma única observação x, não podemos obter informações sobre a variabilidade na população e que, consequentemente, que os intervalos de confiança comprimento finito para média e / ou variância são impossível, mesmo em princípio.

É possível para uma distribuição unimodal desconhecido para estimar um intervalo de confiança para o modo com um tamanho de amostra de 1.[10] Isto foi mostrado pela primeira vez pelo Abade e Rosenblatt [11] e prorrogada por Blachman e Machol.[12] Este intervalo de confiança pode ser aguçado quando a distribuição pode ser assumido como sendo simétrico. É ainda possível afinar este intervalo se a distribuição é normalmente distribuído.

Deixe o intervalo de confiança de ser 1 - α. Em seguida, os intervalos de confiança para os variates gerais, simétricas e normalmente distribuído, respectivamente, são

 X \pm ( \frac{ 2 }{ \alpha } - 1 ) | X - \theta |
 X \pm ( \frac{ 1 }{ \alpha } - 1 ) | X - \theta |
 X \pm ( \frac{ 0.484 }{ \alpha } - 1 ) | X - \theta |

onde X é a variável aleatória, θ é o modo e | | é o valor absoluto.

Estas estimativas são conservadoras. Os intervalos de confiança para o modo no nível de 90% dada por estes estimadores são X ± 19 | X - θ |, X ± 9 | X - θ | X e ± 5.84 | X - θ | para o geral, simétrica e normalmente distribuído variates respectivamente. O intervalo de confiança de 95% para uma variável com distribuição normal é dada por X ± 10,7 | X - θ |. Pode ser interessante notar que a média eo modo coincidir se os variates são normalmente distribuídos.

Os 95% com destino a uma variável normalmente distribuída foi melhorado e agora é conhecido por ser X ± 9,68 | X - θ |[13] O limite para um intervalo de confiança de 99% é X ± 48,39 | X - θ '|

Nota

Machol mostrou que, dada uma densidade conhecida simétrica sobre 0 que, dado um único valor da amostra (x) que os intervalos de confiança de 90% da média da população são[14]

 x \pm 5 | x - \nu |

onde ν é a mediana da população.

Se a forma exata da distribuição não é conhecida, mas é conhecido por ser simétrico em torno de zero, então temos

 P( X - k | X - a | \le \mu \le X + k | X - a |) \ge 1 - \frac{ 1 }{ 1 + k }

onde X é a variável aleatória, μ é a média da população e a e k são números reais arbitrários.

Também é possível calcular o intervalo de confiança para o desvio padrão de uma única observação, se a distribuição é simétrica em relação a 0.[15] Para uma distribuição normal com uma variação desconhecida e um único ponto de dados (X) a 90%, 95 intervalos de confiança% e 99% para o desvio padrão de [0, 8 | X |], [0, 17 | X |] e [0, 70 | X |]. Estes intervalos podem ser curto se o meio é conhecido por ser delimitada por um múltiplo do desvio padrão.

Se a distribuição é conhecido por ser o normal, então é possível calcular o intervalo de confiança tanto a média e variância de um valor simples.[16] Os intervalos de confiança de 90% são

 X - 23.3 | X | \le \mu \le  X + 23.3 | X |
 \sigma \le 10 | X |

Os intervalos de confiança podem ser estimados para todo o intervalo escolhido.

Este método não é limitado para a distribuição normal, mas pode ser usado com qualquer distribuição conhecida.

Testes Estatísticos[editar | editar código-fonte]

Estes estimadores têm sido usados ​​para criar testes de hipótese para amostras simples de distribuições unimodal normais ou simétricas.[17] Vamos a distribuição tem uma média assumida ( μ0 ). A hipótese nula é assumido que a média da distribuição se encontra dentro do intervalo de confiança da média da amostra (m). A hipótese nula é aceite se

 \mu_0 < \frac{ x + m }{ 2 } \pm k | x - m |

em que x é o valor da amostra e k é uma constante. A hipótese nula é rejeitada se

 \mu_0 > \frac{ x + m }{ 2 } \pm k | x - m |

O valor de k depende da escolha do intervalo de confiança e a natureza da distribuição assumida.

Se a distribuição é assumida ou é conhecido por ser o normal, em seguida, os valores de k para os 50%, 66,6%, 75%, 80%, 90%, 95% e 99% de intervalos de confiança são 0,50, 1,26, 1,80, 2,31, 4,79 , 9,66 e 48,39, respectivamente.

Se a distribuição é assumida ou conhecida por ser unimodal e simétrica, mas não o normal, em seguida, os valores de k para os 50%, 66,6%, 75%, 80%, 90%, 95% e 99% de intervalos de confiança são 0,50, 1,87, 2,91 , 3.94, 8.97, 18.99, 99.00, respectivamente.

Para ver como isso funciona teste que assumimos ou saber a priori que a população da qual a amostra é retirada tem uma média de μ 0 e que a população tem uma distribuição unimodal simétrica - uma classe que inclui a distribuição normal. Queremos saber se a média estimada a partir da amostra é representativa da população em um nível pré escolhido de confiança.

Suponha que a distribuição é normal e deixar o intervalo de confiança de 95%. Depois de k = 9,66.

Assumindo-se que a amostra é representativa da população, a média da amostra (m), então, situar-se dentro da gama determinada a partir da fórmula:

 \mu_0 < \frac{ x + m }{ 2 } \pm 9.66 | x - m |

Se a amostragem subseqüente mostra que a média da amostra fique fora destes parâmetros a média da amostra é considerada a diferir significativamente da média da população.

História[editar | editar código-fonte]

O modo termo origina com Karl Pearson em 1895.[18]

Deve-se observar que aquilo que se expressa como "maioria" num determinado conjunto de dados não necessariamente representa o valor que seja a moda estatística.[19]

A referência mais antiga conhecida do conceito da moda apresenta-se no cerco no inverno de 428 a.C. dos peloponésios e beócios aos plateus e atenienses. Os sitiados, necessitando construir escadas adequadas às muralhas inimigas, fizeram com que muitas pessoas contassem as fileiras de tijolos. Com tal estratagema, ainda que houvesse um número grande de erros, um número grande de contagem seria confiável.[20]

Referências

  1. SPIEGEL, Murray R. Estatística. São Paulo: McGraw-Hill do Brasil, 1976.
  2. GONÇALVES, Fernando A. Estatística descritiva. 2.ed. São Paulo: Atlas, 1978.
  3. BUNCHAFT, Guenia; KELLNER, Sheilah R. Oliveira. Estatística sem mistérios. V. I. 2.ed. Petrópolis: Vozes, 1997.
  4. Relationship between the mean, median, mode, and standard deviation in a unimodal distribution.
  5. Hippel, Paul T. von. (2005). "Mean, Median, and Skew: Correcting a Textbook Rule". J. of Statistics Education 13 (2).
  6. "[1]".
  7. van Zwet WR (1979) "Mean, median, mode II", Statistica Neerlandica, 33 (1) 1–5
  8. a b http://www.se16.info/hgb/cheb2.htm#3unimodalinequalities
  9. Eric W. Weisstein, Pearson Mode Skewness em MathWorld
  10. Edelman, D.. (1990). "A confidence interval for the center of an unknown unimodal distribution based on a sample of size 1". The American Statistician 44 (4): 285–287. DOI:10.1080/00031305.1990.10475740.
  11. Abbot, J. H.. (1963). "Two stage estimation with one observation on the first stage". Annals of the Institute of Statistical Mathematics 14 (1): 229–235. DOI:10.1007/BF02868644.
  12. Blachman, N. M.. (1987). "Confidence intervals based on one or more observations". IEEE Transactions on Information Theory 33 (3): 373–382. DOI:10.1109/TIT.1987.1057306.
  13. Wall, M. M.. (2001). "An effective confidence interval for the mean With samples of size one and two". The American Statistician 55 (2): 102–105. DOI:10.1198/000313001750358400.
  14. Machol R (1964) IEEE Trans Info Theor
  15. Rodríguez, C. C.. Maximum Entropy and Bayesian Methods. [S.l.: s.n.], 1996. 175–182 pp. vol. 70. Arxiv ISBN 978-94-010-6534-4
  16. Rosenblatt, J.. (1966). "Confidence interval for standard deviation from a single observation". Technometrics 8 (2): 367–368. DOI:10.1080/00401706.1966.10490358.
  17. Valentine, H. T.. (1991). "Confidence Intervals from Single Observations in Forest Research". Forest Science 37 (1): 370–373.
  18. Pearson, Karl (1895). "Contributions to the Mathematical Theory of Evolution. II. Skew Variation in Homogeneous Material", Philosophical Transactions of the Royal Society of London, Ser. A, 186, 343-414
  19. HUOT, Réjean. Métodos quantitativos para as ciências humanas. Lisboa: Piaget, 1999.
  20. WALLIS, W Allen; ROBERT, Hary V. Curso de estatística. V. 1. Rio de Janeiro: Fundo de Cultura, s.d.

Ligações externas[editar | editar código-fonte]

Ver Também[editar | editar código-fonte]

Ícone de esboço Este artigo sobre matemática é um esboço. Você pode ajudar a Wikipédia expandindo-o.