Moda (estatística): diferenças entre revisões

Origem: Wikipédia, a enciclopédia livre.
Conteúdo apagado Conteúdo adicionado
m Foram revertidas as edições de Mi.rodriguesaraujo para a última revisão de Salebot, de 14h30min de 15 de fevereiro de 2014 (UTC)
Linha 18: Linha 18:
:A série {1, 3, 5, 5, 6, 6, 7, 7} apresenta mais do que duas modas (MULTIMODAL): 5, 6 e 7
:A série {1, 3, 5, 5, 6, 6, 7, 7} apresenta mais do que duas modas (MULTIMODAL): 5, 6 e 7


:''Para outros usos, ver [https://en.wikipedia.org/wiki/Mode_(disambiguation) Moda].''

A '''moda''' é o valor que aparece mais frequentemente em um conjunto de dados. A moda de uma [[Distribuição de probabilidade|distribuição de probabilidade discreta]] é o valor ''x'' em que a sua [[Função massa de probabilidade|função massa de probabilidade]] leva o seu valor máximo. Em outras palavras, é o valor que é mais provável de ser amostrada. A moda de uma [[Distribuição de probabilidade|distribuição de probabilidade contínua]] é o valor x em que sua [[Função densidade|função densidade de probabilidade]] tem o seu valor máximo, de modo que, informalmente falando, a moda está no auge.

Como a estatística [[Mean|média]] e [[Mediana (estatística)|mediana]], a moda é uma forma de expressar, em um único número, informações importantes sobre uma [[Variável aleatória|variável aleatória]] ou de uma [[População (estatística)|população]]. O valor numérico da moda é o mesmo que o da média e mediana de uma [[Distribuição normal|distribuição normal]], e pode ser muito diferente em distribuição altamente enviesadas.

A moda não é necessariamente única, já que a função de massa de probabilidade ou função densidade de probabilidade pode ter o mesmo valor máximo em vários pontos ''x1'', ''x2'', etc. O caso mais extremo ocorre em distribuições uniformes, onde todos os valores ocorrem igualmente com frequência.

A definição acima nos diz que apenas ''máximas globais'' são modas. Ligeiramente confusa, quando uma função de densidade de probabilidade tem vários [[Pontos extremos de uma função|máximos locais]], é comum referir-se a todos os máximos locais como modos de distribuição. Tal distribuição contínua é chamado [[Distribuição bimodal|multimodal]] (em oposição a unimodal).

Em distribuições [[Eixo de simetria|unimodais simétricas]], como a [[Distribuição normal|normal (ou gaussiana)]] distribuição (distribuição cuja a função densidade, quando representamos graficamente, dá a famosa "curva de sino", a média (definindo-se), mediana e moda coincidem. Para as amostras, sabe-se que elas são elaboradas a partir de uma distribuição simétrica, a média da amostra pode ser utilizada como uma estimativa da população moda.

===Moda de uma amostra===

A moda de uma amostra é o elemento que ocorre com mais frequência na coleção. Por exemplo, a moda da amostra [1, 3, 6, 6, 6, 6, 7, 7, 12, 12, 17] é 6. Dada a lista de dados [1, 1, 2, 4, 4] da moda não é único - o conjunto de dados pode ser dito para ser [[Distribuição bimodal|bimodal]], enquanto que um conjunto de mais do que duas modas podem ser descritos como multimodal.

Para uma amostra de uma distribuição contínua, tal como [... 0.935, 1.211 ..., 2.430 ..., 3.668 ..., 3.874 ...], o conceito é inutilizável em sua forma bruta, uma vez que não há dois valores será exatamente o mesmo, de modo que cada valor irá ocorrer precisamente uma vez. De modo a estimar a moda, a prática usual é a discretizar os dados através da atribuição de valores de frequência para [[Intervalo (matemática)|intervalos]] de igual distância, como para fazer um histograma , substituindo eficazmente os valores pelos valores médios dos intervalos são atribuídos. A moda é o valor em que o [[Histograma|histograma]] atinge o seu pico. Para amostras pequenas ou médias o resultado deste procedimento é sensível à escolha de largura do intervalo, se escolhido muito estreita ou larga, normalmente se deve ter uma fracção considerável dos dados concentrados num número relativamente pequeno de intervalos (de 5 a 10 ), enquanto que a fracção dos dados que caem fora destes intervalos é também considerável. Uma abordagem alternativa é a estimativa [https://en.wikipedia.org/wiki/Kernel_density_estimation densidade de grãos] , a qual, essencialmente, borra amostras de ponto para produzir uma estimativa contínua da função densidade de probabilidade, que pode fornecer uma estimativa do modo.

A seguir [[MATLAB]] (ou [[GNU Octave|Octave]]), exemplo de código calcula a moda de uma amostra:

<source lang="matlab">
X = sort(x);
indices = find(diff([X; realmax]) > 0); % os índices em que valores repetidos mudança
[modeL,i] = max (diff([0; indices])); % maior comprimento persistência de valores repetidos
mode = X(indices(i));
</source>

O algoritmo implica, como primeiro passo para classificar a amostra em ordem ascendente. Em seguida, ele calcula a derivada discreta da lista ordenada, e encontra os índices de onde esta derivada é positiva. Em seguida, ele calcula a derivada discreta deste conjunto de índices, localizando o máximo desta derivada de índices, e, finalmente, avalia a amostra classificada no ponto em que ocorre esse máximo, o que corresponde ao último membro do estiramento de valores repetidos.

===Comparação da média, mediana e moda===

:Veja também: ''média'' e ''[[Mediana (estatística)|mediana]]''

{| class="wikitable"
|+ Comparação das [[Média|médias]] de valor comum { 1, 2, 2, 3, 4, 7, 9 }
! Tipo
! Descrição
! Exemplo
! Resultado
|-
| align="center" | [[Média aritmética|Média Aritmética]]
| Soma dos valores de um conjunto de dados dividido pelo número de valores:: <math>\scriptstyle\bar{x} = \frac{1}{n}\sum_{i=1}^n x_i</math>
| align="center" | (1+2+2+3+4+7+9) / 7
| align="center" | '''4'''
|-
| align="center" | [[Mediana]]
| Valor médio que separa os maiores e menores metades de um conjunto de dados
| align="center" | 1, 2, 2, '''3''', 4, 7, 9
| align="center" | '''3'''
|-
| align="center" | [[Moda]]
| Mais freqüente valor em um conjunto de dados
| align="center" | 1, '''2''', '''2''', 3, 4, 7, 9
| align="center" | '''2'''
|}

===Uso===

Ao contrário de média e mediana, o conceito de moda também faz sentido para "[[Escala (estatística)|dados nominais]]" (i.e., não consistindo valores [https://en.wikipedia.org/wiki/Numerical numéricos] no caso de média ou mesmo de valores ordenados, no caso do rendimento médio). Por exemplo, tomando uma amostra de nomes de uma [[Nome coreano|família coreana]], pode-se achar que "[[Kim (nome coreano)|Kim]]" ocorre com mais frequência do que qualquer outro nome. Então, "Kim" seria a moda da amostra. Em qualquer sistema de votação em que uma pluralidade determina vitória, um valor único modal determina o vencedor, enquanto um resultado multi-modal exigiria algum procedimento de desempate ocorra.
Ao contrário de mediana, o conceito de média faz sentido para qualquer variável aleatória assumindo valores de um [[Espaço vetorial|espaço vetorial]], incluindo os [[Número real|números reais]] (um [[Dimensão (matemática)|unidimensional]] espaço vetorial) e os [[Número inteiro|números inteiros]] (que podem ser considerados embutidos nas reais). Por exemplo, uma distribuição de pontos no [[Plano (geometria)|plano]] terão tipicamente uma média e uma moda, mas o conceito de mediana, não se aplica. A mediana faz sentido quando há uma [[Relação de ordem|ordem linear]] dos valores possíveis. Generalizações do conceito de mediana para espaços de dimensões superiores são a [https://en.wikipedia.org/wiki/Geometric_median média geométrica] e o [https://en.wikipedia.org/wiki/Centerpoint_(geometry) ponto central].

===Singularidade e Definições===

:::::::::::::::::''Para o restante, a suposição é que nós temos (uma amostra de) uma variável aleatória real.''

Para algumas distribuições de probabilidades, o valor esperado pode ser infinito ou indefinido, mas se definido, ele é único. A média de uma (finita) amostra é sempre definida. A mediana é o valor de ,tal modo que, as frações que não excedam-o e não caem abaixo são ambos pelo menos 1/2. Não é necessariamente o único, mas nunca totalmente infinito ou indefinido. Para uma amostra de dados é o valor "no meio do caminho", quando a lista de valores é ordenada no aumento de valor, onde geralmente para uma lista de mesmo comprimento é tomada a média numérica dos dois valores mais próximos a "meio caminho". Por fim, como referido antes, a moda não é necessariamente única. Certas distribuições [[Patologia (matemática)|patológicas]] (por exemplo, a [https://en.wikipedia.org/wiki/Cantor_distribution distribuição de Cantor]) não têm a moda definido em tudo. Para uma amostra de dados finito, a moda é um (ou mais) dos valores da amostra.

===Propriedades===

Assumindo propriedades, e pela simplicidade, singularidade, a seguir estão algumas das propriedades mais interessantes.

* Todas as três medidas têm a seguinte propriedade: Se a variável aleatória (ou cada valor da amostra) é submetido à linear ou [[Transformação afim|transformação afim]] que substitui ''X'' por ''ax + b'', então são a média, mediana e moda.
* No entanto, se houver uma transformação monótona arbitrária, apenas a mediana segue, por exemplo, se ''X'' é substituído por ''exp (X)'', as alterações médias de m para exp (m), mas a moda significativo e não irá.
* A mediana é também muito forte na presença de valores extremos, enquanto que a média é muito sensível.
* Em distribuições unimodais contínuas, a mediana se encontra, como uma regra do polegar, entre a média e a moda, cerca de um terço do caminho que vai de modo significativo a. Em uma fórmula, (Modo 2 × média +) médio ≈ / 3. Esta regra, devido à [[Karl Pearson]], aplica-se frequentemente e ligeiramente a distribuições não simétricas que se assemelham a uma distribuição normal, mas não é sempre verdadeira e, em geral, as três estatísticas podem aparecer em qualquer ordem. <ref>{{cite web |url=http://www.se16.info/hgb/median.htm |title=Relationship between the mean, median, mode, and standard deviation in a unimodal distribution |work= |date= }}</ref><ref>{{cite journal |last=Hippel |first=Paul T. von |year=2005 |url=http://www.amstat.org/publications/jse/v13n2/vonhippel.html |title=Mean, Median, and Skew: Correcting a Textbook Rule |journal=J. of Statistics Education |volume=13 |issue=2 |pages= |doi= }}</ref>
*Para distribuições unimodais, a moda está dentro <math>\sqrt{3}</math> desvios padrão da média, e o desvio quadrático médio sobre a moda é entre o desvio padrão e duas vezes o desvio padrão.<ref>{{cite paper |last=Bottomley |first=H. |year=2004 |url=http://www.se16.info/hgb/mode.pdf |title=Maximum distance between the mode and the mean of a unimodal distribution |work=Unpublished preprint }}</ref>

===Exemplo para uma distribuição assimétrica===

Um exemplo de uma [[Obliquidade|enviesada]] distribuição é a [https://en.wikipedia.org/wiki/Distribution_of_wealth riqueza pessoal] : Poucas pessoas são muito ricos, mas entre aqueles que alguns são extremamente ricos. No entanto, muitos são bastante pobres.

[[Image:Comparação da [https://en.wikipedia.org/wiki/Mean média], [[Mediana (estatística)|mediana]] e moda de duas [[Distribuição log-normal|distribuições log-normais]] com diferentes [[Obliquidade|assimetrias]].]]

Uma classe bem conhecida de distribuição que podem ser arbitrariamente distorcida é dada pela [[Distribuição log-normal|distribuição log-normal]]. Ela é obtida através da transformação de uma variável aleatória ''X'' tendo uma distribuição normal em variável aleatória ''Y = eX''. Em seguida, o logaritmo da variável aleatória ''Y'' é normalmente distribuída, daí o nome.

Tomando a média μ de ''X'' ser 0, a mediana de ''Y'' será um, independente do [[Desvio padrão|desvio padrão]] σ de X. Isto é assim porque ''X'' tem uma distribuição simétrica, pelo que a sua média é também 0. A transformação de ''X'' para ''Y'' é monótona, e assim encontramos a mediana ''e''<sup>0</sup> = 1 para ''Y''.

Quando ''X'' tem desvio padrão σ = 0,25, a distribuição de ''Y'' é fracamente enviesada. Usando fórmulas para a [[Distribuição log-normal|distribuições log-normais]] , encontramos:

:<math>\begin{array}{rlll}
\text{média} & = e^{\mu + \sigma^2 / 2} & = e^{0 + 0.25^2 / 2} & \approx 1.032 \\
\text{moda} & = e^{\mu - \sigma^2} & = e^{0 - 0.25^2} & \approx 0.939 \\
\text{mediana} & = e^\mu & = e^0 & = 1
\end{array}</math>
De fato, a mdiana é de cerca de um terço no caminho da média para o modo.

Quando ''X'' tem um elevado desvio padrão, σ = 1, a distribuição de ''Y'' é fortemente distorcida. Agora
:<math>\begin{array}{rlll}
\text{média} & = e^{\mu + \sigma^2 / 2} & = e^{0 + 1^2 / 2} & \approx 1.649 \\
\text{moda} & = e^{\mu - \sigma^2} & = e^{0 - 1^2} & \approx 0.368 \\
\text{mediana} & = e^\mu & = e^0 & = 1
\end{array}</math>
Aqui, [https://en.wikipedia.org/wiki/Skewness#Pearson.27s_skewness_coefficients regra de ouro de Pearson] falha.

==Condição de Van Zwet==

Derivada de Van Zwet é uma desigualdade que fornece condições suficientes para essa desigualdade de segurar.<ref name=vanZwet1979>van Zwet WR (1979) "Mean, median, mode II", ''Statistica Neerlandica'', 33 (1) 1–5</ref> A desigualdade

:Moda ≤ Mediana ≤ Média

tem se que

:F( Mediana - ''x'' ) + F( Mediana + ''x'' ) ≥ 1

para todos os ''x'' onde F() é a função de distribuição cumulativa da distribuição.

==Distribuições Unimodais==

A diferença entre a média e a moda da distribuição contínua unimodal é limitada pelo desvio padrão multiplicado pela raiz quadrada de três.<ref name=unimodal>http://www.se16.info/hgb/cheb2.htm#3unimodalinequalities</ref> Em símbolos

:<math>\frac{| \text{média} - \text{moda} |}{\text{desvio padrão}} \leq \sqrt{3}</math>

Onde | | é o valor absoluto. Aliás, esta fórmula é também o modo de Pearson ou primeiro coeficiente de assimetria.<ref>{{MathWorld|title=Pearson Mode Skewness|urlname=PearsonModeSkewness}}</ref>

A diferença entre a moda e a mediana tem o mesmo limite.<ref name="unimodal"/> Em símbolos

:<math>\frac{| \text{mediana} - \text{moda} |}{\text{desvio padrão}} \leq \sqrt{3}</math>

==Intervalo de confiança para o modo com um único ponto de dados==

É uma crença comum, mas falso que a partir de uma única observação x, não podemos obter informações sobre a variabilidade na população e que, consequentemente, que os intervalos de confiança comprimento finito para média e / ou variância são impossível, mesmo em princípio.

É possível para uma distribuição unimodal desconhecido para estimar um intervalo de confiança para o modo com um tamanho de amostra de 1.<ref name=Edelman1990>{{cite journal |last=Edelman |first=D. |year=1990 |title=A confidence interval for the center of an unknown unimodal distribution based on a sample of size 1 |journal=The American Statistician |volume=44 |issue=4 |pages=285–287 |doi=10.1080/00031305.1990.10475740 }}</ref> Isto foi mostrado pela primeira vez pelo Abade e Rosenblatt <ref name=Abbot1963>{{cite journal |last=Abbot |first=J. H. |last2=Rosenblatt |first2=J. |year=1963 |title=Two stage estimation with one observation on the first stage |journal=Annals of the Institute of Statistical Mathematics |volume=14 |issue=1 |pages=229–235 |doi=10.1007/BF02868644 }}</ref> e prorrogada por Blachman e [https://en.wikipedia.org/wiki/Robert_Machol Machol].<ref name=Blachman1987>{{cite journal |last=Blachman |first=N. M. |last2=Machol |first2=R. |year=1987 |title=Confidence intervals based on one or more observations |journal=IEEE Transactions on Information Theory |volume=33 |issue=3 |pages=373–382 |doi=10.1109/TIT.1987.1057306 }}</ref> Este intervalo de confiança pode ser aguçado quando a distribuição pode ser assumido como sendo simétrico. É ainda possível afinar este intervalo se a distribuição é normalmente distribuído.

Deixe o intervalo de confiança de ser 1 - α. Em seguida, os intervalos de confiança para os variates gerais, simétricas e normalmente distribuído, respectivamente, são

: <math> X \pm ( \frac{ 2 }{ \alpha } - 1 ) | X - \theta | </math>

: <math> X \pm ( \frac{ 1 }{ \alpha } - 1 ) | X - \theta | </math>

: <math> X \pm ( \frac{ 0.484 }{ \alpha } - 1 ) | X - \theta | </math>

onde ''X'' é a variável aleatória, θ é o modo e | | é o valor absoluto.

Estas estimativas são conservadoras. Os intervalos de confiança para o modo no nível de 90% dada por estes estimadores são ''X ± 19 | X - θ |, X ± 9 | X - θ | X e ± 5.84 | X - θ |'' para o geral, simétrica e normalmente distribuído variates respectivamente. O intervalo de confiança de 95% para uma variável com distribuição normal é dada por ''X ± 10,7 | X - θ |''. Pode ser interessante notar que a média eo modo coincidir se os variates são normalmente distribuídos.

Os 95% com destino a uma variável normalmente distribuída foi melhorado e agora é conhecido por ser ''X ± 9,68 | X - θ |''<ref name=Wall2001>{{cite journal |last=Wall |first=M. M. |last2=Boen |first2=J. |last3=Tweedie |first3=R. |year=2001 |title=An effective confidence interval for the mean With samples of size one and two |journal=The American Statistician |volume=55 |issue=2 |pages=102–105 |doi=10.1198/000313001750358400 }}</ref> O limite para um intervalo de confiança de 99% é ''X ± 48,39 | X - θ '|''

;Nota

Machol mostrou que, dada uma densidade conhecida simétrica sobre 0 que, dado um único valor da amostra (x) que os intervalos de confiança de 90% da média da população são<ref name=Machol1964>Machol R (1964) IEEE Trans Info Theor</ref>

: <math> x \pm 5 | x - \nu | </math>

onde ''ν'' é a mediana da população.

Se a forma exata da distribuição não é conhecida, mas é conhecido por ser simétrico em torno de zero, então temos

: <math> P( X - k | X - a | \le \mu \le X + k | X - a |) \ge 1 - \frac{ 1 }{ 1 + k } </math>

onde ''X'' é a variável aleatória, ''μ'' é a média da população e ''a'' e ''k'' são números reais arbitrários.

Também é possível calcular o intervalo de confiança para o desvio padrão de uma única observação, se a distribuição é simétrica em relação a 0.<ref name="Rodrıguez1995">{{cite book |last=Rodríguez |first=C. C. |year=1996 |chapter=Confidence Intervals from one Observation |title=Maximum Entropy and Bayesian Methods |series=Fundamental Theories of Physics |volume=70 |pages=175–182 |doi=10.1007/978-94-009-0107-0_19 |isbn=978-94-010-6534-4 |id={{ArXiv|bayes-an|9504001 }} }}</ref> Para uma distribuição normal com uma variação desconhecida e um único ponto de dados (X) a 90%, 95 intervalos de confiança% e 99% para o desvio padrão de ''[0, 8 | X |], [0, 17 | X |] e [0, 70 | X |]''. Estes intervalos podem ser curto se o meio é conhecido por ser delimitada por um múltiplo do desvio padrão.

Se a distribuição é conhecido por ser o normal, então é possível calcular o intervalo de confiança tanto a média e variância de um valor simples.<ref name=Rosenblatt1966>{{cite journal |last=Rosenblatt |first=J. |year=1966 |title=Confidence interval for standard deviation from a single observation |journal=Technometrics |volume=8 |issue=2 |pages=367–368 |doi=10.1080/00401706.1966.10490358 }}</ref> Os intervalos de confiança de 90% são

: <math> X - 23.3 | X | \le \mu \le X + 23.3 | X | </math>

: <math> \sigma \le 10 | X | </math>

Os intervalos de confiança podem ser estimados para todo o intervalo escolhido.

Este método não é limitado para a distribuição normal, mas pode ser usado com qualquer distribuição conhecida.

===Testes Estatísticos===

Estes estimadores têm sido usados ​​para criar testes de hipótese para amostras simples de distribuições unimodal normais ou simétricas.<ref name=Valentine00>{{cite journal |last=Valentine |first=H. T. |last2=Furnival |first2=G. M. |last3=Gregoire |first3=T. G. |year=1991 |title=Confidence Intervals from Single Observations in Forest Research |journal=Forest Science |volume=37 |issue=1 |pages=370–373 |doi= |url=http://www.ingentaconnect.com/content/saf/fs/1991/00000037/00000001/art00030 }}</ref> Vamos a distribuição tem uma média assumida ( ''μ''<sub>0</sub> ). A hipótese nula é assumido que a média da distribuição se encontra dentro do intervalo de confiança da média da amostra (''m''). A hipótese nula é aceite se

: <math> \mu_0 < \frac{ x + m }{ 2 } \pm k | x - m |</math>

em que ''x'' é o valor da amostra e ''k'' é uma constante. A hipótese nula é rejeitada se

: <math> \mu_0 > \frac{ x + m }{ 2 } \pm k | x - m |</math>

O valor de ''k'' depende da escolha do intervalo de confiança e a natureza da distribuição assumida.

Se a distribuição é assumida ou é conhecido por ser o normal, em seguida, os valores de k para os 50%, 66,6%, 75%, 80%, 90%, 95% e 99% de intervalos de confiança são 0,50, 1,26, 1,80, 2,31, 4,79 , 9,66 e 48,39, respectivamente.

Se a distribuição é assumida ou conhecida por ser unimodal e simétrica, mas não o normal, em seguida, os valores de k para os 50%, 66,6%, 75%, 80%, 90%, 95% e 99% de intervalos de confiança são 0,50, 1,87, 2,91 , 3.94, 8.97, 18.99, 99.00, respectivamente.

Para ver como isso funciona teste que assumimos ou saber a priori que a população da qual a amostra é retirada tem uma média de μ 0 e que a população tem uma distribuição unimodal simétrica - uma classe que inclui a distribuição normal. Queremos saber se a média estimada a partir da amostra é representativa da população em um nível pré escolhido de confiança.

Suponha que a distribuição é normal e deixar o intervalo de confiança de 95%. Depois de ''k'' = 9,66.

Assumindo-se que a amostra é representativa da população, a média da amostra (''m''), então, situar-se dentro da gama determinada a partir da fórmula:

: <math> \mu_0 < \frac{ x + m }{ 2 } \pm 9.66 | x - m |</math>

Se a amostragem subseqüente mostra que a média da amostra fique fora destes parâmetros a média da amostra é considerada a diferir significativamente da média da população.

==História==
O modo termo origina com [[Karl Pearson]] em 1895.<ref>Pearson, Karl (1895). "Contributions to the Mathematical Theory of Evolution. II. Skew Variation in Homogeneous Material", ''Philosophical Transactions of the Royal Society of London, Ser. A'', 186, 343-414</ref>


Deve-se observar que aquilo que se expressa como "maioria" num determinado conjunto de dados não necessariamente representa o valor que seja a moda estatística.<ref name=HUOT>HUOT, Réjean. Métodos quantitativos para as ciências humanas. Lisboa: Piaget, 1999.</ref>
Deve-se observar que aquilo que se expressa como "maioria" num determinado conjunto de dados não necessariamente representa o valor que seja a moda estatística.<ref name=HUOT>HUOT, Réjean. Métodos quantitativos para as ciências humanas. Lisboa: Piaget, 1999.</ref>

Revisão das 17h47min de 15 de fevereiro de 2014

Em estatística descritiva, a moda é o valor que detém o maior número de observações, ou seja, o valor ou valores mais frequentes, ou ainda "o valor que ocorre com maior freqüência num conjunto de dados, isto é, o valor mais comum".[1]

O termo moda foi utilizado primeiramente em 1895 por Karl Pearson, sob influência do termo moda referindo-se ao uso popular com o significado de objeto que se está usando muito no tempo presente.[2]

A moda não é necessariamente única, ao contrário da média ou da mediana. É especialmente útil quando os valores ou observações não são numéricos, uma vez que a média e a mediana podem não ser bem definidas.[3]

  • Bimodal: possui dois valores modais.
  • Amodal: não possui moda.
  • Multimodal: possui mais do que dois valores modais.
EXEMPLOS:
A moda de {maçã, banana, laranja, laranja, laranja, pêssego} é laranja.
A série {1, 3, 5, 5, 6, 6} apresenta duas modas (BIMODAL): 5 e 6.
A série {1, 3, 2, 5, 8, 7, 9} não apresenta moda (AMODAL).
A série {1, 3, 5, 5, 6, 6, 7, 7} apresenta mais do que duas modas (MULTIMODAL): 5, 6 e 7
Para outros usos, ver Moda.

A moda é o valor que aparece mais frequentemente em um conjunto de dados. A moda de uma distribuição de probabilidade discreta é o valor x em que a sua função massa de probabilidade leva o seu valor máximo. Em outras palavras, é o valor que é mais provável de ser amostrada. A moda de uma distribuição de probabilidade contínua é o valor x em que sua função densidade de probabilidade tem o seu valor máximo, de modo que, informalmente falando, a moda está no auge.

Como a estatística média e mediana, a moda é uma forma de expressar, em um único número, informações importantes sobre uma variável aleatória ou de uma população. O valor numérico da moda é o mesmo que o da média e mediana de uma distribuição normal, e pode ser muito diferente em distribuição altamente enviesadas.

A moda não é necessariamente única, já que a função de massa de probabilidade ou função densidade de probabilidade pode ter o mesmo valor máximo em vários pontos x1, x2, etc. O caso mais extremo ocorre em distribuições uniformes, onde todos os valores ocorrem igualmente com frequência.

A definição acima nos diz que apenas máximas globais são modas. Ligeiramente confusa, quando uma função de densidade de probabilidade tem vários máximos locais, é comum referir-se a todos os máximos locais como modos de distribuição. Tal distribuição contínua é chamado multimodal (em oposição a unimodal).

Em distribuições unimodais simétricas, como a normal (ou gaussiana) distribuição (distribuição cuja a função densidade, quando representamos graficamente, dá a famosa "curva de sino", a média (definindo-se), mediana e moda coincidem. Para as amostras, sabe-se que elas são elaboradas a partir de uma distribuição simétrica, a média da amostra pode ser utilizada como uma estimativa da população moda.

Moda de uma amostra

A moda de uma amostra é o elemento que ocorre com mais frequência na coleção. Por exemplo, a moda da amostra [1, 3, 6, 6, 6, 6, 7, 7, 12, 12, 17] é 6. Dada a lista de dados [1, 1, 2, 4, 4] da moda não é único - o conjunto de dados pode ser dito para ser bimodal, enquanto que um conjunto de mais do que duas modas podem ser descritos como multimodal.

Para uma amostra de uma distribuição contínua, tal como [... 0.935, 1.211 ..., 2.430 ..., 3.668 ..., 3.874 ...], o conceito é inutilizável em sua forma bruta, uma vez que não há dois valores será exatamente o mesmo, de modo que cada valor irá ocorrer precisamente uma vez. De modo a estimar a moda, a prática usual é a discretizar os dados através da atribuição de valores de frequência para intervalos de igual distância, como para fazer um histograma , substituindo eficazmente os valores pelos valores médios dos intervalos são atribuídos. A moda é o valor em que o histograma atinge o seu pico. Para amostras pequenas ou médias o resultado deste procedimento é sensível à escolha de largura do intervalo, se escolhido muito estreita ou larga, normalmente se deve ter uma fracção considerável dos dados concentrados num número relativamente pequeno de intervalos (de 5 a 10 ), enquanto que a fracção dos dados que caem fora destes intervalos é também considerável. Uma abordagem alternativa é a estimativa densidade de grãos , a qual, essencialmente, borra amostras de ponto para produzir uma estimativa contínua da função densidade de probabilidade, que pode fornecer uma estimativa do modo.

A seguir MATLAB (ou Octave), exemplo de código calcula a moda de uma amostra:

X = sort(x);
indices   =  find(diff([X; realmax]) > 0); % os índices em que valores repetidos mudança
[modeL,i] =  max (diff([0; indices]));     % maior comprimento persistência de valores repetidos
mode      =  X(indices(i));

O algoritmo implica, como primeiro passo para classificar a amostra em ordem ascendente. Em seguida, ele calcula a derivada discreta da lista ordenada, e encontra os índices de onde esta derivada é positiva. Em seguida, ele calcula a derivada discreta deste conjunto de índices, localizando o máximo desta derivada de índices, e, finalmente, avalia a amostra classificada no ponto em que ocorre esse máximo, o que corresponde ao último membro do estiramento de valores repetidos.

Comparação da média, mediana e moda

Veja também: média e mediana
Comparação das médias de valor comum { 1, 2, 2, 3, 4, 7, 9 }
Tipo Descrição Exemplo Resultado
Média Aritmética Soma dos valores de um conjunto de dados dividido pelo número de valores:: (1+2+2+3+4+7+9) / 7 4
Mediana Valor médio que separa os maiores e menores metades de um conjunto de dados 1, 2, 2, 3, 4, 7, 9 3
Moda Mais freqüente valor em um conjunto de dados 1, 2, 2, 3, 4, 7, 9 2

Uso

Ao contrário de média e mediana, o conceito de moda também faz sentido para "dados nominais" (i.e., não consistindo valores numéricos no caso de média ou mesmo de valores ordenados, no caso do rendimento médio). Por exemplo, tomando uma amostra de nomes de uma família coreana, pode-se achar que "Kim" ocorre com mais frequência do que qualquer outro nome. Então, "Kim" seria a moda da amostra. Em qualquer sistema de votação em que uma pluralidade determina vitória, um valor único modal determina o vencedor, enquanto um resultado multi-modal exigiria algum procedimento de desempate ocorra. Ao contrário de mediana, o conceito de média faz sentido para qualquer variável aleatória assumindo valores de um espaço vetorial, incluindo os números reais (um unidimensional espaço vetorial) e os números inteiros (que podem ser considerados embutidos nas reais). Por exemplo, uma distribuição de pontos no plano terão tipicamente uma média e uma moda, mas o conceito de mediana, não se aplica. A mediana faz sentido quando há uma ordem linear dos valores possíveis. Generalizações do conceito de mediana para espaços de dimensões superiores são a média geométrica e o ponto central.

Singularidade e Definições

Para o restante, a suposição é que nós temos (uma amostra de) uma variável aleatória real.

Para algumas distribuições de probabilidades, o valor esperado pode ser infinito ou indefinido, mas se definido, ele é único. A média de uma (finita) amostra é sempre definida. A mediana é o valor de ,tal modo que, as frações que não excedam-o e não caem abaixo são ambos pelo menos 1/2. Não é necessariamente o único, mas nunca totalmente infinito ou indefinido. Para uma amostra de dados é o valor "no meio do caminho", quando a lista de valores é ordenada no aumento de valor, onde geralmente para uma lista de mesmo comprimento é tomada a média numérica dos dois valores mais próximos a "meio caminho". Por fim, como referido antes, a moda não é necessariamente única. Certas distribuições patológicas (por exemplo, a distribuição de Cantor) não têm a moda definido em tudo. Para uma amostra de dados finito, a moda é um (ou mais) dos valores da amostra.

Propriedades

Assumindo propriedades, e pela simplicidade, singularidade, a seguir estão algumas das propriedades mais interessantes.

  • Todas as três medidas têm a seguinte propriedade: Se a variável aleatória (ou cada valor da amostra) é submetido à linear ou transformação afim que substitui X por ax + b, então são a média, mediana e moda.
  • No entanto, se houver uma transformação monótona arbitrária, apenas a mediana segue, por exemplo, se X é substituído por exp (X), as alterações médias de m para exp (m), mas a moda significativo e não irá.
  • A mediana é também muito forte na presença de valores extremos, enquanto que a média é muito sensível.
  • Em distribuições unimodais contínuas, a mediana se encontra, como uma regra do polegar, entre a média e a moda, cerca de um terço do caminho que vai de modo significativo a. Em uma fórmula, (Modo 2 × média +) médio ≈ / 3. Esta regra, devido à Karl Pearson, aplica-se frequentemente e ligeiramente a distribuições não simétricas que se assemelham a uma distribuição normal, mas não é sempre verdadeira e, em geral, as três estatísticas podem aparecer em qualquer ordem. [4][5]
  • Para distribuições unimodais, a moda está dentro desvios padrão da média, e o desvio quadrático médio sobre a moda é entre o desvio padrão e duas vezes o desvio padrão.[6]

Exemplo para uma distribuição assimétrica

Um exemplo de uma enviesada distribuição é a riqueza pessoal : Poucas pessoas são muito ricos, mas entre aqueles que alguns são extremamente ricos. No entanto, muitos são bastante pobres.

[[Image:Comparação da média, mediana e moda de duas distribuições log-normais com diferentes assimetrias.]]

Uma classe bem conhecida de distribuição que podem ser arbitrariamente distorcida é dada pela distribuição log-normal. Ela é obtida através da transformação de uma variável aleatória X tendo uma distribuição normal em variável aleatória Y = eX. Em seguida, o logaritmo da variável aleatória Y é normalmente distribuída, daí o nome.

Tomando a média μ de X ser 0, a mediana de Y será um, independente do desvio padrão σ de X. Isto é assim porque X tem uma distribuição simétrica, pelo que a sua média é também 0. A transformação de X para Y é monótona, e assim encontramos a mediana e0 = 1 para Y.

Quando X tem desvio padrão σ = 0,25, a distribuição de Y é fracamente enviesada. Usando fórmulas para a distribuições log-normais , encontramos:

De fato, a mdiana é de cerca de um terço no caminho da média para o modo.

Quando X tem um elevado desvio padrão, σ = 1, a distribuição de Y é fortemente distorcida. Agora

Aqui, regra de ouro de Pearson falha.

Condição de Van Zwet

Derivada de Van Zwet é uma desigualdade que fornece condições suficientes para essa desigualdade de segurar.[7] A desigualdade

Moda ≤ Mediana ≤ Média

tem se que

F( Mediana - x ) + F( Mediana + x ) ≥ 1

para todos os x onde F() é a função de distribuição cumulativa da distribuição.

Distribuições Unimodais

A diferença entre a média e a moda da distribuição contínua unimodal é limitada pelo desvio padrão multiplicado pela raiz quadrada de três.[8] Em símbolos

Onde | | é o valor absoluto. Aliás, esta fórmula é também o modo de Pearson ou primeiro coeficiente de assimetria.[9]

A diferença entre a moda e a mediana tem o mesmo limite.[8] Em símbolos

Intervalo de confiança para o modo com um único ponto de dados

É uma crença comum, mas falso que a partir de uma única observação x, não podemos obter informações sobre a variabilidade na população e que, consequentemente, que os intervalos de confiança comprimento finito para média e / ou variância são impossível, mesmo em princípio.

É possível para uma distribuição unimodal desconhecido para estimar um intervalo de confiança para o modo com um tamanho de amostra de 1.[10] Isto foi mostrado pela primeira vez pelo Abade e Rosenblatt [11] e prorrogada por Blachman e Machol.[12] Este intervalo de confiança pode ser aguçado quando a distribuição pode ser assumido como sendo simétrico. É ainda possível afinar este intervalo se a distribuição é normalmente distribuído.

Deixe o intervalo de confiança de ser 1 - α. Em seguida, os intervalos de confiança para os variates gerais, simétricas e normalmente distribuído, respectivamente, são

onde X é a variável aleatória, θ é o modo e | | é o valor absoluto.

Estas estimativas são conservadoras. Os intervalos de confiança para o modo no nível de 90% dada por estes estimadores são X ± 19 | X - θ |, X ± 9 | X - θ | X e ± 5.84 | X - θ | para o geral, simétrica e normalmente distribuído variates respectivamente. O intervalo de confiança de 95% para uma variável com distribuição normal é dada por X ± 10,7 | X - θ |. Pode ser interessante notar que a média eo modo coincidir se os variates são normalmente distribuídos.

Os 95% com destino a uma variável normalmente distribuída foi melhorado e agora é conhecido por ser X ± 9,68 | X - θ |[13] O limite para um intervalo de confiança de 99% é X ± 48,39 | X - θ '|

Nota

Machol mostrou que, dada uma densidade conhecida simétrica sobre 0 que, dado um único valor da amostra (x) que os intervalos de confiança de 90% da média da população são[14]

onde ν é a mediana da população.

Se a forma exata da distribuição não é conhecida, mas é conhecido por ser simétrico em torno de zero, então temos

onde X é a variável aleatória, μ é a média da população e a e k são números reais arbitrários.

Também é possível calcular o intervalo de confiança para o desvio padrão de uma única observação, se a distribuição é simétrica em relação a 0.[15] Para uma distribuição normal com uma variação desconhecida e um único ponto de dados (X) a 90%, 95 intervalos de confiança% e 99% para o desvio padrão de [0, 8 | X |], [0, 17 | X |] e [0, 70 | X |]. Estes intervalos podem ser curto se o meio é conhecido por ser delimitada por um múltiplo do desvio padrão.

Se a distribuição é conhecido por ser o normal, então é possível calcular o intervalo de confiança tanto a média e variância de um valor simples.[16] Os intervalos de confiança de 90% são

Os intervalos de confiança podem ser estimados para todo o intervalo escolhido.

Este método não é limitado para a distribuição normal, mas pode ser usado com qualquer distribuição conhecida.

Testes Estatísticos

Estes estimadores têm sido usados ​​para criar testes de hipótese para amostras simples de distribuições unimodal normais ou simétricas.[17] Vamos a distribuição tem uma média assumida ( μ0 ). A hipótese nula é assumido que a média da distribuição se encontra dentro do intervalo de confiança da média da amostra (m). A hipótese nula é aceite se

em que x é o valor da amostra e k é uma constante. A hipótese nula é rejeitada se

O valor de k depende da escolha do intervalo de confiança e a natureza da distribuição assumida.

Se a distribuição é assumida ou é conhecido por ser o normal, em seguida, os valores de k para os 50%, 66,6%, 75%, 80%, 90%, 95% e 99% de intervalos de confiança são 0,50, 1,26, 1,80, 2,31, 4,79 , 9,66 e 48,39, respectivamente.

Se a distribuição é assumida ou conhecida por ser unimodal e simétrica, mas não o normal, em seguida, os valores de k para os 50%, 66,6%, 75%, 80%, 90%, 95% e 99% de intervalos de confiança são 0,50, 1,87, 2,91 , 3.94, 8.97, 18.99, 99.00, respectivamente.

Para ver como isso funciona teste que assumimos ou saber a priori que a população da qual a amostra é retirada tem uma média de μ 0 e que a população tem uma distribuição unimodal simétrica - uma classe que inclui a distribuição normal. Queremos saber se a média estimada a partir da amostra é representativa da população em um nível pré escolhido de confiança.

Suponha que a distribuição é normal e deixar o intervalo de confiança de 95%. Depois de k = 9,66.

Assumindo-se que a amostra é representativa da população, a média da amostra (m), então, situar-se dentro da gama determinada a partir da fórmula:

Se a amostragem subseqüente mostra que a média da amostra fique fora destes parâmetros a média da amostra é considerada a diferir significativamente da média da população.

História

O modo termo origina com Karl Pearson em 1895.[18]

Deve-se observar que aquilo que se expressa como "maioria" num determinado conjunto de dados não necessariamente representa o valor que seja a moda estatística.[19]

A referência mais antiga conhecida do conceito da moda apresenta-se no cerco no inverno de 428 a.C. dos peloponésios e beócios aos plateus e atenienses. Os sitiados, necessitando construir escadas adequadas às muralhas inimigas, fizeram com que muitas pessoas contassem as fileiras de tijolos. Com tal estratagema, ainda que houvesse um número grande de erros, um número grande de contagem seria confiável.[20]

Referências

  1. SPIEGEL, Murray R. Estatística. São Paulo: McGraw-Hill do Brasil, 1976.
  2. GONÇALVES, Fernando A. Estatística descritiva. 2.ed. São Paulo: Atlas, 1978.
  3. BUNCHAFT, Guenia; KELLNER, Sheilah R. Oliveira. Estatística sem mistérios. V. I. 2.ed. Petrópolis: Vozes, 1997.
  4. «Relationship between the mean, median, mode, and standard deviation in a unimodal distribution» 
  5. Hippel, Paul T. von (2005). «Mean, Median, and Skew: Correcting a Textbook Rule». J. of Statistics Education. 13 (2) 
  6. Bottomley, H. (2004). «Maximum distance between the mode and the mean of a unimodal distribution» (PDF). Unpublished preprint 
  7. van Zwet WR (1979) "Mean, median, mode II", Statistica Neerlandica, 33 (1) 1–5
  8. a b http://www.se16.info/hgb/cheb2.htm#3unimodalinequalities
  9. Weisstein, Eric W. «Pearson Mode Skewness» (em inglês). MathWorld 
  10. Edelman, D. (1990). «A confidence interval for the center of an unknown unimodal distribution based on a sample of size 1». The American Statistician. 44 (4): 285–287. doi:10.1080/00031305.1990.10475740 
  11. Abbot, J. H.; Rosenblatt, J. (1963). «Two stage estimation with one observation on the first stage». Annals of the Institute of Statistical Mathematics. 14 (1): 229–235. doi:10.1007/BF02868644 
  12. Blachman, N. M.; Machol, R. (1987). «Confidence intervals based on one or more observations». IEEE Transactions on Information Theory. 33 (3): 373–382. doi:10.1109/TIT.1987.1057306 
  13. Wall, M. M.; Boen, J.; Tweedie, R. (2001). «An effective confidence interval for the mean With samples of size one and two». The American Statistician. 55 (2): 102–105. doi:10.1198/000313001750358400 
  14. Machol R (1964) IEEE Trans Info Theor
  15. Rodríguez, C. C. (1996). «Confidence Intervals from one Observation». Maximum Entropy and Bayesian Methods. Col: Fundamental Theories of Physics. 70. [S.l.: s.n.] pp. 175–182. ISBN 978-94-010-6534-4. doi:10.1007/978-94-009-0107-0_19. Arxiv 
  16. Rosenblatt, J. (1966). «Confidence interval for standard deviation from a single observation». Technometrics. 8 (2): 367–368. doi:10.1080/00401706.1966.10490358 
  17. Valentine, H. T.; Furnival, G. M.; Gregoire, T. G. (1991). «Confidence Intervals from Single Observations in Forest Research». Forest Science. 37 (1): 370–373 
  18. Pearson, Karl (1895). "Contributions to the Mathematical Theory of Evolution. II. Skew Variation in Homogeneous Material", Philosophical Transactions of the Royal Society of London, Ser. A, 186, 343-414
  19. HUOT, Réjean. Métodos quantitativos para as ciências humanas. Lisboa: Piaget, 1999.
  20. WALLIS, W Allen; ROBERT, Hary V. Curso de estatística. V. 1. Rio de Janeiro: Fundo de Cultura, s.d.

Ligações externas

Ver Também

Ícone de esboço Este artigo sobre matemática é um esboço. Você pode ajudar a Wikipédia expandindo-o.