Estatística descritiva

Origem: Wikipédia, a enciclopédia livre.
Ir para: navegação, pesquisa

A estatística descritiva é um ramo da estatística que aplica várias técnicas para descrever e sumarizar um conjunto de dados. Se diferencia da estatística inferencial, ou estatística indutiva, pelo objetivo: organizar, sumarizar dados ao invés de usar os dados em aprendizado sobre a população. Esse princípio faz da estatística descritiva independente.

Algumas medidas que são normalmente usadas para descrever um conjunto de dados são medidas de tendência central e medidas de variabilidade ou dispersão. Medidas de tendência central incluem média,mediana e moda. Medidas de variabilidade incluem desvio padrão,variância, o valor máximo e mínimo, obliquidade e curtose.


Uso em análise estatística[editar | editar código-fonte]

A Estatística descritiva fornece resumos simples sobre a amostra e sobre as observações que foram feitas. Tal resumo pode ser quantitativo ou visual. Esses resumos tanto podem formar a base da descrição inicial dos dados, como parte de uma análise estatística mais extensa, ou eles podem ser suficientes por si mesmos.

Por exemplo, a porcentagem de arremessos no basquetebol é uma descrição estatística que resume a performance de um jogador ou time. Esse número é a quantidade de arremessos bem sucedidos dividido pelo o número de arremessos. Por exemplo, um jogador que consegue porcentagem de 33% faz aproximadamente um arremesso bem sucedido em cada três arremessos. A porcentagem descreve ou resume múltiplos eventos discretos. Considere também a média da [nota escolar]. Esse número descreve a performance geral de um estudante em um curso.

O uso de descrição e resumo estatísticos tem uma história intensiva e, de fato, a simples tabulação de populações e dados econômicos foram a primeira forma em que a estatística apareceu. Mais recentemente, uma coleção de técnicas de resumos apareceram com o título de análise exploratória de dados, um exemplo dessas técnicas é o diagrama de caixa.

No mundo dos negócios, estatística descritiva fornece um resumo útil de muitos tipos de dados.

Análise univariada[editar | editar código-fonte]

A análise univariada envolve descrever a distribuição de uma única variável, incluindo sua medida central(incluindo a média,mediana, e a Moda (estatística) e dispersão(incluindo a diferença entre o maior e menor valor da amostragem e quantil do conjunto de dados, além da variância e desvio padrão. A forma da distribuição pode também ser descrita com obliquidade e curtose. Características da distribuição da variável podem também ser representados em gráficos ou tabulas, incluindo Histograma.

Análise bivariada[editar | editar código-fonte]

Quando uma amostra consiste de mais de uma variável, a estatística descritiva pode ser usada para descrever o relacionamento entre os pares de variáveis. Nesse caso, estatística descritiva inclui:

  • Tabulações cruzadas e tabelas de contingência
  • Representação gráfica via gráfico de dispersão.
  • As medidas quantitativas de dependência.
  • As descrições de distribuição condicionais.

A razão principal para diferenciar analise univariada e bivariada é que a bivariada não é só análise descritiva simples, mas também o relacionamento entre duas variáveis diferentes. [1] Medidas quantitativas de dependência incluem correlação ( como o coeficiente de correlação de Pearson quando ambas variáveis são continuas, ou Coeficiente de correlação de postos de Spearman quando ambas variáveis não são continua) e covariância.

Técnicas[editar | editar código-fonte]

As técnicas usadas costumam classificar-se como:

  1. Gráficos descritivos: São usados vários tipos de gráficos para sumarizar os dados. Por exemplo: Histogramas.
  2. Descrição Tabular: Na qual se usam tabelas para sumarizar os dados. Por exemplo tabelas de Frequências.
  3. Descrição Paramétrica: Na qual estimamos os valores de certos parâmetros, os quais assumimos que completam a descrição do conjunto dos dados. Por exemplo: Média.

Objetivos dos parâmetros[editar | editar código-fonte]

  • Podemos querer escolher um parâmetro que nos mostre como as diferentes observações são semelhantes. Os textos acadêmicos costumam chamar a este objetivo de "medidas de tendência central".
  • Podemos querer escolher parâmetros que nos mostrem como aquelas observações diferem. Costuma chamar-se a este tipo de parâmetros de "medidas de dispersão“.

Exemplos[editar | editar código-fonte]

Medidas de tendência central ou Medidas de Posição[editar | editar código-fonte]

São medidas que indicam a localização dos dados. Costumamos responder ao primeiro desafio com o uso da média aritmética, a Mediana_(estatística), ou a moda. Por vezes escolhemos valores específicos da função distribuição acumulada chamados quantis como quartis, decis, ou percentis.

Medidas de dispersão[editar | editar código-fonte]

As medidas mais comuns de variabilidade para dados quantitativos são a variância; a sua raiz quadrada, o desvio padrão. A amplitude total, a distância interquartílica e o desvio absoluto são mais alguns exemplos de medidas de dispersão.

[editar | editar código-fonte]

  1. Babbie, Earl R.. The Practice of Social Research. 12th. ed. [S.l.]: Wadsworth, 2009. 436–440 pp. ISBN 0-495-59841-0.