Histograma

Origem: Wikipédia, a enciclopédia livre.
Ir para: navegação, pesquisa
NoFonti.svg
Este artigo ou se(c)ção cita fontes confiáveis e independentes, mas que não cobrem todo o conteúdo (desde abril de 2014). Por favor, adicione mais referências e insira-as corretamente no texto ou no rodapé. Material sem fontes poderá ser removido.
Encontre fontes: Google (notícias, livros e acadêmico)
Histograma de um grupo de 18 pacientes. Coleta de HDL com 6 classes definidas e intervalos de 5 mg/dL.

Um histograma, também conhecido como distribuição de frequências ou diagrama das frequências, é a representação gráfica, em colunas (retângulos), de um conjunto de dados previamente tabulado e dividido em classes uniformes. A base de cada retângulo representa uma classe e a altura de cada retângulo representa a quantidade ou frequência com que o valor dessa classe ocorreu no conjunto de dados.[1] Além de ser uma importante ferramenta da estatística, o histograma também é uma das sete ferramentas da qualidade.

Quando o volume de dados aumenta indefinidamente dentro do conjunto e o intervalo de classes tende a zero (o que torna os retângulos cada vez mais "finos" e "altos"), a distribuição de frequência passa para uma distribuição de densidade de probabilidades.

A construção de histogramas tem caráter preliminar em qualquer estudo e é um importante indicador da distribuição de dados. Eles podem indicar se uma distribuição se aproxima de uma função normal, assim como também pode indicar a mistura de populações, quando se apresentam bimodais.

Etimologia[editar | editar código-fonte]

A etimologia da palavra histograma é incerta. Suspeita-se que essa palavra derive dos termos gregos histos ("não erguido", como os mastros do navio ou as barras verticais do histograma) e gramma ("desenhar", "escrever", "gravar"), mas outra corrente defende que o termo deriva do inglês historical diagram ("diagrama histórico"), introduzido por Karl Pearson em 1895.

Finalidade[editar | editar código-fonte]

Um histograma pode ser construído, considerando "dado" como qualquer medida ou resultado experimental, para responder às seguintes questões:[2]

  • Que tipo de distribuição os dados estão sugerindo?
  • Como os dados estão localizados?
  • Os dados são simétricos?
  • Existem dados que devem ser desconsiderados por estarem distante dos demais dentro do conjunto?
  • Como os dados estão dispersos?

Exemplo[editar | editar código-fonte]

Tabulação dos dados das coletas de HDL realizadas em um grupo de 18 pacientes que foram agrupados em 6 classes delimitadas por intervalos de 5 mg/dL.

A construção de um histograma envolve as seguintes etapas:

  1. Organizar os dados em ordem crescente.
  2. Definir os intervalos e o número de classes.
  3. Construir o gráfico.

Como definir o intervalo e o número de classes para um dado conjunto de dados? Não há fórmula matemática exata, mas uma sistemática consiste em determinar:

κ = número de classes
Δi = intervalo
Vmax = valor máximo
Vmín = valor mínimo
n = número de dados

Dentro dessa sistemática, é essencial que κ . Δi ≥ Vmax - Vmin, de modo que todos os dados do intervalo sejam abrangidos. Um Δi muito pequeno pode incluir variações muito pequenas de valores ou ruído e um Δi muito grande pode eliminar variações importantes dos dados.[3]

Para n < 200, pode-se aplicar com segurança a fórmula proposta por Sturges:[4]

κ é o menor inteiro tal que κ > 1 + 3,32 * log(n)

Neste exemplo:

n = 18 e κ = 6 é uma boa escolha.

Δi ≥ (Vmax-Vmin)/κ. Como Δi ≥ (67-44)/6 , Δi = 5 é uma boa escolha.

Alguns aplicativos computacionais, como por exemplo o Origin, definem automaticamente o número de classes e de intervalos. Porém, é necessário que o usuário verifique se a solução proposta pelo aplicativo atende à necessidade de o histograma ser suficiente e adequadamente elucidativo, ou seja, se atenderá à proposta inicial.

Tipos gráficos de um histograma[editar | editar código-fonte]

Frequência absoluta[editar | editar código-fonte]

O gráfico de frequência absoluta é o histograma usual, onde no eixo dos y, ordenadas, estão a frequência (absoluta ou relativa) com que uma classe aparece no conjunto de medidas, tal como representado na Figura acima.

Frequência relativa[editar | editar código-fonte]

Para a construção da frequência relativa e acumulativa, precisamos fazer uma tabela associando a cada classe o número percentual em que ela aparece no conjunto de dados:

tabela para confecção de um histograma indicando frequência absoluta, relativa e acumulativa.

Por exemplo, na classe entre 45 e 50 mg/dL obteve-se quatro amostras dentre as 18 submetidas à análise. Logo a frequência relativa é.

Frequência relativa = (4/18) * 100% = 22,22%

Frequência cumulativa[editar | editar código-fonte]

Na frequência cumulativa soma-se, em ordem crescente, o valor de uma frequência relativa de uma classe com todas as classes com valores inferiores, conforme a tabela. Este gráfico é útil para obter informações a respeito de uma faixa de valores. Por exemplo, da tabela observa-se que 61,11% das amostras têm uma valor inferior a 55 mg/dL.

O gráfico representa os histogramas da Frequência Relativa e Acumulativa, indicando a frequência absoluta em cada classe.

grafico de histograma de frequencias relativas e cumulativas

Polígono de Frequências[editar | editar código-fonte]

O Polígono de Frequências nada mais é que um gráfico no qual a frequência absoluta é representada por segmentos de reta.

polígono de frequências, usado em Histograma

Processamento de imagem[editar | editar código-fonte]

O campo da computação chamado processamento de imagem é um exemplo prático de como histogramas podem ser utilizados. Numa imagem a informação da quantidade de vezes que uma determinada cor se repete representa o histograma dessa imagem. Como as possibilidades de cores são altas, esse tipo de histograma é gerado com base numa foto preto e branco.

Uma informação assim sobre a imagem é importante pois pode gerar parâmetros para a avaliação da qualidade da mesma, como nitidez, luminosidade e profundidade.

Referências

  1. FREUND, John E. Estatística Aplicada Economicamente. 11. ed. Porto Alegre: Bookman, 2004. 536 pp. p. 42. ISBN 0130467170. Visitado em 12 de outubro de 2014.
  2. National Institute of Standards and Technology / "Histogram 1.3.3.14 ", e-book web
  3. WAND, M. P. (1997). "Data-Based Choice of Histogram Bin Width" (em inglês). The American Statistician 51 p. 59-64. DOI:10.1080/00031305.1997.10473591.
  4. STURGES, Herbert A. (março 1926). "The Choice of a Class Interval" (PDF) (em inglês). Journal of the American Statistical Association 21 (153) p. 65-66. Visitado em 12 de outubro de 2014.

Ligações externas[editar | editar código-fonte]