Usuária:MCarrera (NeuroMat)/Testes/Histograma (fórmulas)

Origem: Wikipédia, a enciclopédia livre.
Histograma de um grupo de 18 pacientes. Coleta de HDL com 6 classes definidas e intervalos de 5 mg/dL.

O histograma, também conhecido como distribuição de frequências ou diagrama das frequências, é a representação gráfica, em colunas ou em barras (retângulos), de um conjunto de dados previamente tabulado e dividido em classes uniformes ou não uniformes.[1] A base de cada retângulo representa uma classe. A altura de cada retângulo representa a quantidade ou a frequência absoluta com que o valor da classe ocorre no conjunto de dados para classes uniformes ou a densidade de frequência para classes não uniformes.[2][3] Importante ferramenta da estatística, o histograma também é uma das sete ferramentas da qualidade.[4][5]

Quando o volume de dados aumenta indefinidamente dentro do conjunto de dados e o intervalo de classes tende a zero (o que torna os retângulos cada vez mais finos e altos), a distribuição de frequência torna–se uma distribuição de densidade de probabilidades. A construção de histogramas tem caráter preliminar em qualquer estudo e é um importante indicador da distribuição de dados. Os histogramas podem indicar se uma distribuição se aproxima de uma função normal, assim como também podem indicar a mistura de populações quando se apresentam bimodais ou multimodais.[6]

História[editar | editar código-fonte]

William Playfair

Histograma origina–se dos termos gregos istos (mastro) e gramma (escrita) e pode ser interpretado como uma escrita em longas formas verticais ou algo semelhante. Entretanto, a palavra não foi originalmente utilizada no idioma grego.[7]

Histograma foi cunhado pelo matemático britânico Karl Pearson em 1895. De acordo com informações do Oxford Dictionary of English, extraídas de Philosophical Transactions of the Royal Society, a palavra foi introduzida pelo autor em suas palestras sobre estatística como um termo para uma forma comum de representação gráfica. Isto é, colunas que marcam como áreas a frequência correspondente à extensão da sua base.[7] A palavra teria surgido do termo inglês historical diagram (diagrama histórico).[8]

Tudo indica que os histogramas começaram a ser utilizados antes de receberem o nome. Porém, o seu surgimento é incerto. Provavelmente os gráficos de barras antecederam os histogramas. O gráfico de barra mais antigo do qual se tem informações aparece no livro Commercial and Political Atlas, escrito pelo economista político escocês William Playfair para mostrar as importações e as exportações entre a Escócia e outros dezessete países em 1781.[9][7]

Embora Playfair não acreditasse na utilidade da sua criação, ela foi utilizada por vários estudiosos nos anos seguintes. Por exemplo, a enfermeira britânica Florence Nightingale que utilizou gráficos de barras para comparar a mortalidade no exército de paz e a mortalidade dos civis e convencer o governo britânico a melhorar a higiene das forças armadas.[10]

O histograma foi utilizado pela primeira vez em 1883 pelo advogado e estudioso de estatística francês André–Michel Guerry (1802 – 1866) para descrever sua análise estatística sobre os crimes contra a população em Paris.[11] Com seu livro Essai sur la Statistique Morale de la France (Ensaio sobre a Estatística Moral na França), apresentado à Academia Francesa de Ciências em 1832 e publicado em 1833, Guerry foi o primeiro a construir um histograma a partir de uma ideia de um mapa em que regiões individuais eram representadas por cores diferentes com base em alguma variável[12].

Guerry procurou traçar uma geografia criminal com a sobreposição de dados do Compte Général de l’Administration de la Justice Criminelle (documento estatístico–judiciário mais importante da França, que teve seu primeiro volume publicado em 1827), fontes de natureza fiscal e econômica e informações referentes ao grau de instrução da população.[13] Guerry criou o primeiro mapa coroplético ao escurecer regiões individuais para representar os níveis de criminalidade. Hoje em dia os mapas cloropléticos são comuns para indicar resultados de eleições, distribuição de riquezas entre outras variável relacionadas geograficamente.[12]

Definição informal[editar | editar código-fonte]

Um histograma representa uma distribuição de frequência por meio de retângulos, cujas larguras representam intervalos de classe e cujas áreas são proporcionais às frequências (absoluta ou relativa). Desta forma a altura de cada retângulo é a frequência dividida para o tamanho do intervalo.[14] Se os intervalos de classes adjacentes não possuem lacunas, os retângulos tocam–se para indicar que a variável original é contínua.[15] Por exemplo, um histograma pode conter dois intervalos de ligação 10,5 – 20,5 e 20,5 – 33,5, mas não pode conter dois intervalos de ligação 10,5 – 20,5 e 22,5 – 32,5. Os intervalos vazios são representados como vazios (não são ignorados).

Histogramas às vezes são confundidos com gráficos de barras.[16] Um histograma é usado para dados contínuos, em que os intervalos de classe representam a extensão dos dados. Já um gráfico de barra é um gráfico de variáveis categóricas ou discretas. Alguns autores recomendam que os gráficos de barras tenham espaços entre os retângulos para esclarecer a diferença.

Se um histograma possui intervalos de classe de larguras iguais, um retângulo é erguido sobre o intervalo de classe com altura proporcional à frequência (número de casos em cada intervalo de classe). Um histograma também pode ser normalizado para mostrar frequências relativas. Neste caso, o gráfico mostra a proporção de casos em cada uma das várias categorias com soma das alturas igual a 1.[17] Se um histograma possui intervalos de classe de larguras diferentes, o retângulo erguido tem área proporcional à frequência dos casos no intervalo de classe.[18] Neste caso, o eixo vertical não é a densidade de frequência (número de casos por unidade da variável no eixo horizontal).[19]

Os histogramas dão um sentido grosseiro da densidade da distribuição subjacente dos dados e geralmente são estimativa da densidade – estimativa da função densidade de probabilidade da variável subjacente. A área total de um histograma usado para uma densidade de probabilidade é sempre normalizada para 1. Se os comprimentos dos intervalos no eixo x forem todos 1, então o histograma é idêntico ao gráfico de frequência relativa.[20]

Um histograma pode ser pensado como uma estimativa simplista da densidade kernel, que utiliza o kernel para suavizar as frequências sobre os intervalos de classe. Isto leva a uma função densidade de probabilidade mais suave, que em geral refletirá mais precisamente a distribuição da variável subjacente. A estimativa da densidade pode ser plotada como uma alternativa ao histograma e geralmente é representada como uma curva em vez de um conjunto de caixas.[21] Outra alternativa é o histograma com média deslocada[22], que é rápido de ser computado e fornece uma estimativa de curva suave da densidade sem utilizar o kernel.

Então, um histograma pode ser construído, considerando "dado" como qualquer medida ou resultado experimental, para responder às seguintes questões: [23]

  • Que tipo de distribuição os dados estão sugerindo?
  • Como os dados estão localizados?
  • Os dados são simétricos?
  • Existem dados que devem ser desconsiderados por estarem distante dos demais dentro do conjunto?
  • Como os dados estão dispersos? [23]

Definição Formal[editar | editar código-fonte]

Um histograma ordinário e cumulativo. Os dados apresentados são uma amostra aleatória de 10.000 pontos de uma distribuição normal com uma média de 0 e um desvio padrão de 1.

Em termos matemáticos, um histograma é uma função que conta o número de observações de cada uma dos intervalos de classe. Um gráfico é apenas uma forma de representar um histograma. Então, se for o número total de observações e o número total de intervalos de classe, o histograma satisfaz a seguintes condição

[24] n-minúsculo igual a somatória sigma-maiúsculo com inicio em i-minúsculo igual a um até k-minúsculo de i-ésimo m-minúsculo.

Histograma cumulativo[editar | editar código-fonte]

Um histograma cumulativo é um mapeamento que conta o número cumulativo de observações em todos os intervalos de classe até o intervalo de classe especificado. Um histograma cumulativo i-ésimo m-maiúsculo de um histograma j-ésimo m-minúsculo é definido como .[25] i-ésimo m-maiúsculo igual a somatória sigma-maiúsculo com inicio em j-minúsculo igual a um até i-minúsculo de j-ésimo m-minúsculo.

Número de barras e largura[editar | editar código-fonte]

Não há um número ideal de intervalos de classe. Diferentes tamanhos de intervalos de classe podem revelar diferentes características dos dados. O agrupamento de dados é pelo menos tão antigo quanto o trabalho de John Graunt no século XVII, embora nenhuma orientação sistemática tenha surgido até o trabalho de Herbert Sturges em 1926.[26][27]

Usando intervalos de classe mais largos, a baixa densidade reduz o ruído devido à aleatoriedade da amostragem. Usando intervalos de classe mais estreitos, a densidade elevada (assim o sinal abafa o ruído) garante maior precisão à estimativa da densidade. Então, variar a largura do intervalo de classe em um histograma pode ser benéfico. Entretanto, intervalos de classe com larguras iguais são amplamente utilizados.[28]

Alguns teóricos tentaram determinar um número ótimo de intervalos de classe. Entretanto, estes métodos geralmente fazem suposições fortes sobre a forma da distribuição. Dependendo da distribuição real dos dados e dos objetivos das análises, diferentes larguras de intervalos de classe podem ser apropriados. Então, a experimentação geralmente é necessária para determinar uma largura apropriada. Porém, há várias diretrizes úteis e regras práticas.[29]

Escolha do numero de barras pela regra de amplitude[editar | editar código-fonte]

O número de intervalos de classe pode ser calculado diretamente ou a partir de uma largura de intervalo de classe sugerida como

[30], k-minúsculo igual a razão de v-maiúsculo sub-escrito (soletrar) M-A-X menos v-maiúsculo sub-escrito (soletrar) M-I-N por h-minúsculo.

em que é o número mínimo inteiro maior ou igual que .

Escolha do numero de barras como raiz quadrada de numero de observações[editar | editar código-fonte]

[30], k-minúsculo igual a raiz quadrada de n-minúsculo que toma a raiz quadrada do número de pontos de dados na amostra (usada pelos histogramas do Excel, entre outros). [31]

Escolha do numero de barras pela fórmula de Sturges[editar | editar código-fonte]

A fórmula de Sturges k-minúsculo igual a três vírgula três, dois, dois, vezes logaritmo de base dez de n-minúsculo mais o número um é baseada em uma aproximação da distribuição binomial pela normal[27], aqui logaritmo é de base 10. Observe que três, dois, dois, vezes logaritmo de base dez de n-minúsculo. Igual a logaritmo de base 2 de n-minúsculo, o que leva a fórmula k-minúsculo. Igual a logaritmo de base dois de n-minúsculo mais o número um mais um. A fórmula de Sturges relaciona os tamanhos dos intervalos de classes a partir da extensão dos dados. Ela pode funcionar mal se porque o número de intervalos de classes será pequeno (menor que 7) e as tendências dos dados provavelmente não serão bem mostradas. Pode também funcionar mal se os dados não forem normalmente distribuídos.[30]

Escolha do numero de barras pela regra do arroz[editar | editar código-fonte]

A regra de arroz k-minúsculo igual duas vezes n-minúsculo elevado a razão de um por três é apresentada como uma alternativa simples à regra de Sturges.[32]

Escolha do numero de barras pela fórmula de Doane[editar | editar código-fonte]

A fórmula de Doane é uma modificação da fórmula de Sturges que tenta melhorar seu desempenho com dados não normais.[33]

, k-minúsculo. Igual ao número um mais logaritmo da base dois de n-minúsculo mais logaritmo da base dois de, abre parentesis, o número um mais razão de, abre barra vertical, g-um-minúsculo, fecha barra-vertical, por sigma-minúsculo sub-escrito g-um-minúsculo.

em que é a estimativa da distorção do terceiro momento da distribuição e

. sigma-minúsculo sub-escrito g-um-minúsculo. Igual a raiz quadrada de seis vezes, abre parentesis n-minúsculo menos dois, fecha parentesis, por, abre parentesis n mais um, fecha parentesis,vezes, abre paréntesis, n-minúsculo mais três, fecha parentesis.

Escolha de largura pela referência normal de Scott[editar | editar código-fonte]

[34], h-minúsculo. Igual a razão de três vírgula cinco vezes acento circunflexo em sigma-minúsculo por n-minúsculo elevado a razão do número um por três.

em que é o desvio padrão da amostra. A regra de referência normal de Scott[35] é ideal para amostras aleatórias de dados normalmente distribuídos, no sentido que minimiza o erro quadrático médio integrado da estimativa de densidade.[26] Esta abordagem de minimizar o erro quadrático médio integrado pode ser generalizada para além das distribuições normais[36]: seja

[36], acento circunflexo e j-maiúsculo em função de h-minúsculo. Igual a razão de dois por, abre parentesis, n-minúsculo menos o número um, fecha parentesis, vezes h-minúsculo. Menos e razão de n-minúsculo mais o número um por n-minúsculo elevado a dois, vezes, abre parentesis, n-minúsculo menos o número um, fecha parêntesis, vezes h-minúsculo.

em que k-ésimo n-maiúsculo é o número de pontos de dados na -ésima barra. A regra escolha o valor que minimiza a função acento circunflexo em j-maúsculo em função de h-minúsculo.

, h-minúsculo igual ao argumento mínimo de apostrfo h-minúsculo de acento circunflexo em j-maiúsculo em função de apostrofo h-minúsculo.

o que faz que o erro quadrático médio integrado seja minimizado.

Escolha de largura pela fórmula de Freedman-Diaconi

. h-minúsculo igual a duas vezes a razão de (soletrar) I-Q-R em função de x-minúsculo por n-minúsculo elevado a razão do número um por três

A escolha de Freedman–Diaconi[37][26] é baseada na amplitude interquartil (interquartile range, ). Ela substitui o desvio padrão da regra de Scott pela dobro de amplitude interquartil . Ela é menos sensível que o desvio padrão para outliers em dados.

Escolha do numero de barras baseada na minimização de uma função de risco [editar | editar código-fonte]

, h-minúsculo. Igual ao argumento mínimo de apostrofo h-minúsculo da razão de duas vezes, barra horizontal sobre m-minúsculo menos v-minúsculo por apostrofo h-minúsculo elevado a dois

em que e são a variância média e tendenciosa de um histograma com largura do intervalo de classe apostrofo h-minúsculo, barra horizontal em m-minúsculo igual a razão do número um por k-minúsculo vezes a somatória sigma-minúsculo com inicio em i-minúsculo igual ao número um até k-minúsculo do i-éssimo m-minúsculo e .[38][39] v-minúsculo agual a razão do numero um por k-minúsculo vezes a somatória com inicio em i-minúsculo igual ao número um até k-minúsculo de, abre parentesis, i-éssimo m-minúsculo menos barra horizontal de m-minúsculo, fecha parêntesis, elevado a dois. Observe que e dependem da escolha de apostrofo h-minúsculo , barra horizontal sobre m-minúsculo congruente a barra horizontal sobre m-minúsculo em função de apostrofo h-minúsculo,

Exemplos[editar | editar código-fonte]

Construindo um histograma[editar | editar código-fonte]

Tabulação dos d v-minúsculo congruente a v-minúsculo em função de apostrofo h-minúsculo ados das coletas de HDL realizadas em um grupo de 18 pacientes que foram agrupados em 6 classes delimitadas por intervalos de 5 mg/dL.

A construção de um histograma envolve as seguintes etapas:

  1. Organizar os dados em ordem crescente.
  2. Definir os intervalos e o número de classes, pela uma das regras.
  3. Construir o gráfico.[40]

Para definir o intervalo e o número de classes para um conjunto de dados não há fórmula matemática exata, mas uma sistemática consiste em determinar:

Dentro desta sistemática, é essencial que k-minúsculo vezes h-minúsculo mais ou igual do que v-maiúsculo sub-escrito (soletrar) M-A-X menos v-maiúsculo sub-escrito (soletrar) M-I-N, de modo que todos os dados sejam abrangidos. Um muito pequeno pode incluir variações muito pequenasde valores ou ruído e um muito grande pode eliminar variações importantes dos dados.[41][42]

Para , pode–se aplicar com segurança a fórmula proposta por Sturges:[27] é o menor inteiro, tal que k-minúsculo maior do que o número um mais três vírgula três dois vezes logaritmo na base dez de n-minúsculo.[43] Neste exemplo: e k-minúsculo igual a seis maior do que o número um mais três vírgula três dois dois vezes logaritmo na base dez de dezoito. Igual a cinco vírgula dezessete é uma boa escolha para número de classes. Para esse numero de classes uma boa escolha de intervalo de classe seja

. k-minúsculo maior ou igual do razão de v-maiúsculo sub-escrito (soletrar) M-A-X menos v-maiúsculo sub-escrito (soletrar) M-I-N por k-minúsculo. Igual a razão de sessenta e sete menos quarenta e quatro por seis. Igual ao valor aproximado de três vírgula oitenta e três.

Assim é uma boa escolha.[44]


Para construir um Histograma de forma mais prática, existem aplicativos computacionais como o Origin que definem automaticamente o número de classes e de intervalos. Porém, é necessário que o usuário verifique se a solução proposta pelo aplicativo atende à necessidade de o histograma ser suficiente e adequadamente elucidativo, ou seja, se atende à proposta inicial.[45]

Construindo um histograma com base no Censo[editar | editar código-fonte]

A partir de uma análise estatística e com os dados demográficos de uma população é possível o desenvolvimento de um Histograma. Por exemplo, o Escritório de Censos dos EUA[46] descobriu que havia 124 milhões de pessoas que trabalham fora de suas casas. Usando seus dados sobre o tempo ocupado pela viagem para o trabalho, a tabela abaixo mostra o número absoluto de pessoas que responderam na sua maioria pelo menos 30 e menos de 35 minutos para o tempo de percurso. Isto provavelmente deve–se às pessoas que arredondam o tempo de viagem. O problema de relatar valores como números arbitrariamente arredondados é um fenômeno comum na coleta de dados de pessoas.[46]

Dessa forma a construção de um histograma demonstra o número de casos por intervalo de unidade como a altura de cada bloco, de modo que a área de cada bloco é igual ao número de pessoas na pesquisa que caem em sua categoria de tempo de percurso. A área das barras do histograma representa o número total de casos (124 milhões) o qual é o valor absoluto. Foi considerado a quantidade (Q) em milhares para este tipo de histograma o qual mostra números absolutos, ou seja, não existe uma representação por porcentagens e/ou decimais.[46]

Histograma de tempo de viagem - dados absolutos
Histograma de tempo de viagem - dados absolutos

Além do Histograma construído a partir dos números absolutos, pode-se construir um outro por dados de proporção. Ou seja, a área de cada bloco é a fração do total que cada categoria representa e a área total de todas as barras é igual a 1 (a fração significa "tudo"). A partir das barras do histograma pode-se desenhar uma curva a qual é uma estimativa de densidade simples. Este tipo de histograma mostra proporções. Portanto, este histograma se difere do primeiro histograma apenas na escala vertical. É também conhecido como histograma de área de unidade. [46]

Histograma de tempo de viagem - proporção
Histograma de tempo de viagem - proporção

Leitura de um histograma[editar | editar código-fonte]

Em um histograma, é a área que indica a frequência de ocorrência de cada barra. Isto significa que a altura da barra não indica necessariamente a quantidade de ocorrências dentro dela. É o produto da altura pela largura da barra que indica a frequência de ocorrência dentro da barra. Uma das razões pelas quais a altura da barra é confundida com o indicador de frequência da barra é o fato de muitos histogramas terem barras igualmente espaças.[47]

O aprendizado sobre os histogramas também requer o entendimento das partes do gráfico. O eixo X ou eixo horizontal mostra o intervalo ou os valores dos intervalos de variável de interesse. Eles são comumente chamados de intervalos de classe, que representam ou resumem grandes conjuntos de dados. O eixo Y ou eixo vertical mostra os valores das alturas das barras.[48]

Tipos gráficos de um histograma[editar | editar código-fonte]

Frequência absoluta[editar | editar código-fonte]

Uma frequência absoluta é o número o qual representa a quantidade de dados em uma determinada amostra ou intervalo de classe especifico.[49] Por exemplo, quando o Brasil está em período de eleições e a quantidade de pessoas que podem votar sendo representada por um número, como até 2016 o eleitorado brasileiro era de 146.275.020 de pessoas, dessa forma o número do eleitorado chama-se de frequência absoluta.[50] Portanto, o gráfico de frequência absoluta é o histograma usual, em que o eixo y (ordenada) indica a frequência (absoluta) com que uma classe aparece no conjunto de dados.

Tabela wiki 1.1

Frequência relativa[editar | editar código-fonte]

Uma frequência relativa é o valor percentual o qual se obtém através do resultado da divisão entre o valor absoluto e a quantidade de elementos da população ou amostra. Para a construção da frequência relativa e acumulativa, é preciso fazer uma tabela associando a classe ao porcentual em que ela aparece no conjunto de dados.[51]

grafico de histograma de frequencias relativas e cumulativas
grafico de histograma de frequencias relativas e cumulativas

Tabela wiki 2.1

Por exemplo, na classe entre 45 e 50 mg/dL obteve–se a frequência absoluta 4 do total de 18 amostras submetidas à análise. Logo,

. [52]

Frequência cumulativa[editar | editar código-fonte]

A frequência cumulativa está ligada ao fato de somar valores de frequência relativa. Por exemplo, para o gráfico de frequência cumulativa soma–se em ordem crescente o valor de uma frequência relativa de uma classe qualquer com todas as classes com valores inferiores. Este gráfico é útil para obter informações a respeito de uma faixa de valores. Por exemplo, na tabela acima observa–se que 61,11% das amostras têm valor inferior a 55 mg/dL. [52] Dessa forma obtém-se o gráfico abaixo o qual representa os histogramas da frequência relativa e acumulativa, indicando a frequência absoluta em cada classe.

tabela para confecção de um histograma indicando frequência absoluta, relativa e acumulativa.

Polígono de frequências[editar | editar código-fonte]

Ver artigo principal: Polígono de frequências

Polígono é uma forma geométrica a qual por definição é uma região fechada de um plano limitada por um conjunto de segmentos finitos.[53] A diversidade do conceito de polígonos permite a elaboração de uma área ligando os pontos centrais do topo de cada barra de um histograma chegando na elaboração de um polígono de frequências. [54]

Histograma2
Histograma2
Exemplos de diferentes tipos de polígonos
Exemplos de diferentes tipos de polígonos
polígono de frequências, usado em Histograma
polígono de frequências, usado em Histograma

Exemplos de histogramas padrões[editar | editar código-fonte]

Com os dados da tabela abaixo, pode–se chegar aos exemplos de histogramas padrões simétricos e unimodal, distorcido à direita, distorcido à esquerda, bimodal, multimodal e simétrico. Também é possível a partir dos exemplos encontrar as medidas de tendência central, media, moda e mediana.[55][56]

Utilização do histograma para o cálculo da mediana da população {2, 2, 3, 7, 8, 9, 9}.
Utilização do histograma para o cálculo da média aritmética da população {2, 2, 3, 7, 8, 9, 9}.
Ilustração do cálculo da moda de uma população com o auxilio de um histograma. Para a população {1, 7, 4, 6, 5, 5, 3, 5}, a moda é 5.


Variável Contagem
−3.5 23
−2.5 32
−1.5 109
−0.5 180
0.5 132
1.5 34
2.5 4
3.5 90

Com os dados da tabela acima é possível construir os histogramas abaixo. [55][56]

Simétricos e unimodal[editar | editar código-fonte]

Simétrico unimodal

Um histograma unimodal ou simétrico tem o comportamento de centralizar os seus dados na média (medida central) e possui características através da distribuição da média e do desvio padrão. Uma característica de dados através do histograma é a quantidade a qual contém a partir do centro do gráfico o maior número de dados. Por exemplo, partindo do centro da base das barras e ao somar para a direita e subtrair para a esquerda do gráfico o desvio padrão encontra-se 68% dos dados. Na estatística esse modelo é chamado de Normal o qual permite analisar o quanto outros dados se afastam desse modelo.[57]

Distorcido à direita[editar | editar código-fonte]

Distorcido à direita

Uma distribuição se torna assimétrica quando a distribuição de dados está indicando a ocorrência de altos valores com baixa frequência e sendo chamada de distorcida à direita. Usualmente um fenômeno identificado nos setores da economia pelas variáveis como preço, PIB, salários, etc.[58]

Distorcido à esquerda[editar | editar código-fonte]

Distorcido à esquerda

Pode-se identificar que a frequência dos dados está concentrada nos altos valores e sendo chamada de distorcida à esquerda. Observando que há mais informações acima da média devido a falta de simetria.[58]

Bimodal[editar | editar código-fonte]

Bimodal

O Histograma é representado por bimodal devido ao aparecimento de dois picos. No tratamento de imagens os picos são as representações das regiões de luminância de maior incidência, onde há a maior quantidade de pixels na imagem.[59]

Multimodal[editar | editar código-fonte]

Multimodal

O Histograma multimodal é representado com vários picos em seu gráfico de barras. Por exemplo, no campo de imagens as regiões com maior incidência de luminância são múltiplas, onde a várias concentrações de pixels da imagem.[59]

Platô[editar | editar código-fonte]

Simétrico

Um Histograma tem o formato Platô quando suas barras tem praticamente os mesmo tamanhos de altura. Isso ocorre quando existe várias distribuições juntas com médias diferentes. [60]

Processamento de imagens[editar | editar código-fonte]

O campo da computação chamado processamento de imagem é um exemplo prático de como histogramas podem ser utilizados. Em uma imagem, a informação da quantidade de vezes que uma determinada cor se repete representa o histograma dessa imagem. Como as possibilidades de cores são altas, esse tipo de histograma é gerado com base em uma foto preto e branco.[61]

Sobre o processamento de imagens e vídeos os histogramas são utilizados para traduzir distorções, cores, padrões, número total de objetos, dimensões, geometria, propriedades de cor, luminosidade e textura.[62] Ou seja, para o reconhecimento e recuperação de imagens morfistas e objetos poliédricos com poses desconhecidas. Portanto, o histograma das intensidades de imagens demonstra-se uma ferramenta eficiente para a indexação de bases de dados visuais.[63]

Não é possível codificar informações sobre textura. Ou seja, a partir da representação da imagem, não é possível gerar um conjunto de dados representativos, dessa forma não podem ser transformados em arquivos. No entanto, os histogramas das versões Gaussianas (ou curva normal) de uma imagem desfocadas, codificam as interações entre intensidades de partes vizinhas da imagem causada pela falta de foco. Dessa forma chama-se o histograma de multi-resolução. Esta representação mantém as propriedades importantes do histograma. As facilidades da técnica são a agilidade para computar, espaço eficiente e invariante para movimentos rígidos. O desfoque inerente também o torna útil ao ruído. Todas estas propriedades fazem deste um recurso de textura eficaz.[63]

Através da Amostragem da imagem é possível quantificar os números de pixels os quais são utilizados na imagem digitalizada e através dos pixels entender a quantidade de tons que podem ser atribuídos a cada bit o qual é equivalente a cada pixel. A decodificação é o processo de acessar as informações codificadas para mostrá-las novamente em imagem.[64]

Com o objetivo de melhorar a qualidade das imagens sob os critérios subjetivos do olho humano a técnica de realce de contraste normalmente é utilizada como uma etapa do pré–processamento para sistemas de reconhecimento de padrões. Pode–se definir o contraste entre dois objetos como a razão entre os seus níveis de cinza médios. Com o objetivo de aumentar a discriminação visual entre os objetos presentes na imagem a manipulação do histograma consiste na transferência radiométrica em cada pixel, realizando a operação ponto a ponto, independente da vizinhança. Utilizando a função matemática denominada transformação radiométrica pode–se fazer um realce de contraste. Esta função consiste no mapeamento das variações dentro do intervalo original de tons de cinza para outro intervalo desejado. É utilizada para aumentar o contraste de imagem, expandindo o intervalo original de níveis de cinza da imagem original.[65]

Outras utilizações[editar | editar código-fonte]

Indústria[editar | editar código-fonte]

Para oferecer suporte na indústria foram criados 7 ferramentas da qualidade das quais o histograma faz parte e oferece ajuda na identificação, observação, análise, verificação e conclusão de um problema. Portanto demonstra uma forma robusta para auxiliar em vários setores, pois envolve a medição de dados em geral e demonstra tendências.[66]

Através do histograma é possível analisar os valores de um processo de fabricação, pois o histograma ilustra a distribuição de uma população e, pode-se verificar visualmente se há algum problema na fabricação a qual está gerando mais gastos.[67]

Financeiro[editar | editar código-fonte]

As empresas possuem um fluxo contínuo de valores em vários setores, como o de compra, pagamento, salários, etc. Sobre os salários de uma empresa é possível verificar se há alguma tendência nos pagamentos ou desvio de valores, pois há um padrão estatístico de fluxo dos valores e será demostrado no histograma onde há desvios.[68]

A partir do fluxo contínuo de pregões em uma bolsa de valores, como o Índice de Bolsa de Valores de São Paulo (IBOVESPA) é possível observar através do histograma de retorno os preços do mercado no decorrer dos dias. A partir da análise gráfica é possível observar chamadas Fat Tails (Caudas Pesadas) as quais possuem caudas mais "pesadas" do que uma distribuição normal e muitas pesquisas foram feitas no setor para descrever o comportamento de retornos nas bolsas de valores.[69]

Medicina[editar | editar código-fonte]

É comum a utilização de histogramas na medicina para analisar dados contínuos de pacientes, como peso, respiração e dados de um população como o grupo de grávidas, obesos, infectados pelo HIV e etc. As intervenções medicas, por exemplo, em um grupo, podem vir após uma análise onde está a tendência do histograma e analisar com o tempo se funciona a intervenção.[70]

Ver também[editar | editar código-fonte]

Referências

  1. Zvirtes, Leandro. «Ferramentas da Qualidade» (PDF). Universidade do Estado de Santa Catarina. p. 2. Consultado em 16 de janeiro de 2017 
  2. FREUND, John E (2004). Estatística Aplicada Economicamente 11 ed. Porto Alegre: Bookman. p. 42. 536 páginas. ISBN 0130467170. Consultado em 12 de outubro de 2014 
  3. «1.6 - Histograma - Estatística Básica | Portal Action». www.portalaction.com.br. Consultado em 2 de dezembro de 2016 
  4. Magalhães, Juliano M. de. «AS 7 FERRAMENTAS DA QUALIDADE» (PDF). Sistema Estadual de Bibliotecas Publicas de São Paulo. p. 2. Consultado em 16 de janeiro de 2017 
  5. Tague, Nancy R. (2005). The Quality Toolbox, Second Edition. [S.l.: s.n.] 15 páginas. ISBN 978-0-87389-639-9 
  6. Zvirtes, Leandro. «Ferramentas da Qualidade» (PDF). Universidade do Estado de Santa Catarina. p. 17. Consultado em 16 de janeiro de 2017 
  7. a b c Poosala, V (1996). Estimation of Query-Result Distribution and its Application in Parallel-Join Load Balancing. [S.l.]: VLDB. pp. 448–459 
  8. «Exercícios Resolvidos sobre Parâmetros e tabelas de frequência» (PDF). http://www.veduca.com.br. p. 11. Consultado em 11 de janeiro de 2017 
  9. Tufte, E (1983). The Visual Display of Quantitative Infor- mation. [S.l.]: Graphics Press 
  10. Ioannidis, Yannis. «The History of Histograms» (PDF). Management of Data, Information & Knowledge. p. 1. Consultado em 24 de janeiro de 2017 
  11. «Engenharia da Qualidade Integrada – Estatística em Gestão». Universidade Nova de Julho (Uninove). Consultado em 24 de janeiro de 2017 
  12. a b «Gráficos Diferentes Contam Histórias Diferentes». Manual de Jornalismo de Dados. Consultado em 24 de janeiro de 2017 
  13. Pimentel Filho, José Ernesto; Cavalcanti, Carlos André Macêdo (2007). «Estatística e Nascimento do Controle Criminal do Alvorecer da França Contemporânea\». Projeto História (34): 211 – 226. Consultado em 24 de janeiro de 2017 
  14. «Gráficos Descritivos» (PDF). Universidade Federal do Paraná. p. 49. Consultado em 16 de janeiro de 2017 
  15. Charles Stangor (2011) "Research Methods For The Behavioral Sciences". Wadsworth, Cengage Learning. ISBN 9780840031976.
  16. Martins, André. «Estatística Descritiva: Tabelas e Gráficos» (PDF). Escola de Artes, Ciências e Humanidades da Universidade de São Paulo. p. 25. Consultado em 16 de janeiro de 2017 
  17. «Página Dinâmica para Aprendizado do Sensoriamento Remoto». Universidade Federal do Rio Grande do Sul. p. Única. Consultado em 16 de janeiro de 2017 
  18. Freedman, D. Pisani, R. and Purves, R. 1998. Statistics (Third edition). W.W.Norton
  19. Artes, Rinaldo. «Determinação de medidas de posição a partir de dados agrupados» (PDF). Insper. p. 5. Consultado em 16 de janeiro de 2017 
  20. Ponti Jr, Moacir (2013). «Realce de imagens parte 1: operações pontuais» (PDF). Instituto de Ciências Matemáticas e de Computação da Universidade de São Paulo. p. 7. Consultado em 16 de janeiro de 2016 
  21. WANDERLEY, MARIA FERNANDA BARBOSA (Dezembro de 2013). «Estudos em Estimação de Densidade por Kernel: Métodos de Seleção de Características e Estimação do Parâmetro Suavizador» (PDF). Programa de Pós-Graduação em Engenharia Elétrica da Universidade Federal de Minas Gerais. p. 27. Consultado em 16 de janeiro de 2017 
  22. David W. Scott (December 2009). «Averaged shifted histogram». Wiley Interdisciplinary Reviews: Computational Statistics. 2:2: 160–164. doi:10.1002/wics.54  Verifique data em: |data= (ajuda)
  23. a b National Institute of Standards and Technology / "Histogram 1.3.3.14 ", e-book web
  24. Farias, Ana Maria Lima de. «Métodos Estatísticos Aplicados à Economia II» (PDF). Universidade Federal Fluminense. p. 5. Consultado em 17 de janeiro de 2017 
  25. Meyer, Paul L. (2003). Probabilidade - Aplicações à Estatística. Rio de Janeiro: LTC. 86 páginas 
  26. a b c Scott, David W. (1992). Multivariate Density Estimation: Theory, Practice, and Visualization. New York: John Wiley 
  27. a b c STURGES, Herbert A (março de 1926). «The Choice of a Class Interval» (PDF). Journal of the American Statistical Association (em inglês). 21 (153): 65-66. Consultado em 12 de outubro de 2014  |título= e |titulo= redundantes (ajuda)
  28. «Histogramas e curvas de distribuição» (PDF). Departamento de Física da FCTUC. Universidade de Coimbra. p. 63. Consultado em 17 de janeiro de 2017 
  29. e.g. § 5.6 "Density Estimation", W. N. Venables and B. D. Ripley, Modern Applied Statistics with S (2002), Springer, 4th edition. ISBN 0-387-95457-0.
  30. a b c Costa, Fabrício Martins (2011). Estatística. Belém - Pará: Universidade do Estado do Pará. 27 páginas. ISBN 978-85-88375-63-5 
  31. EXCEL 2007: Histogram
  32. Online Statistics Education: A Multimedia Course of Study (http://onlinestatbook.com/). Project Leader: David M. Lane, Rice University (chapter 2 "Graphing Distributions", section "Histograms")
  33. Doane DP (1976) Aesthetic frequency classification. American Statistician, 30: 181–183
  34. Scott, David W. (14 de março de 2015). «Scott's Rule». ResearchGate. p. 1. Consultado em 17 de janeiro de 2017 
  35. Scott, David W. (1979). «On optimal and data-based histograms». Biometrika. 66 (3): 605–610. doi:10.1093/biomet/66.3.605 
  36. a b https://maikolsolis.wordpress.com/2014/04/26/optimizing-histogram-cross-validation/
  37. Freedman, David; Diaconis, P. (1981). «On the histogram as a density estimator: L2 theory». Zeitschrift für Wahrscheinlichkeitstheorie und verwandte Gebiete. 57 (4): 453–476. doi:10.1007/BF01025868 
  38. Shigeru, Hideaki; Shinomoto (2007). «A Method for Selecting the Bin Size of a Time Histogram». Massachusetts Institute of Technology. p. 1508. Consultado em 17 de janeiro de 2017  |ultimo= e |autor= redundantes (ajuda)
  39. Shimazaki, H.; Shinomoto, S. (2007). «A method for selecting the bin size of a time histogram». Neural Computation. 19 (6): 1503–1527. PMID 17444758. doi:10.1162/neco.2007.19.6.1503 
  40. «Capítulo III Interpretação gráfica de dados» (PDF). Universidade Federal do Pará. p. 26. Consultado em 16 de janeiro de 2017 
  41. WAND, M. P (1997). «Data-Based Choice of Histogram Bin Width». The American Statistician (em inglês). 51: 59-64. doi:10.1080/00031305.1997.10473591 
  42. Martins, André. «Estatística Descritiva: Tabelas e Gráficos» (PDF). Escola de Artes, Ciência e Humanidades da Universidade de São Paulo. p. 54. Consultado em 16 de janeiro de 2017 
  43. Massad, Eduardo; Sameshima, Koichi; Silveira, Paulo Sérgio Panse (31 de julho de 2001). «Probabilidade: Conceitos e Leis». Faculdade de Medicina da Universidade de São Paulo. p. Única. Consultado em 16 de janeiro de 2017 
  44. Zvirtes, Leandro. «Ferramentas da Qualidade» (PDF). Universidade Estadual de Santa Catarina. p. 9. Consultado em 16 de janeiro de 2017 
  45. Muller, Márcia; José Luís, Fabris. «Fundamentos da Física Experimental» (PDF). Universidade Tecnológica do Paraná. p. 1. Consultado em 16 de janeiro de 2017 
  46. a b c d US 2000 census.
  47. «Histograms». Laerd Statistics. Consultado em 24 de janeiro de 2017 
  48. «Understanding Histograms and Their Uses». Bright Hub Project Management. 24 de janeiro de 2017 
  49. Medeiros, Luiz. «DISTRIBUIÇÃO DE FREQUÊNCIA» (PDF). Universidade Federal da Paraíba. p. 2. Consultado em 26 de janeiro de 2017 
  50. «Estatísticas do eleitorado – Evolução do eleitorado». Tribunal Superior Eleitoral. 26 de janeiro de 2017. Consultado em 26 de janeiro de 2017 
  51. Caetano, Marco Antonio Leonel. «ESTATÍSTICA» (PDF). Insper. Consultado em 26 de janeiro de 2017 
  52. a b «HISTOGRAMA». Portal Action. p. Única. Consultado em 16 de janeiro de 2017 
  53. Montenegro, Anselmo. «Geometria Computacional» (PDF). Universidade federal Fluminense. p. 5. Consultado em 26 de janeiro de 2017 
  54. Ferreira, José. «Polígono de frequência» (PDF). www.joseferreira.com.br/blogs. p. única. Consultado em 16 de janeiro de 2017 
  55. a b Artes, Rinaldo. «Coeficiente de Assimetria» (PDF). Insper. p. 1 - 4. Consultado em 16 de janeiro de 2017 
  56. a b Alves, Marcelo Corrêa (2016). «Proc Univariate:Testando a normalidade» (PDF). Escola Superior de Agricultura da Universidade de São Paulo. p. 9. Consultado em 16 de janeiro de 2017 
  57. Artes, Rinaldo. «Coeficiente de Assimetria» (PDF). Insper. p. 1. Consultado em 26 de janeiro de 2017 
  58. a b Artes, Rinaldo. «Coeficiente de Assimetria» (PDF). Insper. Consultado em 26 de janeiro de 2017 
  59. a b Esquef, Israel Andrade; Albuquerque, M ́arcio Portes de; Albuquerque, Marcelo Portes de (18 de fevereiro de 2003). «Processamento Digital de Imagens» (PDF). Centro Brasileiro de Pesquisa Física. p. 6. Consultado em 26 de janeiro de 2017 
  60. Maurício, Plínio (2016). Administração Geral Para Concursos. [S.l.]: Clube de Autores. p. 24 
  61. «AULA 16 - Processamento de Imagens» (PDF). Instituto de Pesquisa Espaciais. p. 14. Consultado em 16 de janeiro de 2017 
  62. Conci, Aura (2015). «Aula 2 – importância do histograma em Analise de Imagens» (PDF). Universidade Federal Fluminense. 6 páginas. Consultado em 24 de janeiro de 2017 
  63. a b Hadjidemetriou, E.; Grossberg, M. D.; Nayar, S. K. «Multiresolution Histograms and their Use for Texture Classification» (PDF). Computer Science, Columbia University, New York. p. 1. Consultado em 24 de janeiro de 2017 
  64. Conci, Aura (2105). «Aula 2 – importância do histograma em Analise de Imagens» (PDF). Universidade Federal Fluminense. p. 12. Consultado em 24 de janeiro de 2017  Verifique data em: |data= (ajuda)
  65. JÄHNE, B. Digital Image Processing. Springer-Verlag, 2002. ACHARYA, T., RAY, A. K. Image Processing- Principles and Applications. John Wiley & Sons, Inc. 2005. GONZALEZ, R., WOODS, P. Digital Image Processing. Prentice Hall, 2002, 2nd ed. RENCZ, A. N., RYERSON. R. A. (Eds.) Manual of Remote Sensing, Remote Sensing for the Earth Sciences. John Wiley & Sons, Inc. 1999, 3rd ed.
  66. Maia, Denise Ferreira (2008). «FERRAMENTAS DE GESTÃO DA QUALIDADE APLICADAS A PROCESSO DE PRODUÇÃO: O caso da empresa Fitatex» (PDF). PONTIFÍCIA UNIVERSIDADE CATÓLICA DE MINAS GERAIS. p. 32. Consultado em 24 de janeiro de 2017 
  67. Trivellato, Arthur Antunes (2010). [www.tcc.sc.usp.br/tce/disponiveis/18/180830/tce.../Trivellato_Arthur_Antunes.pdf «APLICAÇÃO DAS SETE FERRAMENTAS BÁSICAS DA QUALIDADE NO CICLO PDCA PARA MELHORIA CONTÍNUA: ESTUDO DE CASO NUMA EMPRESA DE AUTOPEÇA»] Verifique valor |url= (ajuda) (PDF). p. 39. Consultado em 24 de janeiro de 2017 
  68. Farias, Ana Maria Lima de. «Métodos Estatísticos Aplicados I» (PDF). Universidade Federal Fluminense. p. 16. Consultado em 24 de janeiro de 2017 
  69. «Análise Estatística de Dados Financeiros» (PDF). PUC-RIO. p. 23. Consultado em 24 de janeiro de 2017  Parâmetro desconhecido |certificação digital= ignorado (ajuda)
  70. Velarde, Luis Guillermo Coca. «Noções de Bioestatística» (PDF). Universidade Federal Fluminense. p. 21 - 22. Consultado em 24 de janeiro de 2017 

Ligações externas[editar | editar código-fonte]

Categoria:Qualidade Categoria:Diagramas estatísticos Categoria:Processamento de imagem Categoria:Estatística não paramétrica