Dados composicionais

Origem: Wikipédia, a enciclopédia livre.
Saltar para a navegação Saltar para a pesquisa

Em estatística, dados composicionais são descrições quantitativas das partes de algum todo, que transmitem exclusivamente informações de forma relativa ao todo. Medições que envolvem probabilidades, proporções, porcentagens podem ser pensadas como dados composicionais. A característica mais marcante deste tipo de dados é que sua soma é sempre igual a uma constante (1 para proporções e 100 para porcentagens). Tais dados são muito comuns em áreas de pesquisa como a geologia.[1]

A definição original, dada pelo estatístico escocês John Aitchison em 1986, tem várias consequências:

  • Um ponto de dado composicional, ou composição de forma abreviada, pode ser representado por um vetor real positivo com tantas partes quanto consideradas. Algumas vezes, se o montante total for fixo e conhecido, um componente de vetor pode ser omitido.
  • Como as composições apenas possuem informações relativas, a única informação é dada por razões entre componentes. Consequentemente, uma composição multiplicada por qualquer constante positiva contém a mesma informação que a anterior. Por isso, vetores positivos proporcionais são equivalentes quando considerados como composições.
  • Como usual em matemática, classes equivalentes são representas por algum elemento da classe, chamado de representante. Assim, composições equivalentes podem ser representadas por vetores positivos cujos componentes se adicionam a uma dada constante . A operação do vetor que atribui o representante da soma constante é chamada de fechamento e é denotada por :

em que é o número de partes (componentes) e denota um vetor linha.

  • Dados composicionais podem ser representados por vetores reais da soma constante com componentes positivos e estes vetores abrangem um simplex, definido como

    [2]

O espaço amostral é também conhecido como simplex de Aitchison. Acontece que uma estrutura alternativa do espaço vetorial pode ser definida no simplex de Aitchison, o que motivou o desenvolvimento da geometria de Aitchison.[3]

Exemplos[editar | editar código-fonte]

  • Cada ponto de dado pode corresponder a uma rocha composta de três diferentes minerais: uma rocha que tem 10% compostos pelo primeiro mineral, 30% compostos pelo segundo mineral e os restantes 60% compostos pelo terceiro mineral corresponderia ao triplo ; um conjunto de dados conteria tal triplo para cada rocha em uma amostra de rochas.
  • Cada ponto de dado pode corresponder a uma cidade: uma cidade em que 35% dos habitantes são cristãos, 55% são muçulmanos, 6% são judeus e os restantes 4% são de outros religiões corresponderia ao quádruplo ; um conjunto de dados corresponderia a uma lista de cidades.
  • Em química, composições podem ser expressas como concentrações molares de cada componente. Já que a soma de todas as concentrações não é determinada, a composição inteira das partes é necessária e assim expressa como um vetor de concentrações molares. Estas composições podem ser traduzidas em peso por cento multiplicando cada componente pela constante apropriada.
  • Em um survey, as proporções de pessoas que respondem positivamente alguns itens diferentes podem ser expressas como porcentagens. Já que o montante total é identificado como 100, o vetor composicional de componentes pode ser definido usando apenas componentes, assumindo que o componente remanescente é a porcentagem necessária para o vetor inteiro se adicionar a 100.
  • Em probabilidade e estatística, uma partição do espaço amostral em eventos disjuntos é descrita pelas probabilidades atribuídas a tais eventos. O vetor de probabilidades pode ser considerada como uma composição de partes. Já que se adicionam a 1, uma probabilidade pode ser suprimida e a composição é completamente determinada.
  • Em sequenciamento de alta transferência, dados obtidos são composições de contagem, já que a capacidade da máquina determina o número de leituras observadas. Estes se reduzem às probabilidades de observar uma característica dada a profundidade de sequenciamento.[4]

Referências[editar | editar código-fonte]

  1. Aitchison, J. (4 de outubro de 2011). The Statistical Analysis of Compositional Data (em inglês). [S.l.]: Springer Netherlands. ISBN 9789401083249 
  2. den., Boogaart, K. Gerald van (2013). Analyzing compositional data with R. Berlin: Springer. ISBN 9783642368097. OCLC 852961394 
  3. Pawlowsky-Glahn, Vera; Egozcue, Juan José; Tolosana-Delgado, Raimon (2007). Lecture Notes on Compositional Data Analysis (PDF). Girona: [s.n.] 95 páginas. Consultado em 13 de fevereiro de 2018. 
  4. Pawlowsky-Glahn, Vera; Egozcue, Juan José; Tolosana-Delgado, Raimon (30 de março de 2015). Modeling and Analysis of Compositional Data (em inglês). [S.l.]: John Wiley & Sons. ISBN 9781118443064