Dados composicionais: diferenças entre revisões

← Ver a alteração anterior Ver a alteração posterior →

Conteúdo apagado Conteúdo adicionado

Em linha

Revisão das 01h49min de 14 de fevereiro de 2018

Em estatística, dados composicionais são descrições quantitativas das partes de algum todo, que transmitem exclusivamente informações de forma relativa ao todo. Medições que envolvem probabilidades, proporções, porcentagens podem ser pensadas como dados composicionais. A característica mais marcante deste tipo de dados é que sua soma é sempre igual a uma constante (1 para proporções e 100 para porcentagens). Tais dados são muito comuns em áreas de pesquisa como a geologia.^[1]

A definição original, dada pelo estatístico escocês John Aitchison em 1986, tem várias consequências:

Um ponto de dado composicional, ou composição de forma abreviada, pode ser representado por um vetor real positivo com tantas partes quanto consideradas. Algumas vezes, se o montante total for fixo e conhecido, um componente de vetor pode ser omitido.
Como as composições apenas possuem informações relativas, a única informação é dada por razões entre componentes. Consequentemente, uma composição multiplicada por qualquer constante positiva contém a mesma informação que a anterior. Por isso, vetores positivos proporcionais são equivalentes quando considerados como composições.
Como usual em matemática, classes equivalentes são representas por algum elemento da classe, chamado de representante. Assim, composições equivalentes podem ser representadas por vetores positivos cujos componentes se adicionam a uma dada constante $\kappa$ . A operação do vetor que atribui o representante da soma constante é chamada de fechamento e é denotada por ${\mathcal {C}}[\cdot ]$ :
${\mathcal {C}}[x_{1},x_{2},\dots ,x_{D}]=\left[{\frac {x_{1}}{\sum _{i=1}^{D}x_{i}}},{\frac {x_{2}}{\sum _{i=1}^{D}x_{i}}},\dots ,{\frac {x_{D}}{\sum _{i=1}^{D}x_{i}}}\right],\$

em que $D$ é o número de partes (componentes) e $[\cdot ]$ denota um vetor linha.

Dados composicionais podem ser representados por vetores reais da soma constante com componentes positivos e estes vetores abrangem um simplex, definido como
${\mathcal {S}}^{D}=\left\{\mathbf {x} =[x_{1},x_{2},\dots ,x_{D}]\in \mathbb {R} ^{D}\left|x_{i}>0,i=1,2,\dots ,D;\sum _{i=1}^{D}x_{i}=\kappa \right.\right\}.\$ ^[2]

O espaço amostral ${\mathcal {S}}^{D}$ é também conhecido como simplex de Aitchison. Acontece que uma estrutura alternativa do espaço vetorial pode ser definida no simplex de Aitchison, o que motivou o desenvolvimento da geometria de Aitchison.^[3]

Exemplos

Cada ponto de dado pode corresponder a uma rocha composta de três diferentes minerais: uma rocha que tem 10% compostos pelo primeiro mineral, 30% compostos pelo segundo mineral e os restantes 60% compostos pelo terceiro mineral corresponderia ao triplo $[0,1;0,3;0,6]$ ; um conjunto de dados conteria tal triplo para cada rocha em uma amostra de rochas.
Cada ponto de dado pode corresponder a uma cidade: uma cidade em que 35% dos habitantes são cristãos, 55% são muçulmanos, 6% são judeus e os restantes 4% são de outros religiões corresponderia ao quádruplo $[0,35;0,55;0,06;0,04]$ ; um conjunto de dados corresponderia a uma lista de cidades.
Em química, composições podem ser expressas como concentrações molares de cada componente. Já que a soma de todas as concentrações não é determinada, a composição inteira das $D$ partes é necessária e assim expressa como um vetor de $D$ concentrações molares. Estas composições podem ser traduzidas em peso por cento multiplicando cada componente pela constante apropriada.
Em um survey, as proporções de pessoas que respondem positivamente alguns itens diferentes podem ser expressas como porcentagens. Já que o montante total é identificado como 100, o vetor composicional de $D$ componentes pode ser definido usando apenas $D-1$ componentes, assumindo que o componente remanescente é a porcentagem necessária para o vetor inteiro se adicionar a 100.
Em probabilidade e estatística, uma partição do espaço amostral em eventos disjuntos é descrita pelas probabilidades atribuídas a tais eventos. O vetor de $D$ probabilidades pode ser considerada como uma composição de $D$ partes. Já que se adicionam a 1, uma probabilidade pode ser suprimida e a composição é completamente determinada.
Em sequenciamento de alta transferência, dados obtidos são composições de contagem, já que a capacidade da máquina determina o número de leituras observadas. Estes se reduzem às probabilidades de observar uma característica dada a profundidade de sequenciamento.^[4]

Referências

↑ Aitchison, J. (4 de outubro de 2011). The Statistical Analysis of Compositional Data (em inglês). [S.l.]: Springer Netherlands. ISBN 9789401083249
↑ den., Boogaart, K. Gerald van (2013). Analyzing compositional data with R. Berlin: Springer. ISBN 9783642368097. OCLC 852961394
↑ Pawlowsky-Glahn, Vera; Egozcue, Juan José; Tolosana-Delgado, Raimon (2007). Lecture Notes on Compositional Data Analysis (PDF). Girona: [s.n.] 95 páginas. Consultado em 13 de fevereiro de 2018
↑ Pawlowsky-Glahn, Vera; Egozcue, Juan José; Tolosana-Delgado, Raimon (30 de março de 2015). Modeling and Analysis of Compositional Data (em inglês). [S.l.]: John Wiley & Sons. ISBN 9781118443064

[1] Aitchison, J. (4 de outubro de 2011). The Statistical Analysis of Compositional Data (em inglês). [S.l.]: Springer Netherlands. ISBN 9789401083249

[:0-2] ., Boogaart, K. Gerald van (2013). Analyzing compositional data with R. Berlin: Springer. ISBN 9783642368097. OCLC 852961394

[3] Pawlowsky-Glahn, Vera; Egozcue, Juan José; Tolosana-Delgado, Raimon (2007). Lecture Notes on Compositional Data Analysis (PDF). Girona: [s.n.] 95 páginas. Consultado em 13 de fevereiro de 2018

[4] Pawlowsky-Glahn, Vera; Egozcue, Juan José; Tolosana-Delgado, Raimon (30 de março de 2015). Modeling and Analysis of Compositional Data (em inglês). [S.l.]: John Wiley & Sons. ISBN 9781118443064

[1]

[2]

[3]

[4]

@@ Linha 1: / Linha 1: @@
+{{Estatística sidebar}}
-Em [[estatística]], '''dados composicionais''' são descrições quantitativas das partes de um todo, que comunicam exclusivamente informação de forma relativa ao todo. A característica mais marcante desse tipo de dados é que a sua soma sempre é igual a uma constante (1 para proporções e 100 para porcentagens). Tais dados são muito comuns em áreas de pesquisa como a [[geologia]] e a ciência do solo. Exemplos de dados composicionais são a distribuição do tamanho de partículas minerais (areia, silte e argila) de um solo ou a concentração de cátions na solução do solo.
+Em [[estatística]], '''dados composicionais''' são descrições quantitativas das partes de algum todo, que transmitem exclusivamente informações de forma relativa ao todo. Medições que envolvem probabilidades, proporções, porcentagens podem ser pensadas como dados composicionais. A característica mais marcante deste tipo de dados é que sua soma é sempre igual a uma constante (1 para proporções e 100 para porcentagens). Tais dados são muito comuns em áreas de pesquisa como a [[geologia]].<ref>{{Citar livro|url=https://books.google.com.br/books?id=N1LOngEACAAJ&dq=%22The+Statistical+Analysis+of+Compositional+Data%22&hl=pt-BR&sa=X&ved=0ahUKEwiT1dKooqTZAhWGf5AKHWbIAfAQ6AEIKDAA|título=The Statistical Analysis of Compositional Data|ultimo=Aitchison|primeiro=J.|data=2011-10-04|editora=Springer Netherlands|lingua=en|isbn=9789401083249}}</ref>
-Esta definição, desenvolvida por [[John Aitchison]] na [[década de 1980]], pode ser escrita mais formalmente como objetos do espaço simplex:
+A definição original, dada pelo estatístico escocês [[John Aitchison]] em 1986, tem várias consequências:
+* Um ponto de dado composicional, ou composição de forma abreviada, pode ser representado por um vetor real positivo com tantas partes quanto consideradas. Algumas vezes, se o montante total for fixo e conhecido, um componente de vetor pode ser omitido.
-:: <math> \mathcal{S}^D=\left\{\mathbf{x}=[x_1,x_2,\dots,x_D]\in\mathbb{R}^D \left| x_i>0,i=1,2,\dots,D; \sum_{i=1}^D x_i=\kappa \right. \right\}. \ </math>
+* Como as composições apenas possuem informações relativas, a única informação é dada por razões entre componentes. Consequentemente, uma composição multiplicada por qualquer constante positiva contém a mesma informação que a anterior. Por isso, vetores positivos proporcionais são equivalentes quando considerados como composições.
+* Como usual em matemática, classes equivalentes são representas por algum elemento da classe, chamado de representante. Assim, composições equivalentes podem ser representadas por vetores positivos cujos componentes se adicionam a uma dada constante <math>\kappa</math>. A operação do vetor que atribui o representante da soma constante é chamada de fechamento e é denotada por <math>\mathcal{C}[\cdot]</math>:<blockquote><math>\mathcal{C}[x_1,x_2,\dots,x_D]=\left[\frac{x_1}{\sum_{i=1}^D x_i},\frac{x_2}{\sum_{i=1}^D x_i},\dots,\frac{x_D}{\sum_{i=1}^Dx_i}\right],\ </math></blockquote>
+em que <math>D </math> é o número de partes (componentes) e <math>[\cdot] </math> denota um vetor linha.
-Assim <math>\scriptstyle\mathcal{S}^D</math> é considerado o espaço amostral de '''dados composicionais'''. A constante positiva <math>\scriptstyle\kappa</math> pode ser 1 (por unidade), 100 (porcento, %), 1000, 10<sup>6</sup> (ppm ''part per million''), 10<sup>9</sup> (ppb), ...
+* Dados composicionais podem ser representados por vetores reais da soma constante com componentes positivos e estes vetores abrangem um [[Simplex (topologia)|simplex]], definido como<blockquote><math> \mathcal{S}^D=\left\{\mathbf{x}=[x_1,x_2,\dots,x_D]\in\mathbb{R}^D\left|x_i>0,i=1,2,\dots,D;\sum_{i=1}^D x_i=\kappa\right.\right\}. \ </math><ref name=":0">{{Citar livro|url=https://www.worldcat.org/oclc/852961394|título=Analyzing compositional data with R|ultimo=den.|primeiro=Boogaart, K. Gerald van|data=2013|editora=Springer|local=Berlin|isbn=9783642368097|oclc=852961394}}</ref></blockquote>
-{{Referências}}
-[[John Aitchison|J. Aitchison]], 1986: ''The Statistical Analysis of Compositional Data'', Chapman & Hall, The Blackburn Press.
+O espaço amostral <math> \mathcal{S}^D </math> é também conhecido como simplex de Aitchison. Acontece que uma estrutura alternativa do espaço vetorial pode ser definida no simplex de Aitchison, o que motivou o desenvolvimento da geometria de Aitchison.<ref>{{citar livro|url=https://dugi-doc.udg.edu/bitstream/handle/10256/297/CoDa-book.pdf?sequence=1&isAllowed=y|título=Lecture Notes on Compositional Data Analysis|ultimo=Pawlowsky-Glahn|primeiro=Vera|ultimo2=Egozcue|primeiro2=Juan José|ultimo3=Tolosana-Delgado|primeiro3=Raimon|ano=2007|local=Girona|páginas=95|acessodata=13/02/2018}}</ref>
-==Ligações externas==
-*{{Link||2=http://www.compositionaldata.com/inicial/index.php |3=CoDaWeb: Compositional Data Analysis Web Site}}
+==Exemplos==
-*{{Link||2=http://en.wikibooks.org/wiki/Why,_and_How,_Should_Geologists_Use_Compositional_Data_Analysis |3=Why, and How, Should Geologists Use Compositional Data Analysis |4=(wikibook)}}
+*Cada ponto de dado pode corresponder a uma rocha composta de três diferentes minerais: uma rocha que tem 10% compostos pelo primeiro mineral, 30% compostos pelo segundo mineral e os restantes 60% compostos pelo terceiro mineral corresponderia ao triplo <math>[0,1;0,3;0,6]</math>; um [[conjunto de dados]] conteria tal triplo para cada rocha em uma amostra de rochas.
+*Cada ponto de dado pode corresponder a uma cidade: uma cidade em que 35% dos habitantes são cristãos, 55% são muçulmanos, 6% são judeus e os restantes 4% são de outros religiões corresponderia ao quádruplo <math>[0,35;0,55;0,06;0,04]</math>; um conjunto de dados corresponderia a uma lista de cidades.
+*Em química, composições podem ser expressas como concentrações molares de cada componente. Já que a soma de todas as concentrações não é determinada, a composição inteira das <math>D</math> partes é necessária e assim expressa como um vetor de <math>D</math> concentrações molares. Estas composições podem ser traduzidas em peso por cento multiplicando cada componente pela constante apropriada.
+*Em um ''survey'', as proporções de pessoas que respondem positivamente alguns itens diferentes podem ser expressas como porcentagens. Já que o montante total é identificado como 100, o vetor composicional de <math>D</math> componentes pode ser definido usando apenas <math>D-1</math> componentes, assumindo que o componente remanescente é a porcentagem necessária para o vetor inteiro se adicionar a 100.
+*Em probabilidade e estatística, uma partição do espaço amostral em eventos disjuntos é descrita pelas probabilidades atribuídas a tais eventos. O vetor de <math>D</math> probabilidades pode ser considerada como uma composição de <math>D</math> partes. Já que se adicionam a 1, uma probabilidade pode ser suprimida e a composição é completamente determinada.
+* Em sequenciamento de alta transferência, dados obtidos são composições de contagem, já que a capacidade da máquina determina o número de leituras observadas. Estes se reduzem às probabilidades de observar uma característica dada a profundidade de sequenciamento.<ref>{{Citar livro|url=https://books.google.com.br/books?id=KS0IBgAAQBAJ&printsec=frontcover&dq=%22Modeling+and+Analysis+of+Compositional+Data%22&hl=pt-BR&sa=X&ved=0ahUKEwjF5tPWo6TZAhUJj5AKHYZqAJAQ6AEIKDAA|título=Modeling and Analysis of Compositional Data|ultimo=Pawlowsky-Glahn|primeiro=Vera|ultimo2=Egozcue|primeiro2=Juan José|ultimo3=Tolosana-Delgado|primeiro3=Raimon|data=2015-03-30|editora=John Wiley & Sons|lingua=en|isbn=9781118443064}}</ref>
+==Referências==
+{{Reflist}}
 {{Portal3|Probabilidade e Estatística}}
-{{DEFAULTSORT:Dados Composicionais}}
 [[Categoria:Estatística]]