Quarteto de Anscombe: diferenças entre revisões

← Ver a alteração anterior Ver a alteração posterior →

Conteúdo apagado Conteúdo adicionado

Em linha

Revisão das 15h11min de 11 de abril de 2020

Quarteto de Anscombe é o nome dado a quatro conjuntos de dados que têm estatísticas descritivas quase idênticas (como a média e a variância), mas que têm distribuições muito diferentes e aparências muito distintas quando exibidos graficamente. Cada conjunto de dados consiste de onze pontos (x,y). Eles foram construídos em 1973 pelo estatístico Francis Anscombe, com o objetivo de demonstrar tanto a importância de se visualizar os dados antes de analisá-los, quanto o efeito dos outliers e outrasa observações influentes nas propriedades estatísticas. Ele descreveu o artigo como tendo a finalidade de combater a impressão entre os estatísticos de que "cálculos numéricos são exatos, mas gráficos são aproximados/grosseiros."^[1]

Dados

Para os quatro conjunto de dados:

Propriedade	Valor	Precisão
Média de x	9	exato
Variância de x	11	exato
Média de y	7,50	até 2 casas decimais
Variância de y	4,125	±0,003
Correlação entre x e y	0,816	até 3 casas decimais
Reta de regressão linear	$y=3,00+0,500x$	até 2 e 3 casas decimais, respectivamente
Coeficiente de determinação da regressão linear: $R^{2}$	0,67	até 2 casas decimais

O primeiro gráfico de dispersão (no canto superior esquerdo) aparenta ser uma simples relação linear, correspondendo a duas variáveis correlacionadas em que y poderia ser modelado como uma gaussiana com uma média linearmente dependente de x.
O segudo gráfico (no canto superior direito) não mostra uma distribuição normal; enquanto a relação entre as duas variáveis é óbvia, ela não é linear, e o coeficiente de correlação de Pearson não é relevante. Uma regressão mais geral e o coeficiente de determinação correspondente seria mais apropriada.
No terceiro gráfico (no canto inferior esquerdo), a distribuição é linear, mas deveria ter uma reta de regressão diferente (uma regressão robusta teria sido mais apropriada). A regressão calculada está deslocada por pelo único outlier que exerce influência suficiente para reduzir o coeficiente de correlação de 1 para 0.816.
Finalmente, o quarto gráfico (no canto inferior direito) mostra um exemplo em que um ponto de grande alavanca é suficiente para produzir um grande coeficiente de correlação mas, embora outros pontos de dados não indiquem qualquer relação entre as variáveis.

O quarteto ainda é usado frequentemente para ilustrar a importância de visualizar um conjunto de dados graficamente antes de iniciar a análise de acordo com um tipo de relação particular, e a inadequação de propriedades estatísticas básicas para descrever conjuntos de dados realísticos.^[2]^[3]^[4]^[5]^[6]

Os conjuntos de dados são os seguintes. Os valores de x são os mesmos para os três conjuntos de dados.^[1]

Quarteto de Anscombe
I		II		III		IV
x	y	x	y	x	y	x	y
10,0	8,04	10,0	9,14	10,0	7,46	8,0	6,58
8,0	6,95	8,0	8,14	8,0	6,77	8,0	5,76
13,0	7,58	13,0	8,74	13,0	12,74	8,0	7,71
9,0	8,81	9,0	8,77	9,0	7,11	8,0	8,84
11,0	8,33	11,0	9,26	11,0	7,81	8,0	8,47
14,0	9,96	14,0	8,10	14,0	8,84	8,0	7,04
6,0	7,24	6,0	6,13	6,0	6,08	8,0	5,25
4,0	4,26	4,0	3,10	4,0	5,39	19,0	12,50
12,0	10,84	12,0	9,13	12,0	8,15	8,0	5,56
7,0	4,82	7,0	7,26	7,0	6,42	8,0	7,91
5,0	5,68	5,0	4,74	5,0	5,73	8,0	6,89

Não se sabe como Anscombe criou seus conjuntos de dados.^[7] Desde sua publicação, foram desenvolvidos vários métodos para produzir conjuntos de dados similares com estatísticas idênticas e gráficos distintos.^[7]^[8]

Referências

↑ ^a ^b Anscombe, F. J. (1973). «Graphs in Statistical Analysis». American Statistician. 27 (1): 17–21. JSTOR 2682899. doi:10.1080/00031305.1973.10478966
↑ Elert, Glenn. «Linear Regression». The Physics Hypertextbook
↑ Janert, Philipp K. (2010). Data Analysis with Open Source Tools. [S.l.]: O'Reilly Media. pp. 65–66. ISBN 0-596-80235-8
↑ Chatterjee, Samprit; Hadi, Ali S. (2006). Regression Analysis by Example. [S.l.]: John Wiley and Sons. p. 91. ISBN 0-471-74696-7
↑ Saville, David J.; Wood, Graham R. (1991). Statistical Methods: The geometric approach. [S.l.]: Springer. p. 418. ISBN 0-387-97517-9
↑ Tufte, Edward R. (2001). The Visual Display of Quantitative Information 2nd ed. Cheshire, CT: Graphics Press. ISBN 0-9613921-4-2
↑ ^a ^b Chatterjee, Sangit; Firat, Aykut (2007). «Generating Data with Identical Statistics but Dissimilar Graphics: A follow up to the Anscombe dataset». The American Statistician. 61 (3): 248–254. JSTOR 27643902. doi:10.1198/000313007X220057
↑ Matejka, Justin; Fitzmaurice, George (2017). «Same Stats, Different Graphs: Generating Datasets with Varied Appearance and Identical Statistics through Simulated Annealing». Proceedings of the 2017 CHI Conference on Human Factors in Computing Systems: 1290-1294. doi:10.1145/3025453.3025912

[Anscombe-1] Anscombe, F. J. (1973). «Graphs in Statistical Analysis». American Statistician. 27 (1): 17–21. JSTOR 2682899. doi:10.1080/00031305.1973.10478966

[2] Elert, Glenn. «Linear Regression». The Physics Hypertextbook

[3] Janert, Philipp K. (2010). Data Analysis with Open Source Tools. [S.l.]: O'Reilly Media. pp. 65–66. ISBN 0-596-80235-8

[4] Chatterjee, Samprit; Hadi, Ali S. (2006). Regression Analysis by Example. [S.l.]: John Wiley and Sons. p. 91. ISBN 0-471-74696-7

[5] Saville, David J.; Wood, Graham R. (1991). Statistical Methods: The geometric approach. [S.l.]: Springer. p. 418. ISBN 0-387-97517-9

[6] Tufte, Edward R. (2001). The Visual Display of Quantitative Information 2nd ed. Cheshire, CT: Graphics Press. ISBN 0-9613921-4-2

[ChatterjeeFirat-7] Chatterjee, Sangit; Firat, Aykut (2007). «Generating Data with Identical Statistics but Dissimilar Graphics: A follow up to the Anscombe dataset». The American Statistician. 61 (3): 248–254. JSTOR 27643902. doi:10.1198/000313007X220057

[8] Matejka, Justin; Fitzmaurice, George (2017). «Same Stats, Different Graphs: Generating Datasets with Varied Appearance and Identical Statistics through Simulated Annealing». Proceedings of the 2017 CHI Conference on Human Factors in Computing Systems: 1290-1294. doi:10.1145/3025453.3025912

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

@@ Linha 1: / Linha 1: @@
 [[Imagem:Anscombe's quartet 3.svg|right|425px|thumb|Todos os quatro conjunto de dados são idênticos quando examinado usando estatística básica, mas variam consideravelmente quando graficados.]]
-'''Quarteto de Anscombe''' é o nome dado a quatro conjuntos de dados que aparentam ser idênticos quando descritos por certas técnicas de [[estatística descritiva]] (como a [[média]] e a [[variância]]), mas que são muito distintos quando exibidos graficamente. Ele leva o nome do estatístico [[F.J. Anscombe]] que o publicou pela primeira vez em 1973,<ref> F.J. Anscombe, [http://links.jstor.org/sici?sici=0003-1305%28197302%2927%3A1%3C17%3AGISA%3E2.0.CO%3B2-J "Graphs in Statistical Analysis,"] [[American Statistician]], 27 (February 1973), 17-21.</ref> com o objetivo de demonstrar tanto a importância de se visualizar os dados antes de analisá-los quanto o efeito dos [[outliers]] nas propriedades estatísticas.
+'''Quarteto de Anscombe''' é o nome dado a quatro [[Conjunto de dados|conjuntos de dados]] que têm [[estatística descritiva|estatísticas descritivas]] quase idênticas (como a [[média]] e a [[variância]]), mas que têm distribuições muito diferentes e aparências muito distintas quando exibidos graficamente. Cada conjunto de dados consiste de onze pontos (''x'',''y''). Eles foram construídos em 1973 pelo estatístico [[Francis John Anscombe|Francis Anscombe]], com o objetivo de demonstrar tanto a importância de se visualizar os dados antes de analisá-los, quanto o efeito dos [[outliers]] e outrasa [[observação influente|observações influentes]] nas propriedades estatísticas. Ele descreveu o artigo como tendo a finalidade de combater a impressão entre os estatísticos de que "cálculos numéricos são exatos, mas gráficos são aproximados/grosseiros."<ref name="Anscombe">{{cite journal |last=Anscombe |first=F. J. |authorlink=Frank Anscombe |title=Graphs in Statistical Analysis |journal=[[American Statistician]] |volume=27 |year=1973 |issue=1 |pages=17–21 |jstor=2682899|doi=10.1080/00031305.1973.10478966}}</ref>
+== Dados ==
 Para os quatro conjunto de dados:
 {| class="wikitable"
 ! Propriedade
 ! Valor
+! Precisão
 |-
-| [[Média]] de ''x'' em cada caso
+| [[Média]] de ''x''
+| 9
-| 9 <small>(exato)</small>
+| exato
 |-
-| [[Variância]] de ''x'' em cada caso
+| [[Variância]] de ''x''
+| 11
-| 11 <small>(exato)</small>
+| exato
 |-
-| Média de ''y'' em cada caso
+| Média de ''y''
+| 7,50
-| 7,50 <small>(em até duas casas decimais)</small>
+| até 2 casas decimais
 |-
-| Variância de ''y'' em cada caso
+| Variância de ''y''
+| 4,125
-| 4,122 ou 4,127 <small>(em até 3 casas decimais)</small>
+| ±0,003
 |-
-| [[Correlação]] entre ''x'' e ''y'' em cada caso
+| [[Correlação]] entre ''x'' e ''y''
+| 0,816
-| 0,816 <small>(em até 3 casas decimais)</small>
+| até 3 casas decimais
 |-
-| Linha de [[regressão linear]] em cada caso
+| Reta de [[regressão linear]]
-| <math>y=3,00 + 0,500x</math> <small>(em até 2 e 3 casas decimais, respectivamente)</small>
+| <math>y=3,00 + 0,500x</math>
+| até 2 e 3 casas decimais, respectivamente
+|-
+| [[Coeficiente de determinação]] da regressão linear: <math>R^2</math>
+| 0,67
+| até 2 casas decimais
 |}
 <!-- to be added to table above:
@@ Linha 31: / Linha 43: @@
 residual sums of squared errors (about the regression line) = 13.75 <br />
 coefficient of determination = 0.67 <br />
+-->* O primeiro [[gráfico de dispersão]] (no canto superior esquerdo) aparenta ser uma simples relação linear, correspondendo a duas [[variável (matemática)|variáveis]] correlacionadas em que y poderia ser modelado como uma [[distribuição normal|gaussiana]] com uma média linearmente dependente de x.
--->
+* O segudo gráfico (no canto superior direito) não mostra uma distribuição normal; enquanto a relação entre as duas variáveis é óbvia, ela não é linear, e o [[coeficiente de correlação de Pearson]] não é relevante. Uma regressão mais geral e o [[coeficiente de determinação]] correspondente seria mais apropriada.
+* No terceiro gráfico (no canto inferior esquerdo), a distribuição é linear, mas deveria ter uma [[Regressão linear|reta de regressão]] diferente (uma [[regressão robusta]] teria sido mais apropriada). A regressão calculada está deslocada por pelo único [[outlier]] que exerce influência suficiente para reduzir o coeficiente de correlação de 1 para 0.816.
+* Finalmente, o quarto gráfico (no canto inferior direito) mostra um exemplo em que um [[Ponto de alavanca (estatística)|ponto de grande alavanca]] é suficiente para produzir um grande coeficiente de correlação mas, embora outros pontos de dados não indiquem qualquer relação entre as variáveis.
+O quarteto ainda é usado frequentemente para ilustrar a importância de visualizar um conjunto de dados graficamente antes de iniciar a análise de acordo com um tipo de relação particular, e a inadequação de propriedades estatísticas básicas para descrever conjuntos de dados realísticos.<ref>{{cite web| url=http://physics.info/linear-regression/practice.shtml#4 |title=Linear Regression |work=The Physics Hypertextbook |last=Elert |first=Glenn}}</ref><ref>{{cite book |last=Janert |first=Philipp K. |title=Data Analysis with Open Source Tools |year=2010 |publisher=[[O'Reilly Media]] |pages=[https://archive.org/details/isbn_9780596802356/page/65 65–66] |isbn=0-596-80235-8 |url=https://archive.org/details/isbn_9780596802356/page/65 }}</ref><ref>{{cite book |last1=Chatterjee |first1=Samprit |last2=Hadi |first2=Ali S. |year=2006 |title=Regression Analysis by Example |publisher=John Wiley and Sons |page=91 |isbn=0-471-74696-7}}</ref><ref>{{cite book |last1=Saville |first1=David J. |last2=Wood |first2=Graham R. |year=1991 |title=Statistical Methods: The geometric approach |publisher=[[Springer Science+Business Media|Springer]] |page=418 |isbn=0-387-97517-9}}</ref><ref>{{cite book |last=Tufte |first=Edward R. |authorlink=Edward Tufte |year=2001 |title=The Visual Display of Quantitative Information |edition=2nd |location=Cheshire, CT |publisher=Graphics Press |isbn=0-9613921-4-2 |url=https://archive.org/details/visualdisplayofq00tuft }}</ref>
+Os conjuntos de dados são os seguintes. Os valores de ''x'' são os mesmos para os três conjuntos de dados.<ref name="Anscombe"/>
+{| class="wikitable" style="text-align: center; margin-left:auto; margin-right:auto;"
+|+ Quarteto de Anscombe
+|-
+! colspan="2"| I
+! colspan="2"| II
+! colspan="2"| III
+! colspan="2"| IV
+|-
+| x
+| y
+| x
+| y
+| x
+| y
+| x
+| y
+|-
+| 10,0 ||  8,04 || 10,0 ||  9,14 || 10,0 ||  7,46 ||  8,0 ||  6,58
+|-
+|  8,0 ||  6,95 ||  8,0 ||  8,14 ||  8,0 ||  6,77 ||  8,0 ||  5,76
+|-
+| 13,0 ||  7,58 || 13,0 ||  8,74 || 13,0 || 12,74 ||  8,0 ||  7,71
+|-
+|  9,0 ||  8,81 ||  9,0 ||  8,77 ||  9,0 ||  7,11 ||  8,0 ||  8,84
+|-
+| 11,0 ||  8,33 || 11,0 ||  9,26 || 11,0 ||  7,81 ||  8,0 ||  8,47
+|-
+| 14,0 ||  9,96 || 14,0 ||  8,10 || 14,0 ||  8,84 ||  8,0 ||  7,04
+|-
+|  6,0 ||  7,24 ||  6,0 ||  6,13 ||  6,0 ||  6,08 ||  8,0 ||  5,25
+|-
+|  4,0 ||  4,26 ||  4,0 ||  3,10 ||  4,0 ||  5,39 || 19,0 || 12,50
+|-
+| 12,0 || 10,84 || 12,0 ||  9,13 || 12,0 ||  8,15 ||  8,0 ||  5,56
+|-
+|  7,0 ||  4,82 ||  7,0 ||  7,26 ||  7,0 ||  6,42 ||  8,0 ||  7,91
+|-
+|  5,0 ||  5,68 ||  5,0 ||  4,74 ||  5,0 ||  5,73 ||  8,0 ||  6,89
+|}
+Não se sabe como Anscombe criou seus conjuntos de dados.<ref name="ChatterjeeFirat">{{cite journal |last1=Chatterjee |first1=Sangit |last2=Firat |first2=Aykut |year=2007 |title=Generating Data with Identical Statistics but Dissimilar Graphics: A follow up to the Anscombe dataset |journal=[[The American Statistician]] |volume=61 |issue=3 |pages=248–254 |doi=10.1198/000313007X220057| jstor=27643902}}</ref> Desde sua publicação, foram desenvolvidos vários métodos para produzir conjuntos de dados similares com estatísticas idênticas e gráficos distintos.<ref name="ChatterjeeFirat"/><ref>{{cite journal |last1=Matejka |first1=Justin |last2=Fitzmaurice |first2=George |year=2017 |title=Same Stats, Different Graphs: Generating Datasets with Varied Appearance and Identical Statistics through Simulated Annealing |journal=[[Conference on Human Factors in Computing Systems|Proceedings of the 2017 CHI Conference on Human Factors in Computing Systems]] |pages=1290-1294 |doi=10.1145/3025453.3025912}}</ref>
 {{referências}}