Quarteto de Anscombe: diferenças entre revisões

Origem: Wikipédia, a enciclopédia livre.
Conteúdo apagado Conteúdo adicionado
m ajustes usando script
Atualização baseada em tradução do restante de en:Anscombe's quartet
Etiqueta: Inserção de predefinição obsoleta
Linha 1: Linha 1:
[[Imagem:Anscombe's quartet 3.svg|right|425px|thumb|Todos os quatro conjunto de dados são idênticos quando examinado usando estatística básica, mas variam consideravelmente quando graficados.]]
[[Imagem:Anscombe's quartet 3.svg|right|425px|thumb|Todos os quatro conjunto de dados são idênticos quando examinado usando estatística básica, mas variam consideravelmente quando graficados.]]


'''Quarteto de Anscombe''' é o nome dado a quatro conjuntos de dados que aparentam ser idênticos quando descritos por certas técnicas de [[estatística descritiva]] (como a [[média]] e a [[variância]]), mas que são muito distintos quando exibidos graficamente. Ele leva o nome do estatístico [[F.J. Anscombe]] que o publicou pela primeira vez em 1973,<ref> F.J. Anscombe, [http://links.jstor.org/sici?sici=0003-1305%28197302%2927%3A1%3C17%3AGISA%3E2.0.CO%3B2-J "Graphs in Statistical Analysis,"] [[American Statistician]], 27 (February 1973), 17-21.</ref> com o objetivo de demonstrar tanto a importância de se visualizar os dados antes de analisá-los quanto o efeito dos [[outliers]] nas propriedades estatísticas.
'''Quarteto de Anscombe''' é o nome dado a quatro [[Conjunto de dados|conjuntos de dados]] que têm [[estatística descritiva|estatísticas descritivas]] quase idênticas (como a [[média]] e a [[variância]]), mas que têm distribuições muito diferentes e aparências muito distintas quando exibidos graficamente. Cada conjunto de dados consiste de onze pontos (''x'',''y''). Eles foram construídos em 1973 pelo estatístico [[Francis John Anscombe|Francis Anscombe]], com o objetivo de demonstrar tanto a importância de se visualizar os dados antes de analisá-los, quanto o efeito dos [[outliers]] e outrasa [[observação influente|observações influentes]] nas propriedades estatísticas. Ele descreveu o artigo como tendo a finalidade de combater a impressão entre os estatísticos de que "cálculos numéricos são exatos, mas gráficos são aproximados/grosseiros."<ref name="Anscombe">{{cite journal |last=Anscombe |first=F. J. |authorlink=Frank Anscombe |title=Graphs in Statistical Analysis |journal=[[American Statistician]] |volume=27 |year=1973 |issue=1 |pages=17–21 |jstor=2682899|doi=10.1080/00031305.1973.10478966}}</ref>


== Dados ==
Para os quatro conjunto de dados:
Para os quatro conjunto de dados:
{| class="wikitable"
{| class="wikitable"
! Propriedade
! Propriedade
! Valor
! Valor
! Precisão
|-
|-
| [[Média]] de ''x'' em cada caso
| [[Média]] de ''x''
| 9
| 9 <small>(exato)</small>
| exato
|-
|-
| [[Variância]] de ''x'' em cada caso
| [[Variância]] de ''x''
| 11
| 11 <small>(exato)</small>
| exato
|-
|-
| Média de ''y'' em cada caso
| Média de ''y''
| 7,50
| 7,50 <small>(em até duas casas decimais)</small>
| até 2 casas decimais
|-
|-
| Variância de ''y'' em cada caso
| Variância de ''y''
| 4,125
| 4,122 ou 4,127 <small>(em até 3 casas decimais)</small>
| ±0,003
|-
|-
| [[Correlação]] entre ''x'' e ''y'' em cada caso
| [[Correlação]] entre ''x'' e ''y''
| 0,816
| 0,816 <small>(em até 3 casas decimais)</small>
| até 3 casas decimais
|-
|-
| Linha de [[regressão linear]] em cada caso
| Reta de [[regressão linear]]
| <math>y=3,00 + 0,500x</math> <small>(em até 2 e 3 casas decimais, respectivamente)</small>
| <math>y=3,00 + 0,500x</math>
| até 2 e 3 casas decimais, respectivamente
|-
| [[Coeficiente de determinação]] da regressão linear: <math>R^2</math>
| 0,67
| até 2 casas decimais
|}
|}
<!-- to be added to table above:
<!-- to be added to table above:
Linha 31: Linha 43:
residual sums of squared errors (about the regression line) = 13.75 <br />
residual sums of squared errors (about the regression line) = 13.75 <br />
coefficient of determination = 0.67 <br />
coefficient of determination = 0.67 <br />
-->* O primeiro [[gráfico de dispersão]] (no canto superior esquerdo) aparenta ser uma simples relação linear, correspondendo a duas [[variável (matemática)|variáveis]] correlacionadas em que y poderia ser modelado como uma [[distribuição normal|gaussiana]] com uma média linearmente dependente de x.
-->
* O segudo gráfico (no canto superior direito) não mostra uma distribuição normal; enquanto a relação entre as duas variáveis é óbvia, ela não é linear, e o [[coeficiente de correlação de Pearson]] não é relevante. Uma regressão mais geral e o [[coeficiente de determinação]] correspondente seria mais apropriada.
* No terceiro gráfico (no canto inferior esquerdo), a distribuição é linear, mas deveria ter uma [[Regressão linear|reta de regressão]] diferente (uma [[regressão robusta]] teria sido mais apropriada). A regressão calculada está deslocada por pelo único [[outlier]] que exerce influência suficiente para reduzir o coeficiente de correlação de 1 para 0.816.
* Finalmente, o quarto gráfico (no canto inferior direito) mostra um exemplo em que um [[Ponto de alavanca (estatística)|ponto de grande alavanca]] é suficiente para produzir um grande coeficiente de correlação mas, embora outros pontos de dados não indiquem qualquer relação entre as variáveis.

O quarteto ainda é usado frequentemente para ilustrar a importância de visualizar um conjunto de dados graficamente antes de iniciar a análise de acordo com um tipo de relação particular, e a inadequação de propriedades estatísticas básicas para descrever conjuntos de dados realísticos.<ref>{{cite web| url=http://physics.info/linear-regression/practice.shtml#4 |title=Linear Regression |work=The Physics Hypertextbook |last=Elert |first=Glenn}}</ref><ref>{{cite book |last=Janert |first=Philipp K. |title=Data Analysis with Open Source Tools |year=2010 |publisher=[[O'Reilly Media]] |pages=[https://archive.org/details/isbn_9780596802356/page/65 65–66] |isbn=0-596-80235-8 |url=https://archive.org/details/isbn_9780596802356/page/65 }}</ref><ref>{{cite book |last1=Chatterjee |first1=Samprit |last2=Hadi |first2=Ali S. |year=2006 |title=Regression Analysis by Example |publisher=John Wiley and Sons |page=91 |isbn=0-471-74696-7}}</ref><ref>{{cite book |last1=Saville |first1=David J. |last2=Wood |first2=Graham R. |year=1991 |title=Statistical Methods: The geometric approach |publisher=[[Springer Science+Business Media|Springer]] |page=418 |isbn=0-387-97517-9}}</ref><ref>{{cite book |last=Tufte |first=Edward R. |authorlink=Edward Tufte |year=2001 |title=The Visual Display of Quantitative Information |edition=2nd |location=Cheshire, CT |publisher=Graphics Press |isbn=0-9613921-4-2 |url=https://archive.org/details/visualdisplayofq00tuft }}</ref>

Os conjuntos de dados são os seguintes. Os valores de ''x'' são os mesmos para os três conjuntos de dados.<ref name="Anscombe"/>

{| class="wikitable" style="text-align: center; margin-left:auto; margin-right:auto;"
|+ Quarteto de Anscombe
|-
! colspan="2"| I
! colspan="2"| II
! colspan="2"| III
! colspan="2"| IV
|-
| x
| y
| x
| y
| x
| y
| x
| y
|-
| 10,0 || 8,04 || 10,0 || 9,14 || 10,0 || 7,46 || 8,0 || 6,58
|-
| 8,0 || 6,95 || 8,0 || 8,14 || 8,0 || 6,77 || 8,0 || 5,76
|-
| 13,0 || 7,58 || 13,0 || 8,74 || 13,0 || 12,74 || 8,0 || 7,71
|-
| 9,0 || 8,81 || 9,0 || 8,77 || 9,0 || 7,11 || 8,0 || 8,84
|-
| 11,0 || 8,33 || 11,0 || 9,26 || 11,0 || 7,81 || 8,0 || 8,47
|-
| 14,0 || 9,96 || 14,0 || 8,10 || 14,0 || 8,84 || 8,0 || 7,04
|-
| 6,0 || 7,24 || 6,0 || 6,13 || 6,0 || 6,08 || 8,0 || 5,25
|-
| 4,0 || 4,26 || 4,0 || 3,10 || 4,0 || 5,39 || 19,0 || 12,50
|-
| 12,0 || 10,84 || 12,0 || 9,13 || 12,0 || 8,15 || 8,0 || 5,56
|-
| 7,0 || 4,82 || 7,0 || 7,26 || 7,0 || 6,42 || 8,0 || 7,91
|-
| 5,0 || 5,68 || 5,0 || 4,74 || 5,0 || 5,73 || 8,0 || 6,89
|}

Não se sabe como Anscombe criou seus conjuntos de dados.<ref name="ChatterjeeFirat">{{cite journal |last1=Chatterjee |first1=Sangit |last2=Firat |first2=Aykut |year=2007 |title=Generating Data with Identical Statistics but Dissimilar Graphics: A follow up to the Anscombe dataset |journal=[[The American Statistician]] |volume=61 |issue=3 |pages=248–254 |doi=10.1198/000313007X220057| jstor=27643902}}</ref> Desde sua publicação, foram desenvolvidos vários métodos para produzir conjuntos de dados similares com estatísticas idênticas e gráficos distintos.<ref name="ChatterjeeFirat"/><ref>{{cite journal |last1=Matejka |first1=Justin |last2=Fitzmaurice |first2=George |year=2017 |title=Same Stats, Different Graphs: Generating Datasets with Varied Appearance and Identical Statistics through Simulated Annealing |journal=[[Conference on Human Factors in Computing Systems|Proceedings of the 2017 CHI Conference on Human Factors in Computing Systems]] |pages=1290-1294 |doi=10.1145/3025453.3025912}}</ref>


{{referências}}
{{referências}}

Revisão das 15h11min de 11 de abril de 2020

Todos os quatro conjunto de dados são idênticos quando examinado usando estatística básica, mas variam consideravelmente quando graficados.

Quarteto de Anscombe é o nome dado a quatro conjuntos de dados que têm estatísticas descritivas quase idênticas (como a média e a variância), mas que têm distribuições muito diferentes e aparências muito distintas quando exibidos graficamente. Cada conjunto de dados consiste de onze pontos (x,y). Eles foram construídos em 1973 pelo estatístico Francis Anscombe, com o objetivo de demonstrar tanto a importância de se visualizar os dados antes de analisá-los, quanto o efeito dos outliers e outrasa observações influentes nas propriedades estatísticas. Ele descreveu o artigo como tendo a finalidade de combater a impressão entre os estatísticos de que "cálculos numéricos são exatos, mas gráficos são aproximados/grosseiros."[1]

Dados

Para os quatro conjunto de dados:

Propriedade Valor Precisão
Média de x 9 exato
Variância de x 11 exato
Média de y 7,50 até 2 casas decimais
Variância de y 4,125 ±0,003
Correlação entre x e y 0,816 até 3 casas decimais
Reta de regressão linear até 2 e 3 casas decimais, respectivamente
Coeficiente de determinação da regressão linear: 0,67 até 2 casas decimais
  • O primeiro gráfico de dispersão (no canto superior esquerdo) aparenta ser uma simples relação linear, correspondendo a duas variáveis correlacionadas em que y poderia ser modelado como uma gaussiana com uma média linearmente dependente de x.
  • O segudo gráfico (no canto superior direito) não mostra uma distribuição normal; enquanto a relação entre as duas variáveis é óbvia, ela não é linear, e o coeficiente de correlação de Pearson não é relevante. Uma regressão mais geral e o coeficiente de determinação correspondente seria mais apropriada.
  • No terceiro gráfico (no canto inferior esquerdo), a distribuição é linear, mas deveria ter uma reta de regressão diferente (uma regressão robusta teria sido mais apropriada). A regressão calculada está deslocada por pelo único outlier que exerce influência suficiente para reduzir o coeficiente de correlação de 1 para 0.816.
  • Finalmente, o quarto gráfico (no canto inferior direito) mostra um exemplo em que um ponto de grande alavanca é suficiente para produzir um grande coeficiente de correlação mas, embora outros pontos de dados não indiquem qualquer relação entre as variáveis.

O quarteto ainda é usado frequentemente para ilustrar a importância de visualizar um conjunto de dados graficamente antes de iniciar a análise de acordo com um tipo de relação particular, e a inadequação de propriedades estatísticas básicas para descrever conjuntos de dados realísticos.[2][3][4][5][6]

Os conjuntos de dados são os seguintes. Os valores de x são os mesmos para os três conjuntos de dados.[1]

Quarteto de Anscombe
I II III IV
x y x y x y x y
10,0 8,04 10,0 9,14 10,0 7,46 8,0 6,58
8,0 6,95 8,0 8,14 8,0 6,77 8,0 5,76
13,0 7,58 13,0 8,74 13,0 12,74 8,0 7,71
9,0 8,81 9,0 8,77 9,0 7,11 8,0 8,84
11,0 8,33 11,0 9,26 11,0 7,81 8,0 8,47
14,0 9,96 14,0 8,10 14,0 8,84 8,0 7,04
6,0 7,24 6,0 6,13 6,0 6,08 8,0 5,25
4,0 4,26 4,0 3,10 4,0 5,39 19,0 12,50
12,0 10,84 12,0 9,13 12,0 8,15 8,0 5,56
7,0 4,82 7,0 7,26 7,0 6,42 8,0 7,91
5,0 5,68 5,0 4,74 5,0 5,73 8,0 6,89

Não se sabe como Anscombe criou seus conjuntos de dados.[7] Desde sua publicação, foram desenvolvidos vários métodos para produzir conjuntos de dados similares com estatísticas idênticas e gráficos distintos.[7][8]

Referências

  1. a b Anscombe, F. J. (1973). «Graphs in Statistical Analysis». American Statistician. 27 (1): 17–21. JSTOR 2682899. doi:10.1080/00031305.1973.10478966 
  2. Elert, Glenn. «Linear Regression». The Physics Hypertextbook 
  3. Janert, Philipp K. (2010). Data Analysis with Open Source Tools. [S.l.]: O'Reilly Media. pp. 65–66. ISBN 0-596-80235-8 
  4. Chatterjee, Samprit; Hadi, Ali S. (2006). Regression Analysis by Example. [S.l.]: John Wiley and Sons. p. 91. ISBN 0-471-74696-7 
  5. Saville, David J.; Wood, Graham R. (1991). Statistical Methods: The geometric approach. [S.l.]: Springer. p. 418. ISBN 0-387-97517-9 
  6. Tufte, Edward R. (2001). The Visual Display of Quantitative Information 2nd ed. Cheshire, CT: Graphics Press. ISBN 0-9613921-4-2 
  7. a b Chatterjee, Sangit; Firat, Aykut (2007). «Generating Data with Identical Statistics but Dissimilar Graphics: A follow up to the Anscombe dataset». The American Statistician. 61 (3): 248–254. JSTOR 27643902. doi:10.1198/000313007X220057 
  8. Matejka, Justin; Fitzmaurice, George (2017). «Same Stats, Different Graphs: Generating Datasets with Varied Appearance and Identical Statistics through Simulated Annealing». Proceedings of the 2017 CHI Conference on Human Factors in Computing Systems: 1290-1294. doi:10.1145/3025453.3025912