Quarteto de Anscombe: diferenças entre revisões
m ajustes usando script |
Atualização baseada em tradução do restante de en:Anscombe's quartet Etiqueta: Inserção de predefinição obsoleta |
||
Linha 1: | Linha 1: | ||
[[Imagem:Anscombe's quartet 3.svg|right|425px|thumb|Todos os quatro conjunto de dados são idênticos quando examinado usando estatística básica, mas variam consideravelmente quando graficados.]] |
[[Imagem:Anscombe's quartet 3.svg|right|425px|thumb|Todos os quatro conjunto de dados são idênticos quando examinado usando estatística básica, mas variam consideravelmente quando graficados.]] |
||
'''Quarteto de Anscombe''' é o nome dado a quatro conjuntos de dados que |
'''Quarteto de Anscombe''' é o nome dado a quatro [[Conjunto de dados|conjuntos de dados]] que têm [[estatística descritiva|estatísticas descritivas]] quase idênticas (como a [[média]] e a [[variância]]), mas que têm distribuições muito diferentes e aparências muito distintas quando exibidos graficamente. Cada conjunto de dados consiste de onze pontos (''x'',''y''). Eles foram construídos em 1973 pelo estatístico [[Francis John Anscombe|Francis Anscombe]], com o objetivo de demonstrar tanto a importância de se visualizar os dados antes de analisá-los, quanto o efeito dos [[outliers]] e outrasa [[observação influente|observações influentes]] nas propriedades estatísticas. Ele descreveu o artigo como tendo a finalidade de combater a impressão entre os estatísticos de que "cálculos numéricos são exatos, mas gráficos são aproximados/grosseiros."<ref name="Anscombe">{{cite journal |last=Anscombe |first=F. J. |authorlink=Frank Anscombe |title=Graphs in Statistical Analysis |journal=[[American Statistician]] |volume=27 |year=1973 |issue=1 |pages=17–21 |jstor=2682899|doi=10.1080/00031305.1973.10478966}}</ref> |
||
== Dados == |
|||
Para os quatro conjunto de dados: |
Para os quatro conjunto de dados: |
||
{| class="wikitable" |
{| class="wikitable" |
||
! Propriedade |
! Propriedade |
||
! Valor |
! Valor |
||
! Precisão |
|||
|- |
|- |
||
| [[Média]] de ''x'' |
| [[Média]] de ''x'' |
||
| 9 |
|||
| 9 <small>(exato)</small> |
|||
| exato |
|||
|- |
|- |
||
| [[Variância]] de ''x'' |
| [[Variância]] de ''x'' |
||
| 11 |
|||
| 11 <small>(exato)</small> |
|||
| exato |
|||
|- |
|- |
||
| Média de ''y'' |
| Média de ''y'' |
||
| 7,50 |
|||
| |
| até 2 casas decimais |
||
|- |
|- |
||
| Variância de ''y'' |
| Variância de ''y'' |
||
| 4,125 |
|||
| 4,122 ou 4,127 <small>(em até 3 casas decimais)</small> |
|||
| ±0,003 |
|||
|- |
|- |
||
| [[Correlação]] entre ''x'' e ''y'' |
| [[Correlação]] entre ''x'' e ''y'' |
||
| 0,816 |
|||
| |
| até 3 casas decimais |
||
|- |
|- |
||
| |
| Reta de [[regressão linear]] |
||
| <math>y=3,00 + 0,500x</math> |
| <math>y=3,00 + 0,500x</math> |
||
| até 2 e 3 casas decimais, respectivamente |
|||
|- |
|||
| [[Coeficiente de determinação]] da regressão linear: <math>R^2</math> |
|||
| 0,67 |
|||
| até 2 casas decimais |
|||
|} |
|} |
||
<!-- to be added to table above: |
<!-- to be added to table above: |
||
Linha 31: | Linha 43: | ||
residual sums of squared errors (about the regression line) = 13.75 <br /> |
residual sums of squared errors (about the regression line) = 13.75 <br /> |
||
coefficient of determination = 0.67 <br /> |
coefficient of determination = 0.67 <br /> |
||
-->* O primeiro [[gráfico de dispersão]] (no canto superior esquerdo) aparenta ser uma simples relação linear, correspondendo a duas [[variável (matemática)|variáveis]] correlacionadas em que y poderia ser modelado como uma [[distribuição normal|gaussiana]] com uma média linearmente dependente de x. |
|||
--> |
|||
* O segudo gráfico (no canto superior direito) não mostra uma distribuição normal; enquanto a relação entre as duas variáveis é óbvia, ela não é linear, e o [[coeficiente de correlação de Pearson]] não é relevante. Uma regressão mais geral e o [[coeficiente de determinação]] correspondente seria mais apropriada. |
|||
* No terceiro gráfico (no canto inferior esquerdo), a distribuição é linear, mas deveria ter uma [[Regressão linear|reta de regressão]] diferente (uma [[regressão robusta]] teria sido mais apropriada). A regressão calculada está deslocada por pelo único [[outlier]] que exerce influência suficiente para reduzir o coeficiente de correlação de 1 para 0.816. |
|||
* Finalmente, o quarto gráfico (no canto inferior direito) mostra um exemplo em que um [[Ponto de alavanca (estatística)|ponto de grande alavanca]] é suficiente para produzir um grande coeficiente de correlação mas, embora outros pontos de dados não indiquem qualquer relação entre as variáveis. |
|||
O quarteto ainda é usado frequentemente para ilustrar a importância de visualizar um conjunto de dados graficamente antes de iniciar a análise de acordo com um tipo de relação particular, e a inadequação de propriedades estatísticas básicas para descrever conjuntos de dados realísticos.<ref>{{cite web| url=http://physics.info/linear-regression/practice.shtml#4 |title=Linear Regression |work=The Physics Hypertextbook |last=Elert |first=Glenn}}</ref><ref>{{cite book |last=Janert |first=Philipp K. |title=Data Analysis with Open Source Tools |year=2010 |publisher=[[O'Reilly Media]] |pages=[https://archive.org/details/isbn_9780596802356/page/65 65–66] |isbn=0-596-80235-8 |url=https://archive.org/details/isbn_9780596802356/page/65 }}</ref><ref>{{cite book |last1=Chatterjee |first1=Samprit |last2=Hadi |first2=Ali S. |year=2006 |title=Regression Analysis by Example |publisher=John Wiley and Sons |page=91 |isbn=0-471-74696-7}}</ref><ref>{{cite book |last1=Saville |first1=David J. |last2=Wood |first2=Graham R. |year=1991 |title=Statistical Methods: The geometric approach |publisher=[[Springer Science+Business Media|Springer]] |page=418 |isbn=0-387-97517-9}}</ref><ref>{{cite book |last=Tufte |first=Edward R. |authorlink=Edward Tufte |year=2001 |title=The Visual Display of Quantitative Information |edition=2nd |location=Cheshire, CT |publisher=Graphics Press |isbn=0-9613921-4-2 |url=https://archive.org/details/visualdisplayofq00tuft }}</ref> |
|||
Os conjuntos de dados são os seguintes. Os valores de ''x'' são os mesmos para os três conjuntos de dados.<ref name="Anscombe"/> |
|||
{| class="wikitable" style="text-align: center; margin-left:auto; margin-right:auto;" |
|||
|+ Quarteto de Anscombe |
|||
|- |
|||
! colspan="2"| I |
|||
! colspan="2"| II |
|||
! colspan="2"| III |
|||
! colspan="2"| IV |
|||
|- |
|||
| x |
|||
| y |
|||
| x |
|||
| y |
|||
| x |
|||
| y |
|||
| x |
|||
| y |
|||
|- |
|||
| 10,0 || 8,04 || 10,0 || 9,14 || 10,0 || 7,46 || 8,0 || 6,58 |
|||
|- |
|||
| 8,0 || 6,95 || 8,0 || 8,14 || 8,0 || 6,77 || 8,0 || 5,76 |
|||
|- |
|||
| 13,0 || 7,58 || 13,0 || 8,74 || 13,0 || 12,74 || 8,0 || 7,71 |
|||
|- |
|||
| 9,0 || 8,81 || 9,0 || 8,77 || 9,0 || 7,11 || 8,0 || 8,84 |
|||
|- |
|||
| 11,0 || 8,33 || 11,0 || 9,26 || 11,0 || 7,81 || 8,0 || 8,47 |
|||
|- |
|||
| 14,0 || 9,96 || 14,0 || 8,10 || 14,0 || 8,84 || 8,0 || 7,04 |
|||
|- |
|||
| 6,0 || 7,24 || 6,0 || 6,13 || 6,0 || 6,08 || 8,0 || 5,25 |
|||
|- |
|||
| 4,0 || 4,26 || 4,0 || 3,10 || 4,0 || 5,39 || 19,0 || 12,50 |
|||
|- |
|||
| 12,0 || 10,84 || 12,0 || 9,13 || 12,0 || 8,15 || 8,0 || 5,56 |
|||
|- |
|||
| 7,0 || 4,82 || 7,0 || 7,26 || 7,0 || 6,42 || 8,0 || 7,91 |
|||
|- |
|||
| 5,0 || 5,68 || 5,0 || 4,74 || 5,0 || 5,73 || 8,0 || 6,89 |
|||
|} |
|||
Não se sabe como Anscombe criou seus conjuntos de dados.<ref name="ChatterjeeFirat">{{cite journal |last1=Chatterjee |first1=Sangit |last2=Firat |first2=Aykut |year=2007 |title=Generating Data with Identical Statistics but Dissimilar Graphics: A follow up to the Anscombe dataset |journal=[[The American Statistician]] |volume=61 |issue=3 |pages=248–254 |doi=10.1198/000313007X220057| jstor=27643902}}</ref> Desde sua publicação, foram desenvolvidos vários métodos para produzir conjuntos de dados similares com estatísticas idênticas e gráficos distintos.<ref name="ChatterjeeFirat"/><ref>{{cite journal |last1=Matejka |first1=Justin |last2=Fitzmaurice |first2=George |year=2017 |title=Same Stats, Different Graphs: Generating Datasets with Varied Appearance and Identical Statistics through Simulated Annealing |journal=[[Conference on Human Factors in Computing Systems|Proceedings of the 2017 CHI Conference on Human Factors in Computing Systems]] |pages=1290-1294 |doi=10.1145/3025453.3025912}}</ref> |
|||
{{referências}} |
{{referências}} |
Revisão das 15h11min de 11 de abril de 2020
Quarteto de Anscombe é o nome dado a quatro conjuntos de dados que têm estatísticas descritivas quase idênticas (como a média e a variância), mas que têm distribuições muito diferentes e aparências muito distintas quando exibidos graficamente. Cada conjunto de dados consiste de onze pontos (x,y). Eles foram construídos em 1973 pelo estatístico Francis Anscombe, com o objetivo de demonstrar tanto a importância de se visualizar os dados antes de analisá-los, quanto o efeito dos outliers e outrasa observações influentes nas propriedades estatísticas. Ele descreveu o artigo como tendo a finalidade de combater a impressão entre os estatísticos de que "cálculos numéricos são exatos, mas gráficos são aproximados/grosseiros."[1]
Dados
Para os quatro conjunto de dados:
Propriedade | Valor | Precisão |
---|---|---|
Média de x | 9 | exato |
Variância de x | 11 | exato |
Média de y | 7,50 | até 2 casas decimais |
Variância de y | 4,125 | ±0,003 |
Correlação entre x e y | 0,816 | até 3 casas decimais |
Reta de regressão linear | até 2 e 3 casas decimais, respectivamente | |
Coeficiente de determinação da regressão linear: | 0,67 | até 2 casas decimais |
- O primeiro gráfico de dispersão (no canto superior esquerdo) aparenta ser uma simples relação linear, correspondendo a duas variáveis correlacionadas em que y poderia ser modelado como uma gaussiana com uma média linearmente dependente de x.
- O segudo gráfico (no canto superior direito) não mostra uma distribuição normal; enquanto a relação entre as duas variáveis é óbvia, ela não é linear, e o coeficiente de correlação de Pearson não é relevante. Uma regressão mais geral e o coeficiente de determinação correspondente seria mais apropriada.
- No terceiro gráfico (no canto inferior esquerdo), a distribuição é linear, mas deveria ter uma reta de regressão diferente (uma regressão robusta teria sido mais apropriada). A regressão calculada está deslocada por pelo único outlier que exerce influência suficiente para reduzir o coeficiente de correlação de 1 para 0.816.
- Finalmente, o quarto gráfico (no canto inferior direito) mostra um exemplo em que um ponto de grande alavanca é suficiente para produzir um grande coeficiente de correlação mas, embora outros pontos de dados não indiquem qualquer relação entre as variáveis.
O quarteto ainda é usado frequentemente para ilustrar a importância de visualizar um conjunto de dados graficamente antes de iniciar a análise de acordo com um tipo de relação particular, e a inadequação de propriedades estatísticas básicas para descrever conjuntos de dados realísticos.[2][3][4][5][6]
Os conjuntos de dados são os seguintes. Os valores de x são os mesmos para os três conjuntos de dados.[1]
I | II | III | IV | ||||
---|---|---|---|---|---|---|---|
x | y | x | y | x | y | x | y |
10,0 | 8,04 | 10,0 | 9,14 | 10,0 | 7,46 | 8,0 | 6,58 |
8,0 | 6,95 | 8,0 | 8,14 | 8,0 | 6,77 | 8,0 | 5,76 |
13,0 | 7,58 | 13,0 | 8,74 | 13,0 | 12,74 | 8,0 | 7,71 |
9,0 | 8,81 | 9,0 | 8,77 | 9,0 | 7,11 | 8,0 | 8,84 |
11,0 | 8,33 | 11,0 | 9,26 | 11,0 | 7,81 | 8,0 | 8,47 |
14,0 | 9,96 | 14,0 | 8,10 | 14,0 | 8,84 | 8,0 | 7,04 |
6,0 | 7,24 | 6,0 | 6,13 | 6,0 | 6,08 | 8,0 | 5,25 |
4,0 | 4,26 | 4,0 | 3,10 | 4,0 | 5,39 | 19,0 | 12,50 |
12,0 | 10,84 | 12,0 | 9,13 | 12,0 | 8,15 | 8,0 | 5,56 |
7,0 | 4,82 | 7,0 | 7,26 | 7,0 | 6,42 | 8,0 | 7,91 |
5,0 | 5,68 | 5,0 | 4,74 | 5,0 | 5,73 | 8,0 | 6,89 |
Não se sabe como Anscombe criou seus conjuntos de dados.[7] Desde sua publicação, foram desenvolvidos vários métodos para produzir conjuntos de dados similares com estatísticas idênticas e gráficos distintos.[7][8]
Referências
- ↑ a b Anscombe, F. J. (1973). «Graphs in Statistical Analysis». American Statistician. 27 (1): 17–21. JSTOR 2682899. doi:10.1080/00031305.1973.10478966
- ↑ Elert, Glenn. «Linear Regression». The Physics Hypertextbook
- ↑ Janert, Philipp K. (2010). Data Analysis with Open Source Tools. [S.l.]: O'Reilly Media. pp. 65–66. ISBN 0-596-80235-8
- ↑ Chatterjee, Samprit; Hadi, Ali S. (2006). Regression Analysis by Example. [S.l.]: John Wiley and Sons. p. 91. ISBN 0-471-74696-7
- ↑ Saville, David J.; Wood, Graham R. (1991). Statistical Methods: The geometric approach. [S.l.]: Springer. p. 418. ISBN 0-387-97517-9
- ↑ Tufte, Edward R. (2001). The Visual Display of Quantitative Information 2nd ed. Cheshire, CT: Graphics Press. ISBN 0-9613921-4-2
- ↑ a b Chatterjee, Sangit; Firat, Aykut (2007). «Generating Data with Identical Statistics but Dissimilar Graphics: A follow up to the Anscombe dataset». The American Statistician. 61 (3): 248–254. JSTOR 27643902. doi:10.1198/000313007X220057
- ↑ Matejka, Justin; Fitzmaurice, George (2017). «Same Stats, Different Graphs: Generating Datasets with Varied Appearance and Identical Statistics through Simulated Annealing». Proceedings of the 2017 CHI Conference on Human Factors in Computing Systems: 1290-1294. doi:10.1145/3025453.3025912