Amostra aleatória simples

Em estatística, uma amostra aleatória simples é um subconjunto de indivíduos (uma amostra) escolhidos de um conjunto maior (uma população) no qual um subconjunto de indivíduos é escolhido aleatoriamente, todos com a mesma probabilidade. É um processo de selecionar uma amostra de forma aleatória. Nessa amostragem, cada subconjunto de k indivíduos tem a mesma probabilidade de ser escolhido para a amostra que qualquer outro subconjunto de k indivíduos.^[1] Uma amostra aleatória simples é uma técnica de amostragem imparcial. A amostragem aleatória simples é um tipo básico de amostragem e pode ser um componente de outros métodos de amostragem mais complexos.

O princípio da amostragem aleatória simples é que todo conjunto de itens tem a mesma probabilidade de ser escolhido. Por exemplo, suponha que N estudantes universitários querem comprar um ingresso para um jogo de basquete, mas há apenas X < N ingressos para eles, então eles decidem ter uma maneira justa de ver quem vai. Então, todos recebem um número na faixa de 0 a N -1, e números aleatórios são gerados, seja eletronicamente ou a partir de uma tabela de números aleatórios. Números fora do intervalo de 0 a N -1 são ignorados, assim como qualquer número selecionado anteriormente. Os primeiros números X identificariam os vencedores do bilhete de sorte.

Em populações pequenas e muitas vezes em populações grandes, essa amostragem é tipicamente feita "sem reposição", ou seja, evita-se deliberadamente escolher qualquer membro da população mais de uma vez. Embora a amostragem aleatória simples possa ser realizada com reposição, isso é menos comum e normalmente seria descrito mais detalhadamente como amostragem aleatória simples com reposição. A amostragem feita sem reposição não é mais independente, mas ainda satisfaz a permutabilidade, portanto, muitos resultados ainda são válidos. Além disso, para uma amostra pequena de uma grande população, a amostragem sem reposição é aproximadamente igual à amostragem com reposição, pois a probabilidade de escolher o mesmo indivíduo duas vezes é baixa.

Conceitualmente, a amostragem aleatória simples é a mais simples das técnicas de amostragem probabilística. Requer um quadro de amostragem completo, que pode não estar disponível ou viável de construir para grandes populações. Mesmo que um quadro completo esteja disponível, abordagens mais eficientes podem ser possíveis se outras informações úteis estiverem disponíveis sobre as unidades da população.

Relação entre amostra aleatória simples e outros métodos[editar | editar código-fonte]

Amostragem de probabilidade igual[editar | editar código-fonte]

Um método de amostragem para o qual cada unidade individual tem a mesma chance de ser selecionada é chamado de amostragem de probabilidade igual.

Usar uma amostra aleatória simples sempre levará a uma amostragem de probabilidade igual, mas nem todas as amostras de amostragem de probabilidade igual são amostragens aleatórias simples. Por exemplo, se uma professora tem uma turma organizada em 5 linhas de 6 colunas e quer pegar uma amostra aleatória de 5 alunos, ela pode escolher uma das 6 colunas aleatoriamente. Esta seria uma amostragem de probabilidade igual, mas nem todos os subconjuntos de 5 alunos são igualmente prováveis aqui, pois apenas os subconjuntos organizados como uma única coluna são elegíveis para seleção. Existem também formas de construção de amostragem multiestágio, que não são amostras aleatórias simples, enquanto a amostra final será uma amostragem de probabilidade igual.^[2] Por exemplo, a amostragem aleatória sistemática produz uma amostra para a qual cada unidade individual tem a mesma probabilidade de inclusão, mas diferentes conjuntos de unidades têm diferentes probabilidades de serem selecionadas.

Algoritmos[editar | editar código-fonte]

Vários algoritmos eficientes para amostragem aleatória simples foram desenvolvidos.^[3]^[4] Um algoritmo ingênuo é o algoritmo draw-by-draw onde, a cada passo, removemos o item naquele passo do conjunto com igual probabilidade e colocamos o item na amostra. Continuamos até que tenhamos uma amostra do tamanho desejado $k$ . A desvantagem desse método é que ele requer acesso aleatório no conjunto.

O algoritmo de seleção-rejeição desenvolvido por Fan et al. em 1962^[5] requer uma única passagem de dados; no entanto, é um algoritmo sequencial e requer conhecimento da contagem total de itens $n$ , que não está disponível em cenários de streaming.

Um algoritmo de ordenação aleatória muito simples foi provado por Sunter em 1977.^[6] O algoritmo simplesmente atribui um número aleatório extraído da distribuição uniforme $(0,1)$ como uma chave para cada item, então ordena todos os itens usando a chave e seleciona a menor quantidade $k$ de Itens.

J. Vitter^[7] propôs algoritmos de amostragem de reservatórios em 1985, que são amplamente utilizados. Este algoritmo não requer conhecimento do tamanho da população $n$ com antecedência, e usa espaço constante.

Ver também[editar | editar código-fonte]

Referências

↑ Yates, Daniel S.; David S. Moore; Daren S. Starnes (2008). The Practice of Statistics, 3rd Ed. [S.l.]: Freeman. ISBN 978-0-7167-7309-2
↑ Peters, Tim J., and Jenny I. Eachus. "Achieving equal probability of selection under various random sampling strategies." Paediatric and perinatal epidemiology 9.2 (1995): 219-224.
↑ Tille, Yves; Tillé, Yves (1 de janeiro de 2006). Sampling Algorithms - Springer. Col: Springer Series in Statistics. [S.l.: s.n.] ISBN 978-0-387-30814-2. doi:10.1007/0-387-34240-0
↑ Meng, Xiangrui (2013). «Scalable Simple Random Sampling and Stratified Sampling» (PDF). Proceedings of the 30th International Conference on Machine Learning (ICML-13): 531–539
↑ Fan, C. T.; Muller, Mervin E.; Rezucha, Ivan (1 de junho de 1962). «Development of Sampling Plans by Using Sequential (Item by Item) Selection Techniques and Digital Computers». Journal of the American Statistical Association. 57 (298): 387–402. ISSN 0162-1459. doi:10.1080/01621459.1962.10480667
↑ Sunter, A. B. (1 de janeiro de 1977). «List Sequential Sampling with Equal or Unequal Probabilities without Replacement». Applied Statistics. 26 (3): 261–268. JSTOR 2346966. doi:10.2307/2346966
↑ Vitter, Jeffrey S. (1 de março de 1985). «Random Sampling with a Reservoir». ACM Trans. Math. Softw. 11 (1): 37–57. CiteSeerX 10.1.1.138.784. ISSN 0098-3500. doi:10.1145/3147.3165

[1] Yates, Daniel S.; David S. Moore; Daren S. Starnes (2008). The Practice of Statistics, 3rd Ed. [S.l.]: Freeman. ISBN 978-0-7167-7309-2

[2] Peters, Tim J., and Jenny I. Eachus. "Achieving equal probability of selection under various random sampling strategies." Paediatric and perinatal epidemiology 9.2 (1995): 219-224.

[3] Tille, Yves; Tillé, Yves (1 de janeiro de 2006). Sampling Algorithms - Springer. Col: Springer Series in Statistics. [S.l.: s.n.] ISBN 978-0-387-30814-2. doi:10.1007/0-387-34240-0

[4] Meng, Xiangrui (2013). «Scalable Simple Random Sampling and Stratified Sampling» (PDF). Proceedings of the 30th International Conference on Machine Learning (ICML-13): 531–539

[5] Fan, C. T.; Muller, Mervin E.; Rezucha, Ivan (1 de junho de 1962). «Development of Sampling Plans by Using Sequential (Item by Item) Selection Techniques and Digital Computers». Journal of the American Statistical Association. 57 (298): 387–402. ISSN 0162-1459. doi:10.1080/01621459.1962.10480667

[6] Sunter, A. B. (1 de janeiro de 1977). «List Sequential Sampling with Equal or Unequal Probabilities without Replacement». Applied Statistics. 26 (3): 261–268. JSTOR 2346966. doi:10.2307/2346966

[7] Vitter, Jeffrey S. (1 de março de 1985). «Random Sampling with a Reservoir». ACM Trans. Math. Softw. 11 (1): 37–57. CiteSeerX 10.1.1.138.784. ISSN 0098-3500. doi:10.1145/3147.3165

[1]

[2]

[3]

[4]

[5]

[6]

[7]