Conjunto de dados

Origem: Wikipédia, a enciclopédia livre.
Ir para: navegação, pesquisa

Um "Conjunto de dados" ou "dataset" é uma coleção de dados normalmente tabulados. Por cada elemento (ou indivíduo) se indicam varias características. Cada coluna representa uma variável particular. Cada linha corresponde a um determinado membro do conjunto de dados em questão. Cada valor é conhecido como um dado. O conjunto de dados pode incluir dados para um ou mais membros, correspondente ao número de linhas.

Conjuntos de dados não tabulares podem assumir a forma de cadeias de caracteres envolvidas por marcações, como em um arquivo XML.

Quase todos os conjuntos de dados, embora eles muitas vezes possam ser escritos usando linguagens de programação de alto nível e números em base decimal, terminam escritos em código de máquina uma vez que o processamento por computador é envolvido. Assim, por toda a sua diversidade semântica e formas tabular ou não tabular, a maioria dos conjuntos de dados pode ser expressa em código binário como uma longa seqüência de zeros e uns.

Método científico[editar | editar código-fonte]

A publicação dos conjuntos de dados utilizados em um experimento são a chave para a sua replicação, e cada vez há mais leis públicas e normas de jornais que a forçam a torná-los públicos.

Propriedades[editar | editar código-fonte]

Dependendo do estudo, são um fator-chave as propriedades do conjunto: dispersão, curtose e outros[1] .

Ver também[editar | editar código-fonte]

Referências

  1. Jan M. Żytkow, Jan Rauch. Principles of data mining and knowledge discovery. [S.l.: s.n.], 1999. ISBN 9783540664901.

Ligações externas[editar | editar código-fonte]

  • Research Pipeline Wiki ligando conjuntos de dados de vários temas
  • GCMD Web do Diretório Global Change Master. Ele contém mais de 20.000 conjuntos de dados sobre a Terra