Modelo saco-de-palavras

Origem: Wikipédia, a enciclopédia livre.

O modelo saco-de-palavras é uma representação simplificada utilizada no processamento de linguagem natural e na recuperação de informações. Neste modelo, o texto (uma frase ou documento) é representado como um multiconjunto de suas palavras (o "saco"), desconsiderando a estrutura gramatical e até mesmo a ordenação delas, mas mantendo sua multiplicidade.

O modelo saco-de-palavras é frequentemente utilizado em métodos de classificação de documentos, onde a frequência de ocorrência de cada palavra é vista como uma característica utilizada para treinar o classificador. No entanto, já foram registrados usos do modelo em estudos na área de visão computacional.[1]

Referências

  1. Sivic, Josef (abril de 2009). «Efficient visual search of videos cast as text retrieval» (PDF). IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE, VOL. 31, NO. 4. IEEE. pp. 591–605 
Ícone de esboço Este artigo sobre informática é um esboço. Você pode ajudar a Wikipédia expandindo-o.