Mineração de Opinião

Origem: Wikipédia, a enciclopédia livre.

A Web produz e divulga informações de vital importância para o mercado financeiro. A ideia da Mineração de Opinião baseia-se em extrair informações subjetivas a partir de dados concretos através de processos de análise de texto e processamento de linguagem natural. Monitorando a resposta dos clientes, diante do  lançamento de produtos e sua aceitação no mercado influencia preços, indica pontos positivos que devem ser mantidos e pontos negativos que apontam possíveis melhorias.

Módulos de Classificação[editar | editar código-fonte]

O processo de Mineração da Opinião consiste em passos básicos como: localizar, extrair, pré-processar, analisar e recomendar a opinião. A pesquisa funciona por meio da obtenção de opiniões em associação com importantes módulos de classificação semântica: Orientação Semântica (do inglês Semantic Orientation) e Informação Mútua Ponto a Ponto (do inglês Pointwise Mutual Information e portanto costumeiramente referido como PMI). A variável normalizada obtida a partir da PMI aumenta bastante a eficácia de tal extração, tornando informações subjetivas (opiniões dos clientes) em medidas palpáveis que podem ser analisadas e interpretadas por um programa de computador.[1][2]

A parte responsável pela classificação da opinião de clientes tem como objetivo categorizar as avaliações baseadas em entradas através de sentenças ou textos. É possível abordar todas as opiniões como unidades, fazendo o uso de palavras contidas nas opiniões que expressam sentimentos [3][4] para a classificação geral da opinião.[5] Assim, cada opinião, ao final estará em uma dessas classes: “Positiva” (i.e. recomendada) que será  armazenado em um Positive Words Set, “Negativa” (i.e. Não-Recomendada) que fará parte do Negative Word Set.  Algumas vezes é adicionada a classificação "Neutro" caso a denominação adeque-se àquela situação.[6]

Orientação Semântica[editar | editar código-fonte]

A Semantic Orientation ou Orientação Semântica, no contexto de Mineração de Opinião, pode ser vista como um  módulo responsável por calcular a Orientação Semântica do documento (Opinião).[7] Também chamado de Polaridade de Palavra, indica o desvio de uma palavra de um dado grupo semântico ou campo léxico.[8]  Orientações semânticas positivas indicam elogios e orientações semânticas negativas indicam critica.  Variando tanto em direção (positiva e negativa) quanto grau (brando e forte).

Informação Mútua Pontual[editar | editar código-fonte]

A Pointwise Mutual Information ou Informação Mútua Ponto-a-Ponto é o módulo responsável por calcular o PMI. É uma medida de associação que envolve a área da Teoria da informação e Estatística com a função de medir a relação de entre palavras dentro de um texto comparando a probabilidade de encontrar dois itens juntos com as probabilidades de estarem separadas.[1][2]

A PMI de um par de palavras x e y se define pela seguinte equação:

Pré-processamento[editar | editar código-fonte]

As opiniões, após terem sido extraídas, passam por um pré-processamento. Esse pré-processamento retira das opiniões todos os sinais de pontuações e possíveis acentuações. Além disso, são feitas tentativas de retirar das opiniões palavras que não expressam orientação semântica. Geralmente essas palavras se encaixavam em uma dessas 6 (seis) classes gramaticais:

  • Artigo;
  • Conjunção;
  • Interjeição;
  • Numeral;
  • Preposição;
  • Pronome;

As palavras que se encontraram nessas classes gramaticais serão retiradas dos documentos porque elas não expressam a orientação de sentimentos do autor da opinião. Assim, as palavras que se encontraram nos documentos a serem processados encaixar-se-ão nas 4 (quatro) classes gramaticais restantes:[9] [10] [11]

  • Adjetivo;
  • Advérbio;
  • Substantivo;
  • Verbo;


Isso deve-se ao fato das palavras que se encontram nessas 4 classes gramaticais expressarem orientação de sentimentos do autor da opinião. Assim, o sistema deverá aplicar um stoplist, ou seja, eliminar do documento palavras que não têm importância para a classificação de opinião. Vale salientar que o pré-processamento pode ocorrer seguindo modelos variantes ao descrito, muitas vezes utilizando algoritmos de stemming com o intuito de maximizar ou melhorar o processo descrito.

A base de documentos de um sistema de Mineração de Opiniões guardará a informação de posição das palavras, pois esta informação será relevante para o cálculo de Pointwise Mutual Information, o PMI. Cálculo este de suma importância para a classificação da opinião. Um outro dado primordial que deverá ser guardado nesta base de documentos e que também servirá para o cálculo do PMI será a probabilidade de ocorrência das palavras.

Referências

  1. a b Zhi-Hua Zhou, Tu-Bao Ho. PRICAI 2008: Trends in Artificial Intelligence: 10th Pacific Rim International Conference on Artificial Intelligence. [S.l.: s.n.] 
  2. a b Thomas, J., Cover, T. Elements of Information Theory. [S.l.: s.n.] 
  3. Rosa, Renata Lopes; Rodríguez, Demóstenes Zegarra; Bressan, Graça (2015). «Music recommendation system based on user's sentiments extracted from social networks». Transactions on Consumer Electronics. 61. doi:10.1109/TCE.2015.7298296 
  4. Rosa, Renata Lopes; Rodríguez, Demóstenes Zegarra; Bressan, Graça (2013). «SentiMeter-Br: A Social Web Analysis Tool to Discover Consumers' Sentiment». IEEE 14th International Conference on Mobile Data Management. 2. doi:10.1109/MDM.2013.80 
  5. Vaithyanathan, Shivakumar, Pang, Bo; Lee, Lillian. Thumbs up? Sentiment Classification using Machine Learning Techniques publicado em Proceedings of the Conference on Empirical Methods in Natural Language Processing (EMNLP). [S.l.: s.n.] 
  6. Alok Choudhary, Kunpeng Zhang, Yu Cheng, Wei-keng Liao. Mining Millions of Reviews: A Technique to Rank Products Based on Importance of Reviews. [S.l.: s.n.] 
  7. Kathleen R. McKeown, Vasileios Hatzivassiloglou. Predicting the Semantic Orientation of Adjectives. [S.l.: s.n.] 
  8. Semantic fields and lexical structure. Amsterdam: North Holland Publishing Company. [S.l.: s.n.]  |nome1= sem |sobrenome1= em Authors list (ajuda)
  9. Yong Shib, Emma Haddia, Xiaohui Liua. The Role of Text Pre-processing in Sentiment Analysis. [S.l.: s.n.] 
  10. The Role of Text Pre-processing in Opinion Mining on a Social Media Language Dataset publicado em Intelligent Systems (BRACIS), 2014 Brazilian Conference on. [S.l.: s.n.]  |nome1= sem |sobrenome1= em Authors list (ajuda)
  11. Various Approaches in Text Pre-processing. [S.l.: s.n.]  |nome1= sem |sobrenome1= em Authors list (ajuda)

Ligações externas[editar | editar código-fonte]

Bibliografia
  • Alok Choudhary, Kunpeng Zhang, Yu Cheng, Yusheng Xie, Daniel Honbo Ankit Agrawal, Diana Palsetia, Kathy Lee, Wei-keng Liao. SES: Sentiment Elicitation System for Social Media Data. [S.l.: s.n.] 
  • A resource for evaluating the deep lexical acquisition of English verbparticle constructions. In: Proceedings of the LREC 2008 Workshop Towards a Shared Task for Multiword Expressions (MWE 2008), Marrakech (2008). [S.l.: s.n.]  |nome1= sem |sobrenome1= em Authors list (ajuda)
  • A lexicographic evaluation of German adjective-noun collocations. In: Proceedings of the LREC 2008 Workshop Towards a Shared Task for Multiword Expressions (MWE 2008), Marrakech (2008). [S.l.: s.n.]  |nome1= sem |sobrenome1= em Authors list (ajuda)