Mineração de Opinião

A Web produz e divulga informações de vital importância para o mercado financeiro. A ideia da Mineração de Opinião baseia-se em extrair informações subjetivas a partir de dados concretos através de processos de análise de texto e processamento de linguagem natural. Monitorando a resposta dos clientes, diante do lançamento de produtos e sua aceitação no mercado influencia preços, indica pontos positivos que devem ser mantidos e pontos negativos que apontam possíveis melhorias.

Módulos de Classificação[editar | editar código-fonte]

O processo de Mineração da Opinião consiste em passos básicos como: localizar, extrair, pré-processar, analisar e recomendar a opinião. A pesquisa funciona por meio da obtenção de opiniões em associação com importantes módulos de classificação semântica: Orientação Semântica (do inglês Semantic Orientation) e Informação Mútua Ponto a Ponto (do inglês Pointwise Mutual Information e portanto costumeiramente referido como PMI). A variável normalizada obtida a partir da PMI aumenta bastante a eficácia de tal extração, tornando informações subjetivas (opiniões dos clientes) em medidas palpáveis que podem ser analisadas e interpretadas por um programa de computador.^[1]^[2]

A parte responsável pela classificação da opinião de clientes tem como objetivo categorizar as avaliações baseadas em entradas através de sentenças ou textos. É possível abordar todas as opiniões como unidades, fazendo o uso de palavras contidas nas opiniões que expressam sentimentos ^[3]^[4] para a classificação geral da opinião.^[5] Assim, cada opinião, ao final estará em uma dessas classes: “Positiva” (i.e. recomendada) que será armazenado em um Positive Words Set, “Negativa” (i.e. Não-Recomendada) que fará parte do Negative Word Set. Algumas vezes é adicionada a classificação "Neutro" caso a denominação adeque-se àquela situação.^[6]

Orientação Semântica[editar | editar código-fonte]

A Semantic Orientation ou Orientação Semântica, no contexto de Mineração de Opinião, pode ser vista como um módulo responsável por calcular a Orientação Semântica do documento (Opinião).^[7] Também chamado de Polaridade de Palavra, indica o desvio de uma palavra de um dado grupo semântico ou campo léxico.^[8] Orientações semânticas positivas indicam elogios e orientações semânticas negativas indicam critica. Variando tanto em direção (positiva e negativa) quanto grau (brando e forte).

Informação Mútua Pontual[editar | editar código-fonte]

A Pointwise Mutual Information ou Informação Mútua Ponto-a-Ponto é o módulo responsável por calcular o PMI. É uma medida de associação que envolve a área da Teoria da informação e Estatística com a função de medir a relação de entre palavras dentro de um texto comparando a probabilidade de encontrar dois itens juntos com as probabilidades de estarem separadas.^[1]^[2]

A PMI de um par de palavras x e y se define pela seguinte equação:

$SI(x,y)=\log _{\!}\left({\frac {p(x,y)}{p(x)p(y)}}\right)\,$

Pré-processamento[editar | editar código-fonte]

As opiniões, após terem sido extraídas, passam por um pré-processamento. Esse pré-processamento retira das opiniões todos os sinais de pontuações e possíveis acentuações. Além disso, são feitas tentativas de retirar das opiniões palavras que não expressam orientação semântica. Geralmente essas palavras se encaixavam em uma dessas 6 (seis) classes gramaticais:

Artigo;
Conjunção;
Interjeição;
Numeral;
Preposição;
Pronome;

As palavras que se encontraram nessas classes gramaticais serão retiradas dos documentos porque elas não expressam a orientação de sentimentos do autor da opinião. Assim, as palavras que se encontraram nos documentos a serem processados encaixar-se-ão nas 4 (quatro) classes gramaticais restantes:^[9] ^[10] ^[11]

Adjetivo;
Advérbio;
Substantivo;
Verbo;

Isso deve-se ao fato das palavras que se encontram nessas 4 classes gramaticais expressarem orientação de sentimentos do autor da opinião. Assim, o sistema deverá aplicar um stoplist, ou seja, eliminar do documento palavras que não têm importância para a classificação de opinião. Vale salientar que o pré-processamento pode ocorrer seguindo modelos variantes ao descrito, muitas vezes utilizando algoritmos de stemming com o intuito de maximizar ou melhorar o processo descrito.

A base de documentos de um sistema de Mineração de Opiniões guardará a informação de posição das palavras, pois esta informação será relevante para o cálculo de Pointwise Mutual Information, o PMI. Cálculo este de suma importância para a classificação da opinião. Um outro dado primordial que deverá ser guardado nesta base de documentos e que também servirá para o cálculo do PMI será a probabilidade de ocorrência das palavras.

Referências

↑ ^a ^b Zhi-Hua Zhou, Tu-Bao Ho. PRICAI 2008: Trends in Artificial Intelligence: 10th Pacific Rim International Conference on Artificial Intelligence. [S.l.: s.n.]
↑ ^a ^b Thomas, J., Cover, T. Elements of Information Theory. [S.l.: s.n.]
↑ Rosa, Renata Lopes; Rodríguez, Demóstenes Zegarra; Bressan, Graça (2015). «Music recommendation system based on user's sentiments extracted from social networks». Transactions on Consumer Electronics. 61. doi:10.1109/TCE.2015.7298296
↑ Rosa, Renata Lopes; Rodríguez, Demóstenes Zegarra; Bressan, Graça (2013). «SentiMeter-Br: A Social Web Analysis Tool to Discover Consumers' Sentiment». IEEE 14th International Conference on Mobile Data Management. 2. doi:10.1109/MDM.2013.80
↑ Vaithyanathan, Shivakumar, Pang, Bo; Lee, Lillian. Thumbs up? Sentiment Classification using Machine Learning Techniques publicado em Proceedings of the Conference on Empirical Methods in Natural Language Processing (EMNLP). [S.l.: s.n.]
↑ Alok Choudhary, Kunpeng Zhang, Yu Cheng, Wei-keng Liao. Mining Millions of Reviews: A Technique to Rank Products Based on Importance of Reviews. [S.l.: s.n.]
↑ Kathleen R. McKeown, Vasileios Hatzivassiloglou. Predicting the Semantic Orientation of Adjectives. [S.l.: s.n.]
↑ Semantic fields and lexical structure. Amsterdam: North Holland Publishing Company. [S.l.: s.n.] |nome1= sem |sobrenome1= em Authors list (ajuda)
↑ Yong Shib, Emma Haddia, Xiaohui Liua. The Role of Text Pre-processing in Sentiment Analysis. [S.l.: s.n.]
↑ The Role of Text Pre-processing in Opinion Mining on a Social Media Language Dataset publicado em Intelligent Systems (BRACIS), 2014 Brazilian Conference on. [S.l.: s.n.] |nome1= sem |sobrenome1= em Authors list (ajuda)
↑ Various Approaches in Text Pre-processing. [S.l.: s.n.] |nome1= sem |sobrenome1= em Authors list (ajuda)

Ligações externas[editar | editar código-fonte]

Predicting the Semantic Orientation of Adjectives

Bibliografia

Alok Choudhary, Kunpeng Zhang, Yu Cheng, Yusheng Xie, Daniel Honbo Ankit Agrawal, Diana Palsetia, Kathy Lee, Wei-keng Liao. SES: Sentiment Elicitation System for Social Media Data. [S.l.: s.n.]
A resource for evaluating the deep lexical acquisition of English verbparticle constructions. In: Proceedings of the LREC 2008 Workshop Towards a Shared Task for Multiword Expressions (MWE 2008), Marrakech (2008). [S.l.: s.n.] |nome1= sem |sobrenome1= em Authors list (ajuda)
A lexicographic evaluation of German adjective-noun collocations. In: Proceedings of the LREC 2008 Workshop Towards a Shared Task for Multiword Expressions (MWE 2008), Marrakech (2008). [S.l.: s.n.] |nome1= sem |sobrenome1= em Authors list (ajuda)

[Não_nomeado-y7IJ-1-1] Zhi-Hua Zhou, Tu-Bao Ho. PRICAI 2008: Trends in Artificial Intelligence: 10th Pacific Rim International Conference on Artificial Intelligence. [S.l.: s.n.]

[Não_nomeado-y7IJ-2-2] Thomas, J., Cover, T. Elements of Information Theory. [S.l.: s.n.]

[3] Rosa, Renata Lopes; Rodríguez, Demóstenes Zegarra; Bressan, Graça (2015). «Music recommendation system based on user's sentiments extracted from social networks». Transactions on Consumer Electronics. 61. doi:10.1109/TCE.2015.7298296

[4] Rosa, Renata Lopes; Rodríguez, Demóstenes Zegarra; Bressan, Graça (2013). «SentiMeter-Br: A Social Web Analysis Tool to Discover Consumers' Sentiment». IEEE 14th International Conference on Mobile Data Management. 2. doi:10.1109/MDM.2013.80

[5] Vaithyanathan, Shivakumar, Pang, Bo; Lee, Lillian. Thumbs up? Sentiment Classification using Machine Learning Techniques publicado em Proceedings of the Conference on Empirical Methods in Natural Language Processing (EMNLP). [S.l.: s.n.]

[6] Alok Choudhary, Kunpeng Zhang, Yu Cheng, Wei-keng Liao. Mining Millions of Reviews: A Technique to Rank Products Based on Importance of Reviews. [S.l.: s.n.]

[7] Kathleen R. McKeown, Vasileios Hatzivassiloglou. Predicting the Semantic Orientation of Adjectives. [S.l.: s.n.]

[8] Semantic fields and lexical structure. Amsterdam: North Holland Publishing Company. [S.l.: s.n.] |nome1= sem |sobrenome1= em Authors list (ajuda)

[9] Yong Shib, Emma Haddia, Xiaohui Liua. The Role of Text Pre-processing in Sentiment Analysis. [S.l.: s.n.]

[10] The Role of Text Pre-processing in Opinion Mining on a Social Media Language Dataset publicado em Intelligent Systems (BRACIS), 2014 Brazilian Conference on. [S.l.: s.n.] |nome1= sem |sobrenome1= em Authors list (ajuda)

[11] Various Approaches in Text Pre-processing. [S.l.: s.n.] |nome1= sem |sobrenome1= em Authors list (ajuda)

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]