HAREM: diferenças entre revisões

← Ver a alteração anterior Ver a alteração posterior →

Conteúdo apagado Conteúdo adicionado

Em linha

Revisão das 14h06min de 6 de junho de 2020

O HAREM é uma avaliação internacional para sistemas de Processamento da Linguagem Natural específicos para a língua portuguesa.

O que é?

A sigla HAREM responde por (HAREM é) Avaliação de Reconhecimento de Entidades Mencionadas^[1] e trata-se de uma avaliação conjunta^[2] sobre a extração e a classificação automática de entidades mencionadas em textos em língua portuguesa.

O HAREM teve o seu início oficial em Setembro de 2004, por iniciativa da Linguateca, uma rede de recursos e avaliação para língua portuguesa, apoiada pelas autoridades portuguesas. Oito sistemas participaram na sua primeira edição, e um livro foi publicado em 2007.^[3] Também existiu uma nova edição chamada mini-HAREM, organizada no fim do Primeiro HAREM, em 2006, com apenas cinco participantes.

Em 2007-2008 foi realizado o Segundo HAREM, em que participaram nove sistemas e que deu origem a um novo livro, publicado em Dexembro de 2008.^[4]

O HAREM foi a única avaliação conjunta organizada pela Linguateca^[5] que teve duas (ou três) edições, devido ao grande interesse que suscitou. Outras avaliações organizadas pela Linguateca foram as Morfolimpíadas^[6] (2003-2004), GikiP^[7] (2008) e o Págico^[8] (2012). Além disso a Linguateca participou como organizadora para o português no CLEF (CrossLingual Evaluation Forum) de 2004 a 2009.^[9]

Impacto

Houve mais de cem artigos escritos sobre o HAREM, pelos participantes e pelos organizadores, e é bastante referenciado pela comunidade em muitas ocasiões.^[10]

Três coisas foram propostas pelo HAREM:

uma diferente concetualização da tarefa "named entity recognition", traduzida por "reconhecimento de entidades mencionadas", que parte da língua e não do mundo

um sistema de avaliação complexo, com separação de identificação e classificação, e possibilidade de vagueza de classificação

regras detalhadas para identificar e classificar um conjunto de categorias para o português

Para a comunidade, foram tornados públicos

materiais de avaliação, as chamadas "coleções douradas"

programas de avaliação de novos sistemas, com base nas ditas coleções douradas

Problemas

Um dos problemas do HAREM foi que a terminologia entidades mencionadas não foi aceite pela globalidade da comunidade falante do português, e vários novos trabalhos usam o termo "entidades nomeadas", dessa forma não tomando em consideração o trabalho já feito.

Outros eventos de avaliação de entidades mencionadas

MUC
«ACE» (em inglês). . www.nist.gov
«CoNLL» (em inglês). . ifarm.nl
«PascalChallenge» (em inglês). . nlp.shef.ac.uk

Referências

↑ http://www.linguateca.pt/HAREM/
↑ Santos, Diana, ed. (janeiro de 2007). Avaliação conjunta: um novo paradigma no processamento computacional da língua portuguesa. Lisboa: IST Press. ISBN 978-972-8469-60-3
↑ Santos, Diana; Cardoso, Nuno, eds. (novembro de 2017). Reconhecimento de entidades mencionadas em português. [S.l.: s.n.] ISBN 978-989-20-0731-1
↑ Mota, Cristina; Santos, Diana, eds. (dezembro de 2009). Desafios na avaliação conjunta do reconhecimento de entidades mencionadas. [S.l.: s.n.] ISBN 978-989-20-1656-6
↑ https://www.linguateca.pt/AvalConjunta/
↑ https://www.linguateca.pt/Morfolimpiadas/
↑ https://www.linguateca.pt/GikiP/
↑ https://www.linguateca.pt/Pagico/
↑ https://www.linguateca.pt/CLEF/
↑ Collovini de Abreu, Sandra; Bonamigo, Tiago Luis; Vieira, Renata (2013). «A review on Relation Extraction with an eye on Portuguese». Journal of the Brazilian Computer Society. 19. Consultado em 6 de junho de 2020 Parâmetro desconhecido |pags= ignorado (ajuda)

[1] ttp://www.linguateca.pt/HAREM/

[livroAvalConj-2] Santos, Diana, ed. (janeiro de 2007). Avaliação conjunta: um novo paradigma no processamento computacional da língua portuguesa. Lisboa: IST Press. ISBN 978-972-8469-60-3

[livroHAREM-3] Santos, Diana; Cardoso, Nuno, eds. (novembro de 2017). Reconhecimento de entidades mencionadas em português. [S.l.: s.n.] ISBN 978-989-20-0731-1

[livroSegundoHAREM-4] Mota, Cristina; Santos, Diana, eds. (dezembro de 2009). Desafios na avaliação conjunta do reconhecimento de entidades mencionadas. [S.l.: s.n.] ISBN 978-989-20-1656-6

[5] ttps://www.linguateca.pt/AvalConjunta/

[6] ttps://www.linguateca.pt/Morfolimpiadas/

[7] ttps://www.linguateca.pt/GikiP/

[8] ttps://www.linguateca.pt/Pagico/

[9] ttps://www.linguateca.pt/CLEF/

[10] Collovini de Abreu, Sandra; Bonamigo, Tiago Luis; Vieira, Renata (2013). «A review on Relation Extraction with an eye on Portuguese». Journal of the Brazilian Computer Society. 19. Consultado em 6 de junho de 2020 Parâmetro desconhecido |pags= ignorado (ajuda)

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

@@ Linha 15: / Linha 15: @@
 == Impacto ==
-Houve mais de cem artigos escritos sobre o HAREM, pelos participantes e pelos organizadores, e é bastante referenciado pela comunidade em muitas ocasiões.<ref> </ref>
+Houve mais de cem artigos escritos sobre o HAREM, pelos participantes e pelos organizadores, e é bastante referenciado pela comunidade em muitas ocasiões.<ref>{{Citar periódico |url=https://journal-bcs.springeropen.com/articles/10.1007/s13173-013-0116-8|título=A review on Relation Extraction with an eye on Portuguese|nome1=Sandra |sobrenome1=Collovini de Abreu|nome2=Tiago Luis|sobrenome2=Bonamigo|nome3=Renata|sobrenome3= Vieira |jornal= Journal of the Brazilian Computer Society| volume=19|data=2013|pags=553–571|acessadoem=6 de junho de 2020}}</ref>
 Três coisas foram propostas pelo HAREM:
@@ Linha 29: / Linha 29: @@
 * materiais de avaliação, as chamadas "coleções douradas"
-* programas de avaliação de novos sistemas, com base nas ditas coleções dourada
+* programas de avaliação de novos sistemas, com base nas ditas coleções douradas
+== Problemas ==
-Um dos problemas do HAREM foi que a terminologia entidades mencionadas nao foi aceite pela globalidade da comunidade falante do português, e vários novos trabalhos usam o termo "entidades nomeadas".
+Um dos problemas do HAREM foi que a terminologia entidades mencionadas não foi aceite pela globalidade da comunidade falante do português, e vários novos trabalhos usam o termo "entidades nomeadas", dessa forma não tomando em consideração o trabalho já feito.
 == Outros eventos de avaliação de entidades mencionadas ==