Spark NLP: diferenças entre revisões

Origem: Wikipédia, a enciclopédia livre.
Conteúdo apagado Conteúdo adicionado
Criada por tradução da página "Spark NLP"
(Sem diferenças)

Revisão das 17h00min de 7 de dezembro de 2023

A Spark NLP é uma biblioteca de processamento de texto de código aberto para processamento de linguagem natural disponível para as linguagens de programação Python, Java e Scala. [1] [2] [3] A biblioteca é construída sobre o Apache Spark e sua biblioteca Spark ML. [4]

Seu objetivo é fornecer uma API para pipelines de processamento de linguagem natural, oferecendo modelos de redes neurais pré-treinados, pipelines e embeddings, bem como suporte para treinamento de modelos personalizados. [4]

Características

O design da biblioteca utiliza o conceito de pipeline, que é um conjunto ordenado de anotadores de texto. [5]

O Models Hub é uma plataforma para compartilhar modelos e pipelines pré-treinadas. Inclui pipelines pré-treinadas com tokenização, lematização, marcação de classe gramatical e reconhecimento de entidade mencionada em mais de treze idiomas. Inclui também embeddings de palavras, como GloVe, ELMo, BERT, ALBERT, XLNet, Small BERT e ELECTRA e embeddings de frases, incluindo Universal Sentence Embeddings (USE) [6] e Language Agnostic BERT Sentence Embeddings (LaBSE). [7]

Uso na área da saúde

O Spark NLP for Healthcare é uma extensão comercial do Spark NLP para mineração de texto clínico e biomédico. [8] Ele fornece anotadores, pipelines, modelos e embeddings específicos para a área da saúde para reconhecimento de entidades clínicas, vinculação de entidades clínicas, normalização de entidades e outros.

A biblioteca oferece acesso a vários transformadores clínicos e biomédicos como JSL-BERT-Clinical, BioBERT, ClinicalBERT, [9] GloVe-Med, GloVe-ICD-O.

Spark OCR

Spark OCR é outra extensão comercial do Spark NLP para reconhecimento óptico de caracteres (do inglês, optical character recognition, OCR) de imagens, documentos PDF digitalizados e arquivos DICOM . [10] É uma biblioteca de software construída sobre o Apache Spark. Devido ao forte acoplamento entre Spark OCR e Spark NLP, os usuários podem combinar pipelines de PNL e OCR para tarefas como extrair texto de imagens. [11]


Vários formatos de saída são suportados pelo Spark OCR, como arquivos PDF, imagens ou DICOM com entidades anotadas, texto digital para processamento downstream no Spark NLP ou outras bibliotecas, formatos de dados estruturados ( JSON e CSV), como arquivos ou data frames Spark .

Prêmio

Em março de 2019, o Spark NLP recebeu o Open Source Award por suas contribuições no processamento de linguagem natural em Python, Java e Scala. [12]

Referências

  1. Ellafi, Saif Addin (28 de fevereiro de 2018). «Comparing production-grade NLP libraries: Running Spark-NLP and spaCy pipelines». O'Reilly Media (em inglês). Consultado em 29 de março de 2019 
  2. Ellafi, Saif Addin (28 de fevereiro de 2018). «Comparing production-grade NLP libraries: Accuracy, performance, and scalability». O'Reilly Media (em inglês). Consultado em 29 de março de 2019 
  3. Ewbank, Kay. «Spark Gets NLP Library». www.i-programmer.info 
  4. a b Thomas, Alex (July 2020). Natural Language Processing with Spark NLP: Learning to Understand Text at Scale First ed. United States of America: O'Reilly Media. ISBN 978-1492047766  Verifique data em: |data= (ajuda) Erro de citação: Código <ref> inválido; o nome "SparkNLPBook" é definido mais de uma vez com conteúdos diferentes
  5. Talby, David (19 de outubro de 2017). «Introducing the Natural Language Processing Library for Apache Spark - The Databricks Blog». Databricks (em inglês). Consultado em 27 de agosto de 2019 
  6. Cer, Daniel; Yang, Yinfei (12 April 2018). «Universal Sentence Encoder». arXiv:1803.11175Acessível livremente [cs.CL]  Verifique data em: |data= (ajuda)
  7. Feng, Fangxiaoyu; Yang, Yinfei (3 July 2020). «Language-agnostic BERT Sentence Embedding». arXiv:2007.01852Acessível livremente [cs.CL]  Verifique data em: |data= (ajuda)
  8. Team, Editorial (4 de setembro de 2018). «The Use of NLP to Extract Unstructured Medical Data From Text». insideBIGDATA (em inglês). Consultado em 27 de agosto de 2019 
  9. Alsentzer, Emily; Murphy, John; Boag, William; Weng, Wei-Hung; Jindi, Di; Naumann, Tristan; McDermott, Matthew (June 2019). «Publicly Available Clinical BERT Embeddings». Association for Computational Linguistics. Proceedings of the 2nd Clinical Natural Language Processing Workshop: 72–78. arXiv:1904.03323Acessível livremente. doi:10.18653/v1/W19-1909  Verifique data em: |data= (ajuda)
  10. Jha, Bineet Kumar; G, Sivasankari G.; R, Venugopal K. (May 2, 2021). «Sentiment Analysis for E-Commerce Products Using Natural Language Processing». Annals of the Romanian Society for Cell Biology: 166–175 – via www.annalsofrscb.ro  Verifique data em: |data= (ajuda)
  11. «A Unified CV, OCR & NLP Model Pipeline for Document Understanding at DocuSign». NLP Summit. Consultado em 18 September 2020  Verifique data em: |acessodata= (ajuda)
  12. Civis Analytics, Okera, Sigma Computing and Spark NLP Named Winners of Strata Data Awards

Fontes

Ligações externas