• English
    • português (Brasil)
  • português (Brasil) 
    • English
    • português (Brasil)
  • Entrar
Ver registro 
  •   Repositório Institucional PUC-Campinas
  • Produção acadêmica e científica
  • Artigos de periódicos
  • Publicações
  • Ver registro
  •   Repositório Institucional PUC-Campinas
  • Produção acadêmica e científica
  • Artigos de periódicos
  • Publicações
  • Ver registro
JavaScript is disabled for your browser. Some features of this site may not work without it.

Towards transfer learning techniques—BERT, DistilBERT, BERTimbau, and DistilBERTimbau for automatic text classification from different languages: A case study

Abrir arquivo
Barbon, Rafael Silva - Towards Transfer Learning.pdf (553.0Kb)
Título alternativo
Rumo a técnicas de aprendizagem por transferência - BERT, DistilBERT, BERTimbau e DistilBERTimbau para classificação automática de texto de diferentes idiomas: um estudo de caso
Autor
Barbon, Rafael Silva
Akabane, Ademar Takeo
Data de publicação
26/10/2022
Tipo de conteúdo
Artigo
Programa de Pós-Graduação
Sistemas de Infraestrutura Urbana
Direitos de acesso
Acesso aberto
Metadados
Mostrar registro completo
Resumo
The Internet of Things is a paradigm that interconnects several smart devices through the internet to provide ubiquitous services to users. This paradigm and Web 2.0 platforms generate countless amounts of textual data. Thus, a significant challenge in this context is automatically performing text classification. State-of-the-art outcomes have recently been obtained by employing language models trained from scratch on corpora made up from news online to handle text classification better. A language model that we can highlight is BERT (Bidirectional Encoder Representations from Transformers) and also DistilBERT is a pre-trained smaller general-purpose language representation model. In this context, through a case study, we propose performing the text classification task with two previously mentioned models for two languages (English and Brazilian Portuguese) in different datasets. The results show that DistilBERT’s training time for English and Brazilian Portuguese was about 45% faster than its larger counterpart, it was also 40% smaller, and preserves about 96% of language comprehension skills for balanced datasets.
Palavras-chave
Big data
Pre-trained model
BERT
DistilBERT
BERTimbau
DistilBERTimbau
Transformerbased machine learning
Linguagem
Inglês
Financiador
Não recebi financiamento
Este item aparece nas seguintes coleções:
  • Publicações

Pontifícia Universidade Católica de Campinas
Pontifícia Universidade Católica de Campinas
Entre em contato | Deixe sua opinião

 

Navegue

Todo o repositórioComunidades e ColeçõesPor data do documentoAutoresTítulosAssuntosEsta coleçãoPor data do documentoAutoresTítulosAssuntos

Minha conta

EntrarCadastro

Pontifícia Universidade Católica de Campinas
Pontifícia Universidade Católica de Campinas
Entre em contato | Deixe sua opinião