Aprendizado por transferência
O aprendizado por transferência (TL) é uma técnica de aprendizado de máquina (ML) na qual o conhecimento aprendido em uma tarefa é reutilizado para aumentar o desempenho em uma tarefa relacionada.[1] Por exemplo, na classificação de imagens, o conhecimento adquirido ao aprender a reconhecer carros pode ser aplicado ao tentar reconhecer caminhões. Esse tópico está relacionado à literatura psicológica sobre transferência de aprendizado, embora os vínculos práticos entre os dois campos sejam limitados. A reutilização/transferência de informações de tarefas aprendidas anteriormente para novas tarefas tem o potencial de melhorar significativamente a eficiência do aprendizado.[2]
Como o aprendizado por transferência faz uso do treinamento com várias funções de objetivo, ele está relacionado ao aprendizado de máquina sensível ao custo e à otimização multiobjetivo.[3]
História
[editar | editar código-fonte]Em 1976, Bozinovski e Fulgosi publicaram um artigo abordando o aprendizado por transferência no treinamento de redes neurais.[4][5] O artigo apresenta um modelo matemático e geométrico do tópico. Em 1981, um relatório considerou a aplicação do aprendizado de transferência a um conjunto de dados de imagens que representam letras de terminais de computador, demonstrando experimentalmente o aprendizado de transferência positivo e negativo.[6]
Em 1992, Lorien Pratt formulou o algoritmo de transferência baseada em discriminabilidade (DBT).[7]
Em 1998, o campo havia avançado para incluir o aprendizado multitarefa,[8] juntamente com fundamentos teóricos mais formais.[9] Publicações influentes sobre aprendizagem por transferência incluem o livro Learning to Learn em 1998,[10] uma pesquisa de 2009[11] e uma pesquisa de 2019.[12]
Andrew Ng disse em seu tutorial do NIPS 2016[13][14] que o TL se tornaria o próximo impulsionador do sucesso comercial do aprendizado de máquina depois da aprendizagem supervisionada.
No artigo de 2020, "Rethinking Pre-Training and self-training",[15] Zoph et al. relataram que o pré-treinamento pode prejudicar a precisão e, em vez disso, defendem o autotreinamento.
Usos
[editar | editar código-fonte]Há algoritmos disponíveis para o aprendizado por transferência em redes lógicas de Markov[16] e redes bayesianas.[17] O aprendizado por transferência foi aplicado à descoberta de subtipos de câncer,[18] utilização de edifícios,[19][20] jogos em geral,[21] classificação de textos,[22][23] reconhecimento de dígitos,[24] imagens médicas e filtragem de spam.[25]
Em 2020, descobriu-se que, devido às suas naturezas físicas semelhantes, é possível transferir o aprendizado entre os sinais eletromiográficos (EMG) dos músculos e classificar os comportamentos das ondas cerebrais eletroencefalográficas (EEG), do domínio de reconhecimento de gestos para o domínio de reconhecimento de estado mental. Observou-se que essa relação funcionou em ambas as direções, mostrando que o eletroencefalograma também pode ser usado para classificar o EMG.[26] Os experimentos observaram que a precisão das redes neurais e das redes neurais convolucionais foi aprimorada[27] por meio da aprendizagem por transferência antes de qualquer aprendizagem (em comparação com a distribuição de peso aleatório padrão) e no final do processo de aprendizagem (assíntota). Ou seja, os resultados são aprimorados pela exposição a outro domínio. Além disso, o usuário final de um modelo pré-treinado pode alterar a estrutura das camadas totalmente conectadas para melhorar o desempenho.[28]
Software
[editar | editar código-fonte]Várias compilações de aprendizado de transferência e algoritmos de adaptação de domínio foram implementadas:
Ver também
[editar | editar código-fonte]Referências
[editar | editar código-fonte]- ↑ West, Jeremy; Ventura, Dan; Warnick, Sean (2007). «Spring Research Presentation: A Theoretical Foundation for Inductive Transfer» (em inglês). Brigham Young University, College of Physical and Mathematical Sciences. Consultado em 5 de agosto de 2007. Cópia arquivada em 1 de agosto de 2007
- ↑ George Karimpanal, Thommen; Bouffanais, Roland (2019). «Self-organizing maps for storage and transfer of knowledge in reinforcement learning». Adaptive Behavior (em inglês). 27 (2): 111–126. ISSN 1059-7123. arXiv:1811.08318. doi:10.1177/1059712318818568
- ↑ Krishnapuram, Balaji; Yu, Shipeng; Rao, R. Bharat (19 de dezembro de 2011). Cost-Sensitive Machine Learning (em inglês). [S.l.]: CRC Press. p. 63
- ↑ Stevo. Bozinovski e Ante Fulgosi (1976). "A influência da similaridade de padrões e da aprendizagem por transferência no treinamento de um perceptron de base B2." (original em croata) Proceedings of Symposium Informatica 3-121-5, Bled.
- ↑ Bozinovski, Stevo (15 de setembro de 2020). «Reminder of the First Paper on Transfer Learning in Neural Networks, 1976». Informatica (em inglês) (3): 291-302. ISSN 1854-3871. doi:10.31449/inf.v44i3.2828
- ↑ Bozinovski, S. (1981). Teaching space: A representation concept for adaptive pattern classification (PDF). Col: COINS Technical Report (em inglês). 81-28. Amherst: Universidade de Massachusetts
- ↑ Pratt, L. Y. (1992). «Discriminability-based transfer between neural networks» (PDF). NIPS Conference: Advances in Neural Information Processing Systems 5 (em inglês). [S.l.]: Morgan Kaufmann Publishers. pp. 204–211
- ↑ Caruana, R., "Multitask Learning", pp. 95-134 em Thrun & Pratt 2012
- ↑ Baxter, J., "Theoretical Models of Learning to Learn", pp. 71-95 em Thrun & Pratt 2012
- ↑ Thrun & Pratt 2012.
- ↑ Pan, Sinno Jialin; Yang, Qiang (2009). «A Survey on Transfer Learning» (PDF). IEEE (em inglês)
- ↑ «A Comprehensive Survey on Transfer Learning». IEEE (em inglês). 2019. arXiv:1911.02685
- ↑ NIPS 2016 tutorial: "Nuts and bolts of building AI applications using Deep Learning" by Andrew Ng (em inglês), consultado em 28 de dezembro de 2019, cópia arquivada em 19 de dezembro de 2021
- ↑ Nuts and bolts of building AI applications using Deep Learning, slides
- ↑ Zoph, Barret (2020). «Rethinking pre-training and self-training» (PDF). Advances in Neural Information Processing Systems (em inglês). 33: 3833–3845. arXiv:2006.06882. Consultado em 20 de dezembro de 2022
- ↑ Mihalkova, Lilyana; Huynh, Tuyen; Mooney, Raymond J. (julho de 2007), «Mapping and Revising Markov Logic Networks for Transfer» (PDF), Learning Proceedings of the 22nd AAAI Conference on Artificial Intelligence (AAAI-2007) (em inglês), Vancouver, BC, pp. 608–614, consultado em 5 de agosto de 2007
- ↑ Niculescu-Mizil, Alexandru; Caruana, Rich (maio de 2024), «Inductive Transfer for Bayesian Network Structure Learning», Proceedings of the Eleventh International Conference on Artificial Intelligence and Statistics (AISTATS 2007) (em inglês), consultado em 18 de maio de 2024
- ↑ Hajiramezanali, E.; Dadaneh, S. Z.; Karbalayghareh, A.; Zhou, Z.; Qian, X. (2018). «Bayesian multi-domain learning for cancer subtype discovery from next-generation sequencing count data.». Montreal, Canadá: 32nd Conference on Neural Information Processing Systems (NIPS 2018) (em inglês). arXiv:1810.09433
- ↑ Arief-Ang, I.B.; Salim, F.D.; Hamilton, M. (8 de novembro de 2017). DA-HOC: semi-supervised domain adaptation for room occupancy prediction using CO2 sensor data. 4th ACM International Conference on Systems for Energy-Efficient Built Environments (BuildSys) (em inglês). Delft, Netherlands. pp. 1–10. ISBN 978-1-4503-5544-5. doi:10.1145/3137133.3137146
- ↑ Arief-Ang, I.B.; Hamilton, M.; Salim, F.D. (1 de dezembro de 2018). «A Scalable Room Occupancy Prediction with Transferable Time Series Decomposition of CO2 Sensor Data». ACM Transactions on Sensor Networks (em inglês). 14 (3–4): 21:1–21:28. doi:10.1145/3217214
- ↑ Bikramjit, Banerjee; Stone, Peter (2007). «General Game Learning Using Knowledge Transfer» (PDF) (em inglês). IJCAI. Arquivado do original (PDF) em 14 de agosto de 2017
- ↑ Do, Chuong B.; Ng, Andrew Y. (2005). «Transfer learning for text classification». Neural Information Processing Systems Foundation, NIPS*2005 (PDF) (em inglês). Consultado em 5 de agosto de 2007
- ↑ Rajat, Raina; Ng, Andrew Y.; Koller, Daphne (2006). «Constructing Informative Priors using Transfer Learning». Twenty-third International Conference on Machine Learning (PDF) (em inglês). Consultado em 5 de agosto de 2007
- ↑ Maitra, D. S.; Bhattacharya, U.; Parui, S. K. (agosto de 2015). «CNN based common approach to handwritten character recognition of multiple scripts». 2015 13th International Conference on Document Analysis and Recognition (ICDAR) (em inglês). [S.l.: s.n.] pp. 1021–1025. ISBN 978-1-4799-1805-8. doi:10.1109/ICDAR.2015.7333916
- ↑ Bickel, Steffen (2006). «ECML-PKDD Discovery Challenge 2006 Overview». ECML-PKDD Discovery Challenge Workshop (PDF) (em inglês). Consultado em 5 de agosto de 2007
- ↑ Bird, Jordan J.; Kobylarz, Jhonatan; Faria, Diego R.; Ekart, Aniko; Ribeiro, Eduardo P. (2020). «Cross-Domain MLP and CNN Transfer Learning for Biological Signal Processing: EEG and EMG». Institute of Electrical and Electronics Engineers (IEEE). IEEE Access (em inglês). 8: 54789–54801. ISSN 2169-3536. doi:10.1109/access.2020.2979074
- ↑ Maitra, Durjoy Sen; Bhattacharya, Ujjwal; Parui, Swapan K. (agosto de 2015). «CNN based common approach to handwritten character recognition of multiple scripts». 2015 13th International Conference on Document Analysis and Recognition (ICDAR) (em inglês). [S.l.: s.n.] pp. 1021–1025. ISBN 978-1-4799-1805-8. doi:10.1109/ICDAR.2015.7333916
- ↑ Kabir, H. M. Dipu; Abdar, Moloud; Jalali, Seyed Mohammad Jafar; Khosravi, Abbas; Atiya, Amir F.; Nahavandi, Saeid; Srinivasan, Dipti (7 de janeiro de 2022). «SpinalNet: Deep Neural Network with Gradual Input». IEEE Transactions on Artificial Intelligence: 1–13. arXiv:2007.03347. doi:10.1109/TAI.2022.3185179
- ↑ «ADAPT: Awesome Domain Adaptation Python Toolbox» (em inglês). 2020
- ↑ «Transfer-learning-library» (em inglês). 2020
- ↑ «Domain adaptation toolbox» (em inglês). 2016
Fontes
[editar | editar código-fonte]- Thrun, Sebastian; Pratt, Lorien (6 de dezembro de 2012). Learning to Learn (em inglês). [S.l.]: Springer Science & Business Media. ISBN 978-1-4615-5529-2