O episódio desta semana mergulha no fascinante universo do Processamento de Linguagem Natural (PLN), uma área da Inteligência Artificial (IA) focada em ensinar computadores a entender e interpretar a linguagem humana. Para o PLN, uma representação precisa das palavras é essencial, pois impacta diretamente o desempenho dos métodos de aprendizado de máquina.
Felipe Augusto Resende Viegas, cientista de dados, criou uma nova forma de representar documentos chamada CluWords, que agrupa palavras semanticamente relacionadas. Essa inovação busca reduzir erros de interpretação nas sentenças, algo que costuma atrapalhar o aprendizado de máquina. A pesquisa, desenvolvida durante o doutorado no Programa de Pós-graduação em Ciência da Computação da UFMG, conquistou o Prêmio Capes de Tese 2024 e o Grande Prêmio UFMG de Teses.
CluWords: o estado da arte em modelagem de tópicos
As CluWords utilizam filtros e esquemas de ponderação para eliminar ruídos, construindo representações mais precisas e específicas dos textos. Isso resulta em uma melhoria significativa na detecção de tópicos relevantes, tanto na modelagem de tópicos tradicionais quanto na hierárquica, que detalha temas de forma mais aprofundada.
Nos experimentos, a técnica se destacou em tarefas de análise de sentimento, que examinam a polaridade dos textos (positiva, negativa ou neutra). Os resultados mostram que o uso de filtros e ponderações reduz erros de interpretação, refinando a compreensão das palavras no contexto.
A pesquisa demonstrou o potencial das CluWords em aplicações que envolvem a compreensão de textos, desde chatbots até sistemas avançados como o ChatGPT, facilitando interações mais precisas e naturais entre humanos e máquinas.
Saiba mais sobre a pesquisa no novo episódio do Aqui tem ciência:
https://open.spotify.com/embed/episode/0TkM7MhHnWP5ozwbplsFKT?utm_source=generator
Felipe Viegas: CluWords são o estado da arte em modelagem de tópicos
———————————————————-
Raio-x da pesquisa:
Título: On the role of semantic word clusters – CluWords – in natural language processing (NLP) tasks
O que é: tese que descreve uma nova representação de documentos chamada CluWords, método para aprendizado de máquina que agrupa palavras semanticamente relacionadas, a fim de mitigar ruídos semânticos.
Autor: Felipe Augusto Resende Viegas
Programa de Pós-graduação: Ciência da Computação
Orientador: Marcos André Gonçalves
Coorientador: Leonardo Chaves Dutra da Rocha
Ano de defesa: 2023
O episódio 190 do Aqui tem ciência tem produção e apresentação de Júlia Rhaine, edição de Alessandra Ribeiro e trabalhos técnicos de Cláudio Zazá. O programa é uma pílula radiofônica sobre estudos realizados na UFMG e abrange todas as áreas do conhecimento. A cada semana, a equipe da emissora apresenta os resultados de uma pesquisa desenvolvida na Universidade. O programa vai ao ar na frequência 104,5 FM e na página da emissora, às segundas, às 11h, com reprises às sextas, às 20h, e pode ser ouvido também em plataformas de áudio como Spotify e Amazon Music.