Tese premiada pela Capes e pela UFMG é tema do episódio desta semana do programa ‘Aqui tem ciência’, da Rádio UFMG Educativa.
Processamento de linguagem natural (PLN) é uma vertente da inteligência artificial (IA) que ajuda computadores a entender, interpretar e manipular a linguagem humana. A capacidade de representar palavras de maneira significativa e eficiente é crucial para as aplicações de PLN, pois isso afeta de forma significativa os métodos de machine learning (aprendizado de máquina).
O cientista de dados Felipe Augusto Resende Viegas projetou uma nova representação de documentos que agrupa palavras semanticamente relacionadas, as CluWords, para mitigar interpretações equivocadas de sentenças que podem prejudicar o aprendizado de máquina. O estudo, realizado no Programa de Pós-graduação em Ciência da Computação da UFMG, foi o vencedor do Prêmio Capes de Tese 2024, promovido pela Comissão de Aperfeiçoamento de Pessoal de Nível Superior, e do Grande Prêmio UFMG de Teses.
Estado da arte
Conceitualmente, as CluWords são construídas por meio de sistemas de filtragem e esquemas de ponderação, mecanismos para remover ruídos da mensagem. A solução desenvolvida constrói uma representação de dados mais específica com base em componentes capazes de melhorar a eficácia na detecção de tópicos relevantes.
Os experimentos demonstram que as CluWords são o estado da arte em modelagem de tópicos (busca de termos que representam determinado texto) e modelagem de tópicos hierárquicos (afunilamento dos tópicos, de forma ainda mais detalhada). No contexto da análise de sentimento, abordagem que analisa a polaridade dos textos, os testes mostram que a filtragem e a ponderação são capazes de mitigar erros na atribuição de sentido às palavras.
A pesquisa evidencia que as CluWords auxiliam no processo de acessar, analisar e extrair as informações relacionadas a textos que são usadas pelos computadores quando precisam processar a linguagem humana, como em chatbots ou no ChatGPT, programas computacionais que simulam conversas, propiciando que as pessoas interajam com dispositivos digitais.
Raio-x da pesquisa
Título: On the role of semantic word clusters – CluWords – in natural language processing (NLP) tasks.
O que é: tese que descreve uma nova representação de documentos chamada CluWords, método para aprendizado de máquina que agrupa palavras semanticamente relacionadas, a fim de mitigar ruídos semânticos.
Autor: Felipe Augusto Resende Viegas.
Programa de Pós-graduação: Ciência da Computação.
Orientador: Marcos André Gonçalves.
Coorientador: Leonardo Chaves Dutra da Rocha.
Ano de defesa: 2023.
O episódio 190 do Aqui tem ciência tem produção e apresentação de Júlia Rhaine, edição de Alessandra Ribeiro e trabalhos técnicos de Cláudio Zazá. O programa é uma pílula radiofônica sobre estudos realizados na UFMG e abrange todas as áreas do conhecimento. A cada semana, a equipe da emissora apresenta os resultados de uma pesquisa desenvolvida na Universidade. O programa vai ao ar na frequência 104,5 FM e na página da emissora, às segundas, às 11h, com reprises às sextas, às 20h, e pode ser ouvido também em plataformas de áudio como Spotify e Amazon Music.