1. Rank-based weakly supervised machine learning methods
- Author
-
Presotto, João Gabriel Camacho, Universidade Estadual Paulista (Unesp), and Pedronette, Daniel Carlos Guimarães [UNESP]
- Subjects
Aprendizado fracamente supervisionado ,Modelo de ranqueamento ,Weakly supervised learning ,Métricas de correlação de listas ranqueadas ,Machine learning ,Semi-supervised learning ,Recuperação de imagens baseada em conteúdo ,Rank correlation measures ,Aprendizado semi-supervisionado ,Aprendizado de máquina ,Ranking ,Content-based image retrieval - Abstract
Submitted by João Gabriel Camacho Presotto (joao.presotto@unesp.br) on 2021-10-19T01:42:06Z No. of bitstreams: 1 Dissertacao Mestrado Joao Gabriel.pdf: 18506751 bytes, checksum: d2c49077514340130e847b920e3cbbe2 (MD5) Rejected by Adriana Ap. Puerta Buzzá (dripuerta@rc.unesp.br), reason: Prezado João, O documento enviado para a coleção Campus Unesp Rio Claro foi recusado pelo(s) seguinte(s) motivo(s): - Capa, página de rosto - seguir modelo recomendado pelo Programa de Pós-graduação - Alterar dados conforme Unidade que defendeu o trabalho. Por exemplo: Rio Claro. Disponível em: https://www.ibilce.unesp.br/#!/biblioteca/servicos-oferecidos/normalizacao/estrutura-do-trabalho-academico/ - dúvidas ver com seu Programa de Pós-graduação. Template Pós-graduação - Mestrado: https://www.ibilce.unesp.br/Home/Biblioteca753/normalizacao/template-pos-graduacao_mestrado.docx - Folha de aprovação encontra-se incompleta. Falta informação do resultado "Aprovado" e natureza (tese, dissertação, monografia, trabalho de conclusão de curso e outros); nome da instituição à qual o trabalho é apresentado, indicando o título pretendido (mestre, bacharel, especialista etc). - FAPESP: O apoio/financiamento da FAPESP deve ser mencionado de forma destacada, por meio da apresentação no capítulo “Agradecimentos” do nome e do número do processo FAPESP que financiou a pesquisa, conforme o seguinte modelo: processo nº aaaa/nnnnn-d, Fundação de Amparo à Pesquisa do Estado de São Paulo (FAPESP) - (Exigência cláusula 7ª Portaria CTA nº 03/2019 – FAPESP). Maiores informações: https://ib.rc.unesp.br/#!/biblioteca/aprenda-com-a-biblioteca/repositorio---teses-e-dissertacoes/ http://ib.rc.unesp.br/Home/Biblioteca37/repositorio_fluxograma_unesp_rioclaro.jpg Em caso de dúvidas entre em contato pelos e-mails: repositoriounesp@reitoria.unesp.br e/ou stati.rc@unesp.br Solicitamos que realize uma nova submissão seguindo as orientações destacadas. Agradecemos a compreensão. Atenciosamente, Biblioteca Campus Rio Claro Repositório Institucional UNESP https://repositorio.unesp.br on 2021-10-20T12:40:04Z (GMT) Submitted by João Gabriel Camacho Presotto (joao.presotto@unesp.br) on 2021-10-20T13:24:12Z No. of bitstreams: 1 Dissertacao Mestrado Joao Gabriel_new.pdf: 17404982 bytes, checksum: b8881191cee8aeae49012867160e1d4b (MD5) Approved for entry into archive by Adriana Ap. Puerta Buzzá (dripuerta@rc.unesp.br) on 2021-10-22T12:34:29Z (GMT) No. of bitstreams: 1 presotto_jgc_me_rcla.pdf: 17404982 bytes, checksum: b8881191cee8aeae49012867160e1d4b (MD5) Made available in DSpace on 2021-10-22T12:34:29Z (GMT). No. of bitstreams: 1 presotto_jgc_me_rcla.pdf: 17404982 bytes, checksum: b8881191cee8aeae49012867160e1d4b (MD5) Previous issue date: 2021-08-27 Fundação de Amparo à Pesquisa do Estado de São Paulo (FAPESP) Apesar dos impressionantes avanços recentes nas técnicas de aprendizado de máquina, principalmente na compreensão de dados multimídia, desafios significativos ainda persistem. Um dos principais desafios em cenários reais apresenta-se na escassa disponibilidade de dados rotulados. Nesse contexto, desenvolver métodos capazes de explorar as informações presentes em dados não rotulados de modo a mitigar os problemas associados à insuficiência de dados rotulados é um desafio de suma importância. Métodos de aprendizado fracamente supervisionado conseguem lidar com tais restrições ao trabalhar com rótulos estimados ou aproximados como maneira de potencializar informações úteis de treinamento. Nessa linha de pesquisa, apresentaremos dois métodos de aprendizado fracamente supervisionado capazes de analisar as relações entre os dados rotulados e não rotulados, de modo a expandir pequenos conjuntos de treinamento rotulados. Ambos recorrem a um modelo de ranqueamento e utilizam diferentes estratégias para analisar as informações de similaridade codificadas nos dados não rotulados e identificar fortes relações de similaridade com os dados rotulados. Tais relações são consideradas durante a etapa de expansão do conjunto de treinamento. Os métodos foram avaliados em conjunto com diferentes classificadores supervisionados e semi-supervisionados, incluindo uma recente rede convolucional baseada em grafos. Foram considerados cinco diferentes coleções de imagens públicas e os vetores de características de cada imagem foram obtidos através de diferentes descritores visuais. Ganhos positivos de acurácia foram obtidos por ambos os métodos nos mais diferentes cenários quando comparados aos classificadores treinados sem o auxílio de nossos métodos e a técnicas de expansão similares, evidenciando a robustez das abordagens propostas. Despite the impressive recent advances in machine learning techniques, especially in multimedia data understanding, significant challenges remain. One of the main challenges in real-world scenarios is the limited availability of labeled data. In this context, developing methods capable of exploiting the information encoded in the unlabeled data to mitigate the problems associated with insufficient labeled data, and to overcome this issue is something of paramount importance. Weakly supervised learning methods are capable to handle such restrictions by working with estimated or approximate labels as a way to maximize useful training information. In this line of research, we will present two weakly supervised methods that can analyze the relationships between labeled and unlabeled data to expand small labeled training sets. Both use a ranking model and different strategies to examine similarity information encoded in the unlabeled data to identify strong similarity relationships with the labeled data. Such relations will be considered during the training set expansion step. The methods were evaluated in conjunction with different supervised and semi-supervised classifiers, including a recent graph convolutional network. Five different public image datasets were considered with different visual descriptors. Positive accuracy gains were achieved by both methods in the different scenarios when compared to classifiers trained without the aid of our methods and compared to similar expansion techniques, evidencing the strength of both. FAPESP: 19/04754-6.
- Published
- 2021