Título: | APRIMORANDO A SÍNTESE DE IMAGENS A PARTIR DE TEXTO UTILIZANDO TRANSFERÊNCIA DE APRENDIZADO U2C | ||||||||||||
Autor: |
VINICIUS GOMES PEREIRA |
||||||||||||
Colaborador(es): |
EDUARDO SANY LABER - Orientador JONATAS WEHRMANN - Coorientador |
||||||||||||
Catalogação: | 06/FEV/2024 | Língua(s): | INGLÊS - ESTADOS UNIDOS |
||||||||||
Tipo: | TEXTO | Subtipo: | TESE | ||||||||||
Notas: |
[pt] Todos os dados constantes dos documentos são de inteira responsabilidade de seus autores. Os dados utilizados nas descrições dos documentos estão em conformidade com os sistemas da administração da PUC-Rio. [en] All data contained in the documents are the sole responsibility of the authors. The data used in the descriptions of the documents are in conformity with the systems of the administration of PUC-Rio. |
||||||||||||
Referência(s): |
[pt] https://www.maxwell.vrac.puc-rio.br/projetosEspeciais/ETDs/consultas/conteudo.php?strSecao=resultado&nrSeq=65990&idi=1 [en] https://www.maxwell.vrac.puc-rio.br/projetosEspeciais/ETDs/consultas/conteudo.php?strSecao=resultado&nrSeq=65990&idi=2 |
||||||||||||
DOI: | https://doi.org/10.17771/PUCRio.acad.65990 | ||||||||||||
Resumo: | |||||||||||||
As Redes Generativas Adversariais (GANs) são modelos não supervisionados capazes de aprender a partir de um número indefinidamente grande
de imagens. Entretanto, modelos que geram imagens a partir de linguagem
dependem de dados rotulados de alta qualidade, que são escassos. A transferência de aprendizado é uma técnica conhecida que alivia a necessidade de
dados rotulados, embora transformar um modelo gerativo incondicional em um
modelo condicionado a texto não seja uma tarefa trivial. Este trabalho propõe uma abordagem de ajuste simples, porém eficaz, chamada U2C transfer.
Esta abordagem é capaz de aproveitar modelos pré-treinados não condicionados enquanto aprende a respeitar as condições textuais fornecidas. Avaliamos
a eficiência do U2C transfer ao ajustar o StyleGAN2 em duas das fontes de
dados mais utilizadas para a geração images a partir de texto, resultando
na arquitetura Text-Conditioned StyleGAN2 (TC-StyleGAN2). Nossos modelos alcançaram rapidamente o estado da arte nas bases de dados CUB-200 e
Oxford-102, com valores de FID de 7.49 e 9.47, respectivamente. Esses valores
representam ganhos relativos de 7 por cento e 68 por cento, respectivamente, em comparação
com trabalhos anteriores. Demonstramos que nosso método é capaz de aprender detalhes refinados a partir de consultas de texto, produzindo imagens fotorrealistas e detalhadas. Além disso, mostramos que os modelos organizam o
espaço intermediário de maneira semanticamente significativa. Nossas descobertas revelam que as imagens sintetizadas usando nossa técnica proposta não
são apenas críveis, mas também exibem forte alinhamento com suas descrições
textuais correspondentes. De fato, os escores de alinhamento textual alcançados por nosso método são impressionantemente e comparáveis aos das imagens
reais.
|
|||||||||||||
|