Título: | LOCALIZAÇÃO ESPAÇO-TEMPORAL DE ATORES EM VÍDEOS/VÍDEOS 360 E SUAS APLICAÇÕES | ||||||||||||
Autor: |
PAULO RENATO CONCEICAO MENDES |
||||||||||||
Colaborador(es): |
SERGIO COLCHER - Orientador |
||||||||||||
Catalogação: | 13/SET/2021 | Língua(s): | INGLÊS - ESTADOS UNIDOS |
||||||||||
Tipo: | TEXTO | Subtipo: | TESE | ||||||||||
Notas: |
[pt] Todos os dados constantes dos documentos são de inteira responsabilidade de seus autores. Os dados utilizados nas descrições dos documentos estão em conformidade com os sistemas da administração da PUC-Rio. [en] All data contained in the documents are the sole responsibility of the authors. The data used in the descriptions of the documents are in conformity with the systems of the administration of PUC-Rio. |
||||||||||||
Referência(s): |
[pt] https://www.maxwell.vrac.puc-rio.br/projetosEspeciais/ETDs/consultas/conteudo.php?strSecao=resultado&nrSeq=54666&idi=1 [en] https://www.maxwell.vrac.puc-rio.br/projetosEspeciais/ETDs/consultas/conteudo.php?strSecao=resultado&nrSeq=54666&idi=2 |
||||||||||||
DOI: | https://doi.org/10.17771/PUCRio.acad.54666 | ||||||||||||
Resumo: | |||||||||||||
A popularidade de plataformas para o armazenamento e compartilhamento
de vídeo tem criado um volume massivo de horas de vídeo. Dado
um conjunto de atores presentes em um vídeo, a geração de metadados com
a determinação temporal dos intervalos em que cada um desses atores está
presente, bem como a localização no espaço 2D dos quadros em cada um
desses intervalos pode facilitar a recuperação de vídeo e a recomendação.
Neste trabalho, nós investigamos a Clusterização Facial em Vídeo para a
localização espaço-temporal de atores. Primeiro descrevemos nosso método
de Clusterização Facial em Vídeo em que utilizamos métodos de detecção
facial, geração de embeddings e clusterização para agrupar faces dos atores
em diferentes quadros e fornecer a localização espaço-temporal destes atores.
Então, nós exploramos, propomos, e investigamos aplicações inovadoras
dessa localização espaço-temporal em três diferentes tarefas: (i) Reconhecimento
Facial em Vídeo, (ii) Recomendação de Vídeos Educacionais e (iii)
Posicionamento de Legendas em Vídeos 360 graus. Para a tarefa (i), propomos
um método baseado na similaridade de clústeres que é facilmente escalável e
obteve um recall de 99.435 por cento e uma precisão de 99.131 por cento em um conjunto de
vídeos. Para a tarefa (ii), propomos um método não supervisionado baseado
na presença de professores em diferentes vídeos. Tal método não requer nenhuma
informação adicional sobre os vídeo e obteve um valor mAP aproximadamente 99 por cento.
Para a tarefa (iii), propomos o posicionamento dinâmico de legendas baseado
na localização de atores em vídeo 360 graus.
|
|||||||||||||
|