Maxwell Para Simples Indexação

Título
[pt] DO TEXTO AO SQL EM DATASETS DO MUNDO REAL

Título
[en] TEXT-TO-SQL ON REAL WORLD DATASETS

Autor
[pt] AIKO RAMALHO DE OLIVEIRA

Vocabulário
[pt] PLN PROCESSAMENTO DE LINGUAGEM NATURAL

Vocabulário
[pt] LM GENERATIVE AI LANGUAGE MODEL

Vocabulário
[pt] RAG RETRIEVAL AUGMENTED GENERATION

Vocabulário
[pt] LLM LARGE LANGUAGE MODEL

Vocabulário
[pt] TEXTO PARA SQL

Vocabulário
[en] NLP NATURAL LANGUAGEM PROCESSING

Vocabulário
[en] GLM GENERATIVE AI LANGUAGE MODEL

Vocabulário
[en] RAG RETRIEVAL AUGMENTED GENERATION

Vocabulário
[en] LLM LARGE LANGUAGE MODEL

Vocabulário
[en] TEXT TO SQL

Resumo
[pt] No campo em rápida evolução do Processamento de Linguagem Natural (NLP), a tarefa de traduzir consultas em linguagem natural para consultas SQL (Text-to-SQL) tem ganhado atenção significativa devido ao seu potencial para simplificar interações com bancos de dados para usuários não técnicos. Este projeto final, intitulado Text-to-SQL em Conjuntos de Dados do Mundo Real,explora métodos inovadores para melhorar a precisão e a eficiência dos sistemas Text-to-SQL, focando especificamente em bancos de dados do mundo real com esquemas complexos. O projeto utiliza a técnica de Geração Aumentada por Recuperação (RAG) para melhorar a precisão do Text-to-SQL, integrando fontes de dados externas e estratégias de ajuste fino. Uma combinação de geração de conjuntos de dados sintéticos e estratégias de prompts é empregada para aprimorar o desempenho do modelo. O conjunto de dados Mondial, conhecido por sua complexidade e riqueza em dados geográficos, serve como referência para avaliar as técnicas propostas. O objetivo do estudo é desenvolver uma estrutura robusta de Textto-SQL capaz de lidar com consultas diversas e complexas, tornando as interações com bancos de dados mais intuitivas e acessíveis. As metodologias, experimentos e descobertas documentadas neste relatório contribuem com insights valiosos para a pesquisa contínua em NLP e sistemas de gerenciamento de bancos de dados.

Resumo
[en] In the rapidly evolving field of Natural Language Processing (NLP), the task of translating natural language queries into SQL queries (Text-to-SQL) has garnered significant attention due to its potential to simplify database interactions for non technical users. This final project, titled Text-to-SQL on Real World Datasets, explores innovative methods to enhance the accuracy and efficiency of Text-to-SQL systems, specifically focusing on real-world databases with complex schemas. The project leverages the Retrieval-Augmented Generation (RAG) technique to improve Text-to-SQL accuracy by integrating external data sources and fine-tuning strategies. A combination of synthetic dataset generation and prompt strategies is employed to enhance the model s performance. The Mondial dataset, known for its complexity and richness in geographic data, serves as the benchmark for evaluating the proposed techniques. The study aims to develop a robust Text-to-SQL framework capable of handling diverse and complex queries, thereby making database interactions more intuitive and accessible. The methodologies, experiments, and findings documented in this report contribute valuable insights to ongoing research in NLP and database management systems

Orientador(es)
MARCO ANTONIO CASANOVA

Catalogação
2025-04-28

Tipo
[pt] TEXTO

Formato
application/pdf

Idioma(s)
INGLÊS

Referência [pt]
https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=70127@1

Referência [en]
https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=70127@2

Referência DOI
https://doi.org/10.17771/PUCRio.acad.70127


Arquivos do conteúdo
NA ÍNTEGRA PDF