Título
[pt] DO TEXTO AO SQL EM DATASETS DO MUNDO REAL
Título
[en] TEXT-TO-SQL ON REAL WORLD DATASETS
Autor
[pt] AIKO RAMALHO DE OLIVEIRA
Vocabulário
[pt] PLN PROCESSAMENTO DE LINGUAGEM NATURAL
Vocabulário
[pt] LM GENERATIVE AI LANGUAGE MODEL
Vocabulário
[pt] RAG RETRIEVAL AUGMENTED GENERATION
Vocabulário
[pt] LLM LARGE LANGUAGE MODEL
Vocabulário
[pt] TEXTO PARA SQL
Vocabulário
[en] NLP NATURAL LANGUAGEM PROCESSING
Vocabulário
[en] GLM GENERATIVE AI LANGUAGE MODEL
Vocabulário
[en] RAG RETRIEVAL AUGMENTED GENERATION
Vocabulário
[en] LLM LARGE LANGUAGE MODEL
Vocabulário
[en] TEXT TO SQL
Resumo
[pt] No campo em rápida evolução do Processamento de Linguagem Natural (NLP), a tarefa de traduzir consultas em linguagem natural para consultas SQL (Text-to-SQL) tem ganhado atenção significativa devido ao seu potencial para simplificar interações com bancos de dados para usuários não técnicos. Este projeto final, intitulado Text-to-SQL em Conjuntos de Dados do Mundo Real,explora métodos inovadores para melhorar a precisão e a eficiência dos sistemas Text-to-SQL, focando especificamente em bancos de dados do mundo real com esquemas complexos. O projeto utiliza a técnica de Geração Aumentada por Recuperação (RAG) para melhorar a precisão do Text-to-SQL, integrando fontes de dados externas e estratégias de ajuste fino. Uma combinação de geração de conjuntos
de dados sintéticos e estratégias de prompts é empregada para aprimorar o desempenho do modelo. O conjunto de dados Mondial, conhecido por sua complexidade e riqueza em dados geográficos, serve como referência para avaliar as técnicas propostas.
O objetivo do estudo é desenvolver uma estrutura robusta de Textto-SQL capaz de lidar com consultas diversas e complexas, tornando as interações com bancos de dados mais intuitivas e acessíveis. As metodologias, experimentos e descobertas documentadas neste relatório contribuem com insights valiosos para a pesquisa contínua em NLP e sistemas de gerenciamento de bancos de dados.
Resumo
[en] In the rapidly evolving field of Natural Language Processing (NLP), the task of translating natural language queries into SQL queries (Text-to-SQL) has garnered significant attention due to its potential to simplify database interactions for non technical users. This final project, titled Text-to-SQL on Real World Datasets, explores innovative methods to enhance the accuracy and efficiency of Text-to-SQL systems, specifically focusing on real-world databases with complex schemas. The project leverages the Retrieval-Augmented Generation (RAG) technique to improve Text-to-SQL accuracy by integrating external data sources and fine-tuning strategies. A combination of synthetic dataset generation and prompt strategies is employed to enhance the model s performance. The Mondial dataset, known for its complexity and richness in geographic data, serves as the benchmark for evaluating the proposed techniques. The study aims to develop a robust Text-to-SQL framework capable of handling diverse and complex queries, thereby making database interactions more intuitive and accessible. The methodologies, experiments, and findings documented in this report contribute valuable insights to ongoing research in NLP and database management systems
Orientador(es)
MARCO ANTONIO CASANOVA
Catalogação
2025-04-28
Tipo
[pt] TEXTO
Formato
application/pdf
Idioma(s)
INGLÊS
Referência [pt]
https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=70127@1
Referência [en]
https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=70127@2
Referência DOI
https://doi.org/10.17771/PUCRio.acad.70127
Arquivos do conteúdo
NA ÍNTEGRA PDF