Bancos Vetoriais e Modelos de Embedding: Avaliação comparativa de desempenho na recuperação semântica em Língua Portuguesa
DOI:
https://doi.org/10.33448/rsd-v14i10.49768Palavras-chave:
Modelos de Embedding, Recuperação Semântica, Avaliação de Desempenho, Bancos de Dados Vetoriais, Língua Portuguesa.Resumo
O crescimento do uso de modelos de linguagem de grande escala intensificou a demanda por bancos de dados vetoriais capazes de lidar com representações semânticas de alta dimensionalidade. Este estudo teve como objetivo avaliar comparativamente diferentes combinações entre bancos de dados vetoriais e modelos de embedding multilíngues, considerando sua aplicabilidade à recuperação semântica em língua portuguesa. A pesquisa caracteriza-se como experimental e aplicada, conduzida em ambiente local, estruturada em quatro etapas: construção da base de dados, definição de critérios de seleção, implementação de um pipeline de experimentação e realização de avaliações de relevância, diversidade e eficiência. Foram analisadas métricas clássicas de recuperação de informação (Recall@k e nDCG), além de métricas de diversidade e equilíbrio (α-nDCG e ILD) e indicadores de eficiência computacional (latência média, latência p95, uso médio de CPU, uso de RAM e Queries per Second - QPS). Os resultados mostraram que soluções como Milvus e Weaviate se destacam em cenários de maior demanda computacional, enquanto pgvector se mostrou mais eficiente em termos de memória. Alternativas como Chroma e pgvector, demonstraram viabilidade em contextos de menor escala. Entre os modelos de embedding, observou-se desempenho consistente dos modelos multilíngues disponíveis no Hugging Face para tarefas em português. Como contribuição, este trabalho apresenta uma análise empírica sistemática que evidencia as potencialidades e limitações de combinações banco vetorial/embedding, oferecendo subsídios para decisões práticas em projetos de curadoria digital, observatórios de dados e sistemas de recomendação em língua portuguesa.
Referências
Carbonell, J., & Goldstein, J. (1998). The use of MMR, diversity-based reranking for reordering documents and producing summaries. In Proceedings of the 21st Annual International ACM SIGIR Conference on Research and Development in Information Retrieval (pp. 335–336). New York, NY: ACM. https://dl.acm.org/doi/10.1145/290941.291025
Carpineto, C., & Romano, G. (2012). A survey of diversity methods in information retrieval. ACM Computing Surveys (CSUR), 44(1), 1–50. https://doi.org/10.1145/2071389.2071390
Carvalho, P., Oliveira, R., Silva, M., & Pereira, T. (2025). Evaluating text representations for unsupervised legal semantic textual similarity in Brazilian Portuguese. Information and Data Technologies. Cham: Springer. https://doi.org/10.1007/s44248-025-00052-4
Clarke, C. L. A., Kolla, M., Cormack, G. V., Vechtomova, O., Ashkan, A., Büttcher, S., & MacKinnon, I. (2008). Novelty and diversity in information retrieval evaluation. In Proceedings of the 31st Annual International ACM SIGIR Conference on Research and Development in Information Retrieval (pp. 659–666). New York, NY: ACM. https://citeseerx.ist.psu.edu/document?repid=rep1&type=pdf&doi=15004aadabd967ac722a28a9c3bb39cf5bc32605
Fernandes, L. C., Ribeiro, L. S., Castro, M. V. B., Pacheco, L. A. S., & Sandes, E. F. O. (2025). JurisTCU: A Brazilian Portuguese information retrieval dataset with query relevance judgments. arXiv preprint. https://arxiv.org/abs/2503.08379
Hartmann, N. S., Fonseca, E. R., Shulby, C., Silva, J., & Aluísio, S. M. (2017). Portuguese word embeddings: Evaluating on word analogies and natural language tasks. arXiv preprint. https://arxiv.org/abs/1708.06025
Järvelin, K., & Kekäläinen, J. (2002). Cumulated gain-based evaluation of IR techniques. ACM Transactions on Information Systems, 20(4), 422–446. https://faculty.cc.gatech.edu/~zha/CS8803WST/dcg.pdf
Joshi, S. (2025). Introduction to vector databases for generative AI: Applications, performance, future projections, and cost considerations. International Advanced Research Journal in Science, Engineering and Technology, 12(2), 79–91. https://doi.org/10.17148/IARJSET.2025.12210
Kerlinger, F. N. (1980). Metodologia da pesquisa em ciências sociais: Um tratamento conceitual (H. M. Rotundo, Trad.). São Paulo: EPU.
Latimer, C. (2024). The ultimate guide to vector database success in AI. Vectorize. https://vectorize.io/what-is-a-vector-database/
Lewis, P., Perez, E., Pothast, M., Kuznetsov, I., Levy, O., et al. (2020). Retrieval-augmented generation for knowledge-intensive NLP tasks. In Advances in Neural Information Processing Systems, 33, 9459–9474. Vancouver: Curran Associates. https://dl.acm.org/doi/abs/10.5555/3495724.3496517
Ma, L., Zhang, Z., Wang, X., Li, J., & Li, G. (2023). A comprehensive survey on vector database: Storage and retrieval techniques, challenges. arXiv preprint. https://arxiv.org/pdf/2310.11703
Malkov, Y. A., & Yashunin, D. A. (2018). Efficient and robust approximate nearest neighbor search using Hierarchical Navigable Small World graphs. IEEE Transactions on Pattern Analysis and Machine Intelligence, 42(4), 824–836. https://doi.org/10.1109/TPAMI.2018.2889473
Manning, C. D., Raghavan, P., & Schütze, H. (2008). Introduction to information retrieval. Cambridge: Cambridge University Press. https://nlp.stanford.edu/IR-book/pdf/irbookonlinereading.pdf
Oliveira, L. L., Romeu, R. K., & Moreira, V. P. (2021). REGIS: A test collection for geoscientific documents in Portuguese. In Proceedings of the 44th International ACM SIGIR Conference on Research and Development in Information Retrieval (pp. 2363–2368). New York, NY: ACM. https://doi.org/10.1145/3404835.3463256
Pan, J. J., Wang, J., & Li, G. (2024). Survey of vector database management systems. The VLDB Journal. Berlin: Springer. https://doi.org/10.1007/s00778-024-00752-9
Radlinski, F., & Craswell, N. (2017). A theoretical framework for conversational search. In Proceedings of the 2017 Conference on Human Information Interaction and Retrieval (CHIIR’17) (pp. 117–126). New York, NY: ACM. https://doi.org/10.1145/3020165.3020183
Silva, J. R., & Caseli, H. M. (2021). Sense representations for Portuguese: Experiments with sense embeddings and deep neural language models. arXiv preprint. https://arxiv.org/abs/2109.00025
Souza, F. D., & Santos Filho, J. B. O. (2022). Embedding generation for text classification of Brazilian Portuguese user reviews: From bag-of-words to transformers. arXiv preprint. https://arxiv.org/abs/2212.00587
Srivastava, A. (2023). Choosing a vector database for your Gen AI stack. SingleStoreDB Blog. https://www.singlestore.com/blog/choosing-a-vector-database-for-your-gen-ai-stack/
Zhang, Y., Liu, S., & Wang, J. (2024). Are there fundamental limitations in supporting vector data management in relational databases? A case study of PostgreSQL. In IEEE 40th International Conference on Data Engineering (ICDE) (pp. 3640–3653). Utrecht: IEEE. https://doi.org/10.1109/ICDE60146
Downloads
Publicado
Edição
Seção
Licença
Copyright (c) 2025 Patrick Fernandes Rezende Ribeiro, Juliane de Lima Pires, Patrick Alves Bastos, Roberto Rigo, Henrique Assumpção dos Reis, Kamilly Voitkiv Hubner, Maria Fernanda Zandoná Casagrande, Bruno de Paula Marafiga, Dante Krol Simba, Denise Fukumi Tsunoda

Este trabalho está licenciado sob uma licença Creative Commons Attribution 4.0 International License.
Autores que publicam nesta revista concordam com os seguintes termos:
1) Autores mantém os direitos autorais e concedem à revista o direito de primeira publicação, com o trabalho simultaneamente licenciado sob a Licença Creative Commons Attribution que permite o compartilhamento do trabalho com reconhecimento da autoria e publicação inicial nesta revista.
2) Autores têm autorização para assumir contratos adicionais separadamente, para distribuição não-exclusiva da versão do trabalho publicada nesta revista (ex.: publicar em repositório institucional ou como capítulo de livro), com reconhecimento de autoria e publicação inicial nesta revista.
3) Autores têm permissão e são estimulados a publicar e distribuir seu trabalho online (ex.: em repositórios institucionais ou na sua página pessoal) a qualquer ponto antes ou durante o processo editorial, já que isso pode gerar alterações produtivas, bem como aumentar o impacto e a citação do trabalho publicado.
