Bancos Vetoriais e Modelos de Embedding: Avaliação comparativa de desempenho na recuperação semântica em Língua Portuguesa

Autores

DOI:

https://doi.org/10.33448/rsd-v14i10.49768

Palavras-chave:

Modelos de Embedding, Recuperação Semântica, Avaliação de Desempenho, Bancos de Dados Vetoriais, Língua Portuguesa.

Resumo

O crescimento do uso de modelos de linguagem de grande escala intensificou a demanda por bancos de dados vetoriais capazes de lidar com representações semânticas de alta dimensionalidade. Este estudo teve como objetivo avaliar comparativamente diferentes combinações entre bancos de dados vetoriais e modelos de embedding multilíngues, considerando sua aplicabilidade à recuperação semântica em língua portuguesa. A pesquisa caracteriza-se como experimental e aplicada, conduzida em ambiente local, estruturada em quatro etapas: construção da base de dados, definição de critérios de seleção, implementação de um pipeline de experimentação e realização de avaliações de relevância, diversidade e eficiência. Foram analisadas métricas clássicas de recuperação de informação (Recall@k e nDCG), além de métricas de diversidade e equilíbrio (α-nDCG e ILD) e indicadores de eficiência computacional (latência média, latência p95, uso médio de CPU, uso de RAM e Queries per Second - QPS). Os resultados mostraram que soluções como Milvus e Weaviate se destacam em cenários de maior demanda computacional, enquanto pgvector se mostrou mais eficiente em termos de memória. Alternativas como Chroma e pgvector, demonstraram viabilidade em contextos de menor escala. Entre os modelos de embedding, observou-se desempenho consistente dos modelos multilíngues disponíveis no Hugging Face para tarefas em português. Como contribuição, este trabalho apresenta uma análise empírica sistemática que evidencia as potencialidades e limitações de combinações banco vetorial/embedding, oferecendo subsídios para decisões práticas em projetos de curadoria digital, observatórios de dados e sistemas de recomendação em língua portuguesa.

Referências

Carbonell, J., & Goldstein, J. (1998). The use of MMR, diversity-based reranking for reordering documents and producing summaries. In Proceedings of the 21st Annual International ACM SIGIR Conference on Research and Development in Information Retrieval (pp. 335–336). New York, NY: ACM. https://dl.acm.org/doi/10.1145/290941.291025

Carpineto, C., & Romano, G. (2012). A survey of diversity methods in information retrieval. ACM Computing Surveys (CSUR), 44(1), 1–50. https://doi.org/10.1145/2071389.2071390

Carvalho, P., Oliveira, R., Silva, M., & Pereira, T. (2025). Evaluating text representations for unsupervised legal semantic textual similarity in Brazilian Portuguese. Information and Data Technologies. Cham: Springer. https://doi.org/10.1007/s44248-025-00052-4

Clarke, C. L. A., Kolla, M., Cormack, G. V., Vechtomova, O., Ashkan, A., Büttcher, S., & MacKinnon, I. (2008). Novelty and diversity in information retrieval evaluation. In Proceedings of the 31st Annual International ACM SIGIR Conference on Research and Development in Information Retrieval (pp. 659–666). New York, NY: ACM. https://citeseerx.ist.psu.edu/document?repid=rep1&type=pdf&doi=15004aadabd967ac722a28a9c3bb39cf5bc32605

Fernandes, L. C., Ribeiro, L. S., Castro, M. V. B., Pacheco, L. A. S., & Sandes, E. F. O. (2025). JurisTCU: A Brazilian Portuguese information retrieval dataset with query relevance judgments. arXiv preprint. https://arxiv.org/abs/2503.08379

Hartmann, N. S., Fonseca, E. R., Shulby, C., Silva, J., & Aluísio, S. M. (2017). Portuguese word embeddings: Evaluating on word analogies and natural language tasks. arXiv preprint. https://arxiv.org/abs/1708.06025

Järvelin, K., & Kekäläinen, J. (2002). Cumulated gain-based evaluation of IR techniques. ACM Transactions on Information Systems, 20(4), 422–446. https://faculty.cc.gatech.edu/~zha/CS8803WST/dcg.pdf

Joshi, S. (2025). Introduction to vector databases for generative AI: Applications, performance, future projections, and cost considerations. International Advanced Research Journal in Science, Engineering and Technology, 12(2), 79–91. https://doi.org/10.17148/IARJSET.2025.12210

Kerlinger, F. N. (1980). Metodologia da pesquisa em ciências sociais: Um tratamento conceitual (H. M. Rotundo, Trad.). São Paulo: EPU.

Latimer, C. (2024). The ultimate guide to vector database success in AI. Vectorize. https://vectorize.io/what-is-a-vector-database/

Lewis, P., Perez, E., Pothast, M., Kuznetsov, I., Levy, O., et al. (2020). Retrieval-augmented generation for knowledge-intensive NLP tasks. In Advances in Neural Information Processing Systems, 33, 9459–9474. Vancouver: Curran Associates. https://dl.acm.org/doi/abs/10.5555/3495724.3496517

Ma, L., Zhang, Z., Wang, X., Li, J., & Li, G. (2023). A comprehensive survey on vector database: Storage and retrieval techniques, challenges. arXiv preprint. https://arxiv.org/pdf/2310.11703

Malkov, Y. A., & Yashunin, D. A. (2018). Efficient and robust approximate nearest neighbor search using Hierarchical Navigable Small World graphs. IEEE Transactions on Pattern Analysis and Machine Intelligence, 42(4), 824–836. https://doi.org/10.1109/TPAMI.2018.2889473

Manning, C. D., Raghavan, P., & Schütze, H. (2008). Introduction to information retrieval. Cambridge: Cambridge University Press. https://nlp.stanford.edu/IR-book/pdf/irbookonlinereading.pdf

Oliveira, L. L., Romeu, R. K., & Moreira, V. P. (2021). REGIS: A test collection for geoscientific documents in Portuguese. In Proceedings of the 44th International ACM SIGIR Conference on Research and Development in Information Retrieval (pp. 2363–2368). New York, NY: ACM. https://doi.org/10.1145/3404835.3463256

Pan, J. J., Wang, J., & Li, G. (2024). Survey of vector database management systems. The VLDB Journal. Berlin: Springer. https://doi.org/10.1007/s00778-024-00752-9

Radlinski, F., & Craswell, N. (2017). A theoretical framework for conversational search. In Proceedings of the 2017 Conference on Human Information Interaction and Retrieval (CHIIR’17) (pp. 117–126). New York, NY: ACM. https://doi.org/10.1145/3020165.3020183

Silva, J. R., & Caseli, H. M. (2021). Sense representations for Portuguese: Experiments with sense embeddings and deep neural language models. arXiv preprint. https://arxiv.org/abs/2109.00025

Souza, F. D., & Santos Filho, J. B. O. (2022). Embedding generation for text classification of Brazilian Portuguese user reviews: From bag-of-words to transformers. arXiv preprint. https://arxiv.org/abs/2212.00587

Srivastava, A. (2023). Choosing a vector database for your Gen AI stack. SingleStoreDB Blog. https://www.singlestore.com/blog/choosing-a-vector-database-for-your-gen-ai-stack/

Zhang, Y., Liu, S., & Wang, J. (2024). Are there fundamental limitations in supporting vector data management in relational databases? A case study of PostgreSQL. In IEEE 40th International Conference on Data Engineering (ICDE) (pp. 3640–3653). Utrecht: IEEE. https://doi.org/10.1109/ICDE60146

Downloads

Publicado

2025-10-17

Edição

Seção

Ciências Exatas e da Terra

Como Citar

Bancos Vetoriais e Modelos de Embedding: Avaliação comparativa de desempenho na recuperação semântica em Língua Portuguesa. Research, Society and Development, [S. l.], v. 14, n. 10, p. e106141049768, 2025. DOI: 10.33448/rsd-v14i10.49768. Disponível em: https://www.rsdjournal.org/rsd/article/view/49768. Acesso em: 9 dez. 2025.