Base de Datos Vectoriales y Modelos de Incrustación: Evaluación comparativa del rendimiento en la recuperación semántica en Portugués

Autores/as

DOI:

https://doi.org/10.33448/rsd-v14i10.49768

Palabras clave:

Bases de Datos Vectoriales, Modelos de Incrustaciones, Recuperación Semántica, Evaluación de Rendimiento, Lengua Portuguesa.

Resumen

El crecimiento en el uso de modelos de lenguaje de gran tamaño ha intensificado la demanda de base de datos vectoriales capaces de manejar representaciones semánticas de alta dimensión. Este estudio tuvo como objetivo fue evaluar comparativamente diferentes combinaciones de base de datos vectoriales y modelos de incrustación multilingües, considerando su aplicabilidad de la recuperación semántica en el idioma portugués. La investigación es experimental y aplicada, realizada en un entorno local y estructurada en cuatro etapas: construcción de la base de datos, definición de los criterios de selección, implementación del experimentación y evaluación de relevancia, diversidad y eficiencia. Se analizaron las métricas clásicas de recuperación de información (Recall@k y nDCG), métricas de diversidad y equilibrio (α-nDCG e ILD) e indicadores de eficiencia computacional (latencia media, latencia p95, uso medio de la CPU, uso de la RAM y consultas por segundo – QPS). Los resultados mostraron que Milvus y Weaviate destacan en escenario con mayor demanda computacional, mientras que pgvector demostró ser más eficiente en términos de memoria. Alternativas como Chroma y pgvector demostraron su viabilidad en contextos a menor escala. Entre los modelos de incrustación, se observó un rendimiento consistente en los modelos multilingües disponibles no Hugging Face para tareas en portugués. Como contribución, este trabajo presenta un análisis empírico sistemático que destaca el potencial y las limitaciones de diferentes combinaciones de bancos de vectores/incrustaciones, ofreciendo apoyo para la toma de decisiones prácticas en proyectos de conservación digital, observatorios de datos y sistemas de recomendación en portugués

Referencias

Carbonell, J., & Goldstein, J. (1998). The use of MMR, diversity-based reranking for reordering documents and producing summaries. In Proceedings of the 21st Annual International ACM SIGIR Conference on Research and Development in Information Retrieval (pp. 335–336). New York, NY: ACM. https://dl.acm.org/doi/10.1145/290941.291025

Carpineto, C., & Romano, G. (2012). A survey of diversity methods in information retrieval. ACM Computing Surveys (CSUR), 44(1), 1–50. https://doi.org/10.1145/2071389.2071390

Carvalho, P., Oliveira, R., Silva, M., & Pereira, T. (2025). Evaluating text representations for unsupervised legal semantic textual similarity in Brazilian Portuguese. Information and Data Technologies. Cham: Springer. https://doi.org/10.1007/s44248-025-00052-4

Clarke, C. L. A., Kolla, M., Cormack, G. V., Vechtomova, O., Ashkan, A., Büttcher, S., & MacKinnon, I. (2008). Novelty and diversity in information retrieval evaluation. In Proceedings of the 31st Annual International ACM SIGIR Conference on Research and Development in Information Retrieval (pp. 659–666). New York, NY: ACM. https://citeseerx.ist.psu.edu/document?repid=rep1&type=pdf&doi=15004aadabd967ac722a28a9c3bb39cf5bc32605

Fernandes, L. C., Ribeiro, L. S., Castro, M. V. B., Pacheco, L. A. S., & Sandes, E. F. O. (2025). JurisTCU: A Brazilian Portuguese information retrieval dataset with query relevance judgments. arXiv preprint. https://arxiv.org/abs/2503.08379

Hartmann, N. S., Fonseca, E. R., Shulby, C., Silva, J., & Aluísio, S. M. (2017). Portuguese word embeddings: Evaluating on word analogies and natural language tasks. arXiv preprint. https://arxiv.org/abs/1708.06025

Järvelin, K., & Kekäläinen, J. (2002). Cumulated gain-based evaluation of IR techniques. ACM Transactions on Information Systems, 20(4), 422–446. https://faculty.cc.gatech.edu/~zha/CS8803WST/dcg.pdf

Joshi, S. (2025). Introduction to vector databases for generative AI: Applications, performance, future projections, and cost considerations. International Advanced Research Journal in Science, Engineering and Technology, 12(2), 79–91. https://doi.org/10.17148/IARJSET.2025.12210

Kerlinger, F. N. (1980). Metodologia da pesquisa em ciências sociais: Um tratamento conceitual (H. M. Rotundo, Trad.). São Paulo: EPU.

Latimer, C. (2024). The ultimate guide to vector database success in AI. Vectorize. https://vectorize.io/what-is-a-vector-database/

Lewis, P., Perez, E., Pothast, M., Kuznetsov, I., Levy, O., et al. (2020). Retrieval-augmented generation for knowledge-intensive NLP tasks. In Advances in Neural Information Processing Systems, 33, 9459–9474. Vancouver: Curran Associates. https://dl.acm.org/doi/abs/10.5555/3495724.3496517

Ma, L., Zhang, Z., Wang, X., Li, J., & Li, G. (2023). A comprehensive survey on vector database: Storage and retrieval techniques, challenges. arXiv preprint. https://arxiv.org/pdf/2310.11703

Malkov, Y. A., & Yashunin, D. A. (2018). Efficient and robust approximate nearest neighbor search using Hierarchical Navigable Small World graphs. IEEE Transactions on Pattern Analysis and Machine Intelligence, 42(4), 824–836. https://doi.org/10.1109/TPAMI.2018.2889473

Manning, C. D., Raghavan, P., & Schütze, H. (2008). Introduction to information retrieval. Cambridge: Cambridge University Press. https://nlp.stanford.edu/IR-book/pdf/irbookonlinereading.pdf

Oliveira, L. L., Romeu, R. K., & Moreira, V. P. (2021). REGIS: A test collection for geoscientific documents in Portuguese. In Proceedings of the 44th International ACM SIGIR Conference on Research and Development in Information Retrieval (pp. 2363–2368). New York, NY: ACM. https://doi.org/10.1145/3404835.3463256

Pan, J. J., Wang, J., & Li, G. (2024). Survey of vector database management systems. The VLDB Journal. Berlin: Springer. https://doi.org/10.1007/s00778-024-00752-9

Radlinski, F., & Craswell, N. (2017). A theoretical framework for conversational search. In Proceedings of the 2017 Conference on Human Information Interaction and Retrieval (CHIIR’17) (pp. 117–126). New York, NY: ACM. https://doi.org/10.1145/3020165.3020183

Silva, J. R., & Caseli, H. M. (2021). Sense representations for Portuguese: Experiments with sense embeddings and deep neural language models. arXiv preprint. https://arxiv.org/abs/2109.00025

Souza, F. D., & Santos Filho, J. B. O. (2022). Embedding generation for text classification of Brazilian Portuguese user reviews: From bag-of-words to transformers. arXiv preprint. https://arxiv.org/abs/2212.00587

Srivastava, A. (2023). Choosing a vector database for your Gen AI stack. SingleStoreDB Blog. https://www.singlestore.com/blog/choosing-a-vector-database-for-your-gen-ai-stack/

Zhang, Y., Liu, S., & Wang, J. (2024). Are there fundamental limitations in supporting vector data management in relational databases? A case study of PostgreSQL. In IEEE 40th International Conference on Data Engineering (ICDE) (pp. 3640–3653). Utrecht: IEEE. https://doi.org/10.1109/ICDE60146

Publicado

2025-10-17

Número

Sección

Ciencias Exactas y de la Tierra

Cómo citar

Base de Datos Vectoriales y Modelos de Incrustación: Evaluación comparativa del rendimiento en la recuperación semántica en Portugués. Research, Society and Development, [S. l.], v. 14, n. 10, p. e106141049768, 2025. DOI: 10.33448/rsd-v14i10.49768. Disponível em: https://www.rsdjournal.org/rsd/article/view/49768. Acesso em: 9 dec. 2025.