Matching semántico: conectando mercados con Sentence-BERT

25 de febrero de 2026 · 2 min de lectura

Data Integration · Econometría · Economía aplicada · NLP · PostgreSQL · Python · Semantic match · TVECM · cosine similarity · embeddings · price transmission · record linkage · reproducibilidad · rstats · sentence transformers

Un problema aparentemente trivial —emparejar el mismo producto entre precios mayoristas y minoristas de ODEPA— se convierte en un desafío real de integración de datos cuando no existen identificadores comunes y la nomenclatura difiere en granularidad, envases y variantes regionales. Este post muestra cómo un enfoque híbrido que combina normalización textual, embeddings semánticos multilingües y validación humana permitió aumentar en 55 % las series utilizables para estimar transmisión de precios, manteniendo una arquitectura R-Python desacoplada y reproducible.

← Volver al blog