Random Forest + Raking: Cómo Estimar Datos Faltantes Respetando Totales Conocidos
25 de febrero de 2026 · 12 min de lectura
Chile · Data Science · Datos Abiertos · Econometría · IPF · Machine Learning · Random Forest · Statistical Modeling · data engineering · rstats
¿Cómo lidiar con los datos censurados por confidencialidad en las estadísticas públicas? El SII de Chile utiliza asteriscos para proteger la privacidad en comunas con pocas empresas, rompiendo la coherencia jerárquica de los datos. En este post, exploramos cómo el proyecto manageDW resuelve este problema combinando la potencia predictiva de Random Forest con el rigor matemático del Iterative Proportional Fitting (IPF). Descubre cómo este algoritmo de 80 años de historia permite imputar valores faltantes asegurando que las sumas de las comunas coincidan exactamente con los totales provinciales y regionales.