ClusterPy
El análisis estadístico de datos georreferenciados a menudo requiere la agregación de unidades espaciales básicas (áreas) en unidades de mayor tamaño (regiones) para preservar la confidencialidad, minimizar las diferencias de población entre unidades espaciales, reducir los efectos de valores atípicos o inexactitudes en los datos, evitar una alta variabilidad en los cálculos de tasas, o para facilitar la visualización e interpretación de información en los mapas (Wise et al., 1997, 2001; Duque et al., 2007).
Una agregación de este tipo se puede llevar a cabo de dos maneras diferentes. La primera consiste en utilizar agregaciones oficiales o normativas predefinidas (por ejemplo, comunas, municipios o departamentos). El segundo agrega áreas en regiones analíticas de tal manera que las regiones resultantes están convenientemente relacionadas con la fenómeno analizado. La Oficina de Estadística de las Comunidades Europeas (Eurostat 2006) ofrece una clara diferenciación entre estos dos tipos de regiones:
“Las regiones normativas son la expresión de una voluntad política; sus límites se fijan de acuerdo con las tareas asignadas a las comunidades territoriales, a los tamaños de población necesarios para llevar a cabo estas tareas de manera eficiente y económica, o según factores históricos, culturales y de otro tipo. Considerando que las regiones analíticas (o funcionales) se definen de acuerdo con requisitos analíticos: las regiones funcionales están formadas por zonas agrupadas utilizando criterios geográficos (por ejemplo, altitud o tipo de suelo) y / o utilizando criterios socioeconómicos (por ejemplo, homogeneidad, complementariedad o polaridad) de las economías regionales)”. (párrafos 4-5)
RiSE-group es uno de los líderes mundiales en el desarrollo de modelos para el diseño de regiones analíticas. Algunos de esos modelos están disponibles, de forma gratuita y con código abierto bajo licencia BSD, en la librería de Python ClusterPy. Estudiantes e investigadores alrededor del mundo han encontrado en ClusterPy una herramienta perfecta para realizar investigaciones, teóricas y aplicadas, en una amplia variedad de temas.
Para aquellos no familiarizados con Python, pueden encontrar el algoritmo más utilizado de ClusterPy, el Max-p-regions model (Duque, Anselin y Rey, 2012), como un toolbox de QGIS (https://www.qgis.org).
Referencias:
Duque, J. C., Anselin, L., & Rey, S. J. (2012). The max‐p‐regions problem. Journal of Regional Science, 52(3), 397-419.
Duque, J.C.; Dev, B.; Betancourt, A.; Franco, J.L. (2011). ClusterPy: Librar of spatially constrained clustering algorithms, Version 0.9.9. RiSE-group (Research in Spatial Economics). EAFIT University. https://www.rise-group.org.
Duque, J. C., Ramos, R., and Surinach, J. (2007). Supervised regionalization methods: a survey. International Regional Science Review, 3, 195–220.
Wise, S., R. Haining, and J. Ma. (2001). Providing spatial statistical data analysis functionality for the GIS user: The SAGE project. International Journal of Geographical Information Science 15:239–54.
Wise, S. M., R. P. Haining, and J. Ma. (1997). Regionalisation tools for exploratory spatial analysis of health data. In Recent developments in spatial analysis: Spatial statistics, behavioural modelling, and computational intelligence, edited by Manfred M. Fischer and Arthur Getis, 83–100. New York: Springer.