Data mining to aquifer vulnerability assessment

Journal: Region - Water Conservancy DOI: 10.32629/rwc.v6i1.1203

Rosa María Valcarce Ortega, Oscar  Suárez González, Willy  Rodríguez Miranda, Marina  Vega Carreño 

José Antonio Echeverría, Havana Institute of Technology


The vulnerability map of aquifer pollution is a part of the early warning system to prevent the deterioration of groundwater quality. The weighted index overlay methods are commonly used to map aquifer vulnerability, but they have a series of drawbacks, indicating the need to apply alternative methods that introduce the least number of a priori considerations in the parameters processing and allow a more accurate interpretation of the final results. The purpose of this study is to use data mining techniques for cluster analysis to evaluate the vulnerability of groundwater pollution in the Almondarez Vento Karst Basin in Havana Province, Cuba, and compare the results with those obtained using the RISK method, which is a weighted index overlay method to study karstic aquifers. The variables selected to apply this unsupervised classification technique were: aquifer lithology, topographic slope of the terrain, soil attenuation index to pollutants, fault density per km2 and presence of direct infiltration zones. The cluster analysis achieved greater spatial discrimination and definition of areas with different degrees of vulnerability, demonstrating its high resolution power.


aquifer vulnerability; data mining; K-means; Almendares-Vento basin


[1] Asamblea Nacional del Poder Popular, ANPP. Ley No. 124 DE LAS AGUAS TERRESTRES. [En línea]. Gaceta Oficial No. 51 Extraordinaria. 2017. [Consultado el: 11 de enero de 2018]. p. 985-1047 Disponible en Disponible en
[2] Alfonso, J. R. Estadísticas en las Ciencias Geológicas, Tomo 2. La Habana, ISPJAE, 1989. 308 p.
[3] Bustamam, A.; Tasman, H.; Yuniarti, N.; Mursidah, I. Application of k-means clustering algorithm in grouping the DNA sequences of hepatitis B virus (HBV). [En línea] International Symposium on Current Progress in Mathematics and Sciences 2016. AIP Conference Proceedings 1862, 030134. [Consultado el: 22 de noviembre de 2020]. p. 1-8. Disponible en: Disponible en:
[4] Chávez, D.; Miranda, I.; Varela, M.; Fernández, L. Utilización del análisis de cluster con variables mixtas en la selección de genotipos de maíz (Zea mays). Revista Investigación Operacional, 2010, 30 (3): p. 209-216.
[5] Dörfliger, N.; Jauffret, D.; ET Loubier, S. Cartographie de la vulnerabilité des aquiferes karstiques en Franche-Compté. Francia. [En línea]. BRGM RP-53576-FR, 2004 [Consultado el: 29 de septiembre de 2018]. p. 547-571. Disponible en: Disponible en: 176iprLqAhVHUt8KHUsLBpQQkeECKAB6BAgLECo&biw=1999&bih=979
[6] Hamdam, H., Emad, L. K-means clustering algorithm applications in data mining and pattern recognition. International Journal of Science and Research, 2017, 6(8): p. 1577-1584.
[7] Hernández-Orallo, J.; Ramirez Quintana, M. J.; Ferri Ramírez, C. Introducción a la Minería de datos. Pearson Educación, 2004. 680 p.
[8] Herrera J.; Fonseca, C.; Goicochea, D. Perspectivas del medio ambiente urbano GEO La Habana. La Habana, SI-MAR S.A., 2004. 190 p.
[9] Instituto de Geología Y Paleontología, IGP. Mapa Geológico de la República de Cuba a escala 1:100 000. La Habana: Servicio Geológico de Cuba, 2016.
[10] Instituto de Suelos. Mapa de los suelos de Cuba a escala 1:25 000. La Habana: Ministerio de la Agricultura. 1990.
[11] Javadi, S.; Hashemy, S. M.; Mohammadi, K.; Howard, K. W.; Neshat, A. Classification of aquifer vulnerability using K-means cluster analysis. Journal of Hydrology, 2017, (549): p. 27-37.
[12] Margat, J. Vulnerabilité des nappes d’eau souterraine a la pollution. Francia, BRGM, 1968. 68 p.
[13] Martínez, A. F. Aplicación de técnicas de minería de datos con software Weka. [En línea]. II Semana Doctoral Formación de la Sociedad del Conocimiento, Universidad de Salamanca, 2018. [Consultado el: 29 de septiembre de 2018]. 17 p. Disponible en: Disponible en:
[14] Motevalli, A.; Reza, H.; Hashemi, H.; Gholami, V. Assessing the vulnerability of groundwater to salinization using GIS - based data mining techniques in a coastal aquifer. [En línea]. Spatial Modeling in GIS and R for Earth and Environmental Sciences, 2019. [Consultado el: 11 de enero de 2019] p. 547-571. Disponible en: Disponible en:
[15] Miranda, C.; Mioto, C.; Lastoria, G.; Garcïa, S.; Paranhos, F. Uso de Sistemas de Informação Geográfica (SIG) na modelagem da vulnerabilidade de aquífero livre: comparação entre os métodos GOD e Ekv na bacia do rio Coxim, São Gabriel do Oeste, MS, Brasil. Geociencias, 2015, 34(2): p. 312-322.
[16] Moura, P.; Sabadia, J.A.; Cavalcante, I. Mapeamento de vulnerabilidade dos aquíferos Dunas, Barreiras e Fissural na porção norte do complexo industrial e portuário do Pecém, estado do Ceará. Geociencias, 2016, 35(1): p. 77-89.
[17] Narang, B., Verma, P., Kochar, P. Application based, advantageous K-means Clustering Algorithm in Data Mining - A Review. International Journal of Latest Trends in Engineering and Technology, 2016, 7(2): p. 121-126.
[18] Núñez-Colín, C.; Escobedo-López, D. Uso correcto del análisis clúster en la caracterización de germoplasma vegetal. Agronomía Mesoamericana, 2011, 22(2): p. 415-427.
[19] Olumuyiwa, F.; Osakpolor, O. Groundwater vulnerability mapping and quality assessment around coastal environment of Ilaje Local government area, southwestern Nigeria. International JournalofEarthSciencesKnowledge and Applications, 2020, 2(2): p. 74-91.
[20] Pardo-Iguzquiza, E., Durán, J., Luque-Espinar, J., martos-ROSILLO, S. Análisis del relieve kárstico mediante el modelo digital de elevaciones. Aplicación a la Sierra de las Nieves (Provincia de Málaga). Boletín Geológico y Minero, 2014, 125(3): p. 381-389.
[21] Pascal, CH.; Ozuomba, S.; Kalu, C. Application of K-Means Algorithm for Efficient Customer Segmentation: A Strategy for Targeted Customer Services. International Journal of Advanced Research in Artificial Intelligence, 2015, 4(10): p. 40-44.
[22] Valcarce, R. M.; Vega, M.; Rodríguez, W.; Suárez, O. Vulnerabilidad intrínseca de las aguas subterráneas en la cuenca Almendares-Vento. Ingeniería Hidráulica y Ambiental, 2020, 41(2): p. 33-47.
[23] Vías, J. M.; Perles, M. J.; Andreo, B. Aplicación de un análisis clúster para la evaluación de la vulnerabilidad a la contaminación de los acuíferos. Revista Internacional de Ciencia y Tecnología de la Información Geográfica, 2003, (3): p. 199-215.

Copyright © 2023 Rosa María Valcarce Ortega, Oscar  Suárez González, Willy  Rodríguez Miranda, Marina  Vega Carreño 

Creative Commons License
This work is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License