Identificación y análisis de patrones que permitan generar propuestas en el procesamiento de grandes volúmenes de datos de E/S en un sistema de almacenamiento paralelo

Palabras clave

Cuello de botella
Sistema E/S
HPC

Resumen

Año tras año, la implementación de sistemas HPC incrementa a pasos agigantados (Ferreira, Riesen, Bridges, Arnold, & Brightwell, 2014) y son utilizados en la construcción de Data Centers, instituciones científicas, e incluso, para propósito general.


Las organizaciones que sostienen estos sistemas HPC normalmente recurren al uso de sockets para controlar el flujo de los datos que deben tratar (Ferreira, Riesen, Bridges, Arnold, & Brightwell, 2014). Sin embargo, el uso de esta tecnología presenta un gran reto: evitar que los sistemas de lectura/escritura se vean superados por la cantidad de datos que deben pasar a través de ellos, ya que una vez aglomerados, estos datos sin tratar pueden traducirse en retrasos para los distintos procedimientos que las organizaciones necesiten hacer. Es decir, las organizaciones deben evitar los cuellos de botella.


Entre las estrategias para superar este problema está el diseño e implementación de sistemas de archivos en busca de organizar los datos que deban ser accedidos y modificados de forma paralela por cada uno de los sockets donde se están ejecutando distintas tareas.


Existe una relación directa entre la cantidad de sockets y la complejidad de la operación (Yonggang, Jing, & Renato, 2015). Esto es: el aumento del número de servidores (núcleos de procesamiento) que finalmente influirá en el desempeño del sistema. Sin embargo, otros tipos de cuellos de botella pueden presentarse en la red, causados, entre otros, por el alto tráfico de datos que excede la capacidad del ancho de banda (Bhimj, Bard, Romanu, & Paul, 2016).

Finalmente, en los procesos, cuyo número de instrucciones de lectura/escritura pueden suponer un retraso para otros procesos que deben realizarse (Isaila, Garcia Blas, Carretero, Latham, & Ross, 2011). Para hacer frente a las demoras en el acceso y modificación de los datos, se desarrollan herramientas para monitorizar el comportamiento de los sistemas de lectura/escritura en busca de estrategias y soluciones para minimizar el impacto de estos retardos.

Referencias

Bhimj, W., Bard, D., Romanu, M., & Paul, D. (2016). Accelerating Science with the NERSC Burst Buffer.

Chen, C., Chen, Y., Feng, K., Yin, Y., Eslami, H., Thakur, R., . . . Sun, X.-H. (2014). Decoupled I/O for Data-Intensive High Performance Computing. IEEE, 9.

Chen, Y., Lu, Y., Thakur, R., Amritkar, P., & Zhuang, Y. (2014). Performance model-directed data sieving for high-performance I/Oving. Springer Science+Business Media New York, 25.

Choi, J. &. (2018). Spatio-Temporal Analysis of HPC I/O and Connection Data. IEEE 38th International Conference on Distributed Computing Systems, 4.

Cortés Quiroga, A. F., & Rojas Cordero, A. (2018). Evaluación de la eficiencia de los sistemas de E/S dentro. Institución Universitaria Politécnico Grancolobiano,, 1-22.

Diamond, J. B.-D. (2011). Evaluation and optimization of multicore performance bottlenecks in supercomputing applications. IEEE, 12.

Ferreira, K. B., Riesen, R., Bridges, P., Arnold, D., & Brightwell, R. (2014). Accelerating incremental checkpointing for extreme-scale computing. ELSEVIER, 12.

Frasca, M., Prabhakar, R., Raghavan, P., & Kandemir, M. (2011). Virtual I/O Caching: Dynamic Storage Cache Management. IEEE Conferences, 1-11.

Gao, W., Chen, M., & Nanya, T. (2005). A Faster Checkpointing and Recovery Algorithm with a Hierarchical Storage Approach. IEEE Conferences, 5.

Guangming, L., Rongdong, H., & Jingfei, J. (2010). An Efficient Coding Scheme for Tolerating Double Disk Failures. IEEE International Conference on High Performance Computing and Communications, 6.

Haixiang, S., Rajesh Vellore, A., Chuan Heng, F., & Kyawt Kyawt, K. (2012). Optimal disk: storage allocation for multi-tier. Nanyang Technological University,, 7.

Isaila, F., Garcia Blas, J., Carretero, J., Latham, R., & Ross, R. (2011). Design and Evaluation of Multiple-Level Data Staging for Blue Gene Systems. IEEE, 14.

James, Y. H. (2013). Campus HPC Network Design and Monitoring. IEEE 10th International Conference on High Performance Computing and Communications , 8.

Kaiser, J. M. (2013). MCD: Overcoming the Data Download Bottleneck in Data Centers. IEEE Eighth International Conference on Networking, Architecture and Storage, 10.

Kim, S. J. (2014). IOPro: a parallel I/O profiling and visualization framework for high-performance storage systems. Springer Science+Business Media New York, 31.

Klein, H., & Keller, J. (2009). Optimizing a Highly Fault Tolerant Software RAID for Many Core Systems. IEEE Conferences, 74-79.

Kyu Park, Y., Jin, S., Hyun Cho, S., & Seok Lee, J. (1997). Optimizing the Number of Processing Nodes and I/O Nodes in a Shared Disk Parallel Database System: SPAX. IEEE, 667-671.

Laurenzano, M. A.-C. (2016). Characterization and bottleneck analysis of a 64-bit ARMv8 platform. IEEE International Symposium on Performance Analysis of Systems , 10.

Logan, J. &. (2011). Interval Based I/O: A New Approach to Providing High Performance Parallel I/O. International Conference on Parallel Processing Workshops, 8.

Lu, Y. C. (2014). Collective input/output under memory constraints. The International Journal of High Performance Computing Applications, 29.

Nijim, M., Manzanares, A., & Qin, X. (2008). An Adaptive Energy-Conserving Strategy for Parallel Disk Systems. IEEE/ACM International Symposium on Distributed Simulation and Real-Time Applications, (pág. 8).

Pan, T. (11 de 06 de 2018). Data in science technologies (DST). Obtenido de https://datainscience.com/to-burst-or-not-to-burst_that-is-the-question/

Rojas, C. A. (29 de 03 de 2019). COMPUTACION DE ALTAS PRESTACIONES, FUNDAMENTOS DE CLUSTERES LOCALES. Bogota, Cundinamarca, Colombia.

Ruan, X., & Chen, H. (2017). Improving Shuffle 1/0 Performance for Big Data Processing using Hybrid Storage. 2017 International Conference on Computing, Networking and Communications (ICNC): Social Computing and Semantic Data Mining, 5.

Shi, W., Lv, G., Sun, Z., & Gong, Z. (2015). DEFIO: A Software Defined Storage Network Architecture in HPC Environments. IEEE 17th International Conference on High Performance Computing and Communications (HPCC), 4.

SKA. (2019). SQUARE KILOMETRE ARRAY. Obtenido de https://www.skatelescope.org/software-and-computing/

Wei-Tee, L., & Chih-Ping, C. (2014). Determining the appropriate number of nodes for fast mining of frequent patterns in distributed computing environments. Taylor & Francis, 15.

Xie, B. C. (2012 ). Characterizing output bottlenecks in a supercomputer. International Conference for High Performance Computing, Networking, Storage and Analysis., 11.

Yonggang, L., Jing, Q., & Renato, F. (2015). The dispatch time aligning I/O scheduling for parallel file systems. Springer Science+Business Media New York, 15.

Yu-Liang, S., & Lu, X. (2008). An Efficient Disk I/O Characteristics Collection Method Based on Virtual Machine Technology. The 10th IEEE International Conference on High Performance Computing and Communications, 7.

Zhu, Y. C. (2018). Entropy-Aware I/O Pipelining for Large-Scale Deep Learning on HPC Systems. IEEE International Symposium on the Modeling, Analysis, and Simulation of Computer and Telecommunication Systems, 12.

Zong, Z., Briggs, M., O'Connor, N., & Qin, X. (2007). An Energy-Efficient Framework for Large-Scale. IEEE, 7.