Si!!, Hadoop es una solución para el manejo intenso de datos, si!!, es un ecosistema para sistemas distribuido que es capaz de procesar enormes cantidades de datos, si!! es una herramienta utilizada en Big Data para la gestión de información, pero como funciona este tipo de sistema distribuido que aplica el paradigma de MapReduce?
Hadoop es una solución para el procesamiento intensivo de enormes cantidades de datos, su enfoque es guarda una vez y leer múltiples veces, es por esto que su filosofía es mover el código o las funciones a donde están ubicados los datos dentro del cluster, con el fin de que el código o la función MapReduce se ejecute en cada una de las máquinas donde reside los datos.
Debido a lo anterior los clientes solo envían los programas MapReduce para ser ejecutado en las máquinas del cluster, ya que los programas MapReduce por ser un código pequeño (en promedio son de kilobytes) y de una magnitud menor que los datos, son más fáciles de transferir entre las máquinas. Caso contrario al de los datos, los cuales están en archivos muy grandes que son divididos y distribuidos en todo el clúster, por consiguiente se hace muy pesado la transferencia y agrupación de datos para transferirse entre nodos o máquinas.
Pero eso si, todo esto debe aplicar la tolerancia a fallos y la alta disponibilidad.
Otros Posts: