sábado, 21 de julio de 2012

Hadoop y la filosofía en un sistema distribuido


Si!!, Hadoop es una solución para el manejo intenso de datos, si!!, es un ecosistema para sistemas  distribuido que es capaz de procesar enormes cantidades de datos, si!! es una herramienta  utilizada en Big Data para la gestión de información, pero como funciona este tipo de sistema distribuido que aplica el paradigma de MapReduce?

Hadoop es una solución para el procesamiento intensivo de enormes cantidades de datos,  su enfoque es guarda una vez y leer múltiples veces, es por esto que su filosofía  es mover el código o las funciones  a donde están ubicados  los datos dentro del cluster, con el fin de que el código  o la función MapReduce se ejecute en cada una de las máquinas donde reside  los datos.

Debido a lo anterior  los clientes solo envían los programas MapReduce para ser ejecutado en las máquinas del cluster, ya que los programas MapReduce por ser un código pequeño (en promedio son de kilobytes) y de una magnitud menor que los datos, son más fáciles de transferir entre las máquinas. Caso contrario al de los datos, los cuales están en archivos muy grandes que son divididos y distribuidos en todo el clúster, por consiguiente se hace muy pesado la transferencia y agrupación de datos para transferirse entre nodos o máquinas.

Pero eso si, todo esto  debe aplicar la tolerancia a fallos y la alta disponibilidad.

Otros Posts:







Por José A Cuartas M con No comentarios

0 comentarios:

Publicar un comentario

  • Popular
  • Categorias
  • Archivo