jueves, 5 de julio de 2012

Big data y el ecosistema Hadoop

Es cierto, vivimos en la era de la información! En los últimos años el crecimiento de los datos que genera la información ocurre de una manera exponencial y no muestra signos de desaceleración. Las estadísticas confirman  que los datos de cada año que pasa son mayores a los datos del año que lo antecede, es por esto que la conocida  ley de Moore la cual es aplicada a los procesadores también se esté aplicando a a los datos, y es por esto que   la industria de la computación a decidido llamarlo BIG DATA.

Cabe resaltar que  el BIG DATA  se conforma  principalmente por datos en formas no estructurada y en algunos casos en diferentes formatos, como ejemplo tenemos a los  sitios Webs y sus logs, las redes sociales, los correos electrónicos, el audio  y el video. Pero surge una pregunta, ¿si ya tengo los datos como puedo procesarlos de manera eficiente para poder obtener conocimientos? Esto es la parte primordial del BIG DATA, y es en la solución de esta pregunta  donde  uno de los pioneros en este campo, Google, buscando resolver el manejo de grandes cantidades de datos, diseñó un modelo  de programación conocido como Map-Reduce y un  sistema de archivos distribuido, que inspiraron el nacimiento del  proyecto de código abierto Hadoop de la fundación apache.

Apache Hadoop, en su esencia, consiste en dos proyectos, Hadoop MapReduce y el Sistema de archivos distribuido Hadoop Distributed File System (HDFS). Donde Hadoop MapReduce es un modelo de programación  y plataforma de software para escribir aplicaciones que procesan   grandes cantidades de datos de forma paralela  y que se distribuye  en grandes grupos de nodos de “computadores”. HDFS es el sistema de almacenamiento primario usado por las aplicaciones de Hadoop. HDFS crea varias réplicas de los bloques de datos y los distribuye en los nodos(Computadores) de cálculo a través de un grupo, esto con le fin de permitir cálculos fiables y  muy rápidos.

Otros proyectos claves  que forma el ecosistema de  Hadoop Apache son  Chukwa, Hive, HBase, Mahout, Sqoop y ZooKeeper, los cuales son proyectos que se encarga del acceso a datos , los algoritmos para obtención de conocimiento, y el importe de información.

Continuará………

Otros Posts:

Por José A Cuartas M con No comentarios

0 comentarios:

Publicar un comentario

  • Popular
  • Categorias
  • Archivo