Big data y el ecosistema HadoopDatos intensosDatos Intensos

Es cierto, vivimos en la era de la información! En los últimos años el crecimiento de los datos que genera la información ocurre de una manera exponencial y no muestra signos de desaceleración. Las estadísticas confirman que los datos de cada año que pasa son mayores a los datos del año que lo antecede, es por esto que la conocida ley de Moore la cual es aplicada a los procesadores también se esté aplicando a a los datos, y es por esto que la industria de la computación a decidido llamarlo BIG DATA.

Cabe resaltar que el BIG DATA se conforma principalmente por datos en formas no estructurada y en algunos casos en diferentes formatos, como ejemplo tenemos a los sitios Webs y sus logs, las redes sociales, los correos electrónicos, el audio y el video. Pero surge una pregunta, ¿si ya tengo los datos como puedo procesarlos de manera eficiente para poder obtener conocimientos? Esto es la parte primordial del BIG DATA, y es en la solución de esta pregunta donde uno de los pioneros en este campo, Google, buscando resolver el manejo de grandes cantidades de datos, diseñó un modelo de programación conocido como Map-Reduce y un sistema de archivos distribuido, que inspiraron el nacimiento del proyecto de código abierto Hadoop de la fundación apache.

Apache Hadoop, en su esencia, consiste en dos proyectos, Hadoop MapReduce y el Sistema de archivos distribuido Hadoop Distributed File System (HDFS). Donde Hadoop MapReduce es un modelo de programación y plataforma de software para escribir aplicaciones que procesan grandes cantidades de datos de forma paralela y que se distribuye en grandes grupos de nodos de “computadores”. HDFS es el sistema de almacenamiento primario usado por las aplicaciones de Hadoop. HDFS crea varias réplicas de los bloques de datos y los distribuye en los nodos(Computadores) de cálculo a través de un grupo, esto con le fin de permitir cálculos fiables y muy rápidos.

Otros proyectos claves que forma el ecosistema de Hadoop Apache son Chukwa, Hive, HBase, Mahout, Sqoop y ZooKeeper, los cuales son proyectos que se encarga del acceso a datos , los algoritmos para obtención de conocimiento, y el importe de información.

Continuará………

Otros Posts:

Por José A Cuartas M con No comentarios

Datos Intensos

jueves, 5 de julio de 2012

Big data y el ecosistema Hadoop

0 comentarios:

Publicar un comentario

Blog Archive