martes, 5 de junio de 2012

Herramientas Open Source para BIG DATA

El BIG DATA es una de las grandes tendencias de este año, es de resaltar que los datos son el "oro digital" de la era de la información, pero el termino  Big Data  no se debe a los datos en si, sino al crecimiento exponencial que estos están teniendo, es por esto que  se han desarrollado sistema o herramientas que permitan obtener el mejor conocimiento de esta gran cantidad de información.

Estas son algunas de las herramientas mas utilizadas en el mundo Open Source para el manejo de BIG DATA:

Plataformas y herramientas para el analisis: 

  • MapReduce: Un modelo de programación que hace honor a la frase célebre de Julio César  "divide y vencerás", y que permite utilizar el procesamiento paralelo de datos en computadoras distribuidas.
  • Hadoop: Simplemente no se habla de Big Data sin mencionar a Hadoop.
  • Storm: Conocido como el Hadoop en tiempo real.
Bases de datos y Datawarehouse:
  • HBASE: es el sistema de almacenamiento no relacional para Hadoop.
  • CASSANDRA : Otro sistema de almacenamiento NoSQL desarrollado originalmente por Facebook.
  • MongoDB: Una base de datos documental NoSQL, y tiene más cosas.
  • Neo4j: El sistema líder de bases de datos de grafos.
  • Riak: Declara ser el mejor sistema en producción de bases de datos distribuida Open Source.
  • HyPertable: Otro sistema de almacenamiento NoSQL, será que se deriva del sistema  BigTable de Google Inc.
  • Hive: es el Datawarehouse de Hadoop.
  • Redis: Sistema clave valor  in-memoria patrocinado por VMware.
Business Intelligence:
  • Pentaho: Una de las herramientas mas utilizadas para la comunidad Open Source.
  • Palo BI Suite/Jedox: Una suite completa para la administración de un datawarehouse.
  • Jaspersoft: Es una de las herramientas mas completas que tiene el Open Source, la cual aloja sus proyectos de la comunidad en jasperforge.org
  • Talend: Tiene una suite de herramientas Talend Open Studio for Big Data la cual se integra con el ecosistema Hadoop.
Minería de datos
  • Mahout: Un proyecto de la fundación apache  que hace parte del econistema hadoop y que pretende ser un sistema escalable de maquinas de parendizaje.
  • RapidMiner/RapidAnalytics: Claman de ser los lideres open source en la minería de datas y textos.
Sistemas de archivos:
  • Hadoop Distributed File System: El primer sistema de almacenamiento para Hadoop.
  • Gluster: Un sistema de archivo que permite ir mas allá de las limitaciones del sistema de archivos de hadoop, tiene la capacidad de manejar hasta 72 Brontobytes.
Búsquedas en BIGDATA
  • Lucene: El estándar de facto de las librerías de búsqueda.
  • Solr: Es la plataforma empresarial basada en las herramientas de Lucene.
Leguajes de programación.
  • Pig/Pig Latin: Un proyecto del ecosistema de big data de la fundación apache que utiliza un lenguaje textual el Pig Latin con la plataforma de análisis Pig.
Varios:
















Esta lista cambia con el paso del tiempo, ya que algunos proyectos desaparecerán y otros generan un dinamismo en la comunidad que les dará el reconocimiento merecido.

Si tienes algún proyecto que deba ser mencionado escríbelo.


Otros Posts:




Por José A Cuartas M con No comentarios

0 comentarios:

Publicar un comentario

  • Popular
  • Categorias
  • Archivo