sábado, 21 de julio de 2012

Hadoop y la filosofía en un sistema distribuido


Si!!, Hadoop es una solución para el manejo intenso de datos, si!!, es un ecosistema para sistemas  distribuido que es capaz de procesar enormes cantidades de datos, si!! es una herramienta  utilizada en Big Data para la gestión de información, pero como funciona este tipo de sistema distribuido que aplica el paradigma de MapReduce?

Hadoop es una solución para el procesamiento intensivo de enormes cantidades de datos,  su enfoque es guarda una vez y leer múltiples veces, es por esto que su filosofía  es mover el código o las funciones  a donde están ubicados  los datos dentro del cluster, con el fin de que el código  o la función MapReduce se ejecute en cada una de las máquinas donde reside  los datos.

Debido a lo anterior  los clientes solo envían los programas MapReduce para ser ejecutado en las máquinas del cluster, ya que los programas MapReduce por ser un código pequeño (en promedio son de kilobytes) y de una magnitud menor que los datos, son más fáciles de transferir entre las máquinas. Caso contrario al de los datos, los cuales están en archivos muy grandes que son divididos y distribuidos en todo el clúster, por consiguiente se hace muy pesado la transferencia y agrupación de datos para transferirse entre nodos o máquinas.

Pero eso si, todo esto  debe aplicar la tolerancia a fallos y la alta disponibilidad.

Otros Posts:






Por José A Cuartas M con No comentarios

viernes, 13 de julio de 2012

SQL de manera efectiva, los antipatrones en diseño de bases de datos relacionales

Es común encontrar en el diseño de una solución de bases de datos, técnicas que pretende  resolver un problema, pero a menudo genera otros inconvenientes, identificar estas malas técnicas empleadas en los diseños  que utilizan sistemas como las bases de datos es lo que conocemos como antipatrones en SQL.

Los anti-patrones son frecuente, y los hay de diferentes clases en muchas áreas del conocimiento , en wikipedia se nombran varios de los anti-patrones. En este caso en particular he realizado una presentación con  varios anti-patrones aplicados en el modelo conceptual de las bases de datos  y  sus posibles  soluciones.

Se debe resaltar que los antipatrones mencianados en la presentación son aplicados en sistemas  de bases de datos relacional, y que la utilización de estos antipatrones no permiten generar una buena planificación para el posterior almacenamiento y consulta de información.

Por José A Cuartas M con No comentarios

lunes, 9 de julio de 2012

En donde encaja el Big data en el posible descubrimiento del bosón de Higgs

Probablemente saber sobre el bosón de Higgs no defina como comemos, ni como trabajamos, aunque todo en la vida material tenga que ver con esta partícula, conocida como  “la partícula de Dios”, pero con su posible descubrimiento se confirma el modelo estándar de física de partículas, el cual hasta el momento, es la mejor explicación que los científicos han encontrado sobre cómo se componen las piezas que forman el universo, y de una u otra manera nos ayude a resolver un poco mas preguntas como, “¿de dónde venimos?” y “¿para dónde vamos?”. 

Sin embargo detrás de este descubrimiento la Organización Europea para la Investigación Nuclear - conocido por sus siglas CERN realizó  y realiza experimentos que generan datos 40 millones de veces por segundo todos los días. En términos de Big Data  se generan más de 40 terabytes de datos nuevos  cada día, y esto es solo con el fin de tener  más pruebas para el modelo de Higgs, y al parece ahora han acumulado las suficientes pruebas para tener confianza de que el bosón de Higgs existe realmente.

Pero como analizan esta enorme cantidad de información, para esto los investigadores  hace uso del software ROOT para realizar el análisis estadístico sobre esta gran cantidad de datos, este software  es open source y esta diseñado para computación de alto rendimiento y ha sido usado para el análisis y adquision de datos en experimentos de física de alta energía, ademas este software es requerido para procesar los datos de los experimentos realizado en el Gran Colisionador de Hadrones que es el acelerador de partículas donde se examina la validez y los límites del Modelo Estándar .

Si el Big DATA no hace parte del cuarto paradigma de la ciencia, la "eScience", entonces no se donde encaja.


Se me olvidaba la plataforma de software es Linux por naturaleza.

Enlaces de interés:
Software ROOT
Libro dedicado a la memoria de Jim Gray, The Fourth Paradigm: Data-Intensive Scientific Discovery

Otros Posts:





Por José A Cuartas M con No comentarios

jueves, 5 de julio de 2012

Big data y el ecosistema Hadoop

Es cierto, vivimos en la era de la información! En los últimos años el crecimiento de los datos que genera la información ocurre de una manera exponencial y no muestra signos de desaceleración. Las estadísticas confirman  que los datos de cada año que pasa son mayores a los datos del año que lo antecede, es por esto que la conocida  ley de Moore la cual es aplicada a los procesadores también se esté aplicando a a los datos, y es por esto que   la industria de la computación a decidido llamarlo BIG DATA.

Cabe resaltar que  el BIG DATA  se conforma  principalmente por datos en formas no estructurada y en algunos casos en diferentes formatos, como ejemplo tenemos a los  sitios Webs y sus logs, las redes sociales, los correos electrónicos, el audio  y el video. Pero surge una pregunta, ¿si ya tengo los datos como puedo procesarlos de manera eficiente para poder obtener conocimientos? Esto es la parte primordial del BIG DATA, y es en la solución de esta pregunta  donde  uno de los pioneros en este campo, Google, buscando resolver el manejo de grandes cantidades de datos, diseñó un modelo  de programación conocido como Map-Reduce y un  sistema de archivos distribuido, que inspiraron el nacimiento del  proyecto de código abierto Hadoop de la fundación apache.

Apache Hadoop, en su esencia, consiste en dos proyectos, Hadoop MapReduce y el Sistema de archivos distribuido Hadoop Distributed File System (HDFS). Donde Hadoop MapReduce es un modelo de programación  y plataforma de software para escribir aplicaciones que procesan   grandes cantidades de datos de forma paralela  y que se distribuye  en grandes grupos de nodos de “computadores”. HDFS es el sistema de almacenamiento primario usado por las aplicaciones de Hadoop. HDFS crea varias réplicas de los bloques de datos y los distribuye en los nodos(Computadores) de cálculo a través de un grupo, esto con le fin de permitir cálculos fiables y  muy rápidos.

Otros proyectos claves  que forma el ecosistema de  Hadoop Apache son  Chukwa, Hive, HBase, Mahout, Sqoop y ZooKeeper, los cuales son proyectos que se encarga del acceso a datos , los algoritmos para obtención de conocimiento, y el importe de información.

Continuará………

Otros Posts:

Por José A Cuartas M con No comentarios
  • Popular
  • Categorias
  • Archivo