julio 2012Datos intensosDatos Intensos

sábado, 21 de julio de 2012

Hadoop y la filosofía en un sistema distribuido

Si!!, Hadoop es una solución para el manejo intenso de datos, si!!, es un ecosistema para sistemas distribuido que es capaz de procesar enormes cantidades de datos, si!! es una herramienta utilizada en Big Data para la gestión de información, pero como funciona este tipo de sistema distribuido que aplica el paradigma de MapReduce?

Hadoop es una solución para el procesamiento intensivo de enormes cantidades de datos, su enfoque es guarda una vez y leer múltiples veces, es por esto que su filosofía es mover el código o las funciones a donde están ubicados los datos dentro del cluster, con el fin de que el código o la función MapReduce se ejecute en cada una de las máquinas donde reside los datos.

Debido a lo anterior los clientes solo envían los programas MapReduce para ser ejecutado en las máquinas del cluster, ya que los programas MapReduce por ser un código pequeño (en promedio son de kilobytes) y de una magnitud menor que los datos, son más fáciles de transferir entre las máquinas. Caso contrario al de los datos, los cuales están en archivos muy grandes que son divididos y distribuidos en todo el clúster, por consiguiente se hace muy pesado la transferencia y agrupación de datos para transferirse entre nodos o máquinas.

Pero eso si, todo esto debe aplicar la tolerancia a fallos y la alta disponibilidad.

Otros Posts:

Por José A Cuartas M con No comentarios

viernes, 13 de julio de 2012

SQL de manera efectiva, los antipatrones en diseño de bases de datos relacionales

Etiquetado con: modelo conceptual , SQL , tips

Es común encontrar en el diseño de una solución de bases de datos, técnicas que pretende resolver un problema, pero a menudo genera otros inconvenientes, identificar estas malas técnicas empleadas en los diseños que utilizan sistemas como las bases de datos es lo que conocemos como antipatrones en SQL.

Los anti-patrones son frecuente, y los hay de diferentes clases en muchas áreas del conocimiento , en wikipedia se nombran varios de los anti-patrones. En este caso en particular he realizado una presentación con varios anti-patrones aplicados en el modelo conceptual de las bases de datos y sus posibles soluciones.

Se debe resaltar que los antipatrones mencianados en la presentación son aplicados en sistemas de bases de datos relacional, y que la utilización de estos antipatrones no permiten generar una buena planificación para el posterior almacenamiento y consulta de información.

Anti patrones SQL, Modelo conceptual

Mirar más presentaciones de José Andrés Cuartas M

Otros Posts:

Por José A Cuartas M con No comentarios

lunes, 9 de julio de 2012

En donde encaja el Big data en el posible descubrimiento del bosón de Higgs

Etiquetado con: Big Data , noticias

Probablemente saber sobre el bosón de Higgs no defina como comemos, ni como trabajamos, aunque todo en la vida material tenga que ver con esta partícula, conocida como “la partícula de Dios”, pero con su posible descubrimiento se confirma el modelo estándar de física de partículas, el cual hasta el momento, es la mejor explicación que los científicos han encontrado sobre cómo se componen las piezas que forman el universo, y de una u otra manera nos ayude a resolver un poco mas preguntas como, “¿de dónde venimos?” y “¿para dónde vamos?”.

Sin embargo detrás de este descubrimiento la Organización Europea para la Investigación Nuclear - conocido por sus siglas CERN realizó y realiza experimentos que generan datos 40 millones de veces por segundo todos los días. En términos de Big Data se generan más de 40 terabytes de datos nuevos cada día, y esto es solo con el fin de tener más pruebas para el modelo de Higgs, y al parece ahora han acumulado las suficientes pruebas para tener confianza de que el bosón de Higgs existe realmente.

Pero como analizan esta enorme cantidad de información, para esto los investigadores hace uso del software ROOT para realizar el análisis estadístico sobre esta gran cantidad de datos, este software es open source y esta diseñado para computación de alto rendimiento y ha sido usado para el análisis y adquision de datos en experimentos de física de alta energía, ademas este software es requerido para procesar los datos de los experimentos realizado en el Gran Colisionador de Hadrones que es el acelerador de partículas donde se examina la validez y los límites del Modelo Estándar .

Si el Big DATA no hace parte del cuarto paradigma de la ciencia, la "eScience", entonces no se donde encaja.

Se me olvidaba la plataforma de software es Linux por naturaleza.

Enlaces de interés:
Software ROOT
Libro dedicado a la memoria de Jim Gray, The Fourth Paradigm: Data-Intensive Scientific Discovery

Otros Posts:

Por José A Cuartas M con No comentarios

jueves, 5 de julio de 2012

Big data y el ecosistema Hadoop

Etiquetado con: Big Data , historia , Recursos

Es cierto, vivimos en la era de la información! En los últimos años el crecimiento de los datos que genera la información ocurre de una manera exponencial y no muestra signos de desaceleración. Las estadísticas confirman que los datos de cada año que pasa son mayores a los datos del año que lo antecede, es por esto que la conocida ley de Moore la cual es aplicada a los procesadores también se esté aplicando a a los datos, y es por esto que la industria de la computación a decidido llamarlo BIG DATA.

Cabe resaltar que el BIG DATA se conforma principalmente por datos en formas no estructurada y en algunos casos en diferentes formatos, como ejemplo tenemos a los sitios Webs y sus logs, las redes sociales, los correos electrónicos, el audio y el video. Pero surge una pregunta, ¿si ya tengo los datos como puedo procesarlos de manera eficiente para poder obtener conocimientos? Esto es la parte primordial del BIG DATA, y es en la solución de esta pregunta donde uno de los pioneros en este campo, Google, buscando resolver el manejo de grandes cantidades de datos, diseñó un modelo de programación conocido como Map-Reduce y un sistema de archivos distribuido, que inspiraron el nacimiento del proyecto de código abierto Hadoop de la fundación apache.

Apache Hadoop, en su esencia, consiste en dos proyectos, Hadoop MapReduce y el Sistema de archivos distribuido Hadoop Distributed File System (HDFS). Donde Hadoop MapReduce es un modelo de programación y plataforma de software para escribir aplicaciones que procesan grandes cantidades de datos de forma paralela y que se distribuye en grandes grupos de nodos de “computadores”. HDFS es el sistema de almacenamiento primario usado por las aplicaciones de Hadoop. HDFS crea varias réplicas de los bloques de datos y los distribuye en los nodos(Computadores) de cálculo a través de un grupo, esto con le fin de permitir cálculos fiables y muy rápidos.

Otros proyectos claves que forma el ecosistema de Hadoop Apache son Chukwa, Hive, HBase, Mahout, Sqoop y ZooKeeper, los cuales son proyectos que se encarga del acceso a datos , los algoritmos para obtención de conocimiento, y el importe de información.

Continuará………

Otros Posts:

Por José A Cuartas M con No comentarios

Datos Intensos

sábado, 21 de julio de 2012

Hadoop y la filosofía en un sistema distribuido

viernes, 13 de julio de 2012

SQL de manera efectiva, los antipatrones en diseño de bases de datos relacionales

lunes, 9 de julio de 2012

En donde encaja el Big data en el posible descubrimiento del bosón de Higgs

jueves, 5 de julio de 2012

Big data y el ecosistema Hadoop

Blog Archive