miércoles, 24 de octubre de 2012

El BIGDATA como tecnología disruptiva en una sociedad en transición a una civilización tipo 1

El físico y futurólogo  Michio Kaku  basado en  la escala de Kardashov , ha afirmado que la humanidad esta en un proceso de transición desde una civilización tipo 0 hacia una civilización tipo 1 y que Internet es el germen del sistema de comunicaciones  de una civilización tipo 1,  este tipo de afirmaciones que en algunos casos parece descabellado para muchos, en mí concepto tiene mucho sentido, ya que en los últimos año he  visto como  internet ha permitido  la globalización y la digitalización de la información.
 Este desarrollo que en su comienzo se contemplo como  un simple avance tecnológico en sistemas militares, hoy se ha convertido en una mutación estructural y en todo un fenómeno disruptivo, introduciendo innovadores servicios que han transformado la sociedad en los últimos 20 años, pero a su vez a creado una  gigante cantidad de datos digitales diseminados en la red de redes (internet) , que como sociedad hemos buscando  como explotarlos en beneficio de la humanidad.

En un comienzo para explotar esta información se utilizaron  herramientas tradicionales las cuales no son aptas tanto por el volumen de datos digitales que se generan como por su baja estructura,  es por esto que en los últimos años la comunidad científica  han estado continuamente desarrollando herramientas para el manejo de altos volumes de informacion no estructurada que nos ofrezcan la manera de obtener conocimiento a partir de sistemas predictivos que tomen decisiones por nosotros de forma automática. Es en estas herramientas para el manejo de grandes volúmenes de información que se han desarrollado un conjunto de tecnologías y saberes que conforman  el BigData , que como esencia (BigData)  es una solución de  innovación disruptiva  que pretende  evolucionar el germen de las comunicaciones de una civilización planetaria(internet), ya que nos permitirá  de manera estratégica la predicción a través de la información, siendo la predicción una palabra fascinante que será  un componernte de supervivencia en nuestra sociedad futura.

Espero que el BigData nos permita sacarle el valor a  toda esa gran cantidad de información ubicua, ya que como tecnología es la que promete proporcionar información precisa y objetiva sobre el comportamiento real de las personas y los sistemas. Lo que permitirá  anticipar los  efectos y, consecuentemente influir sobre los mismos.

Confió  que esta tecnología nos permita evolucionar ha una sociedad planetaria y no al exterminio de nosotros mismo.

Estos son algunos de los videos que complementan esta  apreciación:
Micho Kaku y los tipos de civilizaciones.
Conferencia sobre Innovación Disruptiva.

Otros Posts:

Por José A. Cuartas M. con No comentarios

lunes, 8 de octubre de 2012

Una alternativa para respaldar la información, las redes peer to peer

Las soluciones tradicionales de respaldo de información como Direct Attached Storage (DAS), Network Attached Storage (NAS) o  Storage Area Network (SAN) son los principales conceptos de diseño que se utilizan para respaldar la información. Estas soluciones se basan generalmente en servidores robustos y dedicados donde se instalan un software especializado para realizar los respaldos,   generalmente se  complementan con soluciones de cintas magnéticas para “mejorar”  la durabilidad de los datos. Estas soluciones hacen del  respaldo de información un procedimiento muy costoso,  que necesita de un personal especializado para su mantenimiento, es por esto que se han creado nuevas alternativas que utilizan el paradigma P2P y que están inspiradas principalmente por crecimiento en el volumen de almacenamiento y la cantidad de recursos disponibles en equipos de computo personales.

Los sistemas P2P de almacenamiento (P2PSS) han surgido como una solución escalable horizontalmente, auto-reparable y económica, que garantizan la fiabilidad y disponibilidad de los datos, aunque aumenta exponencialmente el tráfico o consumo de ancho de banda, se disminuye en un gran porcentaje los costos primarios en la adquisición de los discos duros, el consumo de energía generados por la  construcción del datacenter, el enfriamiento y funcionamiento de los equipos, más la mano de obra capacitada.

Estos sistemas se basan en la fragmentación de información y el almacenamiento distribuido, es decir los archivos de datos se dividen en bloques de tamaño fijo o fragmentos que se almacena en los diferentes computadores personales de la red peer to peer(P2P) ,  donde el número de nodos o computadores  conectados en cualquier momento es mayor al número de fragmentos asociados con un archivo de datos.

La infraestructura P2PSS  se diseña con el concepto  de que un nodo no es confiable ya que la conectividad  es intermitente  debido a  varios factores como la falla del equipo, la perdida del servicio de conectividad, la denegación de servicios(DoS), cortes de energía,  entre otros, por consiguiente los datos se conciben como nómadas y están separados generalmente de la ubicación física donde se generan, es por esto que estos sistemas tiene la información distribuida en diferentes lugares  y utilizan estrategias como  la redundancia en los fragmentos de datos a través de técnicas como la replicación o los  códigos de correcion de errores (ECC) (erasure codes ) para distribuir los fragmentos redundantes en diferentes nodos de la red, este tipo de tácticas es la que permite mejorar el acceso a los archivos ya que se puede realizar descargas en forma paralela de los fragmentos de datos de un archivo, además de aumentar  la durabilidad, persitencia y disponibilidad  de la información.

Los datos en estas infraestructuras están protegidos mediante técnicas criptográficas en combinación con procedimientos de almacenamiento de cache con una sincronización transparente entre los equipos y la compresión de datos, esto es con el fin de mejorar la seguridad e integridad, el rendimiento y la disponibilidad de la información desde cualquier lugar y a cualquier hora, generando un tipo de computación ubicua para el respaldo de la información.

Estos son algunas de las iniciativas P2P de almacenamiento y respaldo de información:
Otros Posts:


Por José A. Cuartas M. con No comentarios

lunes, 1 de octubre de 2012

Una forma de tolerancia a fallos, como se replica HDFS en Hadoop

En un contexto de alto volumen de procesamiento de datos, el factor limitante es la velocidad que se consume al transferir los  datos entre los nodos(ancho de banda), por consiguiente se hace necesario poder realizar medidas de este consumo en los sistema de almacenamiento distribuido como los sistemas de archivos distribuidos para definir las politicas de replicación.
Una de las formas  mas comunes es medir el ancho de banda  entre dos nodos, como una medida de la distancia para la replicación, la cual es muy difícil de hacer en la práctica, otra manera es la que utiliza  el sistemas de archivo de Hadoop, el HDFS,  que en lugar de medir el ancho de banda entre los nodos,  adopta un enfoque sencillo en el que el red se representa como un árbol donde los niveles en el árbol se describen como el centro de datos, el rack , y el nodo o equipo, y define las distancias para la ubicación de bloques  utilizando la jerarquía del árbol. Con este enfoque tipo árbol el HDFS busca  un equilibrio en la colocación del bloque y sus replicas para obtener el menor consumo de ancho de banda, el menor retardo en las trasferencias de bloques , la maxima velocidad de lectura( Utilizando el paralelismo consultando las diferentes replicas), y la mayor tolerancia a fallos por bloque.

Por consiguiente Hadoop utiliza la siguiente estrategia por defecto con base en el enfoque anterior  para la distribución de replicas, la cual proporciona al HDFS un buen equilibrio entre la disponibilidad   y el ancho de banda por transferencia, y es la siguiente; la primera réplica de un bloque se ubica en el mismo nodo donde se almacena , la segunda copia se sitúa  en un equipo o nodo que este fuera del rack de la primera replica  y la tercera réplica se dispone en el mismo rack donde se ubica la segunda replica pero en un equipo o nodo diferente. Esta estrategia es una experiencia que se deriva de los siguiente extremos que ocurren en una configuración de replicas distribuidas:
  • Cuando  toda las replicas se ubican en el mismo rack,  se disminuye el "ancho de banda"  pero aumenta la probabilidad de fallo,  además,  las operaciones de lecturas o balanceo de carga son mas lentas ante clientes concurrentes.
  •  Cuando se desea una altísima redundancia se ubica cada replica de bloque en diferentes  centros de datos. El tener este tipo de configuración aumenta el consumo de ancho de banda de manera exponencial.
El sistema HDFS  se ejecuta  en un clúster de equipos que esta disperso por varios racks y en muchos casos en diferentes  centros de datos, donde la comunicación entre nodos debe pasar en muchos casos por varios equipos activos como swiches de red, esto hace de la replicación un tema de constante afinamiento, al cual se le deben definir políticas que permitan una buena distribución y optimización  de las replicas de bloques que contiene los datos. Estas políticas a su vez se deben adaptar a los cambios de infraestructura que tiene el clúster, es por esto que HDFS tiene un sistema de comunicación donde  cada DataNode envía pulsaciones (heartbeats) periódicamente al NameNode, estas pulsaciones son mensaje con información el nombre del nodo , la cantidad de bloques que contiene. Cuando  estos mensajes se dejan de trasmitir   permite detectar la perdida de conectividad de un DataNode, con el fin de que el NameNode pueda empezar  una re-replicación de bloques.

El NameNode en  el sistema HDFS maneja un factor de replicación que el sistema  constantemente le  realiza un  seguimiento, en caso de que el factor este en su nivel mínimo para un DataNode o no se reciben mensajes de un DataNode, el HDFS  inicia una replicación adicional de los bloques que tenia este DataNode en otro  nodo DataNode, esto es con el fin de estabilizar el factor de replicación, y así mantener la disponibilidad de datos.

Aunque Hadoop es un sistema que aplica la gran mayoría de los avances en sistemas distribuidos y computación en paralelo para el manejo de grandes volúmenes de información, su desarrollo aún no esta terminado y la administración de sus metadatos son su punto de fallo más visible. 

Otros Posts:

Por José A. Cuartas M. con No comentarios
  • Popular
  • Categorias
  • Archivo