Las soluciones tradicionales de respaldo de información como Direct Attached Storage (DAS), Network Attached Storage (NAS) o Storage Area Network (SAN) son los principales conceptos de diseño que se utilizan para respaldar la información. Estas soluciones se basan generalmente en servidores robustos y dedicados donde se instalan un software especializado para realizar los respaldos, generalmente se complementan con soluciones de cintas magnéticas para “mejorar” la durabilidad de los datos. Estas soluciones hacen del respaldo de información un procedimiento muy costoso, que necesita de un personal especializado para su mantenimiento, es por esto que se han creado nuevas alternativas que utilizan el paradigma P2P y que están inspiradas principalmente por crecimiento en el volumen de almacenamiento y la cantidad de recursos disponibles en equipos de computo personales.
Los sistemas P2P de almacenamiento (P2PSS) han surgido como una solución escalable horizontalmente, auto-reparable y económica, que garantizan la fiabilidad y disponibilidad de los datos, aunque aumenta exponencialmente el tráfico o consumo de ancho de banda, se disminuye en un gran porcentaje los costos primarios en la adquisición de los discos duros, el consumo de energía generados por la construcción del datacenter, el enfriamiento y funcionamiento de los equipos, más la mano de obra capacitada.
Estos sistemas se basan en la fragmentación de información y el almacenamiento distribuido, es decir los archivos de datos se dividen en bloques de tamaño fijo o fragmentos que se almacena en los diferentes computadores personales de la red peer to peer(P2P) , donde el número de nodos o computadores conectados en cualquier momento es mayor al número de fragmentos asociados con un archivo de datos.
La infraestructura P2PSS se diseña con el concepto de que un nodo no es confiable ya que la conectividad es intermitente debido a varios factores como la falla del equipo, la perdida del servicio de conectividad, la denegación de servicios(DoS), cortes de energía, entre otros, por consiguiente los datos se conciben como nómadas y están separados generalmente de la ubicación física donde se generan, es por esto que estos sistemas tiene la información distribuida en diferentes lugares y utilizan estrategias como la redundancia en los fragmentos de datos a través de técnicas como la replicación o los códigos de correcion de errores (ECC) (erasure codes ) para distribuir los fragmentos redundantes en diferentes nodos de la red, este tipo de tácticas es la que permite mejorar el acceso a los archivos ya que se puede realizar descargas en forma paralela de los fragmentos de datos de un archivo, además de aumentar la durabilidad, persitencia y disponibilidad de la información.
Los datos en estas infraestructuras están protegidos mediante técnicas criptográficas en combinación con procedimientos de almacenamiento de cache con una sincronización transparente entre los equipos y la compresión de datos, esto es con el fin de mejorar la seguridad e integridad, el rendimiento y la disponibilidad de la información desde cualquier lugar y a cualquier hora, generando un tipo de computación ubicua para el respaldo de la información.
Estos son algunas de las iniciativas P2P de almacenamiento y respaldo de información:
- In-Memory ya no es una fantasía, es algo real
- Hadoop y la filosofía en un sistema distribuido
- Big data y el ecosistema Hadoop
- El NoSQL y lo orientado a documentos
0 comentarios:
Publicar un comentario