Hadoop es un sistema de código abierto que se utiliza con el objetivo de almacenar, procesar y gestionar grandes volúmenes de datos. Está formado por dos componentes: HDFS: Es un sistema de archivo distribuido; es decir, permite que el fichero de datos no quede guardado en un único ordenador, sino que sea comparttido y distribuido […]
Hadoop
Podemos definir Hadoop como un sistema de código abierto que se utiliza para almacenar, procesar y analizar grandes volúmenes de datos. En los últimos años se ha convertido en sinónimo de Big Data.
Origen de Hadoop
El origen de Hadoop se remonta a 2004. En aquel entonces, el ingeniero de software Doug Cutting, que por aquel entonces trabajaba en Google, explicó en un documento una serie de herramientas con las que se podían manejar grandes volúmenes de datos.
El ingeniero planteaba hacerlo a través de particiones en volúmenes cada vez más pequeños hasta hacerlos abordables. Solo unos meses después dejó su trabajo en Google y comenzó su carrera en Yahoo, donde continuó trabajando en ese área hasta lanzar Hadoop en 2009.
Funcionamiento de Hadoop
La plataforma de código abierto cuenta con un sistema que capta y almacena los datos en un conjunto de máquinas; de esta manera, si una de ellas cae, los datos no se pierden.
El principal atractivo de esta plataforma es su algoritmo de procesamiento y búsquedas: MapReduce. Una herramienta que permite que los usuarios puedan realizar consultas a una base de datos colosal y obtener las respuestas que necesitan en cuestión de segundos. MapReduce envía una orden a cada máquina para que ésta realice una búsqueda en su disco duro, luego agrupa todas las respuestas que ha obtenido y las ordena para ofrecer a los usuarios una respuesta rápida y fiable.
Actualmente son muchas las compañías que comercializan Hadoop como solución a la gestión de volúmenes de información cada vez mayores, los cuales además llegan desde fuentes muy diversas.
Si bien es cierto que hay determinadas plataformas que compiten con Hadoop, esta es por ahora el sistema de código abierto líder por excelencia en todo el mundo.