Hadoop es un sistema de código abierto que se utiliza con el objetivo de almacenar, procesar y gestionar grandes volúmenes de datos.
Está formado por dos componentes:
- HDFS: Es un sistema de archivo distribuido; es decir, permite que el fichero de datos no quede guardado en un único ordenador, sino que sea comparttido y distribuido por toda la red de dispositivos.
- MAPREDUCE: Es un framework que aísla al programador de todas las tareas relacionadas con la programación en paralelo. Para entenderlo, este componente se encarga de que un determinado programa que ha sido escrito en cualquier lenguaje de programación se pueda ejecutar en un cluster de Hadoop.
Historia de Hadoop
La historia de Hadoop está directamente vinculada a Google. En la era de la información digital, llegó un determinado momento en el que Google se percató de que le era imposible procesar datos a la velocidad que el mercado necesitaba, por lo que se puso en busca de una solución.
Y la encontró. Consistía en un sistema de archivos distribuidos; es decir, un gran número de pequeños ordenadores, cada uno de los cuales procesa una determinada porción de información. La gran innovación que llegó con este sistema es que cada uno de estos ordenadores trabajaba de manera totalmente independiente y autónoma, pero a la vez, todos actuaban en conjunto, como si fueran un único ordenador.
Fue en el año 2006 cuando Google puso en marcha ese sistema, al que denominaron Hadoop.
Ventajas de Hadoop
- Este sistema de código abierto permite a los usuarios distribuir el fichero en nodos.
- Es capaz de ejecutar procesos en paralelo.
- Cuenta con una opción a través de la cual los usuarios pueden realizar cualquier tipo de consulta.
- Tiene un coste tanto de implantación como de mantenimiento muy bajo.
- Proporciona un retorno de la inversión muy rápido para las empresas.
- Permite a las compañías afrontar nuevas oportunidades del mercado y solucionar problemas relacionados con los datos a los que antes no podían dar respuesta.
Hadoop ha abierto todo un mundo de posibilidades a empresas de todo el mundo a la hora de gestionar los datos. Para hacernos una idea del volumen de información al que se deben enfrentar las compañías hoy en día, más del 90% de todo lo que podemos encontrar actualmente en Internet está ahí desde hace menos de cinco años.
Por lo tanto, llegó un determinado momento en el que las empresas no podían procesar todos los datos que les llegaban debido a los límites de la tecnología que existía; de esta manera nació el Big Data, que actualmente está en pleno auge. Y uno de sus sistemas estrella es precisamente Hadoop, el cual puede almacenar, gestionar y analizar volúmenes de datos enormes.
Además de ser un sistema extraordinario en el procesamiento de datos, Hadoop permite a las compañías analizarlos y realizar por ejemplo regresiones lineales sobre millones de registros en sus bases de datos.