La regresión es una herramienta de gran uso en el ámbito de la ingeniería y sobre todo, la estadística, el big data y data mining.
El concepto de regresión hace referencia a dar un paso atrás, volver a un estado anterior. En informática y estadística, la regresión es una herramienta muy útil para realizar proyecciones futuras o estimaciones. Para ello la regresión se basa en fórmulas matemáticas que demuestran la relación entre dos o mas variables de forma consistente. Sabiendo la relación entre X e Y, podremos estimar los valores de Y para distintos valores de X, creando gráficas estimativas y pudiendo hacer previsiones fiables de escenarios futuros. Quizás esto suene demasiado complejo para quien no trabaje en el campo, pero en resumen, la regresión permite hacer funciones matemáticas, a partir de datos experimentales, que relacionan variables entre si.
Imaginemos por ejemplo, que tomamos varias mediciones de distancia recorrida por un coche y el tiempo que le lleva hacerlo. Bien, todos conocemos la fórmula de la velocidad (V=e/t), pero si no la conociéramos, podríamos hallarla por una simple regresión. Usando los datos obtenidos, veríamos que existe una relación entre el espacio y el tiempo y obtendríamos una nueva variable que las relaciona, la velocidad.
Ahora bien, la regresión se basa en el cálculo diferencial, y por tanto, los resultados no son totalmente exactos, sino que son una aproximación. Es por eso que cualquier ecuación obtenida por regresión tiene un Error o Residuo, imposible de eliminar. En el caso anterior, sería mucho más fácil emplear la fórmula ya conocida, pero existen circunstancias en que no conocemos la función matemática que relaciona las variables, aunque sepamos que existe una relación. Usando matemáticas diferenciales, es posible estimar la fórmula de casi cualquier relación entre variables, por métodos como el de mínimos cuadrados.
En los casos más simples, la relación se puede representar como una recta. Hablamos entonces de regresión lineal. Cuando no es así, sino que dos o más variables influyen en la ecuación, hablamos de regresión no lineal. Las regresiones serán simples cuando la función depende de una sola variable (ej: f(x)=x+K), y múltiples cuando varias variables influyan en la ecuación (ej: f(x)=x+y+z+K). Pero no profundizaremos más en la definición, que podría llevarnos más espacio del necesario.
La regresión es muy empleada en estadística. Empleando el análisis regresivo o de regresión, podemos predecir datos futuros a partir de series antiguas históricas. Cuanto más exacta sea la ecuación obtenida mediante la regresión, más fiable será esa predicción. Es por ello que es necesario tener, por un lado, una gran cantidad de datos observados, y por otro, un avanzado conocimiento de matemáticas.
También se emplea, como hemos visto, en empresas para hacer previsiones de ventas, ingresos, o evolución de mercados. O en medicina, biología, sociología, o ingeniería, con muy diversos fines. De hecho, hasta la usan programas de Inteligencia Artificial como método para el aprendizaje de las computadoras. Usándola, una máquina puede predecir el resultado de sus actos atendiendo a sus experiencias previas, evitando así cometer los mismos errores: algo así como la experiencia humana.
En resumen, la regresión lineal es capaz de hacer predicciones futuras con datos pasados o presentes, lo que abre un mundo entero de posibilidades que aún se están descubriendo e investigando.