Calculadora de regresión lineal múltiple (2 predictores)

Calculadora de Regresión Lineal Múltiple con dos predictores para estimaciones rápidas y confiables.

Este artículo muestra fórmulas, tablas responsivas, ejemplos reales y guía experta paso a paso.

Calculadora de regresión lineal múltiple (2 predictores)

Calcula los coeficientes (β0, β1, β2) de una regresión lineal múltiple usando estadísticas resumen (varianzas y covarianzas) y estima R². Útil para modelos con dos variables explicativas cuando se dispone de matrices de covarianza.

Número de observaciones usadas para calcular varianzas/covarianzas. Debe ser mayor o igual a 3.
Media aritmética de la variable dependiente Y.
Media aritmética del predictor X₁.
Media aritmética del predictor X₂.
Varianza de la variable dependiente. Debe ser positiva.
Varianza del predictor X₁. Debe ser positiva.
Varianza del predictor X₂. Debe ser positiva.
Covarianza entre los predictores. Debe cumplir |Cov| ≤ √(Var(X₁)·Var(X₂)).
Covarianza de Y con X₁. Debe cumplir |Cov| ≤ √(Var(Y)·Var(X₁)).
Covarianza de Y con X₂. Debe cumplir |Cov| ≤ √(Var(Y)·Var(X₂)).
Ingrese los datos para ver el resultado.
Reporte errores o sugerencias: Enviar informe
Fórmulas usadas
• Ecuación de regresión: Y = β0 + β1·X₁ + β2·X₂
• Sistema normal (en términos de varianzas/covarianzas):
[ Var(X₁) Cov(X₁,X₂) ] [β1] = [ Cov(Y,X₁) ]
[ Cov(X₁,X₂) Var(X₂) ] [β2] [ Cov(Y,X₂) ]
• Solución (2×2): det = Var(X₁)·Var(X₂) − Cov(X₁,X₂)²
• β1 = (Cov(Y,X₁)·Var(X₂) − Cov(Y,X₂)·Cov(X₁,X₂)) / det
• β2 = (Cov(Y,X₂)·Var(X₁) − Cov(Y,X₁)·Cov(X₁,X₂)) / det
• β0 = mean(Y) − β1·mean(X₁) − β2·mean(X₂)
• R² (explicada por los predictores): R² = (β1·Cov(Y,X₁) + β2·Cov(Y,X₂)) / Var(Y)
Variables: mean() medias, Var() varianzas poblacionales/ muestrales según origen, Cov() covarianzas. El método usa la matriz de covarianzas para estimar coeficientes cuando no hay acceso a datos individuales.
Valores típicos / referencias
ContextoMuestra típica (n)Varianzas típicas
Economía (ingresos vs educación, experiencia)100–1000Var(Y)=1000–10000, Var(X)~10–100
Salud (peso vs edad, actividad)50–300Var(Y)~25–200, Var(X)~5–50
Ingeniería (rendimiento vs temperatura, presión)30–200Var(Y)~1–500, Var(X)~1–200
Estas referencias son orientativas y dependen de la escala de las variables y la transformación aplicada.

Preguntas frecuentes

¿Puedo calcular los coeficientes solo con varianzas y covarianzas?
Sí. Con Var(X₁), Var(X₂), Cov(X₁,X₂), Cov(Y,X₁) y Cov(Y,X₂) se resuelve el sistema normal y se obtiene β1 y β2; luego se calcula β0 con las medias.
¿Qué pasa si la matriz de covarianzas es singular?
Si det = 0 la matriz es singular (multicolinealidad perfecta) y no es posible estimar β1 y β2 mediante la inversión; debe eliminarse o combinarse un predictor.
¿Cómo interpreto R² calculado aquí?
R² representa la fracción de la varianza de Y explicada por X₁ y X₂ usando las covarianzas suministradas. Valores entre 0 y 1; fuera de rango indican inconsistencias en los datos de entrada.

Descripción técnica y alcance

La regresión lineal múltiple con dos predictores ajusta un modelo lineal Y = β0 + β1X1 + β2X2 + ε, estimando parámetros mediante mínimos cuadrados ordinarios. La calculadora asociada automatiza la estimación de coeficientes, intervalos de confianza, pruebas de hipótesis, R2, R2 ajustado y diagnóstico de supuestos (heterocedasticidad, multicolinealidad, normalidad y autocorrelación).

Se incluyen fórmulas completas para estimación y varianzas, tablas con valores comunes, ejemplos aplicados en economía y salud, recomendaciones prácticas y referencias normativas.

Calculadora de regresion lineal multiple 2 predictores para analisis rapido
Calculadora de regresion lineal multiple 2 predictores para analisis rapido

Principales salidas de la calculadora

  • Coeficientes estimados: β0, β1, β2
  • Errores estándar de coeficientes
  • Estadísticos t y p-valores
  • Intervalos de confianza (1−α) para cada coeficiente
  • R2 y R2 ajustado
  • Error estándar de la estimación (σ̂)
  • Predicción puntual y por intervalo (predicción y confianza)
  • Diagnósticos: VIF, prueba de Breusch-Pagan, Durbin-Watson, prueba de Shapiro-Wilk (o alternativa)

Tablas de referencia: valores comunes

CantidadSímboloValor típicoUnidad/Notas
Tamaño muestral mínimo recomendablen≥ 30 por regla generalMás potencia con n ≥ 50
Grados de libertad regresiónpp = k + 1 = 3k = número de predictores
R2 típico en ciencias socialesR20.10–0.40Depende del dominio
R2 típico en ingenieríaR20.70–0.99Modelos bien especificados
Valor crítico t (α=0.05, df≈n−3)t0.975≈ 1.96–2.05Depende de n
Valor crítico F (α=0.05, k=2)F0.95≈ 3–4 para n≈50Tabla F
VIF aceptableVIF< 5 recomendadoIndicador de multicolinealidad
Durbin-Watson idealDW≈ 1.5–2.5Detecta autocorrelación

Tabla ampliada: valores de ejemplo por dominio

DominioR2 típicoTamaño muestral recomendadoNotas
Economía0.20–0.50n ≥ 100Alta varianza, sesgos endógenos posibles
Medicina/Epidemiología0.10–0.40n ≥ 200Control de confusores es crítico
Ingeniería0.70–0.99n ≥ 30Modelos determinísticos dominan

Fórmulas completas y explicación de variables

Presentamos las fórmulas fundamentales para estimar parámetros y medidas de incertidumbre en regresión lineal múltiple con dos predictores.

Modelo y notación

Modelo: Y_i = β0 + β1 X1_i + β2 X2_i + ε_i, para i = 1,...,n.

Variables:

  • Y_i: variable dependiente (respuesta) en la observación i.
  • X1_i, X2_i: predictores observados para la observación i.
  • β0: intercepto poblacional.
  • β1, β2: pendientes poblacionales asociadas a X1 y X2 respectivamente.
  • ε_i: término de error aleatorio, E[ε_i]=0, Var(ε_i)=σ^2 bajo supuestos clásicos.
  • n: número de observaciones.
  • k: número de predictores (k=2 en este caso).

Matriz y estimación por mínimos cuadrados

Forma matricial: Y = Xβ + ε, donde X es n×3 con columna de unos y columnas de X1 y X2.

Estimador de β (vector 3×1): β̂ = (X'X)^{-1} X'Y.

Explicación: calcule X'X (3×3), invierta la matriz, multiplique por X'Y (3×1) y obtendrá β̂ = [β̂0, β̂1, β̂2]'.

Componentes escalares equivalentes

Si se prefiere desarrollar con sumatorias:

  • S_x1x1 = Σ (X1_i − X1̄)^2
  • S_x2x2 = Σ (X2_i − X2̄)^2
  • S_x1x2 = Σ (X1_i − X1̄)(X2_i − X2̄)
  • S_x1y = Σ (X1_i − X1̄)(Y_i − Ȳ)
  • S_x2y = Σ (X2_i − X2̄)(Y_i − Ȳ)

Las pendientes se obtienen resolviendo el sistema normal:

β̂1 = [S_x1y S_x2x2 − S_x2y S_x1x2] / [S_x1x1 S_x2x2 − (S_x1x2)^2]

β̂2 = [S_x2y S_x1x1 − S_x1y S_x1x2] / [S_x1x1 S_x2x2 − (S_x1x2)^2]

β̂0 = Ȳ − β̂1 X1̄ − β̂2 X2̄

Estimación de la varianza del error y matriz de covarianzas

Residuo i: e_i = Y_i − Ŷ_i = Y_i − (β̂0 + β̂1 X1_i + β̂2 X2_i).

Error estándar de la estimación (σ̂): σ̂^2 = SSE / (n − p), donde SSE = Σ e_i^2 y p = k + 1 = 3.

Matriz de varianza-covarianza de β̂: Var(β̂) = σ̂^2 (X'X)^{-1}.

Errores estándar de coeficientes: SE(β̂j) = sqrt[ Var(β̂)_{jj} ], para j = 0,1,2.

Pruebas t, p-valores e intervalos

Estadístico t para H0: βj = 0 es t_j = β̂j / SE(β̂j) con df = n − p.

p-valor (bilateral) = 2·P(T_{df} ≥ |t_j|). Intervalo de confianza al 1−α: β̂j ± t_{1−α/2, df}·SE(β̂j).

Coeficiente de determinación y ajuste

SST = Σ (Y_i − Ȳ)^2; SSR = Σ (Ŷ_i − Ȳ)^2; SSE = Σ e_i^2.

R^2 = SSR / SST = 1 − SSE / SST. R^2 ajustado = 1 − [(1 − R^2)(n − 1) / (n − p)].

Predicción y errores de predicción

Predicción puntual para nueva observación X_new = [1, x1*, x2*]': Ŷ* = X_new' β̂.

Var(Ŷ*) = σ̂^2 X_new' (X'X)^{-1} X_new.

Intervalo de confianza para la media condicional: Ŷ* ± t_{1−α/2,df}·sqrt[Var(Ŷ*)].

Intervalo de predicción para nueva observación individual: Ŷ* ± t_{1−α/2,df}·sqrt[σ̂^2 + Var(Ŷ*)].

Multicolinealidad: VIF

VIF_j = 1 / (1 − R^2_{j}), donde R^2_{j} es R^2 de la regresión de X_j sobre los otros predictores.

Interpretación: VIF > 5 alerta, VIF > 10 indica multicolinealidad severa.

Prueba de heterocedasticidad (Breusch-Pagan)

Construcción: regrese e_i^2 sobre X (o normales): LM = 0.5·n·R^2_aux ≈ χ^2_{k} bajo H0 de homocedasticidad.

Rechazar H0 si LM > χ^2_{k,1−α}.

Autocorrelación (Durbin-Watson)

DW = Σ_{t=2}^n (e_t − e_{t−1})^2 / Σ_{t=1}^n e_t^2. Valores cercanos a 2 indican ausencia de autocorrelación.

Explicación detallada de cada variable y valores típicos

  • Y: suele medirse en unidades del fenómeno (ej.: salario en USD, presión arterial en mmHg).
  • X1, X2: predictores seleccionados por teoría; pueden ser continuos o dummies. Valores típicos dependerán del dominio (p. ej., años de experiencia 0–40; edad 18–90).
  • n: tamaño muestral; a mayor n menores errores estándar.
  • σ^2: varianza del término de error; estimaciones grandes implican intervalos amplios.
  • βj: tamaño del efecto; interpretables en unidades de Y por unidad de Xj manteniendo otras variables constantes.

Implementación visual de fórmulas y estructuras (sólo presentación)

A continuación se muestra la estructura visual de las fórmulas clave usando una presentación tipográfica legible y accesible para pantallas y lectores de pantalla.

β̂ = (X'X)⁻¹ X'Y

β̂0 = Ȳ − β̂1 X1̄ − β̂2 X2̄

β̂1 = [S_x1y S_x2x2 − S_x2y S_x1x2] / D

β̂2 = [S_x2y S_x1x1 − S_x1y S_x1x2] / D

D = S_x1x1 S_x2x2 − (S_x1x2)^2

σ̂^2 = SSE / (n − 3), SSE = Σ e_i^2

Var(β̂) = σ̂^2 (X'X)⁻¹ ; SE(β̂j) = √Var(β̂)_{jj}

t_j = β̂j / SE(β̂j) ; R^2 = 1 − SSE/SST

Ejemplo práctico 1: Economía aplicada (salario)

Contexto: Estimaremos el efecto de años de experiencia (X1) y nivel educativo (X2, años) sobre salario mensual (Y, en USD) con una muestra n = 60.

Datos resumidos (valores ficticios resumidos): X1̄ = 8.5 años, X2̄ = 14.0 años, Ȳ = 2500 USD.

Sumatorias necesarias

  • S_x1x1 = 850
  • S_x2x2 = 600
  • S_x1x2 = 420
  • S_x1y = 15000
  • S_x2y = 12000
  • SST = Σ (Y_i − Ȳ)^2 = 2,500,000

Calcule D = 850·600 − 420^2 = 510000 − 176400 = 333600.

β̂1 = [15000·600 − 12000·420] / 333600 = [9,000,000 − 5,040,000] / 333600 = 3,960,000 / 333600 ≈ 11.87

β̂2 = [12000·850 − 15000·420] / 333600 = [10,200,000 − 6,300,000] / 333600 = 3,900,000 / 333600 ≈ 11.69

β̂0 = 2500 − 11.87·8.5 − 11.69·14.0 = 2500 − 100.895 − 163.66 ≈ 2235.45

Interpretación: manteniendo X2 constante, cada año de experiencia incrementa salario ~11.87 USD; manteniendo X1 constante, cada año de educación aporta ~11.69 USD.

Cálculo de residuos y σ̂^2

Supongamos SSE calculada = 1,200,000. Entonces σ̂^2 = 1,200,000 / (60 − 3) = 1,200,000 / 57 ≈ 21,052.63.

σ̂ = √21,052.63 ≈ 145.12 USD.

Matriz (X'X)⁻¹ y errores estándar (valores hipotéticos)

Supongamos (X'X)⁻¹ diagonal aproximada (para ejemplo): diag(0.005, 0.0015, 0.0020).

Var(β̂0) = 0.005·σ̂^2 ≈ 0.005·21,052.63 = 105.263 → SE(β̂0) ≈ 10.26

SE(β̂1) = √(0.0015·21,052.63) ≈ √31.579 = 5.62

SE(β̂2) = √(0.0020·21,052.63) ≈ √42.105 = 6.49

Pruebas t y p-valores

t1 = 11.87 / 5.62 ≈ 2.11 → p ≈ 0.039 (significativo α=0.05)

t2 = 11.69 / 6.49 ≈ 1.80 → p ≈ 0.076 (no significativo α=0.05)

Interpretación: experiencia significativa, educación marginal con estos datos.

R2 y ajuste

SSE = 1,200,000; SST = 2,500,000 → R^2 = 1 − 1,200,000/2,500,000 = 0.52.

R^2 ajustado = 1 − [(1 − 0.52)(60 − 1) / (60 − 3)] = 1 − [0.48·59/57] ≈ 1 − 0.497 = 0.503.

Ejemplo práctico 2: Salud pública (presión arterial)

Contexto: Predicción de presión arterial sistólica (Y, mmHg) según edad (X1, años) y índice de masa corporal (X2, IMC). Muestra n = 120.

Resumen de datos: X1̄ = 50 años, X2̄ = 27 kg/m2, Ȳ = 130 mmHg.

Sumatorias y cálculo

  • S_x1x1 = 15,000
  • S_x2x2 = 9,500
  • S_x1x2 = 6,200
  • S_x1y = 18,000
  • S_x2y = 14,400
  • SST = 48,000

D = 15,000·9,500 − 6,200^2 = 142,500,000 − 38,440,000 = 104,060,000.

β̂1 = [18,000·9,500 − 14,400·6,200] / 104,060,000 = [171,000,000 − 89,280,000] / 104,060,000 = 81,720,000 / 104,060,000 ≈ 0.7858

β̂2 = [14,400·15,000 − 18,000·6,200] / 104,060,000 = [216,000,000 − 111,600,000] / 104,060,000 = 104,400,000 / 104,060,000 ≈ 1.0033

β̂0 = 130 − 0.7858·50 − 1.0033·27 = 130 − 39.29 − 27.09 ≈ 63.62

Interpretación: cada año de edad aumenta presión ~0.786 mmHg, cada unidad de IMC aumenta ~1.003 mmHg, ajustando por la otra variable.

Estimación de σ̂^2 y errores

Supongamos SSE = 12,000. Entonces σ̂^2 = 12,000 / (120 − 3) = 12,000 / 117 ≈ 102.56; σ̂ ≈ 10.13 mmHg.

Matriz (X'X)⁻¹ estimada diagonal: diag(0.0012, 0.00008, 0.00011) → SE(β̂1) ≈ √(0.00008·102.56) ≈ √0.008205 ≈ 0.0906

SE(β̂2) ≈ √(0.00011·102.56) ≈ √0.0112816 ≈ 0.1062

t1 = 0.7858 / 0.0906 ≈ 8.67 (p ≪ 0.001). t2 = 1.0033 / 0.1062 ≈ 9.44 (p ≪ 0.001).

Ambos predictores altamente significativos; R^2 estimado = 1 − 12,000 / 48,000 = 0.75; R^2 ajustado ≈ 0.746.

Diagnósticos y recomendaciones prácticas

  • Verificar linealidad mediante gráficos residuales vs predicciones. Si no lineal, considerar transformaciones o adición de términos polinómicos.
  • Calcular VIF para cada predictor; si VIF > 5, evaluar colinealidad (remover variable, combinar, regularización).
  • Probar heterocedasticidad con Breusch-Pagan; usar errores robustos (White) si H0 rechazada.
  • Comprobar normalidad de residuos con pruebas formales y gráficos QQ; para muestras grandes la normalidad es menos crítica para estimadores β̂.
  • Durbin-Watson para series temporales; si autocorrelación, usar modelos AR, errores robustos o GLS.
  • Reportar intervalos de confianza y p-valores; evitar interpretar R^2 sin considerar significancia y supuestos.

Si se detectan problemas de especificación, considerar técnicas alternativas: variables instrumentales, regresión ridge/lasso, modelos no lineales o machine learning con validación cruzada.

Implementación computacional y notas de rendimiento

La calculadora debe implementar cálculos numéricos estables: usar factorización por descomposición QR o SVD para invertir X'X y evitar problemas numéricos cuando hay colinealidad. Para grandes n y k pequeños, la complejidad es O(nk^2) para construir X'X y O(k^3) para invertir.

Utilizar aritmética en doble precisión; ofrecer opción de errores estándar robustos y bootstrap para intervalos no paramétricos si supuestos no se cumplen.

Accesibilidad y experiencia de usuario

  • Tablas responsivas con desbordamiento horizontal y celdas legibles; fuentes contrastadas y tamaños escalables.
  • Formularios con etiquetas claras, placeholders, validación de valores y mensajes de error accesibles.
  • Ofrecer descripción textual de resultados para lectores de pantalla y exportación a CSV/PDF.
  • Incluir opciones para seleccionar nivel de confianza, tipo de errores estándar y pruebas diagnósticas a ejecutar.

Enlaces externos de autoridad y referencias normativas

Recomiendo consultar documentación estatutaria local en metodologías de análisis estadístico para informes oficiales.

Ampliaciones y consideraciones avanzadas

Estimación por máxima verosimilitud es equivalente a MCO bajo normalidad del error; para heterocedasticidad conocida, usar GLS. En presencia de endogeneidad, mínimo sesgo requiere variables instrumentales con prueba de sobreidentificación.

Regularización (ridge/lasso) útil si objetivo es predicción con colinealidad o alto número de predictores; validación cruzada para selección de penalización.

Bootstrap para intervalos y p-valores

Procedimiento: muestrear con reemplazo n observaciones B veces, recalcular β̂ en cada muestra, construir distribución empírica y extraer percentiles para intervalos. Recomendado si supuestos clásicos no cumplen.

Modelos alternativos cuando Y no es continuo

  • Respuesta binaria → regresión logística multinomial o binomial.
  • Conteos → regresión Poisson o binomial negativa.
  • Distribuciones censuradas → modelos Tobit o survival.

Elegir familia y enlace acorde a naturaleza de Y y verificar ajuste mediante pruebas específicas.

Checklist para validación de un análisis con la calculadora

  1. Verificar integridad de datos y valores atípicos.
  2. Examinar correlaciones entre X para multicolinealidad.
  3. Ajustar modelo y revisar coeficientes, errores estándar y signos esperados.
  4. Evaluar residuos (linealidad, homocedasticidad, normalidad, autocorrelación).
  5. Realizar pruebas robustas si corresponde y comparar con alternativas.
  6. Reportar resultados con intervalos y medidas de ajuste; documentar supuestos y limitaciones.

Si desea, puedo generar una plantilla de calculadora interactiva adaptada a su entorno web o un script reproducible en R/Python con validación y salida lista para informes.