Calculadora de prueba t para dos medias independientes rápida y precisa para comparar medias de muestras separadas.
Este artículo describe fórmulas, tablas, ejemplos resueltos y cómo interpretar resultados paso a paso.
Calculadora de prueba t para dos medias independientes (fácil)
Calcula el estadístico t, los grados de libertad (pooled o Welch), y el p-valor para comparar dos medias independientes; útil para análisis experimental y pruebas de hipótesis en ciencias e ingeniería.
• Estadístico t (Welch): t = (M1 − M2) / sqrt(s1^2/n1 + s2^2/n2).
• Grados de libertad (pooled): df = n1 + n2 − 2. Para Welch: df ≈ (s1^2/n1 + s2^2/n2)^2 / [ (s1^4)/(n1^2 (n1−1)) + (s2^4)/(n2^2 (n2−1)) ].
• p-valor: se obtiene de la función acumulada de la distribución t con df calculados; para dos colas p = 2*(1 − F(|t|)).
Variables: M1,M2 = medias muestrales; s1,s2 = desviaciones estándar muestrales; n1,n2 = tamaños muestrales; sp = varianza agrupada.
| Concepto | Valor típico / nota |
|---|---|
| Tamaño muestra pequeño | n ≤ 30 — requiere cuidado en supuestos y potencia |
| Nivel α común | 0.05, 0.01 — según campo (0.05 suele ser estándar) |
| Desviaciones típicas | Depende de la unidad medida; usar estimaciones previas o pilotaje |
| Prueba recomendada | Welch si varianzas parecen distintas; pooled si varianzas homogéneas |
Preguntas frecuentes
Descripción técnica y ámbito de aplicación
La prueba t para dos medias independientes evalúa si dos poblaciones con muestras independientes difieren significativamente en su media. Es aplicable cuando las muestras son independientes y las variables son aproximadamente continuas y razonablemente normales.
Se utiliza en ensayos clínicos, estudios de ingeniería, control de calidad y ciencias sociales para comparar dos tratamientos o condiciones.

Supuestos estadísticos y verificación
Supuestos clave: independencia entre muestras, normalidad de cada población o tamaño muestral suficiente (teorema del límite central), y varianzas poblacionales iguales o desiguales según la versión de la test.
Para varianzas iguales se usa la t pooled; para varianzas desiguales se aplica la corrección de Welch con grados de libertad aproximados.
Tipos de prueba t para dos medias independientes
- Prueba t de Student con varianzas iguales (respuesta pooled).
- Prueba t de Welch para varianzas desiguales (más robusta).
- Prueba a una cola o dos colas según la hipótesis alternativa.
La elección entre pooled y Welch depende de la homogeneidad de varianzas, evaluada por pruebas como Levene o F-test.
Tablas de referencia de valores comunes
Las siguientes tablas contienen valores típicos usados en análisis con pruebas t para dos medias: valores críticos t, grados de libertad para tamaños típicos y ejemplos de niveles de significancia.
Las tablas están diseñadas para visualización responsiva en dispositivos de escritorio y móviles, con encabezados claros y filas legibles.
Tabla adicional: valores de grados de libertad aproximados de Welch para combinaciones frecuentes de n1 y n2.
Fórmulas fundamentales y explicación de variables
Se presentan fórmulas para la t pooled (varianzas iguales) y la t de Welch (varianzas desiguales), además del cálculo de intervalos de confianza y grados de libertad aproximados.
Todas las fórmulas están expresadas en formato sencillo y legible con etiquetas y explicación de cada variable.
1) Estadístico t (varianzas iguales - pooled)
Fórmula:
t = (m1 - m2) / sqrt( sp2 * (1/n1 + 1/n2) )
Donde:
- m1 = media de la muestra 1.
- m2 = media de la muestra 2.
- n1 = tamaño de muestra 1.
- n2 = tamaño de muestra 2.
- sp2 = varianza pooled = ((n1-1)s1^2 + (n2-1)s2^2) / (n1+n2-2).
- s1^2, s2^2 = varianzas muestrales.
Valores típicos: n≥20 se considera buen ajuste; s1^2 y s2^2 dependen de la dispersión observada.
2) Varianza pooled (sp2)
Fórmula:
sp2 = ((n1 - 1) * s1^2 + (n2 - 1) * s2^2) / (n1 + n2 - 2)
Descripción: combina estimaciones de varianza ponderadas por grados de libertad para suponer igualdad de varianzas.
Valores típicos: si s1^2 ≈ s2^2, pooled es apropiada; diferencia notable invalida pooled.
3) Estadístico t (Welch, varianzas desiguales)
Fórmula:
t = (m1 - m2) / sqrt( s1^2/n1 + s2^2/n2 )
Donde las variables son las ya definidas. No requiere pooled.
Valores típicos: recomendado cuando las pruebas de homogeneidad fallan o s1^2 y s2^2 difieren sustancialmente.
4) Grados de libertad aproximados (Welch)
Fórmula:
df ≈ ( s1^2/n1 + s2^2/n2 )^2 / [ (s1^4 / (n1^2*(n1-1))) + (s2^4 / (n2^2*(n2-1))) ]
Explicación: ajuste no entero; usar valor aproximado en tablas o funciones estadísticas para p-valor.
Valores típicos: df se aproxima a min(n1-1, n2-1) si varianzas similares y tamaños parejos.
5) Intervalo de confianza para la diferencia de medias
Fórmula general:
(m1 - m2) ± t_crit * SE
Donde SE = sqrt( s1^2/n1 + s2^2/n2 ) para Welch, o sqrt(sp2*(1/n1+1/n2)) para pooled.
t_crit corresponde al nivel de confianza y grados de libertad apropiados.
6) Cálculo del p-valor
Para prueba bilateral: p = 2 * P(T_df ≥ |t|). Para una cola: p = P(T_df ≥ t) si la hipótesis alternativa es m1>m2.
Usar funciones estadísticas de software o tablas t para obtener p-valor con df calculado.
Guía práctica paso a paso
- Verificar independencia y normalidad (visualización, prueba Shapiro-Wilk si n pequeño).
- Probar homogeneidad de varianzas (Levene o F-test).
- Seleccionar pooled o Welch según resultado de homogeneidad.
- Calcular estadístico t con la fórmula correspondiente.
- Calcular df (n1+n2-2 para pooled; fórmula de Welch para desiguales).
- Determinar p-valor y comparar con α.
- Reportar resultado con tamaño del efecto y CI.
Incluir tamaño del efecto (d de Cohen) para comunicar magnitud además de significancia.
Tamaño del efecto: d de Cohen
Fórmula pooled:
d = (m1 - m2) / sp
Donde sp = sqrt(sp2). Interpretación: 0.2 pequeño, 0.5 mediano, 0.8 grande.
Se recomienda reportar IC del d cuando sea posible para robustez.
Ejemplos prácticos resueltos
Ejemplo 1: Ensayo clínico controlado
Situación: comparar reducción de presión arterial entre grupo tratamiento (n1=25) y control (n2=25). Datos muestrales: m1=8.4 mmHg, s1=4.2 mmHg; m2=5.1 mmHg, s2=3.9 mmHg. Se usa α=0.05, prueba bilateral.
Paso 1: verificar varianzas: s1^2=17.64, s2^2=15.21; diferencias pequeñas, usar pooled.
Cálculos:
sp2 = ((25-1)*17.64 + (25-1)*15.21) / (48) = (423.36 + 365.04)/48 = 788.4/48 = 16.425
sp = sqrt(16.425) = 4.053
SE = sp * sqrt(1/n1 + 1/n2) = 4.053 * sqrt(1/25+1/25) = 4.053 * sqrt(0.08) = 4.053 * 0.28284 = 1.146
t = (8.4 - 5.1) / 1.146 = 3.3 / 1.146 = 2.879
df = n1 + n2 - 2 = 48. t crítico (α=0.05, dos colas) ≈ 2.01. |t|>tcrit → rechazo H0.
p-valor ≈ 0.0065 (obtenido con función t), concluyendo diferencia significativa. d = 3.3/4.053 = 0.814 (efecto grande).
Interpretación: el tratamiento reduce significativamente la presión arterial con efecto clínico relevante.
Ejemplo 2: Prueba en manufactura con varianzas desiguales
Situación: medir resistencia de piezas fabricadas por dos procesos. Datos: n1=12, m1=102.5, s1=6.2; n2=18, m2=97.8, s2=9.5. α=0.05, bilateral.
Paso 1: varianzas s1^2=38.44, s2^2=90.25; claramente distintas → usar Welch.
Cálculos:
SE = sqrt(38.44/12 + 90.25/18) = sqrt(3.203 + 5.014) = sqrt(8.217) = 2.867
t = (102.5 - 97.8) / 2.867 = 4.7 / 2.867 = 1.640
df ≈ (8.217)^2 / ( (38.44^2)/(12^2*11) + (90.25^2)/(18^2*17) )
Cálculo intermedio: (8.217)^2 = 67.51; término1 = 1477.7/(144*11)=1477.7/1584=0.933; término2 = 8145.06/(324*17)=8145.06/5508=1.479; suma=2.412
df ≈ 67.51 / 2.412 = 27.99 ≈ 28
t crítico (α=0.05, dos colas, df=28) ≈ 2.048. |t|=1.640 < tcrit → no rechazo H0.
p-valor ≈ 0.112 (según distribución t), concluyendo que no hay evidencia suficiente para afirmar diferencia significativa.
Calculamos d aproximado (usando sp pooled no aplicable); usar d con denominador sqrt((s1^2+s2^2)/2) = sqrt((38.44+90.25)/2)=sqrt(64.345)=8.021 → d = 4.7/8.021=0.586 (efecto moderado).
Interpretación: aunque efecto moderado, la diferencia no alcanza significancia estadística con la muestra disponible.
Buenas prácticas de reporte y comunicación de resultados
- Reportar m1, m2, s1, s2, n1, n2, estadístico t, df, p-valor y CI para la diferencia.
- Especificar si se usó pooled o Welch y justificar la elección.
- Informar tamaño del efecto y su intervalo de confianza.
- Describir limitaciones: supuestos no verificados, potencia, errores tipo I/II.
Usar gráficos de cajas, densidades, y visualización de residuos para evaluar supuestos y complementar el informe.
Herramientas y referencias técnicas
Se recomienda el uso de software estadístico para cálculos exactos de p-valores y df: R (t.test), Python (scipy.stats.ttest_ind), Stata y SPSS proporcionan opciones pooled/Welch.
Documentación y referencias relevantes incluyen manuales y normas estadísticos de organizaciones como APA y guías regulatorias de ensayos clínicos.
Enlaces de autoridad y normativa aplicable
- R Project - documentation: https://www.r-project.org/
- Scipy stats documentation: https://docs.scipy.org/doc/scipy/reference/stats.html
- American Psychological Association, Publication Manual - directrices de reporte estadístico: https://apastyle.apa.org/
- CONSORT Statement para ensayos clínicos (reportes de comparaciones): https://www.consort-statement.org/
Normas aplicables: buenas prácticas estadísticas en investigación, guías regulatorias específicas según sector (por ejemplo, FDA guidance para evidencia estadística en ensayos clínicos).
Accesibilidad, usabilidad y tablas responsivas
Las tablas anteriores están organizadas en contenedores con roles ARIA y encabezados claros para lectura por tecnologías asistivas. Se recomienda presentar también formatos descargables (CSV) y versiones adaptadas para impresión.
Para implementaciones interactivas se sugiere validación de entradas, mensajes de error claros y opciones de ayuda contextual sobre supuestos y significados estadísticos.
Ampliación técnica: consideraciones avanzadas
Power analysis: calcular tamaño muestral necesario para detectar una diferencia d con potencia 1-β requiere especificar d, α, y usar fórmulas o software (p. ej. power.t.test en R). Para dos medias independientes:
n por grupo ≈ 2 * ( z_{1-α/2} + z_{1-β} )^2 * σ^2 / Δ^2, donde Δ es la diferencia mínima clínicamente relevante y σ^2 varianza poblacional estimada.
Corrección por múltiples comparaciones: aplicar métodos como Bonferroni o FDR cuando se realizan múltiples tests sobre pares de medias.
Modelos mixtos y ANCOVA: cuando existen covariables, usar análisis de covarianza o modelos lineales mixtos para ajustar diferencias y mejorar potencia.
Recursos adicionales y lecturas recomendadas
- Fields, A. (2013). Discovering Statistics Using IBM SPSS Statistics — guía práctica y ejemplos.
- Wilcox, R. R. (2010). Fundamentals of Modern Statistical Methods — robust methods y alternativas a t-test.
- FDA Guidance documents para evidencia estadística en ensayos clínicos: https://www.fda.gov/
Para implementaciones web, asegure validación accesible y compatibilidad con lectores de pantalla; incluya descripciones alternativas para gráficos.