Calculadora de prueba t para dos medias independientes: fácil

Calculadora de prueba t para dos medias independientes rápida y precisa para comparar medias de muestras separadas.

Este artículo describe fórmulas, tablas, ejemplos resueltos y cómo interpretar resultados paso a paso.

Calculadora de prueba t para dos medias independientes (fácil)

Calcula el estadístico t, los grados de libertad (pooled o Welch), y el p-valor para comparar dos medias independientes; útil para análisis experimental y pruebas de hipótesis en ciencias e ingeniería.

Valor promedio observado en la muestra 1 (escala de la variable).
Valor promedio observado en la muestra 2.
Desviación estándar muestral del grupo 1. Si no la conoce, estime con datos brutos.
Desviación estándar muestral del grupo 2.
Número de observaciones en la muestra 1 (entero). Valores pequeños afectan potencia.
Número de observaciones en la muestra 2.
Elija pooled si puede asumir varianzas iguales; en caso contrario use Welch.
Seleccione el criterio de hipótesis alternativa.
Probabilidad tolerada de error tipo I. Valores típicos: 0.05, 0.01.
Ingrese los datos para ver el resultado.
Reporte errores o sugerencias: Enviar informe
Fórmulas usadas
• Estadístico t (pooled): t = (M1 − M2) / sqrt(sp^2*(1/n1 + 1/n2)), con sp^2 = [ (n1−1)s1^2 + (n2−1)s2^2 ] / (n1+n2−2).
• Estadístico t (Welch): t = (M1 − M2) / sqrt(s1^2/n1 + s2^2/n2).
• Grados de libertad (pooled): df = n1 + n2 − 2. Para Welch: df ≈ (s1^2/n1 + s2^2/n2)^2 / [ (s1^4)/(n1^2 (n1−1)) + (s2^4)/(n2^2 (n2−1)) ].
• p-valor: se obtiene de la función acumulada de la distribución t con df calculados; para dos colas p = 2*(1 − F(|t|)).
Variables: M1,M2 = medias muestrales; s1,s2 = desviaciones estándar muestrales; n1,n2 = tamaños muestrales; sp = varianza agrupada.
Valores típicos / referencias
ConceptoValor típico / nota
Tamaño muestra pequeñon ≤ 30 — requiere cuidado en supuestos y potencia
Nivel α común0.05, 0.01 — según campo (0.05 suele ser estándar)
Desviaciones típicasDepende de la unidad medida; usar estimaciones previas o pilotaje
Prueba recomendadaWelch si varianzas parecen distintas; pooled si varianzas homogéneas
Referencias prácticas: manuales de estadística inferencial y ANOVA básico.

Preguntas frecuentes

¿Cuándo usar Welch en vez de pooled?
Use Welch cuando hay evidencia de varianzas desiguales o tamaños de muestra muy distintos; proporciona estimación de df no entera y es más robusta.
¿Qué indica el p-valor en esta prueba?
El p-valor mide la probabilidad observada de obtener una diferencia igualmente extrema bajo H0: μ1=μ2. Si p ≤ α se rechaza H0.
¿Puedo usar esta calculadora con muestras muy pequeñas?
Sí, pero con n muy pequeñas la potencia será baja y las asunciones (normalidad) afectan la validez; considere tests no paramétricos si es necesario.

Descripción técnica y ámbito de aplicación

La prueba t para dos medias independientes evalúa si dos poblaciones con muestras independientes difieren significativamente en su media. Es aplicable cuando las muestras son independientes y las variables son aproximadamente continuas y razonablemente normales.

Se utiliza en ensayos clínicos, estudios de ingeniería, control de calidad y ciencias sociales para comparar dos tratamientos o condiciones.

Calculadora de prueba t para dos medias independientes facil y precisa
Calculadora de prueba t para dos medias independientes facil y precisa

Supuestos estadísticos y verificación

Supuestos clave: independencia entre muestras, normalidad de cada población o tamaño muestral suficiente (teorema del límite central), y varianzas poblacionales iguales o desiguales según la versión de la test.

Para varianzas iguales se usa la t pooled; para varianzas desiguales se aplica la corrección de Welch con grados de libertad aproximados.

Tipos de prueba t para dos medias independientes

  • Prueba t de Student con varianzas iguales (respuesta pooled).
  • Prueba t de Welch para varianzas desiguales (más robusta).
  • Prueba a una cola o dos colas según la hipótesis alternativa.

La elección entre pooled y Welch depende de la homogeneidad de varianzas, evaluada por pruebas como Levene o F-test.

Tablas de referencia de valores comunes

Las siguientes tablas contienen valores típicos usados en análisis con pruebas t para dos medias: valores críticos t, grados de libertad para tamaños típicos y ejemplos de niveles de significancia.

Las tablas están diseñadas para visualización responsiva en dispositivos de escritorio y móviles, con encabezados claros y filas legibles.

gl
t crítico (α=0.10, dos colas)
t crítico (α=0.05, dos colas)
t crítico (α=0.01, dos colas)
comentario
1
6.314
12.706
63.657
caso extremo
5
2.015
2.571
4.032
pequeñas muestras
10
1.812
2.228
3.169
típico
20
1.325
2.086
2.528
muestras moderadas
30
1.310
2.042
2.457
común en estudios
60
1.296
2.000
2.390
casi normal
120
1.289
1.980
2.358
aprox. z

Tabla adicional: valores de grados de libertad aproximados de Welch para combinaciones frecuentes de n1 y n2.

n1
n2
df aprox (Welch)
uso
10
10
18
simetría
8
15
11.2
diferente tamaño
30
30
58
alta precisión
50
20
30.9
asociación desequilibrada

Fórmulas fundamentales y explicación de variables

Se presentan fórmulas para la t pooled (varianzas iguales) y la t de Welch (varianzas desiguales), además del cálculo de intervalos de confianza y grados de libertad aproximados.

Todas las fórmulas están expresadas en formato sencillo y legible con etiquetas y explicación de cada variable.

1) Estadístico t (varianzas iguales - pooled)

Fórmula:

t = (m1 - m2) / sqrt( sp2 * (1/n1 + 1/n2) )

Donde:

  • m1 = media de la muestra 1.
  • m2 = media de la muestra 2.
  • n1 = tamaño de muestra 1.
  • n2 = tamaño de muestra 2.
  • sp2 = varianza pooled = ((n1-1)s1^2 + (n2-1)s2^2) / (n1+n2-2).
  • s1^2, s2^2 = varianzas muestrales.

Valores típicos: n≥20 se considera buen ajuste; s1^2 y s2^2 dependen de la dispersión observada.

2) Varianza pooled (sp2)

Fórmula:

sp2 = ((n1 - 1) * s1^2 + (n2 - 1) * s2^2) / (n1 + n2 - 2)

Descripción: combina estimaciones de varianza ponderadas por grados de libertad para suponer igualdad de varianzas.

Valores típicos: si s1^2 ≈ s2^2, pooled es apropiada; diferencia notable invalida pooled.

3) Estadístico t (Welch, varianzas desiguales)

Fórmula:

t = (m1 - m2) / sqrt( s1^2/n1 + s2^2/n2 )

Donde las variables son las ya definidas. No requiere pooled.

Valores típicos: recomendado cuando las pruebas de homogeneidad fallan o s1^2 y s2^2 difieren sustancialmente.

4) Grados de libertad aproximados (Welch)

Fórmula:

df ≈ ( s1^2/n1 + s2^2/n2 )^2 / [ (s1^4 / (n1^2*(n1-1))) + (s2^4 / (n2^2*(n2-1))) ]

Explicación: ajuste no entero; usar valor aproximado en tablas o funciones estadísticas para p-valor.

Valores típicos: df se aproxima a min(n1-1, n2-1) si varianzas similares y tamaños parejos.

5) Intervalo de confianza para la diferencia de medias

Fórmula general:

(m1 - m2) ± t_crit * SE

Donde SE = sqrt( s1^2/n1 + s2^2/n2 ) para Welch, o sqrt(sp2*(1/n1+1/n2)) para pooled.

t_crit corresponde al nivel de confianza y grados de libertad apropiados.

6) Cálculo del p-valor

Para prueba bilateral: p = 2 * P(T_df ≥ |t|). Para una cola: p = P(T_df ≥ t) si la hipótesis alternativa es m1>m2.

Usar funciones estadísticas de software o tablas t para obtener p-valor con df calculado.

Guía práctica paso a paso

  1. Verificar independencia y normalidad (visualización, prueba Shapiro-Wilk si n pequeño).
  2. Probar homogeneidad de varianzas (Levene o F-test).
  3. Seleccionar pooled o Welch según resultado de homogeneidad.
  4. Calcular estadístico t con la fórmula correspondiente.
  5. Calcular df (n1+n2-2 para pooled; fórmula de Welch para desiguales).
  6. Determinar p-valor y comparar con α.
  7. Reportar resultado con tamaño del efecto y CI.

Incluir tamaño del efecto (d de Cohen) para comunicar magnitud además de significancia.

Tamaño del efecto: d de Cohen

Fórmula pooled:

d = (m1 - m2) / sp

Donde sp = sqrt(sp2). Interpretación: 0.2 pequeño, 0.5 mediano, 0.8 grande.

Se recomienda reportar IC del d cuando sea posible para robustez.

Ejemplos prácticos resueltos

Ejemplo 1: Ensayo clínico controlado

Situación: comparar reducción de presión arterial entre grupo tratamiento (n1=25) y control (n2=25). Datos muestrales: m1=8.4 mmHg, s1=4.2 mmHg; m2=5.1 mmHg, s2=3.9 mmHg. Se usa α=0.05, prueba bilateral.

Paso 1: verificar varianzas: s1^2=17.64, s2^2=15.21; diferencias pequeñas, usar pooled.

Cálculos:

sp2 = ((25-1)*17.64 + (25-1)*15.21) / (48) = (423.36 + 365.04)/48 = 788.4/48 = 16.425

sp = sqrt(16.425) = 4.053

SE = sp * sqrt(1/n1 + 1/n2) = 4.053 * sqrt(1/25+1/25) = 4.053 * sqrt(0.08) = 4.053 * 0.28284 = 1.146

t = (8.4 - 5.1) / 1.146 = 3.3 / 1.146 = 2.879

df = n1 + n2 - 2 = 48. t crítico (α=0.05, dos colas) ≈ 2.01. |t|>tcrit → rechazo H0.

p-valor ≈ 0.0065 (obtenido con función t), concluyendo diferencia significativa. d = 3.3/4.053 = 0.814 (efecto grande).

Interpretación: el tratamiento reduce significativamente la presión arterial con efecto clínico relevante.

Ejemplo 2: Prueba en manufactura con varianzas desiguales

Situación: medir resistencia de piezas fabricadas por dos procesos. Datos: n1=12, m1=102.5, s1=6.2; n2=18, m2=97.8, s2=9.5. α=0.05, bilateral.

Paso 1: varianzas s1^2=38.44, s2^2=90.25; claramente distintas → usar Welch.

Cálculos:

SE = sqrt(38.44/12 + 90.25/18) = sqrt(3.203 + 5.014) = sqrt(8.217) = 2.867

t = (102.5 - 97.8) / 2.867 = 4.7 / 2.867 = 1.640

df ≈ (8.217)^2 / ( (38.44^2)/(12^2*11) + (90.25^2)/(18^2*17) )

Cálculo intermedio: (8.217)^2 = 67.51; término1 = 1477.7/(144*11)=1477.7/1584=0.933; término2 = 8145.06/(324*17)=8145.06/5508=1.479; suma=2.412

df ≈ 67.51 / 2.412 = 27.99 ≈ 28

t crítico (α=0.05, dos colas, df=28) ≈ 2.048. |t|=1.640 < tcrit → no rechazo H0.

p-valor ≈ 0.112 (según distribución t), concluyendo que no hay evidencia suficiente para afirmar diferencia significativa.

Calculamos d aproximado (usando sp pooled no aplicable); usar d con denominador sqrt((s1^2+s2^2)/2) = sqrt((38.44+90.25)/2)=sqrt(64.345)=8.021 → d = 4.7/8.021=0.586 (efecto moderado).

Interpretación: aunque efecto moderado, la diferencia no alcanza significancia estadística con la muestra disponible.

Buenas prácticas de reporte y comunicación de resultados

  • Reportar m1, m2, s1, s2, n1, n2, estadístico t, df, p-valor y CI para la diferencia.
  • Especificar si se usó pooled o Welch y justificar la elección.
  • Informar tamaño del efecto y su intervalo de confianza.
  • Describir limitaciones: supuestos no verificados, potencia, errores tipo I/II.

Usar gráficos de cajas, densidades, y visualización de residuos para evaluar supuestos y complementar el informe.

Herramientas y referencias técnicas

Se recomienda el uso de software estadístico para cálculos exactos de p-valores y df: R (t.test), Python (scipy.stats.ttest_ind), Stata y SPSS proporcionan opciones pooled/Welch.

Documentación y referencias relevantes incluyen manuales y normas estadísticos de organizaciones como APA y guías regulatorias de ensayos clínicos.

Enlaces de autoridad y normativa aplicable

  • R Project - documentation: https://www.r-project.org/
  • Scipy stats documentation: https://docs.scipy.org/doc/scipy/reference/stats.html
  • American Psychological Association, Publication Manual - directrices de reporte estadístico: https://apastyle.apa.org/
  • CONSORT Statement para ensayos clínicos (reportes de comparaciones): https://www.consort-statement.org/

Normas aplicables: buenas prácticas estadísticas en investigación, guías regulatorias específicas según sector (por ejemplo, FDA guidance para evidencia estadística en ensayos clínicos).

Accesibilidad, usabilidad y tablas responsivas

Las tablas anteriores están organizadas en contenedores con roles ARIA y encabezados claros para lectura por tecnologías asistivas. Se recomienda presentar también formatos descargables (CSV) y versiones adaptadas para impresión.

Para implementaciones interactivas se sugiere validación de entradas, mensajes de error claros y opciones de ayuda contextual sobre supuestos y significados estadísticos.

Ampliación técnica: consideraciones avanzadas

Power analysis: calcular tamaño muestral necesario para detectar una diferencia d con potencia 1-β requiere especificar d, α, y usar fórmulas o software (p. ej. power.t.test en R). Para dos medias independientes:

n por grupo ≈ 2 * ( z_{1-α/2} + z_{1-β} )^2 * σ^2 / Δ^2, donde Δ es la diferencia mínima clínicamente relevante y σ^2 varianza poblacional estimada.

Corrección por múltiples comparaciones: aplicar métodos como Bonferroni o FDR cuando se realizan múltiples tests sobre pares de medias.

Modelos mixtos y ANCOVA: cuando existen covariables, usar análisis de covarianza o modelos lineales mixtos para ajustar diferencias y mejorar potencia.

Recursos adicionales y lecturas recomendadas

  • Fields, A. (2013). Discovering Statistics Using IBM SPSS Statistics — guía práctica y ejemplos.
  • Wilcox, R. R. (2010). Fundamentals of Modern Statistical Methods — robust methods y alternativas a t-test.
  • FDA Guidance documents para evidencia estadística en ensayos clínicos: https://www.fda.gov/

Para implementaciones web, asegure validación accesible y compatibilidad con lectores de pantalla; incluya descripciones alternativas para gráficos.