Las desviaciones cuadradas de la media (SDM) están involucradas en varios cálculos. En teoría de probabilidad y estadística , la definición de varianza es el valor esperado del SDM (cuando se considera una distribución teórica ) o su valor promedio (para datos experimentales reales). Los cálculos para el análisis de varianza implican la división de una suma de SDM.
Introducción
La comprensión de los cálculos involucrados se mejora en gran medida mediante un estudio del valor estadístico
mi
(
X
2
)
{\ Displaystyle \ operatorname {E} (X ^ {2})}
, donde es el operador de valor esperado.
mi
{\ Displaystyle \ operatorname {E}}
Para una variable aleatoria con media y varianza ,
X
{\ Displaystyle X}
μ
{\ Displaystyle \ mu}
σ
2
{\ Displaystyle \ sigma ^ {2}}
σ
2
=
mi
(
X
2
)
-
μ
2
.
{\ Displaystyle \ sigma ^ {2} = \ operatorname {E} (X ^ {2}) - \ mu ^ {2}.}
Por lo tanto,
mi
(
X
2
)
=
σ
2
+
μ
2
.
{\ Displaystyle \ operatorname {E} (X ^ {2}) = \ sigma ^ {2} + \ mu ^ {2}.}
De lo anterior, se puede derivar lo siguiente:
mi
(
∑
(
X
2
)
)
=
norte
σ
2
+
norte
μ
2
,
{\ Displaystyle \ operatorname {E} \ left (\ sum \ left (X ^ {2} \ right) \ right) = n \ sigma ^ {2} + n \ mu ^ {2},}
mi
(
(
∑
X
)
2
)
=
norte
σ
2
+
norte
2
μ
2
.
{\ Displaystyle \ operatorname {E} \ left (\ left (\ sum X \ right) ^ {2} \ right) = n \ sigma ^ {2} + n ^ {2} \ mu ^ {2}.}
Varianza de la muestra
La suma de las desviaciones cuadradas necesarias para calcular la varianza de la muestra (antes de decidir si dividir por n o n - 1) se calcula más fácilmente como
S
=
∑
X
2
-
(
∑
X
)
2
norte
{\ Displaystyle S = \ sum x ^ {2} - {\ frac {\ left (\ sum x \ right) ^ {2}} {n}}}
De las dos expectativas derivadas por encima del valor esperado de esta suma es
mi
(
S
)
=
norte
σ
2
+
norte
μ
2
-
norte
σ
2
+
norte
2
μ
2
norte
{\ Displaystyle \ operatorname {E} (S) = n \ sigma ^ {2} + n \ mu ^ {2} - {\ frac {n \ sigma ^ {2} + n ^ {2} \ mu ^ {2 }}{norte}}}
lo que implica
mi
(
S
)
=
(
norte
-
1
)
σ
2
.
{\ Displaystyle \ operatorname {E} (S) = (n-1) \ sigma ^ {2}.}
Esto demuestra efectivamente el uso del divisor n - 1 en el cálculo de una estimación muestral insesgada de σ 2 .
Partición - análisis de varianza
En la situación en la que hay datos disponibles para k grupos de tratamiento diferentes que tienen un tamaño n i donde i varía de 1 a k , entonces se supone que la media esperada de cada grupo es
mi
(
μ
I
)
=
μ
+
T
I
{\ Displaystyle \ operatorname {E} (\ mu _ {i}) = \ mu + T_ {i}}
y la varianza de cada grupo de tratamiento no cambia con respecto a la varianza de la población .
σ
2
{\ Displaystyle \ sigma ^ {2}}
Bajo la Hipótesis Nula de que los tratamientos no tienen efecto, entonces cada uno de ellos será cero.
T
I
{\ Displaystyle T_ {i}}
Ahora es posible calcular tres sumas de cuadrados:
Individual
I
=
∑
X
2
{\ Displaystyle I = \ sum x ^ {2}}
mi
(
I
)
=
norte
σ
2
+
norte
μ
2
{\ Displaystyle \ operatorname {E} (I) = n \ sigma ^ {2} + n \ mu ^ {2}}
Tratos
T
=
∑
I
=
1
k
(
(
∑
X
)
2
/
norte
I
)
{\ Displaystyle T = \ sum _ {i = 1} ^ {k} \ left (\ left (\ sum x \ right) ^ {2} / n_ {i} \ right)}
mi
(
T
)
=
k
σ
2
+
∑
I
=
1
k
norte
I
(
μ
+
T
I
)
2
{\ Displaystyle \ operatorname {E} (T) = k \ sigma ^ {2} + \ sum _ {i = 1} ^ {k} n_ {i} (\ mu + T_ {i}) ^ {2}}
mi
(
T
)
=
k
σ
2
+
norte
μ
2
+
2
μ
∑
I
=
1
k
(
norte
I
T
I
)
+
∑
I
=
1
k
norte
I
(
T
I
)
2
{\ Displaystyle \ operatorname {E} (T) = k \ sigma ^ {2} + n \ mu ^ {2} +2 \ mu \ sum _ {i = 1} ^ {k} (n_ {i} T_ { i}) + \ sum _ {i = 1} ^ {k} n_ {i} (T_ {i}) ^ {2}}
Bajo la hipótesis nula de que los tratamientos no causan diferencias y todos son cero, la expectativa se simplifica a
T
I
{\ Displaystyle T_ {i}}
mi
(
T
)
=
k
σ
2
+
norte
μ
2
.
{\ Displaystyle \ operatorname {E} (T) = k \ sigma ^ {2} + n \ mu ^ {2}.}
Combinación
C
=
(
∑
X
)
2
/
norte
{\ Displaystyle C = \ left (\ sum x \ right) ^ {2} / n}
mi
(
C
)
=
σ
2
+
norte
μ
2
{\ Displaystyle \ operatorname {E} (C) = \ sigma ^ {2} + n \ mu ^ {2}}
Sumas de desviaciones cuadradas
Bajo la hipótesis nula, la diferencia de cualquier par de I , T y C no contiene ninguna dependencia de , solo .
μ
{\ Displaystyle \ mu}
σ
2
{\ Displaystyle \ sigma ^ {2}}
mi
(
I
-
C
)
=
(
norte
-
1
)
σ
2
{\ Displaystyle \ operatorname {E} (IC) = (n-1) \ sigma ^ {2}}
desviaciones cuadradas totales también conocidas como suma total de cuadrados
mi
(
T
-
C
)
=
(
k
-
1
)
σ
2
{\ Displaystyle \ operatorname {E} (TC) = (k-1) \ sigma ^ {2}}
tratamiento de desviaciones al cuadrado, también conocido como suma explicada de cuadrados
mi
(
I
-
T
)
=
(
norte
-
k
)
σ
2
{\ Displaystyle \ operatorname {E} (IT) = (nk) \ sigma ^ {2}}
desviaciones cuadradas residuales también conocidas como suma de cuadrados residuales
Las constantes ( n - 1), ( k - 1) y ( n - k ) normalmente se conocen como el número de grados de libertad .
Ejemplo
En un ejemplo muy simple, surgen 5 observaciones de dos tratamientos. El primer tratamiento da tres valores 1, 2 y 3, y el segundo tratamiento da dos valores 4 y 6.
I
=
1
2
1
+
2
2
1
+
3
2
1
+
4
2
1
+
6
2
1
=
66
{\ Displaystyle I = {\ frac {1 ^ {2}} {1}} + {\ frac {2 ^ {2}} {1}} + {\ frac {3 ^ {2}} {1}} + {\ frac {4 ^ {2}} {1}} + {\ frac {6 ^ {2}} {1}} = 66}
T
=
(
1
+
2
+
3
)
2
3
+
(
4
+
6
)
2
2
=
12
+
50
=
62
{\ Displaystyle T = {\ frac {(1 + 2 + 3) ^ {2}} {3}} + {\ frac {(4 + 6) ^ {2}} {2}} = 12 + 50 = 62 }
C
=
(
1
+
2
+
3
+
4
+
6
)
2
5
=
256
/
5
=
51,2
{\ Displaystyle C = {\ frac {(1 + 2 + 3 + 4 + 6) ^ {2}} {5}} = 256/5 = 51,2}
Donación
Desviaciones cuadradas totales = 66 - 51,2 = 14,8 con 4 grados de libertad.
Desviaciones del cuadrado del tratamiento = 62 - 51,2 = 10,8 con 1 grado de libertad.
Desviaciones cuadradas residuales = 66 - 62 = 4 con 3 grados de libertad.
Análisis de varianza bidireccional
El siguiente ejemplo hipotético da los rendimientos de 15 plantas sujetas a dos variaciones ambientales diferentes y tres fertilizantes diferentes.
CO 2 adicional
Humedad extra
Sin fertilizante
7, 2, 1
7, 6
Nitrato
11, 6
10, 7, 3
Fosfato
5, 3, 4
11, 4
Se calculan cinco sumas de cuadrados:
Factor
Cálculo
Suma
σ
2
{\ Displaystyle \ sigma ^ {2}}
Individual
7
2
+
2
2
+
1
2
+
7
2
+
6
2
+
11
2
+
6
2
+
10
2
+
7
2
+
3
2
+
5
2
+
3
2
+
4
2
+
11
2
+
4
2
{\ Displaystyle 7 ^ {2} + 2 ^ {2} + 1 ^ {2} + 7 ^ {2} + 6 ^ {2} + 11 ^ {2} + 6 ^ {2} + 10 ^ {2} + 7 ^ {2} + 3 ^ {2} + 5 ^ {2} + 3 ^ {2} + 4 ^ {2} + 11 ^ {2} + 4 ^ {2}}
641
15
Fertilizante × Medio ambiente
(
7
+
2
+
1
)
2
3
+
(
7
+
6
)
2
2
+
(
11
+
6
)
2
2
+
(
10
+
7
+
3
)
2
3
+
(
5
+
3
+
4
)
2
3
+
(
11
+
4
)
2
2
{\ Displaystyle {\ frac {(7 + 2 + 1) ^ {2}} {3}} + {\ frac {(7 + 6) ^ {2}} {2}} + {\ frac {(11+ 6) ^ {2}} {2}} + {\ frac {(10 + 7 + 3) ^ {2}} {3}} + {\ frac {(5 + 3 + 4) ^ {2}} { 3}} + {\ frac {(11 + 4) ^ {2}} {2}}}
556.1667
6
Fertilizante
(
7
+
2
+
1
+
7
+
6
)
2
5
+
(
11
+
6
+
10
+
7
+
3
)
2
5
+
(
5
+
3
+
4
+
11
+
4
)
2
5
{\ displaystyle {\ frac {(7 + 2 + 1 + 7 + 6) ^ {2}} {5}} + {\ frac {(11 + 6 + 10 + 7 + 3) ^ {2}} {5 }} + {\ frac {(5 + 3 + 4 + 11 + 4) ^ {2}} {5}}}
525,4
3
Ambiente
(
7
+
2
+
1
+
11
+
6
+
5
+
3
+
4
)
2
8
+
(
7
+
6
+
10
+
7
+
3
+
11
+
4
)
2
7
{\ displaystyle {\ frac {(7 + 2 + 1 + 11 + 6 + 5 + 3 + 4) ^ {2}} {8}} + {\ frac {(7 + 6 + 10 + 7 + 3 + 11 +4) ^ {2}} {7}}}
519.2679
2
Compuesto
(
7
+
2
+
1
+
11
+
6
+
5
+
3
+
4
+
7
+
6
+
10
+
7
+
3
+
11
+
4
)
2
15
{\ displaystyle {\ frac {(7 + 2 + 1 + 11 + 6 + 5 + 3 + 4 + 7 + 6 + 10 + 7 + 3 + 11 + 4) ^ {2}} {15}}}
504,6
1
Finalmente, se pueden calcular las sumas de desviaciones cuadradas requeridas para el análisis de varianza .
Factor
Suma
σ
2
{\ Displaystyle \ sigma ^ {2}}
Total
Ambiente
Fertilizante
Fertilizante × Medio ambiente
Residual
Individual
641
15
1
1
Fertilizante × Medio ambiente
556.1667
6
1
−1
Fertilizante
525,4
3
1
−1
Ambiente
519.2679
2
1
−1
Compuesto
504,6
1
−1
−1
−1
1
Desviaciones cuadradas
136,4
14.668
20,8
16.099
84.833
Grados de libertad
14
1
2
2
9
Ver también
Referencias
^ Mood & Graybill: Introducción a la teoría de la estadística (McGraw Hill)
<img src="https://en.wikipedia.org/wiki/Special:CentralAutoLogin/start?type=1x1" alt="" title="" width="1" height="1" style="border: none; position: absolute;">