Subsecciones


5.2 Ajuste. Criterio de los mínimos cuadrados

Fijada la familia de funciones que se utilizará para ajustar los valores de una serie estadística bidimensional, ésta dependerá de unos parámetros. El método que se usará para la estimación de dichos parámetros es el de los mínimos cuadrados, que consiste en hacer mínima la suma de las diferencias al cuadrado entre los valores observados y los correspondientes valores ajustados.

Formalmente, sean $(x_1,y_1),(x_2,y_2),\cdots,(x_n,y_n)$, los valores observados y $g(x,\alpha,\beta,\cdots,\theta)$ la función de ajuste. Los valores de los parámetros se obtienen imponiendo la condición de hacer mínima la función $H$, donde

\begin{displaymath}
H(\alpha,\beta,\cdots,\theta)=\sum_{i=1}^n[y_i
-f(x_i,\alpha,\beta,\cdots,\theta)]^2.
\end{displaymath}

Para ello, se calculan las derivadas parciales de $H$ respecto de cada uno de los parámetros y se igualan a cero:

\begin{displaymath}
\frac{\partial H}{\partial \alpha} = 0,
\frac{\partial H}{\partial\beta}=0,\cdots,
\frac{\partial H}{\partial \theta} =0.
\end{displaymath}

Con esto se genera un sistema de tantas ecuaciones como parámetros, llamado sistema de ecuaciones normales, que resuelto da los valores de los parámetros. A continuación, se hace un estudio más detallado para algunas funciones de uso habitual.

5.2.1 Caso lineal

Sean $(x_1,y_1),(x_2,y_2),\cdots,(x_n,y_n)$ los valores observados5.2y sea $f(x,a,b) = a+b x$ la recta de ajuste de los valores de $Y$ en función de los de $X$. Se obtienen los valores $a$ y $b$ minimizando la función error cuadrático, $H$, dada por

\begin{displaymath}H(a,b)=\sum_{i=1}^n[y_i-(a+bx_i)]^2\ .\end{displaymath}

Derivando respecto a los dos parámetros

\begin{eqnarray*}
\frac{\partial H(a,b)}{\partial a}&=&-2\sum_{i=1}^n[y_i-(a+bx...
...{\partial H(a,b)}{\partial b}&=&-2\sum_{i=1}^n[y_i-(a+bx_i)]x_i
\end{eqnarray*}


e igualando a cero, queda el siguiente sistema de ecuaciones, que se conoce como sistema de ecuaciones normales del modelo:

\begin{eqnarray*}
\sum_{i=1}^ny_i&=&na+b\sum_{i=1}^nx_i\\
\sum_{i=1}^ny_ix_i&=&a\sum_{i=1}^nx_i+b\sum_{i=1}^nx_i^2 .
\end{eqnarray*}


Utilizando la notación
$\displaystyle y_i^*$ $\textstyle =$ $\displaystyle f(x_i)=a+bx_i$  
$\displaystyle e_i$ $\textstyle =$ $\displaystyle y_i-y_i^* \,$ (5.1)

el sistema de ecuaciones normales puede expresarse de la forma
$\displaystyle \sum_{i=1}^ne_i$ $\textstyle =$ $\displaystyle 0$  
$\displaystyle \sum_{i=1}^ne_ix_i$ $\textstyle =$ $\displaystyle 0$ (5.2)

donde $e_i$ representa el residuo o error de la observación $i$-ésima.

Admitiendo que se verifican las condiciones suficientes de mínimo se pueden obtener fácilmente los valores de $a$ y $b$:

\begin{eqnarray*}
a&=&\bar{y}-b\bar{x}\\
b&=&\frac{S_{xy}}{S_x^2}.
\end{eqnarray*}


Si se quiere obtener la línea de ajuste de $X$ respecto a $Y$, llamando ahora $a'$ y $b'$ a los coeficientes de la recta, se obtiene

\begin{eqnarray*}
a'&=&\bar{x}-b'\bar{y}\\
b'&=&\frac{S_{xy}}{S_y^2}.
\end{eqnarray*}


Los valores $b$ y $b'$ que son las pendientes de las rectas de ajuste, reciben el nombre de coeficientes de regresión y representan los incrementos de las variables dependientes para aumentos unitarios de las independientes.

Figura: Criterio de los mínimos cuadrados
\begin{figure}\begin{displaymath}
\begin{picture}(300.00,180.00)(0,10)\linethi...
...ut(235,145){\makebox(0,0){$y=a+bx$}}
\end{picture}\end{displaymath}
\end{figure}


\begin{ejemplo}
Dada la distribución bidimensional
\begin{displaymath}\begin{ar...
...e cuando se incrementa $Y$\ en una unidad $X$
crece 0'26 unidades.
\end{ejemplo}

Recta de ajuste del ejemplo [*].2er1

Se han definido dos nuevas variables, por una parte $Y^*$, que representa los valores ajustados de la variable $Y$ y que tiene por media y varianza:

\begin{eqnarray*}
\bar{y}^*&=&\bar{y}\\
S_{y^*}^2&=&bS_{xy}
\end{eqnarray*}


y por otra parte, la variable residuo $e$, con media y varianza:
$\displaystyle \bar{e}$ $\textstyle =$ $\displaystyle 0$  
$\displaystyle S_e^2$ $\textstyle =$ $\displaystyle \fra{\sum_{i=1}^ne_i^2}{n}=\fra{\sum_{i=1}^n(y_i-y_i^*)^2}{n}.$ (5.3)

$S_e^2$ recibe el nombre de varianza residual, y puede expresarse también de la forma

\begin{displaymath}S_e^2=\fra{\sum_{i=1}^ny_i^2-a\sum_{i=1}^ny_i-b\sum_{i=1}^nx_iy_i}{n}\ .\end{displaymath}

Estas dos variables están incorreladas. En efecto, multiplicando la primera expresión de ([*]) por $a$ y la segunda por $b$, se tiene

\begin{displaymath}0=a\sum_{i=1}^ne_i+b\sum_{i=1}^ne_ix_i=\sum_{i=1}^ne_i(a+bx_i)=\sum_{i=1}^ne_iy_i^*\end{displaymath}

y puesto que $\bar{e}=0$, resulta
\begin{displaymath}
S_{ey^*}=\fra{\sum_{i=1}^ne_iy_i^*}{n}-\bar{e}\bar{y}^*=0
\end{displaymath} (5.4)

como se quería demostrar.


\begin{ejercicio}Demuestre las siguientes propiedades:
\spro Las rectas de regr...
...erse como:
\begin{displaymath}r=± \sqrt{bb'}\ .\end{displaymath}\end{ejercicio}

Todo lo que se ha dicho hasta ahora es generalizable a funciones linealizables, sin más que hacer los cambios y transformaciones pertinentes, como los que se muestran en la tabla [*].


Tabla: Linealización de funciones
\begin{table}\begin{displaymath}
\begin{array}{\vert\vert l\vert l\vert l\ver...
...\fra{1}{x}\end{array}\right.
\\ \hline
\end{array}\end{displaymath}\end{table}


5.2.2 Caso parabólico

Se considera la función de ajuste $f(x,a,b,c)= a + bx + cx^2$, parábola de segundo grado. Para obtener los valores de $a$, $b$ y $c$ se utiliza el método de los mínimos cuadrados y se minimiza la función H definida por

\begin{displaymath}H(a,b,c)=\sum_{i=1}^n [y_i -(a+bx_i+cx_i^2)]^2\ .\end{displaymath}

Para ello se calculan las derivadas parciales de $H$ respecto de $a$, $b$ y $c$ y se igualan a cero:

\begin{eqnarray*}
\frac{\partial H}{\partial a}&=&-2\sum_{i=1}^n [y_i -(a+bx_i+...
...H}{\partial c}&=&-2\sum_{i=1}^n [y_i
-(a+bx_i+cx_i^2)]x_i^2=0.
\end{eqnarray*}


Despejando los términos independientes, se obtiene el sistema de ecuaciones normales:

\begin{eqnarray*}
\sum_{i=1}^n y_i&=&an+b\sum_{i=1}^nx_i+c\sum_{i=1}^n x_i^2\\ ...
...^2&=&a\sum_{i=1}^nx_i^2+b\sum_{i=1}^nx_i^3+c\sum_{i=1}^n x_i^4.
\end{eqnarray*}


De igual forma si se definen $y^* = a + bx_i + cx_i^2$ y $e_i =
y_i - y_i^*$ el sistema de ecuaciones normales se puede expresar como

\begin{eqnarray*}
\sum_{i=1}^n e_i&=&0\\
\sum_{i=1}^ne_ix_i&=&0\\
\sum_{i=1}^n e_i x_i^2&=&0.
\end{eqnarray*}


La varianza residual vale ahora

\begin{displaymath}S_e^2=\fra{\sum_{i=1}^ny_i^2-a\sum_{i=1}^ny_i-b\sum_{i=1}^nx_iy_i-c\sum_{i=1}^nx_i^2y_i}{n}\ .\end{displaymath}

Autor: Grupo de Investigación TeLoYDisRen
WWW: http://www.uca.es/grupos-inv/FQM270
ISBN: 84-9828-058-3