Predicción por técnicas de suavizado Este sitio es una parte de los objetos de aprendizaje de JavaScript E-Labs para la toma de decisiones. Otros JavaScript de esta serie se clasifican en diferentes áreas de aplicaciones en la sección MENÚ de esta página. Una serie de tiempo es una secuencia de observaciones que se ordenan en el tiempo. Inherente en la recolección de datos tomados en el tiempo es una forma de variación al azar. Existen métodos para reducir la cancelación del efecto debido a la variación aleatoria. Las técnicas ampliamente utilizadas son el alisado. Estas técnicas, cuando se aplican correctamente, revelan con mayor claridad las tendencias subyacentes. Introduzca la serie de tiempo en orden de fila en secuencia, comenzando desde la esquina superior izquierda y los parámetros, luego haga clic en el botón Calcular para obtener una previsión de un período de tiempo. Las cajas en blanco no se incluyen en los cálculos, pero los ceros son. Al introducir los datos para pasar de celda a celda en la matriz de datos, utilice la tecla Tab no la flecha o las teclas de entrada. Características de las series temporales, que podrían revelarse al examinar su gráfico. Con los valores pronosticados, y el comportamiento de los residuos, modelado de predicción de condiciones. Promedios móviles: Las medias móviles se encuentran entre las técnicas más populares para el preprocesamiento de series de tiempo. Se utilizan para filtrar el ruido blanco aleatorio de los datos, para hacer la serie temporal más suave o incluso para enfatizar ciertos componentes informativos contenidos en la serie de tiempo. Suavizado exponencial: Este es un esquema muy popular para producir una serie temporal suavizada. Mientras que en Promedios móviles las observaciones anteriores se ponderan igualmente, el suavizado exponencial asigna pesos exponencialmente decrecientes a medida que la observación se hace mayor. En otras palabras, las observaciones recientes reciben un peso relativamente mayor en la predicción que las observaciones más antiguas. Double Exponential Smoothing es mejor para manejar las tendencias. Triple Exponential Smoothing es mejor en el manejo de las tendencias de la parábola. Un promedio móvil ponderado exponencialmente con una constante de suavizado a. Corresponde aproximadamente a una media móvil simple de longitud (es decir, periodo) n, donde a y n están relacionados por: a 2 / (n1) OR n (2 - a) / a. Así, por ejemplo, una media móvil exponencialmente ponderada con una constante de suavizado igual a 0,1 correspondería aproximadamente a un promedio móvil de 19 días. Y una media móvil simple de 40 días correspondería aproximadamente a una media móvil ponderada exponencialmente con una constante de suavizado igual a 0,04878. Holt Lineal Exponencial Suavizado: Suponga que la serie temporal no es estacional pero sí muestra la tendencia. El método Holts estima tanto el nivel actual como la tendencia actual. Observe que la media móvil simple es un caso especial del suavizado exponencial estableciendo el periodo de la media móvil en la parte entera de (2-Alpha) / Alpha. Para la mayoría de los datos empresariales, un parámetro Alpha menor de 0,40 suele ser efectivo. Sin embargo, se puede realizar una búsqueda de cuadrícula del espacio de parámetros, con 0,1 a 0,9, con incrementos de 0,1. Entonces el mejor alfa tiene el menor error absoluto medio (error MA). Cómo comparar varios métodos de suavizado: Aunque existen indicadores numéricos para evaluar la exactitud de la técnica de pronóstico, el enfoque más amplio consiste en utilizar la comparación visual de varios pronósticos para evaluar su exactitud y elegir entre los diversos métodos de pronóstico. En este enfoque, se debe trazar (utilizando, por ejemplo, Excel) en el mismo gráfico los valores originales de una variable de serie temporal y los valores predichos de varios métodos de pronóstico diferentes, facilitando así una comparación visual. Es posible que desee utilizar las previsiones pasadas mediante técnicas de suavizado JavaScript para obtener los valores de pronóstico anteriores basados en técnicas de suavizado que utilizan sólo un parámetro. Holt y Winters usan dos y tres parámetros, respectivamente, por lo que no es una tarea fácil seleccionar los valores óptimos, o incluso casi óptimos por ensayo, y los errores de los parámetros. El único suavizado exponencial enfatiza la perspectiva de corto alcance que fija el nivel a la última observación y se basa en la condición de que no hay tendencia. La regresión lineal, que se ajusta a una línea de mínimos cuadrados a los datos históricos (o datos históricos transformados), representa el largo alcance, que está condicionado por la tendencia básica. El alineamiento exponencial lineal de Holts captura la información sobre la tendencia reciente. Los parámetros en el modelo de Holts son los niveles-parámetro que deben ser disminuidos cuando la cantidad de variación de los datos es grande, y tendencias-parámetro debe ser aumentado si la dirección de la tendencia reciente es apoyada por la causal algunos factores. Pronóstico a Corto Plazo: Observe que cada JavaScript en esta página proporciona un pronóstico de un paso adelante. Obtener un pronóstico de dos pasos adelante. Simplemente agregue el valor pronosticado al final de los datos de la serie temporal y luego haga clic en el mismo botón Calcular. Puede repetir este proceso varias veces para obtener los pronósticos a corto plazo necesarios. Tengo una lista de personas, tiempos de registro y puntuaciones. En Stata quiero calcular una media móvil de la puntuación basada en una ventana de tiempo alrededor de cada observación (no una ventana basada en el número de observaciones atrasado / líder). Por ejemplo, asumiendo / - 2 días a cada lado y sin incluir la observación actual, estoy tratando de calcular algo como esto: he intentado definir el conjunto de datos con tsset y luego usar tssmooth. Pero no podía conseguir que funcionara. Dado que puede haber múltiples observaciones para un período de tiempo dado no estoy seguro de que esto es incluso el enfoque correcto. Además, en realidad la variable day es un tc timestamp. Pidió Dic 6 13 a las 16:04 tsset no puede ayudar aquí, incluso si ha hecho sus tiempos regularmente espaciados, ya que tiene algunos valores repetidos de tiempo, sin embargo, sus datos no califican como datos de panel en sentido Statas. Pero el problema debe ceder a un bucle sobre las posibilidades. En primer lugar, vamos a tomar su ejemplo literalmente con días enteros. Aquí asumimos que no faltan valores. El principio de llevar adelante es el promedio de otros (suma de todos - este valor) / (número de valores - 1) En la práctica, no desea hacer un bucle sobre todas las posibles fechas-veces en milisegundos. Por lo tanto, intente un bucle sobre las observaciones de esta forma. Nota ltpseudocodegt elementos. Este artículo es también relevante: si las faltas son posibles, una línea debe ser más complicada: es decir, si falta el valor actual, restamos 0 de la suma y 0 del recuento de observaciones. EDIT: Durante 2 días en milisegundos, explotar la función incorporada y usar cofd (2). Estadísticas: Análisis de Datos y Software Estadístico Nicholas J. Cox, Universidad de Durham, Reino Unido Christopher Baum, Boston College egen, ma () y sus limitaciones Statarsquos más Obvio comando para calcular promedios móviles es la función ma () de egen. Dada una expresión, crea un promedio móvil de esa expresión. De forma predeterminada, se toma como 3. debe ser impar. Sin embargo, como indica la entrada manual, egen, ma () no se puede combinar con varlist:. Y, por esa sola razón, no es aplicable a los datos de los grupos especiales. En cualquier caso, se encuentra fuera del conjunto de comandos específicamente escritos para series de tiempo ver series de tiempo para más detalles. Métodos alternativos Para calcular las medias móviles de los datos del panel, hay al menos dos opciones. Ambos dependen de que el conjunto de datos haya sido tsset de antemano. Esto vale mucho la pena: no sólo puede ahorrarse repetidamente especificando la variable de panel y la variable de tiempo, pero Stata se comporta de manera inteligente dada lagunas en los datos. 1. Escriba su propia definición utilizando generate Usando operadores de series de tiempo como L. y F.. Dar la definición de la media móvil como el argumento a una declaración de generar. Si lo hace, naturalmente, no está limitado a los promedios móviles ponderados (no ponderados) centrados calculados por egen, ma (). Por ejemplo, los promedios móviles de tres periodos ponderados por igual estarían dados por y algunos pesos pueden ser fácilmente especificados: Usted puede, por supuesto, especificar una expresión como log (myvar) en lugar de un nombre de variable como myvar. Una gran ventaja de este enfoque es que Stata hace automáticamente lo correcto para los datos del panel: los valores de avance y retraso se calculan dentro de paneles, tal como la lógica dicta que deberían ser. La desventaja más notable es que la línea de comandos puede ser bastante larga si el promedio móvil implica varios términos. Otro ejemplo es una media móvil unilateral basada sólo en valores anteriores. Esto podría ser útil para generar una expectativa adaptativa de lo que una variable se basará puramente en la información hasta la fecha: ¿qué podría alguien prever para el período actual basado en los últimos cuatro valores, utilizando un esquema de ponderación fijo? Especialmente utilizado con series de tiempos trimestrales.) 2. Utilice egen, filter () de SSC Utilice el filtro de función egen escrito por el usuario () del paquete egenmore en SSC. En Stata 7 (actualizado después del 14 de noviembre de 2001), puede instalar este paquete después de que ayuda egenmore señala los detalles en filter (). Los dos ejemplos anteriores serían renderizados (en esta comparación el enfoque de generar es tal vez más transparente, pero veremos un ejemplo de lo contrario en un momento). Los retrasos son un numlist. Los conductores son retardos negativos: en este caso -1/1 se expande a -1 0 1 o el plomo 1, retrasa 0, retraso 1. Los coeficientes, otro numlist, multiplican los artículos retrasados o principales relevantes: en este caso esos artículos son F1.myvar. Myvar y L1.myvar. El efecto de la opción normalizar es escalar cada coeficiente por la suma de los coeficientes para que coef (1 1 1) normalize sea equivalente a coeficientes de 1/3 1/3 1/3 y coef (1 2 1) normalizar es equivalente A coeficientes de 1/4 1/2 1/4. Debe especificar no sólo los rezagos, sino también los coeficientes. Debido a que egen, ma () proporciona el caso igualmente ponderado, la razón principal para egen, filter () es apoyar el caso desigualmente ponderado, para el cual debe especificar coeficientes. También podría decirse que obligar a los usuarios a especificar coeficientes es un poco más de presión sobre ellos para pensar qué coeficientes quieren. La principal justificación para pesos iguales es, suponemos, la simplicidad, pero los pesos iguales tienen propiedades de dominio de frecuencia pésimas, por mencionar sólo una consideración. El tercer ejemplo anterior podría ser cualquiera de los cuales es casi tan complicado como el enfoque de generar. Hay casos en que egen, filter () da una formulación más simple que generar. Si quieres un filtro binomial de nueve términos, que los climatólogos encuentren útil, entonces parece quizás menos horrible que, y más fácil de conseguir que justo, así como con el enfoque de generar, egen, filter () funciona correctamente con los datos del panel. De hecho, como se indicó anteriormente, depende de que el conjunto de datos haya sido tsset de antemano. Una punta gráfica Después de calcular sus promedios móviles, es probable que desee ver un gráfico. El comando escrito por el usuario tsgraph es inteligente acerca de conjuntos de datos tsset. Instálelo en un Stata 7 actualizado por ssc inst tsgraph. ¿Qué pasa con subconjunto con si ninguno de los ejemplos anteriores hacer uso de si las restricciones. De hecho, egen, ma () no permitirá si se especifica. Ocasionalmente la gente quiere usar si al calcular promedios móviles, pero su uso es un poco más complicado de lo que suele ser. ¿Qué esperaría de un promedio móvil calculado con if. Identificemos dos posibilidades: Interpretación débil: No quiero ver ningún resultado para las observaciones excluidas. Interpretación fuerte: Ni siquiera quiero que uses los valores de las observaciones excluidas. He aquí un ejemplo concreto. Supongamos que como consecuencia de alguna condición if, se incluyen las observaciones 1-42 pero no las observaciones 43 sobre. Pero el promedio móvil de 42 dependerá, entre otras cosas, del valor de observación 43 si el promedio se extiende hacia atrás y hacia adelante y es de longitud por lo menos 3, y dependerá de algunas de las observaciones 44 en adelante en algunas circunstancias. Nuestra conjetura es que la mayoría de la gente iría para la interpretación débil, pero si eso es correcto, egen, filter () no apoya si cualquiera. Siempre se puede ignorar lo que donrsquot quieren o incluso establecer valores no deseados a falta después mediante el uso de reemplazar. Una nota sobre los resultados faltantes en los extremos de la serie Debido a que los promedios móviles son funciones de retrasos y derivaciones, egen, ma () produce falta donde no existen los retrasos y las derivaciones, al principio y al final de la serie. Una opción nomiss obliga al cálculo de promedios móviles más cortos y no centrados para las colas. En contraste, ni generar ni egen, filter () hace, o permite, nada especial para evitar resultados faltantes. Si falta alguno de los valores necesarios para el cálculo, faltará ese resultado. Depende de los usuarios decidir si y qué cirugía correctiva se requiere para estas observaciones, presumiblemente después de mirar el conjunto de datos y teniendo en cuenta cualquier ciencia subyacente que se puede llevar a cabo. Promedios de movimiento Promedios móviles Con conjuntos de datos convencionales el valor medio es a menudo el primero , Y uno de los más útiles, las estadísticas de resumen para calcular. Cuando los datos están en forma de series temporales, la media de la serie es una medida útil, pero no refleja la naturaleza dinámica de los datos. Los valores medios calculados en periodos de cortocircuito, ya sea antes del período actual o centrados en el período actual, suelen ser más útiles. Debido a que tales valores medios variarán o se moverán, a medida que el periodo actual se desplaza desde el tiempo t2, t3, etc., se conocen como medias móviles (Mas). Un promedio móvil simple es (típicamente) el promedio no ponderado de k valores previos. Una media móvil exponencialmente ponderada es esencialmente la misma que una media móvil simple, pero con contribuciones a la media ponderada por su proximidad al tiempo actual. Debido a que no hay una, sino toda una serie de promedios móviles para cualquier serie dada, el conjunto de Mas puede ser trazado en gráficos, analizado como una serie, y utilizado en el modelado y la predicción. Una gama de modelos puede ser construida usando medias móviles, y éstos se conocen como modelos del MA. Si estos modelos se combinan con modelos autorregresivos (AR), los modelos compuestos resultantes se conocen como modelos ARMA o ARIMA (el I es para integrado). Promedios móviles simples Puesto que una serie temporal puede considerarse como un conjunto de valores, t 1,2,3,4, n se puede calcular el promedio de estos valores. Si asumimos que n es bastante grande, y seleccionamos un entero k que es mucho menor que n. Podemos calcular un conjunto de promedios de bloques, o medias móviles simples (de orden k): Cada medida representa el promedio de los valores de datos sobre un intervalo de k observaciones. Obsérvese que la primera MA posible de orden k gt0 es que para t k. De forma más general, podemos eliminar el subíndice extra en las expresiones anteriores y escribir: Esto indica que la media estimada en el tiempo t es el promedio simple del valor observado en el tiempo t y los pasos de tiempo anteriores k -1. Si se aplican pesos que disminuyen la contribución de las observaciones que están más lejos en el tiempo, se dice que el promedio móvil se alisa exponencialmente. Los promedios móviles se usan a menudo como una forma de pronóstico, por lo que el valor estimado para una serie en el tiempo t 1, S t1. Se toma como la MA para el período hasta e incluyendo el tiempo t. p. ej. La estimación de hoy se basa en un promedio de valores anteriores registrados hasta e incluyendo ayer (para datos diarios). Los promedios móviles simples pueden ser vistos como una forma de suavizar. En el ejemplo ilustrado a continuación, el conjunto de datos sobre contaminación atmosférica que se muestra en la introducción a este tema se ha aumentado con una línea de 7 días de media móvil (MA), que se muestra aquí en rojo. Como se puede ver, la línea de MA suaviza los picos y valles en los datos y puede ser muy útil para identificar las tendencias. La fórmula estándar de cálculo de forward significa que los primeros k -1 puntos de datos no tienen ningún valor MA, pero a partir de entonces los cálculos se extienden hasta el punto final de datos de la serie. Una razón para calcular promedios móviles simples de la manera descrita es que permite calcular los valores para todos los intervalos de tiempo desde el tiempo tk hasta el presente , Y como se obtiene una nueva medida para el tiempo t1, la MA para el tiempo t1 se puede añadir al conjunto ya calculado. Esto proporciona un procedimiento sencillo para conjuntos de datos dinámicos. Sin embargo, hay algunos problemas con este enfoque. Es razonable argumentar que el valor medio en los últimos 3 períodos, digamos, debería estar situado en el tiempo t -1, no en el tiempo t. Y para una MA sobre un número par de períodos tal vez debería estar situado en el punto medio entre dos intervalos de tiempo. Una solución a este problema es usar cálculos de MA centrados, en los que la MA en el tiempo t es la media de un conjunto simétrico de valores alrededor de t. A pesar de sus obvios méritos, este enfoque no se utiliza generalmente porque requiere que los datos estén disponibles para eventos futuros, lo que puede no ser el caso. En casos donde el análisis es enteramente de una serie existente, el uso de Mas centrado puede ser preferible. Los promedios móviles simples pueden considerarse como una forma de suavizado, eliminando algunos componentes de alta frecuencia de una serie temporal y destacando (pero no eliminando) las tendencias de manera similar a la noción general de filtrado digital. De hecho, las medias móviles son una forma de filtro lineal. Es posible aplicar un cálculo del promedio móvil a una serie que ya ha sido suavizada, es decir, suavizar o filtrar una serie ya suavizada. Por ejemplo, con un promedio móvil de orden 2, podemos considerar que se calcula usando pesos, por lo que la MA en x 2 0,5 x 1 0,5 x 2. Igualmente, la MA en x 3 0,5 x 2 0,5 x 3. Si Aplicar un segundo nivel de suavizado o filtrado, tenemos 0,5 x 2 0,5 x 3 0,5 (0,5 x 1 0,5 x 2) 0,5 (0,5 x 2 0,5 x 3) 0,25 x 1 0,5 x 2 0,25 x 3 es decir, el filtro de 2 etapas Proceso (o convolución) ha producido una media móvil simétrica ponderada variablemente, con pesos. Las convoluciones múltiples pueden producir promedios móviles ponderados bastante complejos, algunos de los cuales se han encontrado de uso particular en campos especializados, como en los cálculos del seguro de vida. Medias móviles se pueden utilizar para eliminar los efectos periódicos si se calcula con la longitud de la periodicidad como un conocido. Por ejemplo, con datos mensuales, las variaciones estacionales pueden ser eliminadas (si este es el objetivo) aplicando una media móvil simétrica de 12 meses con todos los meses ponderados igualmente, excepto el primero y el último que se ponderan en 1/2. Esto es porque habrá 13 meses en el modelo simétrico (tiempo actual, t. / - 6 meses). El total se divide por 12. Se pueden adoptar procedimientos similares para cualquier periodicidad bien definida. Promedios móviles ponderados exponencialmente (EWMA) Con la fórmula del promedio móvil simple: todas las observaciones son igualmente ponderadas. Si llamamos a estos pesos iguales, alfa t. Cada uno de los k pesos sería igual a 1 / k. Por lo que la suma de los pesos sería 1, y la fórmula sería: Ya hemos visto que las aplicaciones múltiples de este proceso resultan en los pesos que varían. Con las medias móviles exponencialmente ponderadas, se reduce la contribución al valor medio de las observaciones que se eliminan más en el tiempo, haciendo hincapié en los acontecimientos más recientes (locales). Esencialmente se introduce un parámetro de suavizado, 0lt alfa lt1, y la fórmula se revisa a: Una versión simétrica de esta fórmula sería de la forma: Si los pesos en el modelo simétrico son seleccionados como los términos de los términos de la expansión binomial, (1/21/2) 2q. Se sumarán a 1, y cuando q se haga grande, se aproximará a la distribución Normal. Esta es una forma de peso del núcleo, con el binomio actuando como la función del núcleo. La convolución de dos etapas descrita en la subsección anterior es precisamente esta disposición, con q1, dando los pesos. En el suavizado exponencial es necesario utilizar un conjunto de pesos que suman a 1 y que se reducen en tamaño geométricamente. Los pesos utilizados son típicamente de la forma: Para mostrar que estos pesos suman a 1, considere la expansión de 1 / como una serie. Podemos escribir y expandir la expresión entre paréntesis usando la fórmula binomial (1-x) p. Donde x (1-) y p -1, lo que da: Esto proporciona entonces una forma de media móvil ponderada de la forma: Esta suma puede escribirse como una relación de recurrencia: lo que simplifica enormemente el cálculo y evita el problema de que el régimen de ponderación Debe ser estrictamente infinito para que los pesos sumen a 1 (para valores pequeños de alfa, esto no suele ser el caso). La notación utilizada por diferentes autores varía. Algunos usan la letra S para indicar que la fórmula es esencialmente una variable suavizada y escriben: mientras que la literatura de la teoría de control usualmente usa Z en lugar de S para los valores exponencialmente ponderados o suavizados (véase, por ejemplo, Lucas y Saccucci, 1990, LUC1 , Y el sitio web del NIST para más detalles y ejemplos trabajados). Las fórmulas citadas anteriormente derivan del trabajo de Roberts (1959, ROB1), pero Hunter (1986, HUN1) utiliza una expresión de la forma: que puede ser más apropiada para su uso en algunos procedimientos de control. Con alfa 1, la estimación media es simplemente su valor medido (o el valor del elemento de datos anterior). Con 0.5 la estimación es el promedio móvil simple de las mediciones actuales y anteriores. En los modelos de predicción el valor, S t. Se utiliza a menudo como estimación o valor de pronóstico para el siguiente período de tiempo, es decir, como la estimación de x en el tiempo t 1. Así, tenemos: Esto muestra que el valor pronosticado en el tiempo t 1 es una combinación de la media móvil ponderada exponencial anterior Más un componente que representa el error de predicción ponderado, epsilon. En el tiempo t. Suponiendo que se da una serie de tiempo y se requiere una predicción, se requiere un valor para alfa. Esto puede estimarse a partir de los datos existentes mediante la evaluación de la suma de los errores de predicción al cuadrado obtenidos con valores variables de alfa para cada t 2,3. Estableciendo la primera estimación como el primer valor de datos observado, x 1. En aplicaciones de control, el valor de alfa es importante porque se usa en la determinación de los límites de control superior e inferior y afecta a la longitud de ejecución media (ARL) esperada Antes de que estos límites de control se rompen (bajo el supuesto de que las series temporales representan un conjunto de variables independientes aleatorias, distribuidas de forma idéntica con varianza común). En estas circunstancias, la varianza de la estadística de control es (Lucas y Saccucci, 1990): Los límites de control se establecen usualmente como múltiplos fijos de esta varianza asintótica, p. / - 3 veces la desviación estándar. Si alfa 0.25, por ejemplo, y se supone que los datos que se están supervisando tienen una distribución Normal, N (0,1), cuando están en control, los límites de control serán / - 1.134 y el proceso alcanzará uno u otro límite en 500 Pasos en promedio. Lucas y Saccucci (1990 LUC1) derivan los ARLs para una amplia gama de valores alfa y bajo diversas suposiciones usando procedimientos de cadena de Markov. Ellos tabulan los resultados, incluyendo el suministro de ARLs cuando la media del proceso de control ha sido desplazada por un múltiplo de la desviación estándar. Por ejemplo, con un cambio de 0.5 con alfa 0.25 el ARL es menos de 50 pasos de tiempo. Los enfoques descritos anteriormente se conocen como suavizado exponencial simple. Ya que los procedimientos se aplican una vez a la serie temporal y luego los procesos de análisis o control se llevan a cabo en el conjunto de datos suavizado resultante. Si el conjunto de datos incluye una tendencia y / o componentes estacionales, se puede aplicar el suavizado exponencial de dos o tres etapas como un medio para eliminar (modelar explícitamente) estos efectos (véase más adelante la sección sobre Pronóstico y el ejemplo trabajado del NIST ). CHA1 Chatfield C (1975) El Análisis de la Serie de Tiempos: Teoría y Práctica. Chapman y Hall, Londres HUN1 Hunter J S (1986) La media móvil exponencialmente ponderada. J of Quality Technology, 18, 203-210 LUC1 Lucas J M, Saccucci M S (1990) Esquemas de control del promedio móvil ponderado exponencialmente: Propiedades y mejoras. Technometrics, 32 (1), 1-12 ROB1 Roberts S W (1959) Pruebas de gráficos de control basadas en medias móviles geométricas. Modelos de suavización media y exponencial Como primer paso para superar los modelos medios, los modelos de caminata aleatoria y los modelos de tendencias lineales, los patrones no estacionales y las tendencias pueden extrapolarse usando un modelo de media móvil o suavizado. La suposición básica detrás de los modelos de promedio y suavizado es que la serie temporal es localmente estacionaria con una media variable lentamente. Por lo tanto, tomamos un promedio móvil (local) para estimar el valor actual de la media y luego usarlo como pronóstico para el futuro cercano. Esto puede considerarse como un compromiso entre el modelo medio y el modelo aleatorio-paseo-sin-deriva. La misma estrategia se puede utilizar para estimar y extrapolar una tendencia local. Una media móvil se denomina a menudo una versión quotomoldeada de la serie original porque el promedio de corto plazo tiene el efecto de suavizar los golpes en la serie original. Al ajustar el grado de suavizado (el ancho de la media móvil), podemos esperar encontrar algún tipo de equilibrio óptimo entre el rendimiento de la media y los modelos de caminata aleatoria. El tipo más simple de modelo de promediación es el. Promedio móvil simple (igualmente ponderado): El pronóstico para el valor de Y en el tiempo t1 que se hace en el tiempo t es igual al promedio simple de las observaciones m más recientes: (Aquí y en otros lugares usaré el símbolo 8220Y-hat8221 para permanecer en pie Para un pronóstico de la serie de tiempo Y hecho a la fecha más temprana posible posible por un modelo dado). Este promedio se centra en el período t (m1) / 2, lo que implica que la estimación de la media local tiende a quedar rezagada detrás del Valor real de la media local de aproximadamente (m1) / 2 periodos. Por lo tanto, decimos que la edad media de los datos en el promedio móvil simple es (m1) / 2 en relación con el período para el cual se calcula el pronóstico: es la cantidad de tiempo que las previsiones tienden a rezagarse detrás de los puntos de inflexión en el datos. Por ejemplo, si está promediando los últimos 5 valores, las previsiones serán de aproximadamente 3 períodos tarde en la respuesta a los puntos de inflexión. Tenga en cuenta que si m1, el modelo de media móvil simple (SMA) es equivalente al modelo de caminata aleatoria (sin crecimiento). Si m es muy grande (comparable a la longitud del período de estimación), el modelo SMA es equivalente al modelo medio. Como con cualquier parámetro de un modelo de pronóstico, es habitual ajustar el valor de k para obtener el mejor valor de los datos, es decir, los errores de predicción más pequeños en promedio. He aquí un ejemplo de una serie que parece presentar fluctuaciones aleatorias alrededor de una media de variación lenta. En primer lugar, vamos a tratar de encajar con un modelo de caminata al azar, que es equivalente a una media móvil simple de un término: El modelo de caminata aleatoria responde muy rápidamente a los cambios en la serie, pero al hacerlo, recoge gran parte del quotnoisequot en el Los datos (las fluctuaciones aleatorias), así como el quotsignalquot (la media local). Si en lugar de eso intentamos una media móvil simple de 5 términos, obtendremos un conjunto de previsiones más suaves: El promedio móvil simple a 5 terminos produce errores significativamente menores que el modelo de caminata aleatoria en este caso. La edad promedio de los datos de esta previsión es de 3 ((51) / 2), de modo que tiende a quedar a la zaga de los puntos de inflexión en aproximadamente tres períodos. (Por ejemplo, parece haber ocurrido una recesión en el período 21, pero las previsiones no giran hasta varios periodos más tarde). Obsérvese que los pronósticos a largo plazo del modelo SMA son una línea recta horizontal, al igual que en la caminata aleatoria modelo. Por lo tanto, el modelo SMA asume que no hay tendencia en los datos. Sin embargo, mientras que las previsiones del modelo de caminata aleatoria son simplemente iguales al último valor observado, las previsiones del modelo SMA son iguales a un promedio ponderado de valores recientes. Los límites de confianza calculados por Statgraphics para los pronósticos a largo plazo de la media móvil simple no se amplían a medida que aumenta el horizonte de pronóstico. Esto obviamente no es correcto Desafortunadamente, no hay una teoría estadística subyacente que nos diga cómo los intervalos de confianza deberían ampliarse para este modelo. Sin embargo, no es demasiado difícil calcular estimaciones empíricas de los límites de confianza para las previsiones a más largo plazo. Por ejemplo, podría configurar una hoja de cálculo en la que el modelo SMA se utilizaría para pronosticar dos pasos adelante, tres pasos adelante, etc. dentro de la muestra de datos históricos. A continuación, podría calcular las desviaciones estándar de los errores en cada horizonte de pronóstico y, a continuación, construir intervalos de confianza para pronósticos a más largo plazo sumando y restando múltiplos de la desviación estándar apropiada. Si intentamos una media móvil sencilla de 9 términos, obtendremos pronósticos aún más suaves y más de un efecto rezagado: La edad promedio es ahora de 5 períodos ((91) / 2). Si tomamos una media móvil de 19 términos, la edad promedio aumenta a 10: Obsérvese que, de hecho, las previsiones están ahora rezagadas detrás de los puntos de inflexión en aproximadamente 10 períodos. Qué cantidad de suavizado es la mejor para esta serie Aquí hay una tabla que compara sus estadísticas de error, incluyendo también un promedio de 3 términos: El modelo C, la media móvil de 5 términos, produce el valor más bajo de RMSE por un pequeño margen sobre los 3 A término y 9 promedios, y sus otras estadísticas son casi idénticas. Por lo tanto, entre los modelos con estadísticas de error muy similares, podemos elegir si preferiríamos un poco más de capacidad de respuesta o un poco más de suavidad en las previsiones. El modelo de media móvil simple descrito anteriormente tiene la propiedad indeseable de que trata las últimas k observaciones por igual e ignora por completo todas las observaciones precedentes. (Volver al principio de la página.) Browns Simple Exponential Smoothing Intuitivamente, los datos pasados deben ser descontados de una manera más gradual - por ejemplo, la observación más reciente debería tener un poco más de peso que la segunda más reciente, y la segunda más reciente debería tener un poco más de peso que la tercera más reciente, y pronto. El modelo de suavizado exponencial simple (SES) lo logra. Sea 945 una constante quotsmoothingquot (un número entre 0 y 1). Una forma de escribir el modelo es definir una serie L que represente el nivel actual (es decir, el valor medio local) de la serie, tal como se estimó a partir de los datos hasta el presente. El valor de L en el tiempo t se calcula recursivamente a partir de su propio valor anterior como este: Así, el valor suavizado actual es una interpolación entre el valor suavizado anterior y la observación actual, donde 945 controla la proximidad del valor interpolado al valor más reciente observación. El pronóstico para el siguiente período es simplemente el valor suavizado actual: Equivalentemente, podemos expresar el próximo pronóstico directamente en términos de previsiones anteriores y observaciones previas, en cualquiera de las siguientes versiones equivalentes. En la primera versión, la previsión es una interpolación entre la previsión anterior y la observación anterior: En la segunda versión, la siguiente previsión se obtiene ajustando la previsión anterior en la dirección del error anterior por una cantidad fraccionada de 945. es el error hecho en Tiempo t En la tercera versión, el pronóstico es una media móvil exponencialmente ponderada (es decir, descontada) con el factor de descuento 1-945: La versión de interpolación de la fórmula de pronóstico es la más simple de usar si está implementando el modelo en una hoja de cálculo: se ajusta en un Célula única y contiene referencias de celdas que apuntan a la previsión anterior, la observación anterior y la celda donde se almacena el valor de 945. Tenga en cuenta que si 945 1, el modelo SES es equivalente a un modelo de caminata aleatoria (sin crecimiento). Si 945 0, el modelo SES es equivalente al modelo medio, asumiendo que el primer valor suavizado se establece igual a la media. La edad promedio de los datos en el pronóstico de suavización exponencial simple es de 1/945 en relación con el período para el cual se calcula la predicción. (Esto no se supone que sea obvio, pero se puede demostrar fácilmente mediante la evaluación de una serie infinita.) Por lo tanto, el pronóstico promedio móvil simple tiende a quedar rezagado detrás de puntos de inflexión en aproximadamente 1/945 períodos. Por ejemplo, cuando 945 0.5 el retraso es 2 períodos cuando 945 0.2 el retraso es 5 períodos cuando 945 0.1 el retraso es 10 períodos, y así sucesivamente. Para una edad promedio dada (es decir, la cantidad de retraso), el simple suavizado exponencial (SES) pronosticado es algo superior a la predicción del promedio móvil simple (SMA), ya que coloca relativamente más peso en la observación más reciente - ie. Es un poco más sensible a los cambios ocurridos en el pasado reciente. Por ejemplo, un modelo SMA con 9 términos y un modelo SES con 945 0.2 tienen una edad promedio de 5 para los datos de sus pronósticos, pero el modelo SES pone más peso en los 3 últimos valores que el modelo SMA y en el modelo SMA. Otra ventaja importante del modelo SES sobre el modelo SMA es que el modelo SES utiliza un parámetro de suavizado que es continuamente variable, por lo que se puede optimizar fácilmente Utilizando un algoritmo quotsolverquot para minimizar el error cuadrático medio. El valor óptimo de 945 en el modelo SES de esta serie resulta ser 0.2961, como se muestra aquí: La edad promedio de los datos de esta previsión es de 1 / 0.2961 3.4 períodos, que es similar a la de un movimiento simple de 6 términos promedio. Los pronósticos a largo plazo del modelo SES son una línea recta horizontal. Como en el modelo SMA y el modelo de caminata aleatoria sin crecimiento. Sin embargo, tenga en cuenta que los intervalos de confianza calculados por Statgraphics ahora divergen de manera razonable y que son sustancialmente más estrechos que los intervalos de confianza para el modelo de caminata aleatoria. El modelo SES asume que la serie es algo más predecible que el modelo de caminata aleatoria. Un modelo SES es en realidad un caso especial de un modelo ARIMA. Por lo que la teoría estadística de los modelos ARIMA proporciona una base sólida para el cálculo de los intervalos de confianza para el modelo SES. En particular, un modelo SES es un modelo ARIMA con una diferencia no estacional, un término MA (1) y ningún término constante. Conocido también como modelo quotARIMA (0,1,1) sin constantequot. El coeficiente MA (1) en el modelo ARIMA corresponde a la cantidad 1-945 en el modelo SES. Por ejemplo, si se ajusta un modelo ARIMA (0,1,1) sin constante a la serie analizada aquí, el coeficiente MA estimado (1) resulta ser 0.7029, que es casi exactamente uno menos 0.2961. Es posible añadir la suposición de una tendencia lineal constante no nula a un modelo SES. Para ello, basta con especificar un modelo ARIMA con una diferencia no estacional y un término MA (1) con una constante, es decir, un modelo ARIMA (0,1,1) con constante. Las previsiones a largo plazo tendrán entonces una tendencia que es igual a la tendencia media observada durante todo el período de estimación. No puede hacerlo junto con el ajuste estacional, ya que las opciones de ajuste estacional están deshabilitadas cuando el tipo de modelo se establece en ARIMA. Sin embargo, puede agregar una tendencia exponencial a largo plazo constante a un modelo de suavizado exponencial simple (con o sin ajuste estacional) utilizando la opción de ajuste de inflación en el procedimiento de Pronóstico. La tasa apropiada de inflación (crecimiento porcentual) por período puede estimarse como el coeficiente de pendiente en un modelo de tendencia lineal ajustado a los datos en conjunción con una transformación de logaritmo natural o puede basarse en otra información independiente sobre las perspectivas de crecimiento a largo plazo . (Regreso al inicio de la página.) Browns Linear (es decir, doble) Suavizado exponencial Los modelos SMA y SES suponen que no hay ninguna tendencia de ningún tipo en los datos (que normalmente está bien o al menos no es demasiado malo para 1- Avance anticipado cuando los datos son relativamente ruidosos), y se pueden modificar para incorporar una tendencia lineal constante como se muestra arriba. ¿Qué pasa con las tendencias a corto plazo? Si una serie muestra una tasa de crecimiento variable o un patrón cíclico que se destaca claramente contra el ruido, y si hay una necesidad de pronosticar más de un período por delante, la estimación de una tendencia local también podría ser un problema. El modelo de suavizado exponencial simple puede generalizarse para obtener un modelo lineal de suavizado exponencial (LES) que calcula las estimaciones locales de nivel y tendencia. El modelo de tendencia más simple que varía en función del tiempo es el modelo lineal de suavizado exponencial de Browns, el cual utiliza dos series suavizadas diferentes que están centradas en diferentes momentos del tiempo. La fórmula de predicción se basa en una extrapolación de una línea a través de los dos centros. (Una versión más sofisticada de este modelo, Holt8217s, se discute a continuación). La forma algebraica del modelo de suavizado exponencial lineal de Brown8217s, como la del modelo de suavizado exponencial simple, puede expresarse en un número de formas diferentes pero equivalentes. La forma estándar de este modelo se expresa usualmente de la siguiente manera: Sea S la serie de suavizado simple obtenida aplicando el suavizado exponencial simple a la serie Y. Es decir, el valor de S en el periodo t está dado por: (Recuérdese que, Exponencial, esto sería la previsión para Y en el período t1). Entonces, vamos a Squot denotar la serie doblemente suavizada obtenida aplicando el suavizado exponencial simple (usando el mismo 945) a la serie S: Finalmente, la previsión para Y tk. Para cualquier kgt1, viene dado por: Esto produce e 1 0 (es decir, trucar un poco y dejar que el primer pronóstico sea igual a la primera observación real), y e 2 Y 2 8211 Y 1. Después de lo cual las previsiones se generan usando la ecuación anterior. Esto produce los mismos valores ajustados que la fórmula basada en S y S si estos últimos se iniciaron usando S 1 S 1 Y 1. Esta versión del modelo se utiliza en la página siguiente que ilustra una combinación de suavizado exponencial con ajuste estacional. Holt8217s Linear Exponential Smoothing Brown8217s El modelo LES calcula las estimaciones locales de nivel y tendencia al suavizar los datos recientes, pero el hecho de que lo haga con un solo parámetro de suavizado impone una restricción en los patrones de datos que puede encajar: el nivel y la tendencia No se les permite variar a tasas independientes. El modelo LES de Holt8217s aborda este problema incluyendo dos constantes de suavizado, una para el nivel y otra para la tendencia. En cualquier momento t, como en el modelo Brown8217s, existe una estimación L t del nivel local y una estimación T t de la tendencia local. Aquí se calculan recursivamente a partir del valor de Y observado en el instante t y de las estimaciones previas del nivel y de la tendencia por dos ecuaciones que les aplican el suavizado exponencial separadamente. Si el nivel estimado y la tendencia en el tiempo t-1 son L t82091 y T t-1. Respectivamente, entonces la previsión de Y tshy que habría sido hecha en el tiempo t-1 es igual a L t-1 T t-1. Cuando se observa el valor real, la estimación actualizada del nivel se calcula recursivamente interpolando entre Y tshy y su pronóstico, L t-1 T t-1, utilizando pesos de 945 y 1-945. El cambio en el nivel estimado, Es decir L t 8209 L t82091. Puede interpretarse como una medida ruidosa de la tendencia en el tiempo t. La estimación actualizada de la tendencia se calcula recursivamente mediante la interpolación entre L t 8209 L t82091 y la estimación anterior de la tendencia, T t-1. Utilizando los pesos de 946 y 1-946: La interpretación de la constante de suavizado de tendencia 946 es análoga a la de la constante de suavizado de nivel 945. Los modelos con valores pequeños de 946 asumen que la tendencia cambia muy lentamente con el tiempo, mientras que los modelos con 946 más grandes suponen que está cambiando más rápidamente. Un modelo con una gran 946 cree que el futuro lejano es muy incierto, porque los errores en la estimación de la tendencia son muy importantes cuando se pronostica más de un período por delante. Las constantes de suavizado 945 y 946 se pueden estimar de la manera habitual minimizando el error cuadrático medio de los pronósticos de 1 paso adelante. Cuando esto se hace en Statgraphics, las estimaciones resultan ser 945 0,3048 y 946 0,008. El valor muy pequeño de 946 significa que el modelo supone muy poco cambio en la tendencia de un período al siguiente, por lo que básicamente este modelo está tratando de estimar una tendencia a largo plazo. Por analogía con la noción de la edad media de los datos que se utilizan para estimar el nivel local de la serie, la edad media de los datos que se utilizan para estimar la tendencia local es proporcional a 1/946, aunque no exactamente igual a eso. En este caso, resulta ser 1 / 0.006 125. Esto no es un número muy preciso en la medida en que la precisión de la estimación de 946 es realmente de 3 decimales, pero es del mismo orden general de magnitud que el tamaño de la muestra de 100 , Por lo que este modelo está promediando bastante historia en la estimación de la tendencia. La gráfica de pronóstico siguiente muestra que el modelo LES calcula una tendencia local ligeramente mayor al final de la serie que la tendencia constante estimada en el modelo SEStrend. Además, el valor estimado de 945 es casi idéntico al obtenido ajustando el modelo SES con o sin tendencia, por lo que este es casi el mismo modelo. Ahora, ¿se ven como pronósticos razonables para un modelo que se supone que está estimando una tendencia local? Si observa esta gráfica, parece que la tendencia local se ha vuelto hacia abajo al final de la serie. Lo que ha ocurrido Los parámetros de este modelo Se han estimado minimizando el error al cuadrado de las previsiones de un paso adelante, y no las previsiones a largo plazo, en cuyo caso la tendencia no hace mucha diferencia. Si todo lo que usted está mirando son errores de un paso adelante, no está viendo la imagen más grande de las tendencias sobre (digamos) 10 o 20 períodos. Con el fin de obtener este modelo más en sintonía con la extrapolación de nuestro ojo de los datos, podemos ajustar manualmente la tendencia de suavizado constante de modo que utiliza una base más corta para la estimación de tendencia. Por ejemplo, si elegimos establecer 946 0.1, la edad promedio de los datos utilizados para estimar la tendencia local es de 10 períodos, lo que significa que estamos promediando la tendencia en los últimos 20 períodos aproximadamente. Here8217s lo que el pronóstico gráfico parece si fijamos 946 0.1 mientras que mantener 945 0.3. Esto parece intuitivamente razonable para esta serie, aunque probablemente sea peligroso extrapolar esta tendencia en más de 10 periodos en el futuro. ¿Qué pasa con las estadísticas de errores? Aquí hay una comparación de modelos para los dos modelos mostrados arriba, así como tres modelos SES. El valor óptimo de 945 para el modelo SES es de aproximadamente 0,3, pero se obtienen resultados similares (con un poco más o menos de capacidad de respuesta, respectivamente) con 0,5 y 0,2. (A) Holts lineal exp. Alisamiento con alfa 0.3048 y beta 0.008 (B) Holts linear exp. Alisamiento con alfa 0.3 y beta 0.1 (C) Suavizado exponencial simple con alfa 0.5 (D) Alisamiento exponencial simple con alfa 0.3 (E) Suavizado exponencial simple con alfa 0.2 Sus estadísticas son casi idénticas, por lo que realmente no podemos hacer la elección sobre la base De errores de pronóstico de un paso adelante en la muestra de datos. Tenemos que recurrir a otras consideraciones. Si creemos firmemente que tiene sentido basar la estimación de tendencia actual en lo que ha ocurrido durante los últimos 20 períodos, podemos hacer un caso para el modelo LES con 945 0.3 y 946 0.1. Si queremos ser agnósticos acerca de si hay una tendencia local, entonces uno de los modelos SES podría ser más fácil de explicar y también daría más pronósticos intermedios para los próximos 5 o 10 períodos. (Volver al principio de la página.) Qué tipo de tendencia-extrapolación es la mejor: horizontal o lineal La evidencia empírica sugiere que, si los datos ya han sido ajustados (si es necesario) para la inflación, puede ser imprudente extrapolar lineal a corto plazo Tendencias en el futuro. Las tendencias evidentes hoy en día pueden desacelerarse en el futuro debido a causas variadas como la obsolescencia del producto, el aumento de la competencia y las caídas o repuntes cíclicos en una industria. Por esta razón, el suavizado exponencial simple a menudo realiza mejor fuera de la muestra de lo que de otra manera podría esperarse, a pesar de su extrapolación horizontal de tendencia horizontal. Las modificaciones de la tendencia amortiguada del modelo de suavizado exponencial lineal también se usan a menudo en la práctica para introducir una nota de conservadurismo en sus proyecciones de tendencia. El modelo LES con tendencia amortiguada se puede implementar como un caso especial de un modelo ARIMA, en particular, un modelo ARIMA (1,1,2). Es posible calcular intervalos de confianza en torno a los pronósticos a largo plazo producidos por modelos de suavizado exponencial, al considerarlos como casos especiales de modelos ARIMA. El ancho de los intervalos de confianza depende de (i) el error RMS del modelo, (ii) el tipo de suavizado (simple o lineal) (iii) el valor (S) de la (s) constante (s) de suavizado y (iv) el número de periodos por delante que está pronosticando. En general, los intervalos se extienden más rápidamente a medida que el 945 se hace más grande en el modelo SES y se extienden mucho más rápido cuando se usa lineal en lugar de simple suavizado. Este tema se discute más adelante en la sección de modelos de ARIMA de las notas. (Volver al inicio de la página.)
Comments
Post a Comment