Monday, 13 November 2017

Inflyttning genomsnitt tidsseriedataanalys


När du beräknar ett löpande rörligt medelvärde, är det genomsnittligt att placera genomsnittet i mellantidstiden. I föregående exempel beräknade vi genomsnittet av de första 3 tidsperioderna och placerade det bredvid period 3. Vi kunde ha placerat medelvärdet mitt i tidsintervall av tre perioder, det vill säga bredvid period 2. Detta fungerar bra med udda tidsperioder, men inte så bra för jämn tid. Så var skulle vi placera det första glidande medlet när M 4 Tekniskt sett skulle det rörliga genomsnittet falla vid t 2.5, 3.5. För att undvika detta problem släpper vi MAs med M 2. Således släpper vi de jämnderade värdena Om vi ​​i genomsnitt ett jämnt antal termer behöver vi släta de jämnderade värdena Följande tabell visar resultaten med M 4.Vävande medelvärden Flytta medeltal Med konventionella dataset är medelvärdet ofta det första och en av de mest användbara, sammanfattande statistiken för att beräkna. När data är i form av en tidsserie är seriemärket en användbar åtgärd, men återspeglar inte dataens dynamiska natur. Medelvärden beräknade över korta perioder, antingen före den aktuella perioden eller centrerad under den aktuella perioden, är ofta mer användbara. Eftersom sådana medelvärden varierar eller flyttas, då den aktuella perioden går från tid t 2, t 3. etc. är de kända som glidande medelvärden (Mas). Ett enkelt glidande medelvärde är (vanligtvis) det obegripade medlet av k tidigare värden. Ett exponentiellt vägt rörligt medelvärde är väsentligen detsamma som ett enkelt rörligt medelvärde, men med bidrag till medelvärdet viktat av deras närhet till den aktuella tiden. Eftersom det inte finns en, men en hel serie av rörliga medelvärden för en given serie, kan maset själva vara ritat på diagram, analyserade som en serie och används vid modellering och prognoser. En rad modeller kan konstrueras med hjälp av glidande medelvärden, och dessa är kända som MA-modeller. Om sådana modeller kombineras med autoregressiva (AR) modeller är de resulterande kompositmodellerna kända som ARMA - eller ARIMA-modeller (jag är för integrerad). Enkla glidande medelvärden Eftersom en tidsserie kan betraktas som en uppsättning värden, kan t 1,2,3,4, n genomsnittet av dessa värden beräknas. Om vi ​​antar att n är ganska stor, och vi väljer ett heltal k som är mycket mindre än n. vi kan beräkna en uppsättning blockmedelvärden eller enkla rörliga medelvärden (i ordning k): Varje mätning representerar genomsnittet av datavärdena över ett intervall av k-observationer. Observera att den första möjliga MA i ordningen k gt0 är den för t k. Mer generellt kan vi släppa det extra prenumerationen i ovanstående uttryck och skriva: Detta säger att det uppskattade medelvärdet vid tiden t är det enkla genomsnittet av det observerade värdet vid tiden t och de föregående k -1-stegen. Om vikter appliceras som minskar bidraget från observationer som är längre bort i tid, sägs det glidande medlet vara exponentiellt jämna. Flytta medelvärden används ofta som en form av prognoser, varvid det uppskattade värdet för en serie vid tiden t 1, S t1. tas som MA för perioden fram till och med tiden t. t. ex. Dagens uppskattning baseras på ett genomsnitt av tidigare inspelade värden fram till och med gårdagarna (för dagliga data). Enkla glidande medelvärden kan ses som en form av utjämning. I det nedan angivna exemplet har luftföroreningens dataset som visas i introduktionen till detta ämne ökat med en 7 dagars glidande medelvärde (MA) - linje, som visas här i rött. Såsom kan ses, släpper MA-linjen ut topparna och trågen i data och kan vara till stor hjälp när det gäller att identifiera trender. Standarden framåtberäkningsformeln innebär att de första k -1 datapunkterna inte har något MA-värde, men därefter sträcker sig beräkningarna ut till den slutliga datapunkten i serien. PM10 dagliga medelvärden, Greenwich källa: London Air Quality Network, londonair. org. uk En anledning till att beräkna enkla glidande medelvärden på det sätt som beskrivs är att det gör det möjligt att beräkna värden för alla tidsluckor från tid tk fram till idag, och När en ny mätning erhålls för tid t 1 kan MA för tid t 1 läggas till den redan beräknade uppsättningen. Detta ger ett enkelt förfarande för dynamiska dataset. Det finns emellertid vissa problem med detta tillvägagångssätt. Det är rimligt att hävda att medelvärdet under de senaste 3 perioderna ska vara placerat vid tiden t -1, inte tiden t. och för en MA över ett jämnt antal perioder kanske det borde ligga mitt i punkten mellan två tidsintervaller. En lösning på denna fråga är att använda centrerade MA-beräkningar, där MA vid tiden t är medelvärdet av en symmetrisk uppsättning värden runt t. Trots dess uppenbara meriter används inte detta tillvägagångssätt allmänt eftersom det krävs att data är tillgängliga för framtida händelser, vilket kanske inte är fallet. I fall där analysen helt och hållet består av en befintlig serie, kan användningen av centrerad Mas vara att föredra. Enkla glidande medelvärden kan betraktas som en form av utjämning, avlägsna några högfrekventa komponenter i en tidsserie och markera (men inte ta bort) trender på ett sätt som liknar den allmänna uppfattningen av digital filtrering. Faktum är att glidmedel är en form av linjärt filter. Det är möjligt att tillämpa en glidande medelberäkning till en serie som redan har slätts, dvs utjämning eller filtrering av en redan slätad serie. Till exempel med ett glidande medelvärde av ordning 2 kan vi betrakta det som beräknat med vikter, så MA vid x 2 0,5 x 1 0,5 x 2. På samma sätt kan MA vid x 3 0,5 x 2 0,5 x 3. Om vi Applicera en andra nivå av utjämning eller filtrering, vi har 0,5 x 2 0,5 x 3 0,5 (0,5 x 2 0,5 x 3) 0,25 x 1 0,5 x 2 0,25 x 3 dvs 2-stegs filtrering process (eller convolution) har producerat ett variabelt viktat symmetriskt rörligt medelvärde, med vikter. Flera omvälvningar kan producera ganska komplexa viktade glidmedel, av vilka vissa har visat sig vara särskilt användningsområden inom specialiserade områden, t. ex. i livförsäkringsberäkningar. Flyttande medelvärden kan användas för att avlägsna periodiska effekter om de beräknas med periodens längd som känd. Exempelvis kan säsongsvariationer ofta avlägsnas (om detta är målet) med hjälp av ett symmetriskt 12 månaders glidande medelvärde med alla månader viktade lika mycket, med undantag för det första och det sista som vägs med 12. Detta beror på att det kommer att var 13 månader i den symmetriska modellen (aktuell tid, t. - 6 månader). Totalen är dividerad med 12. Liknande procedurer kan antas för vilken väldefinierad periodicitet som helst. Exponentiellt vägda glidmedel (EWMA) Med den enkla glidande medelformeln: alla observationer är lika viktiga. Om vi ​​kallade dessa lika vikter, alfa t. var och en av k-vikterna skulle motsvara 1 k. så summan av vikterna skulle vara 1 och formeln skulle vara: Vi har redan sett att flera tillämpningar av denna process resulterar i vikterna varierande. Med exponentiellt vägda glidmedel är bidraget till medelvärdet från observationer som är mer borttagna i tiden minskat, vilket därmed understryker senare (lokala) händelser. I grunden introduceras en utjämningsparameter, 0lt al1, och formeln revideras till: En symmetrisk version av denna formel skulle vara av formen: Om vikterna i den symmetriska modellen väljas som villkoren för villkoren för binomial expansion, (1212) 2q. de kommer att summeras till 1, och när q blir stor kommer den att approximera normalfördelningen. Detta är en form av kärnviktning, med binomial som fungerar som kärnfunktionen. Den tvåstegsvalsning som beskrivs i föregående stycke är just detta arrangemang, med q 1, vilket ger vikterna. Vid exponentiell utjämning är det nödvändigt att använda en uppsättning vikter som summerar till 1 och som reducerar geometriskt i storlek. De använda vikterna är typiskt av formen: För att visa att dessa vikter uppgår till 1, överväga utvidgningen av 1 som en serie. Vi kan skriva och expandera uttrycket i parentes med binomialformeln (1- x) p. där x (1-) och p -1, vilket ger: Detta ger då en form av viktat glidande medelvärde av formuläret: Denna summering kan skrivas som en återkommande relation: vilket förenklar beräkningen kraftigt och undviker problemet att viktningsregimen bör strängt vara oändlig för vikterna sammanlagt till 1 (för små värden av alfa. detta är vanligtvis inte fallet). Notationen som används av olika författare varierar. Vissa använder bokstaven S för att indikera att formeln i huvudsak är en jämn variabel och skriv: medan kontrollteori litteraturen ofta använder Z snarare än S för exponentiellt viktade eller jämnda värden (se exempelvis Lucas och Saccucci, 1990, LUC1 , och NIST-webbplatsen för mer detaljer och fungerade exempel). De ovan angivna formlerna härstammar från Roberts arbete (1959, ROB1), men Hunter (1986, HUN1) använder ett uttryck av formen: vilket kan vara mer lämpligt för användning vid vissa kontrollförfaranden. Med alfa 1 är medelvärdet bara det uppmätta värdet (eller värdet av föregående dataobjekt). Med 0,5 är uppskattningen det enkla glidande medlet för nuvarande och tidigare mätningar. Vid prognosmodeller är värdet S t. används ofta som uppskattnings - eller prognosvärde för nästa tidsperiod, dvs som uppskattning för x vid tidpunkt t 1. Således har vi: Detta visar att prognosvärdet vid tid t 1 är en kombination av det tidigare exponentiellt viktade glidande medlet plus en komponent som representerar det vägda prediktionsfelet, epsilon. vid tiden t. Antag att en tidsserie ges och en prognos krävs, ett värde för alfa krävs. Detta kan beräknas från befintliga data genom att utvärdera summan av kvadrerade prediktionsfel erhållna med varierande värden av alfa för varje t 2,3. inställning av den första uppskattningen som det första observerade datavärdet, x 1. I kontrollapplikationer är värdet av alfa viktigt eftersom det används vid bestämning av de övre och nedre kontrollgränserna och påverkar den genomsnittliga körlängden (ARL) som förväntas innan dessa kontrollgränser bryts (under antagandet att tidsserierna representerar en uppsättning slumpmässiga, identiskt distribuerade oberoende variabler med gemensam varians). Under dessa omständigheter är variansen av kontrollstatistiken: (Lucas och Saccucci, 1990): Kontrollgränser fastställs vanligtvis som fasta multiplar av denna asymptotiska varians, t. ex. - 3 gånger standardavvikelsen. Om exempelvis alfa 0,25 och de data som övervakas antas ha en Normalfördelning, N (0,1), när den är i kontroll, kommer kontrollgränserna att vara - 1,134 och processen kommer att nå en eller annan gräns i 500 steg i genomsnitt. Lucas och Saccucci (1990 LUC1) härleda ARL för ett brett spektrum av alfa värden och under olika antaganden med användning av Markov Chain-förfaranden. De tabulerar resultaten, inklusive att tillhandahålla ARL, när medelvärdet av kontrollprocessen har skiftats med en del multipel av standardavvikelsen. Till exempel, med ett 0,5 skift med alfa 0,25 är ARL mindre än 50 tidssteg. Tillvägagångssätten som beskrivs ovan är kända som enda exponentiell utjämning. eftersom förfarandena appliceras en gång till tidsserierna och sedan utförs analyser eller kontrollprocesser på den resulterande utjämnade datasatsen. Om datasetet innehåller en trend och eller säsongsbetonade komponenter kan två - eller trestegs exponentiell utjämning användas för att avlägsna (explicit modellering) dessa effekter (se vidare avsnittet Prognoser nedan och NIST-exemplet). CHA1 Chatfield C (1975) Analysen av Times Series: Theory and Practice. Chapman och Hall, London HUN1 Hunter J S (1986) Det exponentiellt vägda glidande medlet. J av Quality Technology, 18, 203-210 LUC1 Lucas J M, Saccucci M S (1990) Exponentiellt viktade rörliga medelkontrollsystem: Egenskaper och förbättringar. Technometrics, 32 (1), 1-12 ROB1 Roberts S W (1959) Kontrolldiagramtester baserat på geometriska rörliga medelvärden. Technometrics, 1, 239-250Moving Average Detta exempel lär dig hur du beräknar glidande medelvärdet för en tidsserie i Excel. Ett glidande medel används för att jämna ut oegentligheter (toppar och dalar) för att enkelt kunna känna igen trender. 1. Låt oss först titta på våra tidsserier. 2. Klicka på Dataanalys på fliken Data. Obs! Kan inte hitta knappen Data Analysis Klicka här för att ladda verktyget Analysis ToolPak. 3. Välj Flytta genomsnitt och klicka på OK. 4. Klicka i rutan Inmatningsområde och välj intervallet B2: M2. 5. Klicka i rutan Intervall och skriv 6. 6. Klicka i rutan Utmatningsområde och välj cell B3. 8. Skriv ett diagram över dessa värden. Förklaring: Eftersom vi ställer intervallet till 6 är det rörliga genomsnittet genomsnittet för de föregående 5 datapunkterna och den aktuella datapunkten. Som ett resultat utjämnas toppar och dalar. Diagrammet visar en ökande trend. Excel kan inte beräkna det rörliga genomsnittet för de första 5 datapunkterna, eftersom det inte finns tillräckligt med tidigare datapunkter. 9. Upprepa steg 2 till 8 för intervall 2 och intervall 4. Slutsats: Ju större intervall desto mer toppar och dalar släpper ut. Ju mindre intervallet desto närmare glidmedel är de faktiska datapunkterna.

No comments:

Post a Comment