Bachelorafhandling af: Martin Thrane Pedersen Eksamensnummer: 201207910 Marc Hartung Eskildsen Eksamensnummer: 20113770 Vejleder: Michael Christensen Morningstar Ratings and Mutual Funds An empirical study of Morningstar ratings in the Danish equity fund industry from 2004 to 2014 Maj 2015 Antal anslag: 118.146 Aarhus Universitet Business and Social Sciences Institut for Økonomi Abstract The mutual fund industry has experienced tremendous growth throughout the last decade both in the sheer number of funds and in capital invested. The literature pays extensive attention to the many aspects of investing in mutual funds. Research suggests that investors take Morningstar ratings into consideration when trying to pick well performing funds, resulting in higher in-flow to higher rated funds. But can the positive relationship between in-flow and ratings be reasoned by the fact that higher rated funds outperform lower rated funds in the following periods? Do the ratings really possess predictive power? Empirically, this highly popular 5-star rating system has received much attention by, among others, Blake & Morey in 2000 and Morey & Gottesmann in 2006. So far, no studies have researched the area of Morningstar ratings and mutual fund performance solely in the Danish equity fund industry. This thesis incorporates different elements of previous studies to explore the Morningstar ratings in Denmark. While an analysis of the predictive power is the main subject, a number of methods are employed to shed light on different sub-areas of the ratings in order to present an exhaustive analysis. Our 10-year dataset consists of monthly observations on the 187 Danish equity funds that were rated by Morningstar in October 2004. We find that the 4- and 5-star funds on average tended to receive a positive net in-flow of cash, while the lower rated funds experienced an out-flow. These results are in alignment with the findings from previous studies of foreign funds. This further increases the relevance of our thesis. Two completely different methods were employed to assess the level of persistency in the ratings. Where the first is based on contingency tables, the second models the development of ratings into transition matrices. To ensure robustness, both are conducted over various time horizons. Calculating and assigning the Morningstar ratings is an elaborate process, as it involves utility theory and several other factors. Therefore, we wish to see whether ratings based on less structural models create different distributions of stars. These alternative measures, based on CAPM, Carhart’s 4-factor model and the Sharpe Ratio, are also employed in the tests for predictive power. The ratings’ predictive power is assessed by looking at their ability to predict a monotonic relationship between the five rating groups. Furthermore, the ability to identify the best performing funds is assessed by comparing Morningstar’s 5-star group with those of the alternative predictors. We once again apply two methods to ensure robustness. One is based on a 3-year out-of-sample method used by Blake & Morey in 2000. The other is based on a test for monotonicity in asset returns using periods of only one month. To obtain a relevant comparison for Morningstar in both methods, 3-year rating distributions are created using the alternative measures. All out-of-sample returns are adjusted using the three same measures. i The analysis of persistency in ratings yielded somewhat contradicting results, but seemed to suggest unstable ratings. The comparison of the full Morningstar ratings with ratings based on the three alternative measures showed a high degree of consensus of funds’ past performance, resulting in overall equal distributions. Of all four rating systems, Morningstar was the only one not able to predict a monotonic relationship in risk-adjusted returns. Concerning the 5-star groups, we found no evidence that Morningstar was able to outperform any of the three alternative predictors. None of the four rating methodologies show persuasive performance. Combined, these results lead to the overall conclusion that the frequently fluctuating Morningstar ratings were not able to predict performance in the period from 2007 to 2014. ii Indhold 1 Indledning 1 1.1 Problemformulering . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 1.2 Afgrænsning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 1.3 Struktur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 1.4 Begreber og definitioner . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 2 Baggrund og teoretisk motivation 4 2.1 Litteraturgennemgang . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 2.2 Morningstars ratingmetodologi . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 2.3 Baggrund for hypoteser . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 3 Datagrundlag 3.1 3.2 9 Investeringsforeninger . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 3.1.1 Survivorship bias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 3.1.2 Omkostninger . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 3.1.3 Flow data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 Benchmarks og faktorer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 4 Metodisk grundlag 13 4.1 Kapital in-flow på tværs af stjernegrupper . . . . . . . . . . . . . . . . . . . . . . 13 4.2 Persistens i ratings . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 4.2.1 Antalstabeller på tværs af tid . . . . . . . . . . . . . . . . . . . . . . . . . 13 4.2.2 Estimering af overgangsmatricer . . . . . . . . . . . . . . . . . . . . . . . 15 Asset pricing modeller og performancemål . . . . . . . . . . . . . . . . . . . . . . 17 4.3.1 Capital Asset Pricing Model . . . . . . . . . . . . . . . . . . . . . . . . . . 17 4.3.2 Fama-Frenchs 3-faktor model . . . . . . . . . . . . . . . . . . . . . . . . . 18 4.3.3 Carharts 4-faktor model . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 4.3.4 Sharpe Ratio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 4.3.5 Kritik af valgte asset pricing modeller og performancemål . . . . . . . . . 19 4.3.6 Beregning af den danske SMB-, HML- og WML-faktor . . . . . . . . . . 21 4.4 Ratings baseret på valgte performancemål . . . . . . . . . . . . . . . . . . . . . . 23 4.5 Morningstar ratings’ forudsigelsesevne . . . . . . . . . . . . . . . . . . . . . . . . 24 4.5.1 Forudsætninger for regressionsanalyse . . . . . . . . . . . . . . . . . . . . 24 4.5.2 Analyse af periodevis performance . . . . . . . . . . . . . . . . . . . . . . 26 4.5.3 Test af performance ved månedlig reparametrisering . . . . . . . . . . . . 30 4.3 iii 5 Empiriske resultater 35 5.1 In-flow på tværs af grupper . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 5.2 Persistens i ratings . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36 5.2.1 Antalstabeller på tværs af tid . . . . . . . . . . . . . . . . . . . . . . . . . 36 5.2.2 Estimerede overgangsmatricer . . . . . . . . . . . . . . . . . . . . . . . . . 37 5.2.3 Delkonklusion for persistens i ratings . . . . . . . . . . . . . . . . . . . . . 39 5.3 Ratings baseret på alternative performancemål . . . . . . . . . . . . . . . . . . . 39 5.4 Morningstar ratings’ forudsigelsesevne . . . . . . . . . . . . . . . . . . . . . . . . 40 5.4.1 Periodevis performance . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 5.4.2 Test af performance ved månedlig reparametrisering . . . . . . . . . . . . 43 5.4.3 Delkonklusion på analyse af forudsigelsesevne . . . . . . . . . . . . . . . . 45 6 Konklusion 46 7 Diskussion og perspektivering 48 7.1 Diskussion af resultater . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 7.2 Perspektivering . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49 References 50 iv Figurer 5.1 CAPM vs. Morningstar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43 Tabeller 4.1 SMB- og HML-porteføljer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 4.2 Tidsperioder for 3-års test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 5.1 Månedligt kapital in-flow for Morningstargrupper . . . . . . . . . . . . . . . . . . 35 5.2 Antalstabeller: Start- og slutrating . . . . . . . . . . . . . . . . . . . . . . . . . . 36 5.3 Antal skift mellem ratinggrupper . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 5.4 1 måneds overgangsmatrice, % sandsynligheder . . . . . . . . . . . . . . . . . . . 38 5.5 Fastholdelsessandsynligheder, % . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38 5.6 Morningstar ratingtildeling vs. alternative ratingtildelinger . . . . . . . . . . . . . 40 5.7 Relativ performancemåling med 5-stjernede referencegrupper . . . . . . . . . . . 41 5.8 Relativ performancemåling med varierende referencegrupper . . . . . . . . . . . . 42 5.9 5-stjernet performance på tværs af ratingsystemer . . . . . . . . . . . . . . . . . . 43 5.10 Test af monotont forhold: Risikojusteret vha. CAPM og 4-faktor . . . . . . . . . 44 5.11 Morningstars 5-stjernede gruppe vs. de tre alternative predictors’ . . . . . . . . . 45 v Bilag Bilag A - Geografisk inddeling og benchmarkoversigt Bilag B - Overgangsmatrice Bilag C - Faktorer for geografiske grupper Bilag D - Fordeling af antal foreninger i hver ratinggruppe Bilag E - Sammentælling af antalstabeller til persistensanalyse Bilag F - Samlet antal år brugt i hver rating Bilag G - Morningstars forudsigelsesevne, eksempel på 3-årig dummy variable test Bilag H - Oversigt over 5-stjernet outperformance Elektroniske bilag - Excel-filer og -mapper Data fra Morningstar (afkast og rating) Data for kapital in-flow samt resultater Beregning af den danske SMB- og HML-faktor Beregning af den danske WML-faktor Mappe indeholdende forudsætningsoversigt og Stata-kommandoer Resultat af overgangsmatricer med flere tidshorisonter Mappe med antalstabeloversigt fra persistens samt MatLab-kommandoer til overgangsmatricer Datasortering og ratingtildeling (Morningstar vs. alternative ratings) Mappe med databehandling og regressioner (Morningstar vs. alternative ratings) Oversigt over resultater fra 3-års test, samlet og periodeopdelt (dummy variable regressioner) Mappe indholdende alle indledende og dummy variable regressioner samt kode til 3-års testet Resultatoversigt fra månedstestet Mappe indeholdende MatLab-kode (Patton) og data til udførelse af månedstestet vi 1 Indledning Over de seneste år er de private midler placeret i danske investeringsforeninger steget støt, og pr. marts 2015 er den samlede beholdning på 750 mia. kr. (IFB, 2015). Beløbet er fordelt på knap 600 foreninger, men er samtidig er markedet domineret af banker, da Nordea Invest og Danske Invest administrerer ca. halvdelen. Det store udbud af investeringsforeninger kan let blive uoverskueligt for private investorer, der samtidig står over for alternative investeringsmuligheder såsom aktier, obligationer og ejendomme. For at hjælpe investorer med denne udvælgelse har det globale analyseselskab Morningstar i mange år tildelt investeringsforeninger mellem 1 og 5 stjerner. De såkaldte Morningstar ratings er alment kendte, og i tildelingen af dem tages der forbehold for parametre såsom risiko, omkostninger og historisk afkast. Hver af de fem stjernegrupper tildeles en forudbestemt andel af foreningerne, og ratingsystemet er dermed baseret på relative performanceevalueringer. Danske investeringsforeninger modtager også en rating, som hyppigt anvendes i foreningernes egen markedsføring. Populariteten hos disse ratings har motiveret en række studier af deres egentlige egenskaber. Studier på udenlandsk data har vist en sammenhæng mellem tilstrømning af kapital til investeringsforeninger og deres Morningstar rating. Dette resultat antyder, at Morningstars ratings indgår som et centralt element i investorers valg af investeringsforening. Andre undersøgelser af udenlandsk data har stillet sig kritiske over for denne brug af Morningstar ratings som pegepind for fremtidig performance. Morningstar hævder ikke selv, at ratings kan bruges til at forudsige fremtidig performance, men mener derimod, at ratings bør indgå som ét af redskaberne til udvælgelse af investeringsforeninger. Spørgsmålet er, om det er begrundet at vælge foreninger ud fra deres Morningstar ratings. 1.1 Problemformulering Formålet med denne afhandling er at undersøge, hvorvidt der er en sammenhæng mellem danske aktieinvesteringsforeningers relative, risikojusterede performance og deres Morningstar rating. Der er efter forfatternes bedste viden ikke tidligere foretaget lignende akademiske undersøgelser af dette emne udelukkende på danske data. Dette empiriske gap danner grundlag for afhandlingens hovedspørgsmål: 1 Kan Morningstar ratings bruges til at forudsige relativ performance af danske investeringsforeninger? Hovedspørgsmålet analyseres gennem af- eller bekræftelse af følgende hypoteser: H1 : Der er en positiv sammenhæng mellem investeringsforeningers kapital in-flow og deres Morningstar rating H2 : Morningstar ratings er i sig selv persistente H3 : En rating-inddeling tilsvarende Morningstars opnås ikke af alternative ratingsystemer H4 : Performance af Morningstars stjernegrupper udviser et monotont forhold H5 : Morningstars 5-stjernede gruppe performer bedre end alternative ratingsystemers 5-stjernede grupper Baggrunden for de fem hypoteser diskuteres i afsnit 2.3. 1.2 Afgrænsning Undersøgelse af hovedspørgsmålet kan tage udgangspunkt i mange forskellige metoder, men forfatterne har udvalgt to til at foretage selve performanceevalueringen, to til at undersøge persistens i ratings, og én til at undersøge hhv. kapital in-flow og ratingfordeling ved alternative ratingsystemer. Datagrundlaget, der indeholder ratings, afkast og kapital flow, består af 10-årig periode fra oktober 2004 til september 2014, hvilket beskrives nærmere i kapitel 3. Data er udelukkende baseret på danske aktieinvesteringsforeninger1 , og dermed ses der bort fra obligationsinvesteringsforeninger og udenlandske investeringsforeninger. Morningstar inddeler investeringsforeninger i forskellige kategorier og stile, hvilket der også ses bort fra i denne afhandling. Endvidere tager afhandlingen ikke forbehold for eventuelle skattemæssige påvirkninger. Der er gennemgående justeret for valutakursudsving i afkast. Vi antager dermed, at investeringsforeningerne ikke har hedget mod disse, således investorer tager mulige tab og gevinster fuldt ud. Analyserne tager ikke forbehold for eventuelle omkostninger som f.eks. front-end- og back-endloads, der ikke allerede er fratrukket de tilsendte afkast fra Morningstar. Dette beskrives nærmere i afsnit 3.1.2. 1 Omtales fremover som ’investeringsforeninger’ eller blot ’foreninger’ 2 Performance i analyserne behandles udelukkende ud fra risikojusterede mål. I visse tilfælde observeres signifikant positive alpha-værdier, hvilket konflikterer med teorien om det efficiente marked (Fama, 1970). Da analyserne foretages ud fra relative og ikke absolutte evalueringer, behandler vi ikke behandler spørgsmålet om markedsefficiens. 1.3 Struktur Afhandlingen er overordnet inddelt i syv kapitler, der alle er inddelt i flere underafsnit. Kapitel 1 fungerer som indledning og redegør for problemformulering, afgrænsning og begreber. Kapitel 2 indeholder en litteraturgennemgang af tidligere studier om Morningstar ratings samt en beskrivelse af Morningstars ratingmetodologi. Dette fører hen til diskussion af hypoteserne formuleret i afhandlingens første kapitel. Kapitel 3 beskriver datagrundlaget og indsamlingen af dette. Kapitel 4 indeholder en beskrivelse af metoderne, der ligger til grund for rapportens analyser af de opstillede hypoteser. I kapitel 5 præsenteres de empiriske resultater fra analyserne, der følger rækkefølgen fra det foregående kapitel. Dette leder til kapitel 6, som opsamler resultater, besvarer de opstillede hypoteser og konkluderer på hovedspørgsmålet. Endeligt afsluttes afhandlingen i kapitel 7, hvor konklusionerne diskuteres og perspektiveres. 1.4 Begreber og definitioner Dette afsnit definerer de væsentligste begreber anvendt i afhandlingen. Afkast: Det månedlige afkast for investeringsforeningerne er beregnet som den månedlige ændring i den indre værdi (Net Asset Value). Der arbejdes med de faktiske, procentuelle merafkast, hvilket er de reelle afkast fratrukket den risikofrie rente. Monotoni: Når der tales om et monotont forhold i denne afhandling, betyder det, at der er en positiv sammenhæng mellem rating og en given variabel som f.eks. kapital in-flow eller performance. Hvis der eksisterer et monotont forhold, har højere ratede foreninger dermed et større kapital in-flow eller højere performance. Performance: Afhandlingen bruger begrebet performance i en risikojusteret sammenhæng, og vi gør brug af tre forskellige mål til at vurdere investeringsforeningernes performance: CAPM-alpha, 4-faktor-alpha og Sharpe Ratio2 . Desto større alpha og Sharpe Ratio, desto bedre performance. Persistens: Persistens betyder, at de tildelte ratings fra Morningstar ikke varierer/skifter inden for rimelige tidshorisonter. Persistensbegrebet er ikke relateret til performance. 2 Den teoretiske baggrund for disse mål er beskrevet nærmere i afsnit 4.3 3 2 Baggrund og teoretisk motivation Dette afsnit gennemgår afhandlingens teoretiske fundament og dermed motivationen for de opstillede hypoteser. Indledningsvist beskrives den hidtidige litteratur. Dernæst følger en beskrivelse af Morningstars ratingmetodologi. Informationerne fra disse to afsnit danner et fundament for diskussion af hypoteserne, der beskrives sidst i kapitlet. 2.1 Litteraturgennemgang Jaffe (1995) og Damato (1996) var de første til at påpege korrelation mellem Morningstar ratings og kapital in-flow i investeringsforeninger. De fandt, at ca. 90% af nye investeringer blev tilført foreninger med en 4- eller 5-stjernet rating3 . Sirri & Tufano (1998) forsøgte at forklare denne sammenhæng med en teori om, at investorer baserer deres valg af investeringsforening på Morningstar ratings i et forsøg på at nedbringe search costs4 . Dette fører ifølge artiklen til asymmetriske investeringer, således de højere ratede foreninger oplever disproportionalt store in-flows. Goetzmann & Peles (1997) fandt lignende resultater og konkluderede, at investorer tillægger historiske informationer for stor vægt. Sammenhængen mellem kapital in-flow og ratings er sidenhen blevet bekræftet i flere omgange af Del Guercio & Tkac (2002; 2003), som afslørede signifikante, anormale flows til foreninger efter et ratingskift. Alt i alt ser det ud til, at Morningstar ratings har stor betydning for det in-flow, foreninger oplever. Denne sammenhæng dannede grundlag for de efterfølgende års studier af Morningstar ratings’ egenskaber. Studierne af området søger at besvare, hvorvidt korrelationen mellem ratings og in-flow kan forsvares af ratings’ forudsigelsesevne. Khorana & Nelling (1998) samt Blake & Morey (2000) var blandt de første til at udføre disse studier. Khorana & Nelling undersøgte, hvorledes der eksisterede et monotont forhold mellem ratings i perioden december 1992 til juni 1995. Her fandt de performancepersistens og konkluderede dermed, at Morningstar ratings er gode til at forudsige hvilke foreninger, der klarer sig relativt bedst. Blake & Morey undersøgte over en længere tidsperiode, hvordan ratings kan anvendes til at forudsige performance. De fandt, at Morningstar kan forudsige ringe, fremtidig performance, idet de lavere ratede foreninger udviste ringere performance i deres out-of-sample vindue. De fandt dog ikke statistisk bevis for, at den højest ratede gruppe outperformede 4- og 3-stjernede foreninger. Ydermere klarede Morningstar ratings sig kun marginalt bedre end andre alternative predictors. I 2005 observerede Morey også, at 5-stjernede foreningers performance faldt kraftigt tre år efter, at de første gang modtog denne rating, og dette skyldtes bl.a., at de påtog sig mere risiko. Det øgede fokus på Morningstar ratings førte også til en del kritik af deres metodologi. Sharpe (1998) konkluderede, at den gamle ratingmetodologi teoretisk set ikke var brugbar til at 3 4 Ifølge Financial Research of Chicago Defineret som omkostningen en investor har ved at bruge tid og energi på at undersøge investeringsalternativer 4 udvælge foreninger fra en gruppe af investeringsforeninger med henblik på at danne en multiforeningsportefølje. Blume (1998) fandt, at ratings udviste skævhed i fordelingen, således urimeligt mange foreninger opnåede de højeste ratings. Morningstar ændrede derefter deres metodologi kraftigt i 20025 (først for USA, senere for Europa i 2006) for at tage højde for denne mulige skævhed, hvilket affødte en ny række studier af ratings’ forudsigelsesevne. Her vendte bl.a. Morey tilbage i 2006 for at undersøge konsekvenserne af den nye metodologi. Han undersøgte perioden juni 2002 - 2005 og konkluderede, at ratings kunne forudsige performance i denne 3-årige periode, og at der eksisterede et monotont forhold mellem ratinggrupperne. Samme konklusion nåede Antypas et al. (2009), som endvidere konkluderede, at de 3-5 stjernede foreningers relative bedre performance skyldtes aktieudvælgelse frem for market timing egenskaber. Senere studier har dog udfordret konklusionen om, at Morningstar ratings kan forudsige performance. Duret et al. (2008) foretog også en analyse og fandt, at ratings ikke er gode til at forudsige performance; ratings kan anvendes til at identificere veldrevne foreninger, men at man som investor også skal medtage kvalitative elementer i sin udvælgelse. Gerrans (2006) konkluderer til gengæld, at Morningstar ratings ikke udviser forudsigelseevner på australske foreninger på trods af, at Morningstars australske afdeling netop medtager kvalitative elementer i tildelingen af ratings6 . De omtalte studier anvender varierende metoder, tidsperioder og geografiske områder til at undersøge forudsigelsesevnen af Morningstar ratings. Med de meget forskellige resultater konkluderes det, at empirien endnu ikke har nået til en fælles fortolkning af forudsigelsesevnen. 2.2 Morningstars ratingmetodologi Siden introduktionen i 1985 har Morningstar Ratings vundet mere og mere indflydelse i investeringsverdenen. Dette afsnit forklarer hvilke beregninger og fremgangsmetoder, der ligger til grund for bestemmelsen af Morningstar ratings. Beskrivelsen tager udgangspunkt i Morningstar Fund Rating Methodology (2009). Den nuværende ratingproces for Europa blev påbegyndt i 2006. Persistenstestene strækker sig dermed over begge ratingmetodologier, da disse starter i 2004. Testene af forudsigelsesevnen behandler derimod kun ratings givet efter det nye system, da første out-of-sample periode og ratingtildeling i vores undersøgelse begynder i 2007. En pågældende investeringsforenings rating er et resultat af en kvantitativ bedømmelsesproces baseret på foreningens risikojusterede afkast. Indledningsvist inddeler Morningstar investeringsforeningerne i kategorier, således en sammenligning af ratings er mulig; dvs. man samler foreninger i kategorier med nogenlunde ens risikokarakteristika som f.eks. dividendesøgende foreninger. Dernæst inddeles foreningerne i stile som f.eks. value-foreninger. Disse risikoinddelinger bliver senere 5 6 Jf. Morningstar Fund Rating Methodology Modsat den amerikanske og europæiske metodologi 5 relevante, når der skal tages højde for fordelingen af ratings i risikoklasserne. Efter foreningerne er blevet opdelt, beregnes deres Morningstar Risk-Adjusted Return (MRAR). Dette gøres i fire trin: 1. Først beregnes det totale afkast for investeringsforeningerne for en given måned, T Rt . Dette afkast inkluderer kapitalgevinsten i form af øget indre værdi pr. andel samt geninvesterede dividender. Derefter laver Morningstar en delvis skattetilretning, såfremt de fleste investorer i én given forening kvalificerer sig til at udsættes for samme skattebehandling, selvom dette ikke altid er muligt. Det kumulative afkast, T Rc , beregnes derefter ved at tage det geometriske gennemsnit af de enkelte måneders totale afkast. 2. Det kumulative afkast justeres derefter for loads7 (baseret på holdeperioder på tre, fem og ti år) ved at gange det totale, kumulative afkast, T Rc , med 1 minus. Dette skaber det kumulative, load-justerede afkast, LRc . Derefter beregnes den månedlige justeringsfaktor for loads, a, a= ✓ 1 + LRc 1 + T Rc ◆1 T (2.1) Endeligt ganges denne justeringsfaktor på 1 + T Rt for at give det månedlige, load-justerede afkast LRt . 3. Dernæst beregnes det såkaldte Morningstar Afkast. Først fratrækkes den risikofrie rente, så der kun kigges på merafkastet, ERt . Den risikofrie rente varierer afhængigt af geografisk fokus hos foreningen. Morningstar Afkastet er det annualiserede geometriske gennemsnitlige afkast. 4. Til sidst beregnes MRAR, som er baseret på nytteteori og risikoaversion hos den enkelte investor. Morningstar definerer selv MRAR som ”det garanterede afkast, der giver det samme nytteniveau som den specifikke kombination af afkast, foreningen hidtil har oplevet”. Det er herefter MRAR, som benyttes til at udforme den endelige rating. Denne er et resultat af et vægtet gennemsnit af foreningens 3-, 5- og 10-årige MRAR, som vægtes med henholdsvis 20%, 30% og 50%. Såfremt foreningen ikke har haft et afkast de sidste 10 år, bliver vægtningen 40% og 60% på henholdsvis den 3- og 5-årige MRAR. I yderste tilfælde tillægges foreningens 3-årige MRAR 100% vægt, såfremt foreningen ikke har fem års afkast. For at modtage en rating, skal foreningerne dermed som minimum have tre års afkast. Denne fremgangsmetode skaber et vægtet MRAR for hver forening, og disse rangeres inden for hver kategori. Endeligt passes rangeringen ind under en klokkeform, hvor de øverste 10% af foreningerne opnår en 5-stjernet rating, de næste 22,5% opnår en 4-stjernet rating, de næste 35% en 3-stjernet rating, og de sidste 22,5% og 10% opnår henholdsvis en 2- og 1-stjernet rating. Her 7 Dette kan eksempelvis være front-end load (omkostning ved køb af andel), redemption fee (afgift ved salg efter kort tid) og back-end load (afgift ved salg af andel) 6 kan bemærkes, at Danmark hører under Europa mht. denne fordeling. Det danske ratinggennemsnit er i dag omkring 3,5, altså et halvt point højere end det europæiske gennemsnit (Mikkelsen, 2014), hvilket tyder på, at danske foreninger klarer sig relativt godt i en europæisk sammenhæng jf. Morningstar. 2.3 Baggrund for hypoteser Litteraturgennemgangen i afsnit 2.1 afslørede modstridende konklusioner på tværs af geografiske grupper og tidsperioder. Forfatterne finder det interessant at undersøge de samme aspekter, men på danske data for de seneste 10 år, da området efter forfatternes bedste viden endnu ikke er undersøgt i dybden. Dette afsnit gennemgår motivationen og relevansen for hver af de fem hypoteser introduceret i afsnit 1.1. Hypoteserne skal samlet set danne grundlag for at analysere problemformuleringen. Den første og tredje hypotese klarlægger hhv. relevansen af afhandlingens emne og eventuelle forskelle mellem Morningstar ratings og ratings fundet ved alternative mål. Hypotese 2, 4 og 5 undersøger brugbarheden og performance af Morningstars ratings, og tilsammen kan disse besvare afhandlingens hovedspørgsmål. H1 : Der er en positiv sammenhæng mellem investeringsforeningers kapital in-flow og deres Morningstar rating Motivationen for at undersøge Morningstar ratings’ forudsigelsesevne er, at ratings potentielt udgør en væsentligt del af investorernes beslutningsproces. En afvisning af ovenstående hypotese vil tyde på, at ratings ikke har betydning for investorer, idet in-flows ikke korrelerer med ratings. Hvis der derimod observeres en positiv sammenhæng mellem kapital in-flow og Morningstar ratings, tyder det på, at ratings påvirker investorernes beslutninger. Det sidstnævnte er observeret flere gange af udenlandske studier, og hvis forholdet også er fremherskende i Danmark, øger det relevansen for undersøgelsen af hovedspørgsmålet. H2 : Morningstar ratings er i sig selv persistente Hensigten med H2 er at undersøge, om ratings er persistente over tid. En fastholdelse af denne hypotese betyder, at når investorer køber en investeringsforening, der har modtaget en rating af Morningstar, så kan de forvente, at denne rating ikke ændres inden for en rimelig tidshorisont. En eventuel afvisning af hypotesen taler derfor imod, at investorer bruger ratingsystemet, da man alligevel ikke kan forvente fastholdelse af f.eks. en 5-stjernet rating. Besvarelsen af hypotesen bidrager til helhedsvurderingen af Morningstar ratings som et anvendelig investeringsredskab. 7 H3 : En rating-inddeling tilsvarende Morningstars opnås ikke af alternative ratingsystemer Formålet med hypotesen er at undersøge, om ratingtildelinger på baggrund af rapportens valgte risikojusteringsmål sammenfalder med Morningstars ratingtildeling. Hvis dette er tilfældet, så anses Morningstar ratings ikke for at være unikke, da deres fordeling kan genskabes ved relativt udbredte metoder. Udfaldet af hypotesebesvarelsen taler hverken for eller imod at bruge Morningstar som ratingsystem, men hvis resultaterne fra undersøgelsen af den fjerde og femte hypotese viser lighed i ratingsystemernes performance, kan et eventuelt overordnet sammenfald i ratings være en del af forklaringen. H4 : Performance af Morningstars stjernegrupper udviser et monotont forhold Hvis Morningstars stjernegrupper udviser et monotont forhold, vil foreninger, der modtager en høj rating, efterfølgende levere et relativt højt risikojusteret afkast og vice versa. Dermed kan investorer have tillid til, at Morningstar ratings er i stand til både at udpege gode og dårlige investeringsforeninger. Belysningen af brugbarheden sker gennem sammenligning af Morningstar ratings med tre alternative mål. H5 : Morningstars 5-stjernede gruppe performer bedre end alternative ratingsystemers 5-stjernede grupper Brugbarheden af et ratingsystem kan ikke afvises alene fordi, det ikke besidder et monotont forhold. Hvis Morningstar er i stand til at udpege de bedstperformende foreninger, taler det for brugbarheden af deres ratings. Hvis Morningstar kan udpege disse foreninger, må det betyde, at ingen af de alternative ratingsystemers 5-stjernede grupper er i stand til levere et højere risikojusteret afkast end Morningstars 5-stjernede gruppe. En fastholdelse af hypotesen indikerer, at investorer, der ønsker at maksimere deres risikojusterede afkast ved handel af danske investeringsforeninger, bør benytte Morningstar ratings til udvælgelse. 8 3 Datagrundlag Dette afsnit beskriver rapportens datagrundlag, herunder hvordan dette er indsamlet. Fokus er på udvælgelse af data samt valg af benchmarks. 3.1 Investeringsforeninger Efter dataforespørgsel fra forfatterne har Morningstar Danmark8 tilsendt et datasæt, der indeholder ratings (stjerner fra 1 til 5) og månedlige afkast for samtlige danske investeringsforeninger, der har haft en rating på et tidspunkt i perioden oktober 2004 til september 2014. Vi startede med at frasortere alle foreninger, der ikke havde en rating pr. oktober 2004 for udelukkende at arbejde med foreninger med data fra begyndelsestidspunktet. Efterfølgende har vi frasorteret samtlige foreninger, der investerer i obligationer. Idet analysen strækker sig over en 10-årig periode, hvor vi medtager alle foreninger, der eksisterede i starten af perioden, falder nogle foreninger fra undervejs enten som resultat af lukning eller fusionering ind i andre fonde. Vi ender i alt med 109 foreninger, som er overlevende gennem hele den 10-årige periode, og 78 foreninger, der ophører med at eksistere. De månedlige observationer gør, at der er 120 observationer for de overlevende foreninger og færre for de, der ophører undervejs. Trods en mere besværlig datahåndtering er de undervejs ophørte foreninger medtaget i et forsøg på at undgå et potentielt survivorship bias, som beskrives mere udførligt i næste underafsnit (3.1.1). Datasættet indeholder både udloddende og akkumulerende foreninger, og forskellige skatteforhold kan have en indvirkning på det realiserede afkast. Dog udgør de akkumulerende foreninger kun et fåtal af de 187 foreninger, og det vurderes derfor ikke til at være problematisk. Af denne årsag tages der ikke forbehold for skattepåvirkninger i analyserne, som det også blev bemærket i afsnit (1.2). Analysen omfatter desuden både passive og aktive foreninger. De månedlige afkast indeholder geninvesterede udbyttebetalinger fratrukket administrationsomkostninger. Med andre ord er afkastet det, en investor ville have fået, hvis vedkommende havde holdt sit investeringsbevis i en given investeringsforening gennem en given måned. Dette betyder også, at afkast ikke indeholder de omkostninger, der evt. opstår ved køb og salg af investeringsbeviser (loads). Disse omkostninger omtales mere i afsnit 3.1.2. 8 Vi takker Nikolaj Holdt Mikkelsen, chefanalytiker for Morningstar Danmark 9 3.1.1 Survivorship bias Survivorship bias kan udtrykkes som en skævhed eller en forskydning i data. Det kan forekomme ved, at man enten over- eller underestimerer den faktiske performance af et aktiv, hvis man over en periode kun observerer de, som overlever hele analyseperioden. Malkiel (1995) foretog som en af de første en undersøgelse af, hvorvidt survivorship bias kan have effekt på performancemålinger. Han fandt frem til, at det årlige gennemsnitlige afkast var 1,4 procentpoint højere, hvis man udelukkende fokuserede på de overlevende fonde. Survivorship bias i sådanne undersøgelse kan altså resultere i et positivt bias i form af overestimerede afkast. På trods af risikoen for survivorship bias undlader mange akademiske studier at medtage foreninger eller aktier, som ophører i løbet af undersøgelsesperioden, både når det gælder generelle performancemålinger og studier af Morningstars ratings forudsigelsesevne. Et survivorship bias vil i vores analyse eksistere, hvis f.eks. de 5-stjernede foreninger, som overlever hele perioden, performer bedre end de 5-stjernede, der ophører undervejs. Dvs. performance i de enkelte ratinggrupper overestimeres ved at se bort fra nogle foreninger. For at undgå denne situation medtager vi alle foreninger, således vi eliminerer et evt. bias på trods af et mere omstændigt dataarbejde herunder valg af håndteringsmetode. Vores performanceanalyser kan alligevel indeholde et potentielt bias, idet vores to analysemetoder har et krav til henholdsvis tre års data fra 10/2004 - 09/2007 (170 foreninger opfylder dette) og seks års data fra 10/2004 - 09/2010 (154 foreninger opfylder dette). Dette datakrav udelukker altså hhv. 17 og 33 foreninger, og det kan skævvride resultaterne for denne undersøgelse, da de aldrig bliver inkluderet i performanceanalyserne. Vi anvender en metode til at reducere et evt. bias for vores 3-års test, der stiller det relativt store datakrav på seks års data. Her følges en af Morey og Gottesmans (2006) metoder, som antager tilfældig geninvestering resten af året. Vi antager dermed, at en investor tilfældigt geninvesterer sin kapital fra en ophørt forening ind i en anden forening, således afkastet fra den ophørte forening året ud (oktober - oktober) bliver et ligevægtet gennemsnit af de resterende fondes afkast. Dermed falder vores datakrav til foreningerne fra seks år (72 måneder) til fem år og én måned (61 måneder). 3.1.2 Omkostninger Som beskrevet tidligere i afsnit 3.1 er de analyserede afkast allerede justeret for administrationsomkostninger, men ikke for loads i forbindelse med køb og salg af investeringsandele. Overordnet kan disse klassificeres som enten front-end eller back-end loads, afhængigt af om omkostningen betales ved investering i foreningen eller ved salg af investeringsbeviser. Disse varierer fra forening til forening og kan have været udsat for ændringer i løbet af den valgte tidsperiode. 10 Investeringsfondsbranchen9 (IFB) oplyser loadomkostningerne i form af en ÅOP, den procentuelle årlige omkostning ved at investere i en given forening, hvor alle omkostninger er indregnet. For at skabe et lettilgængeligt sammenligningsgrundlag arbejder IFB ud fra en antagelse om en holdeperiode af foreningerne på 7 år. Loads er ikke fratrukket de afkast, der arbejdes med i denne afhandling bl.a. grundet problemstillingen med fastlægge denne holdeperiode. Bestemmelsen af holdeperiodens længde kan i sidste ende få stor indvirkning på resultaterne og dermed afhandlingens konklusioner, hvorfor vi har valgt ikke at tage hensyn til disse trods de mulige problemer. 3.1.3 Flow data Analyser af kapital in-flow i investeringsforeningerne er foretaget på baggrund af data stillet til rådighed af IFB10 . De estimerede net flows, som danner grundlag for analysen, er beregnet ud fra ændringer i formueværdien for de enkelte investeringsforeninger efter anvisning fra IFB. Konsekvensen af denne estimerede metode er, at formueændringerne også indeholder geninvesterede udbyttebetalinger samt eventuelle fusioner fra andre foreninger, hvorfor der fås estimerede net flows og ikke de reelle net flows. Efter samråd med IFB blev det vurderet, at denne approksimation er tilstrækkelig til at undersøge afhandlingens hypotese omkring kapital in-flow. 3.2 Benchmarks og faktorer Performancemåling indgår som et helt centralt element i denne rapport, og derfor er det nødvendigt at gøre sig overvejelser omkring udvælgelse af benchmarks, som investeringsforeningers afkast skal sammenholdes med. Foreningerne der medtages i undersøgelsen er inddelt i 6 geografiske grupper: Danmark, Europa, Asien ekskl. Japan, Global, Japan og Nordamerika. De geografiske grupper er bestemt ud fra de enkelte foreningers investeringsstrategi samt IFBs klassificering. Da der ønskes grupper af rimelig størrelse er inddelingen begrænset til 6 overordnede grupper, på trods af en given investeringsforening kan have et mere fokuseret område. Der er ligeledes set bort fra branchespecifikke strategier som ’Health Care’ og ’Informationsteknologi’. Efter nærmere undersøgelse af de få foreninger med branchestrategier blev det klart, at de alle samtidig havde et globalt fokus, hvorfor de er placeret i denne gruppe. En oversigt over gruppeinddelingerne kan ses i bilag 7.2. IFB er også anvendt til at udvælge de specifikke markedsindeks, som alle, med undtagelse af Danmark, er udarbejdet af Morgan Stanley Capital International (MSCI). Dette sikrer, at de mest retvisende benchmarks benyttes. OMX Copenhagen Benchmark er udvalgt som det danske benchmark, idet NASDAQ har udformet netop dette indeks for at skabe det mest retvisende billede af udviklingen på NASDAQ OMX Copenhagen. Alle indeks er desuden vægtet efter aktiernes 9 10 Investeringsfondsbrancen er brancheforeningen for investeringsforvaltere Vi takker Henrik Hansen fra IFB 11 markedsværdi og opgjort i bruttopriser, således der tages højde for geninvestering af udbyttebetalinger. Afkast fra de udenlandske indeks er også justeret for valutakursudsving. MSCIs indeks er opgjort i USD, mens afkast for investeringsforeningerne er opgjort i DKK. Forfatterne har derfor omregnet MSCIs indeks til DKK ved at fratrække de månedlige kursudsving, hvorved vores benchmarks afkast også bliver opgjort i DKK. Disse justeringer er foretaget, idet rapporten tager udgangspunkt i investeringsbeslutningen set fra en dansk investors synspunkt. Til sidst er den risikofrie rente fratrukket afkast, og til dette formål bruges den månedlige Copenhagen Interbank Offered Rate (CIBOR) som proxy for den risikofrie rente. Efter finanskrisen i 2008 er det muligt at diskutere, hvorvidt interbankrenterne reelt set er risikofri, men dette er uden for rapportens omfang. 12 4 Metodisk grundlag Dette afsnit beskriver afhandlingens metodiske fundament. Indledningsvist beskrives metoderne til at teste kapital in-flow, persistens i ratings og ratingsammenligning for afslutningsvist at beskrive metoden til at teste forudsigelsesevnen af Morningstars ratings. 4.1 Kapital in-flow på tværs af stjernegrupper Som beskrevet i afsnit 3.1.3 er de estimerede net flows beregnet ud fra ændringerne i foreningernes markedsværdi. Dette er vist i formel 4.1, hvilken er baseret på Sirri & Tufanos (1998) metode, som er i overensstemmelse med IFB’s anvisninger. Da der ses bort fra geninvesterede udbytter og fusioner, kan en markedsværdiændring være et resultat af to faktorer; det realiserede afkast og kapital in-flow fra investorer. Når sidste periodes markedsværdi tillægges det realiserede afkast i den nuværende periode, må forskellen mellem dette og den nuværende markedsværdi være kapital in-flow fra investorer. Ses dette kapital in-flow i forhold til sidste periodes markedsværdi, fås estimatet for det procentuelle in-flow, F lowi,t , til en given forening, F lowi,t = M Vi,t (1 + ri,t ) M Vi,t M Vi,t 1 1 (4.1) De estimerede net flows anvendes til at beregne det gennemsnitlige in-flow for hver ratinggruppe. Igen tages der højde for et eventuelt survivorship bias ved at inkludere alle foreninger frem til tidspunktet, hvor de ophører med at eksistere selvstændigt. 4.2 4.2.1 Persistens i ratings Antalstabeller på tværs af tid Den første metode til at undersøge persistens i ratings er gennem antalstabeller (contingency tables), hvilket følger Khorana & Nellings metode (1998). Deres studie og resultater henvises senere til af Blake & Morey (2000). Ved dette test defineres et start- og sluttidspunkt f.eks. start i år 1 og slut i år 2. Ved starttidspunktet udføres en optælling af foreningerne og deres rating, dvs. hvilke og hvor mange foreninger er placeret i stjernegruppe 1 - 5. Denne fordeling sammenlignes med fordelingen og antallet af foreninger i hver stjernegruppe på sluttidspunktet. Det er dermed muligt at se, i hvilken ratinggruppe de enkelte foreninger er startet og sluttet. Resultatet er en 5 ⇥ 5 antalstabel, hvor diagonalen udtrykker antallet af foreninger, der har haft den samme rating på start- og sluttidspunktet. H0 -hypotesen i dette test er, at der er uafhængighed mellem række- og søjle-variablene, dvs. at ratings ved slutningen af perioden ikke er afhængige af ratings i starten af perioden. Fastholdelse 13 af denne hypotese kan tolkes som, at et væsentligt antal af foreningerne skifter mellem grupperne, hvilket taler imod persistens. En forkastelse af H0 derimod vil tale for persistens i ratings. For at øge robustheden af resultaterne testes hypoteserne både ved Pearson’s ratio-test. Begge tests følger asymptotisk en 2 -fordeling 2 -test og et likelihood med (r-1)(c-1) frihedsgrader, hvor r er antal rækker, og c er antal kolonner. Pearson’s 2 -test kigger på forholdet mellem det forventede antal observationer i hver r ⇥ c felter af antalstabellen og det faktiske antal observationer i hver af disse felter, Ei,j = (rækkesumi )(kolonnesumj ) T otal antal observationer (4.2) Teststatistikken måler dermed diskrepansen mellem det forventede og det faktiske antal, hvorefter den sammenligner størrelsen af denne forskel med en tilfældig sandsynlighedsmodel, 2 = r X c X (Oi,j i=1 j=1 Ei,j )2 (4.3) Ei,j Oi,j = Det observerede antal observationer i række i, søjle j Ei,j = Det forventede antal observationer i række i, søjle j Hvis der er stor forskel mellem det observerede og det forventede antal, resulterer det i en høj teststatistik, og dermed en afvisning af nulhypotesen om uafhængighed. Hvis de faktiske observationer derimod er placeret, hvor de forventes at ligge, resulterer det i en lav test-statistik og fastholdelse af nulhypotesen om afhængighed. Likelihood ratio-testet kigger på sandsynligheden for, hvordan data fordeler sig under antagelse af tilfældighed (uafhængighed) og afhængighed, hvorefter disse sammenlignes. Testet sammenholder to likelihood modeller, 0 G2 = 2 @ r X c X Oi,j ln i=1 j=1 ✓ 1 ◆ Oi,j A Ei,j (4.4) Modsat Khorana & Nelling (1998) foretager denne afhandling tests på flere tidsperioder af varierende længde for at øge robustheden af resultaterne. Starttidspunkterne er fra år 1-10, og sluttidspunkterne er fra år 2-11, hvor den 11. periode er datasættets sidste måned (september 2014). De to test foretages som et rullende vindue, og dette giver 55 ( n·(n2 både 2- 1) ) test-statistikker for og likelihood ratio-testet, og derfor i alt 110 p-værdier. Antallet af foreninger i hvert test 14 varierer over tid, idet foreninger kun kan medtages, hvis de har overlevet hele perioden. Dette kan skabe et potentielt survivorship bias for de længere tidsperioders resultater. Begge af disse tests har tilknyttet nogle forudsætninger herunder et krav om, at ingen af cellerne i antalstabellerne må have en forventet værdi på under 5. Årsagen til dette er, at testene kun approksimativt følger en 2 -fordeling, og denne approksimation bliver problematisk, når de for- ventede værdier for felterne er lave. Hvis denne approksimation ikke berettiget, vil et opslag for den kritiske grænse i 2 -fordelingen være fejlagtig, og dermed er p-værdierne forkerte. Khorana & Nelling har en stikprøve på over 800 foreninger, og de har ét enkelt felt, der har en forventet værdi under 5. Vores tests baseres på mellem 187 og 109 foreninger, og denne relativt lille sample indeholder få af de ekstreme ratingværdier, hvilket fører til forudsætningsbrud for samtlige tests. Forfatterne afrapporterer resultaterne fra de to tests trods disse væsentlige forbehold, men vælger samtidig at foretage en fortolkning af de observerede ratingsammenfald. I tilfælde hvor der er mange grupper, kan man forsøge at sammenlægge dem for at opnå højere forventede værdier. Dette findes ikke meningsfyldt, når der kun arbejdes med fem grupper i denne undersøgelse. 4.2.2 Estimering af overgangsmatricer Antalstabellerne benytter kun to observationstidspunkter nemlig et start- og et sluttidspunkt. Sammenholdt med det faktum, at de to tests er forbundet med væsentlige forudsætningsbrud, foretages en modellering af udviklingen i ratings for robusthedens skyld. Modelleringen tager udgangspunkt i Markovmatricer og følger fremgangsmåden fra Schuermann and Jafry (2003), der viste udviklingen i credit ratings af obligationer. Metoden anvender alle tolv observationer pr. år, og dermed udnyttes datasættet fuldt ud. Resultaterne fra denne analyse udtrykkes som de observerede sandsynligheder for, at en forening i datasættets 10-årige tidsperiode enten beholder sin rating eller skifter til en anden rating i løbet af en valgt tidsperiode. Overgangsmatricer er empirisk også benyttet til modellering af Morningstar ratings af Hereil et al. (2010) og Garnier & Pujol (2007). Resultaterne fra begge artikler bygger på en antagelse om tidshomogenitet, hvilket betyder, at de observerede sandsynligheder i overgangsmatricerne er en funktion af afstanden mellem to tidspunkter, men ikke tidspunkterne selv. Dvs. at sandsynligheden for eksempelvis en femstjernet forening bliver 4-stjernet efter ét år, er den samme, uanset om man sætter starttidspunktet i f.eks. januar 2006 eller i juni 2009. Denne antagelse er ikke nødvendigvis opfyldt, men dette ses der bort fra i analysen, og resultaterne tolkes som den gennemsnitlige forventede værdi over tid. Modelleringen forudsætter yderligere, at der er tale om absolutte og ikke relative ratings, hvilket er tilfældet, da Morningstar ratings af danske investeringsforeninger er underlagt Europa, og derfor modtager danske foreninger ikke et fast antal af hver rating. Dette er positivt for analysen. 15 Sandsynligheden for overgang fra en rating til en anden eller fastblivelse i den nuværende behandles i Markovmodelleringen som uafhængige af tidligere perioder. Med andre ord er processen hukommelsesløs givet den nuværende rating. Selvom dette ikke problematiseres eksplicit i de førnævnte artikler, ser afhandlingens forfattere dette som et potentielt forudsætningsbrud, da en Morningstar rating netop dannes ud fra historiske observationer. Omvendt kan der dog argumenteres for, at denne viden netop er inkorporeret i den nuværende rating, der tildeles ud fra relativ performance. Udfaldsrummet er endeligt, og der er i alt seks mulige tilstande, investeringsforeninger kan tage: fra 1-5 stjerner eller ophør af eksistens (rating 0). Det lukkede udfaldsrum gør det muligt at modellere overgangssandsynligheder i overgangsmatricer med forskellige tidshorisonter, der følger opstillingen vist i bilag 7.2. Matricerne indholder i alt 36 værdier (seks mulige start- og slutplaceringer). De enkelte værdier i matricen noteres pti,j , og de repræsenterer sandsynlighederne for, at en aktieforening med rating i har rating j efter t perioder, hvor i, j = 1, 2, 3, 4, 5, 0 og t = 1, 2, ..., 120 tidspunkter. I samtlige overgangsmatricer er det værd at bemærke følgende: • Samtlige pi,j sandsynligheder er mellem [0,1], og dermed er alle ikke-negative, hvilket er en forudsætning for modelleringen • Matricerne er right stochastic dvs. alle rækker, i, summerer til 100%, P pi,j = 1 j • Det bearbejdede datasæt indeholder ikke foreninger, der opstår efter første dataobservation i oktober 2004. Når foreninger er ophørt med at eksistere, genopstår de ikk. Derfor er sandsynligheden for overgang fra rating 0 (død) til en af de fem andre ratings lig nul. • Sandsynligheden for, at en forening med en givet rating ophører med at eksistere, kaldes absorptionssandsynligheden og findes i matricernes sidste søjle. For at estimere de 36 sandsynligheder i hver overgangsmatrice, hvoraf de seks fra sidste række er kendt på forhånd, benyttes den førnævnte fremgangsmåde af Schuermann & Jafry. Metoden bygger på Maximum Likelihood Estimation, der givet det observerede datasæt justerer værdierne i overgangsmatricerne, så de observerede tilfælde bliver mest sandsynlige. Først defineres en generatormatrice af størrelsen (6 ⇥ 6), som bruges til at estimere overgangssandsynlighederne, og denne noteres ⇤. De enkelte (30) elementer uden for generatormatricens diagonal skal være større end eller lig med 0, tricen skal sikre, at hver række summerer til 0, i,j i,i 0, i 6= j. Diagonalværdierne i generatormaP = i,j . j6=i For at opnå Maximum Likelihood estimatet af generatormatricen, beregnes ˆ i,j = ´T 0 Ti,j , Yi (s)ds i 6= j, hvor tælleren repræsenterer det totale antal skift observeret over den 10-årige periode fra 16 rating i til rating j. Integralet i nævneren beregner den totale tid brugt i hver rating af samtlige Pˆ foreninger over alle 10 år. Diagonalværdierne estimeres ved ˆ i,i = i,j . j6=i Slutteligt defineres Pt , som også er af størrelsen (6 ⇥ 6), og denne indeholder de tidligere nævnte procentuelle sandsynligheder for overgang fra en rating til en anden givet tidsafstanden. Matricen beregnes som Pt = exp(⇤t), t 0, og det skal bemærkes, at der er tale om matriceeksponentialet. Tidsintegralet beregnes sædvanligvis årligt, hvorfor t = 1 i den førnævnte formel giver den 1-årige overgangsmatrice. Ønskes overgangsmatricen for f.eks. én måned eller tre år, sættes henholdsvis t = 1/12 eller t = 3. Alternativt kan almindelige matriceregneregler benyttes, da f.eks. den treårige overgangsmatrice kan findes ved at multiplicere den ét-årige med sig selv tre gange dvs. P 3 = P 1 P 1 P 1 . Det er muligt at gange matricerne sammen, da de er kvadratiske (Verbeek, 2012). Det er tydeligt, at beregningerne foretages ud fra en antagelse om tidshomogenitet, da samtlige estimater i generatormatricen beregnes som gennemsnitsværdier ud fra hele datasættets periode, og der tages dermed ikke forbehold for, at nogle perioder kan være forskellige fra andre. En ting, der adskiller denne metode fra start-slut tilgangen anvendt af Khorana & Nelling (1998), er, at deres metode ignorerer alle skift i ratings mellem de to undersøgte tidspunkter, men her inkluderes al information i sandsynlighederne. Samtidig er det potentielle survivorship bias, der især kan være gældende for de lange tidshorisonter, hvor mange investeringsforeninger ophører, ikke til stede i disse beregninger. En hypotetisk forening, der kun eksisterer i seks måneder, vil også indgå i beregningen af f.eks. en et-årig overgangsmatrice. 4.3 Asset pricing modeller og performancemål I dette afsnit beskrives de asset pricing modeller, CAPM og Carharts 4-faktor model, samt performancemål, Sharpe Ratio, som afhandlingen anvender til at undersøge Morningstar ratings’ forudsigelsesevne. 4.3.1 Capital Asset Pricing Model The Capital Asset Pricing Model (CAPM) blev udviklet af William Sharpe (1964) og John Lintner (1965). Modellen forsøger at forklare sammenhængen mellem det forventede afkast og risiko for et givent aktiv. Modellen opdeler risiko i to elementer, henholdsvis systematisk og usystematisk risiko, hvoraf den antager, at usystematisk risiko diversificeres væk. Således reduceres den ikkediversificerbare risiko for et aktiv til korrelationen med markedsporteføljen. Når den risikofrie rente medtages, kan sammenhængen mellem den omtalte risiko og det forventede afkast beskrives som, 17 E(Ri ) = Rf + [E(RM ) iM = Rf ] (4.5) iM cov(Ri , RM ) var(RM ) (4.6) hvor E(Ri ) er det forventede afkast for aktiv i , hvilket udgøres af den risikofrie rente Rf tillagt en risikopræmie for markedet E(RM )–Rf , som derefter multiplikeres med aktivets markedsbeta, iM . Denne beta udtrykker forholdet mellem aktivets kovarians med markedsafkastet og variansen af markedsafkastet. CAPM ligningen kan benyttes til at risikojustere afkast, hvilket vi netop ønsker at gøre for investeringsforeningerne. Ved at regressere de enkelte foreningers afkast ved CAPM-formlen justeres de simple afkast for deres kovarians med markedet og dermed den systematiske risiko. Et eventuelt tilbageværende afkast efter denne regression udtrykkes i Jensen’s alpha(1968), ↵. Denne afhandling vil anvende CAPM til risikojustering af både in- og out-of-sample afkast. 4.3.2 Fama-Frenchs 3-faktor model Et markant akademisk fokus på CAPM har over årene afsløret en række empiriske fejl ved modellen, hvilket har inspireret videreudviklinger af denne. Fama & French foreslog i 1992 en udvidelse af CAPM, hvor de inkluderer flere risikofaktorer udover blot markedsporteføljen. Den ene af disse er den såkaldte size-faktor, SMB (small-minus-big), som først blev beskrevet af Banz i 1981. Faktoren siger, at virksomheder med relativt små markedsværdier outperformer virksomheder med relativt store markedsværdier. Den anden faktor, value-faktoren eller HML (high-minus-low), blev undersøgt af både Stattman i 1980 og Rosenberg et. al i 1985. Faktoren siger, at virksomheder med høje book-to-market (B/M-ratio) ratioer (value-virksomheder) har et højere afkast sammenlignet med virksomheder med lave book-to-market ratioer (growth-virksomheder). På baggrund af disse inkluderinger fås nedenstående formel, E(Ri ) = Rf + 1 [E(RM ) Rf ] + 2 SM B + 3 HM L (4.7) Formlen ligner CAPM bortset fra de to ekstra led, SMB og HML, som er henholdsvis size- og value-præmien. Faktorerne er udregnet på baggrund af zero-investment porteføljer, hvor man investerer i små og value aktier, mens man tilsvarende shorter store og growth aktier. Det kan derefter undersøges, om en forenings afkast kan forklares ud fra investering i små og/eller valueaktier set ud fra de tilsvarende betaer, 4.3.3 2 og 3, som viser foreningens loading på disse to faktorer. Carharts 4-faktor model På trods af at Fama-Frenchs 3-faktor model var bedre end CAPM til at forklare sammenhængen mellem afkast og risiko, afdækkede studier af Jegadeesh og Titman i 1993 momentum faktoren 18 eller WML (winners-minus-losers). Denne faktor viste, at en investor vil være i stand til at generere et overnormalt afkast ved at købe sidste periodes vindere og shorte sidste periodes tabere på kort sigt. Momentum-faktorens eksistens kan fra en behavioural finance vinkel perspektiveres til ’hot hands’-fænomenet11 , som forsøger at give en forklaring på denne anormalitet. Carhart (1997) inkluderede denne faktor i Fama-French modellen og udvidede den dermed til, E(Ri ) = Rf + 1 [E(RM ) Rf ] + 2 SM B + 3 HM L + 4W M L (4.8) Fortolkningen af denne faktor er tilsvarende SMB og HML. WML er merafkastet for en portefølje, som indeholder aktier med en relativ god et-årig performance kontra en portefølje med aktier, som har en ringe et-årig performance. Disse faktorer har forfatterne selv beregnet for det danske marked jf. afsnit 4.3.6, da de ikke var tilgængelige på Kenneth Frenchs hjemmeside. Den fulde 4-faktor model vil parallelt med CAPM blive anvendt til risikojustering af foreningernes afkast. 4.3.4 Sharpe Ratio Udover asset pricing modellerne er Sharpe Ratio (Sharpe, 1966) et ofte anvendt performancemål i litteraturen. Målet ser et aktivs gennemsnitlige merafkast Ri –Rf , ift. dets totale risiko i og måler derved afkast pr. risikoenhed, Sharpe Ratioi = Ri –Rf , i = 1, 2...n i (4.9) I afhandlingen rangeres og måles investeringsforeningerne over en given periode, således Ri –Rf bliver hver forenings gennemsnitlige merafkast for den pågældende periode, divideret med standardafvigelsen i for samme periode. Sharpe Ratioen er attraktiv, idet den kun behøver den risikofri rente, og målet er således ikke afhængig af et benchmarkindeks. Ratioen tager højde for den totale risiko i stedet for at inddele i systematisk og usystematisk. Desuden medtages Sharpe Ratio af Blake & Morey i 2000 og af Morey & Gottesmann i 2006. 4.3.5 Kritik af valgte asset pricing modeller og performancemål Rapportens anvendte asset pricing modeller har nogle svagheder, som vil blive kort beskrevet i dette afsnit. CAPM og 4-faktor modellen: CAPM er gentagne gange blevet udsat for empiriske tests, som har klarlagt nogle af problematikkerne ved modellen. Sharpe-Lintners model bygger på, at markedsporteføljen er mean-variance efficient og dermed kan identificeres som tangenten til 11 ’Hot hand’: Den fejlagtige tro på at en person, som tidligere har oplevet et heldigt udfald af en tilfældig begivenhed, har større sandsynlighed for succes ved efterfølgende begivenheder 19 Markowitzs efficiente rand(1952). Modellen fastsætter, at forskellen i afkast på tværs af aktiver fuldt ud kan forklares af , altså at der eksisterer et lineært forhold mellem risiko og afkast. Netop dette forhold samt konstantleddet ↵ var fokus for de tidligste empiriske studier. Her fandt Black, Jensen & Scholes (1972), at den empiriske security market line, forholdet mellem og det forventede merafkast, er fladere end estimeret af CAPM; low-beta aktier returnerede højere end forventet afkast og vice versa for high-beta aktier, således at konstanten i tidsserieregressioner for low-beta aktier er positiv og negativ for high-beta aktier. Dette implicerer endvidere, at zerobeta aktier oplever et højere afkast end den risikofrie rente. Disse observationer har også lagt grundlaget for den nyere forskning af CAPM eksempelvis ”Betting Againts Beta”, hvor Frazzini og Pedersen (2014) finder, at high-beta porteføljer har lavere ↵-værdier end low-beta porteføljer. Disse resultater er konsistente på tværs af internationale markeder. Et yderligere kritikpunkt blev også fremlagt af Roll (1977). En grundsøjle i CAPM-teorien er identificeringen af markedsporteføljen, men Roll fremlagde, at denne ikke er observerbar. Så reelt er CAPM kun testet med proxyer for markedsporteføljen. På trods af de empiriske forsimplinger indeholdt i CAPM, fandt Fama & French, at CAPM stadig kan forklare ca. 70% af variationen i en akties afkast, hvilket er grundlaget for at medtage modellen i denne afhandling. Kritikken af CAPM førte til Fama & Frenchs udvidelser af modellen (1992; 1993), idet CAPM ikke er i stand til at forklare size- og value-præmien. En rimelig antagelse kan være, at investorer også tænker på deres porteføljes korrelation med andre faktorer, altså at andre risikofaktorer burde indarbejdes i modellen. Dette affødte den tidligere diskuterede inkorporering af size- og value-anormaliteterne og senere momentum-faktoren. Det er denne fulde model, der anvendes i afhandlingen. Det er essentielt at tilføje, at 4-faktor modellen som udgangspunkt ikke har noget teoretisk fundament, men at den blot er opstillet på baggrund af observerede anormaliteter i markedet og dermed har sit grundlag i empirien. De fleste performancemålinger står over for joint hypothesis problem. Gennem brug af asset pricing modeller kan man identificere overnormale afkast i form af signifikante positive alphaer, hvilket modsiger teorien om det efficiente marked (EMH) (Fama, 1970). Teorien om EMH siger, at aktiepriser inkorporerer al tilgængelig information (stærk version) - ingen investeringsstrategier kan derfor levere et overnormalt afkast. Derfor vil man ved at teste for signifikante alphaer samtidig teste hypotesen om markedsefficiens, hvilket betyder, man ikke kan sige, om resultaterne reflekterer markedsinefficiens eller en ringe asset pricing model. Afhandlingens fokus er dog ikke at teste for signifikante positive alphaer og udføre en absolut performancemåling. Fokus er i stedet at analysere relativ performance af forskellige ratingsystemer, hvorfor joint hypothesis problem ikke behandles yderligere. Sharpe Ratio: Ratioen er anvendt på lige fod med CAPM og 4-faktor modellen. Den er som tidligere nævnt oftest anvendt grundet dens simplicitet og inkorporering af afkast og total risiko. Men den simplificerede tilgang kan også være en fælde, idet ratioen straffer upside volatilitet lige 20 så meget som downside volatilitet. Et mulig alternativ kunne være Treynor ratioen (1991), som benytter den systematiske risiko i stedet den totale risiko i, eller Sortino ratioen, som netop benytter downside semi-varians og derfor udelukkende fokuserer på downside risiko. Sharpe (1998) argumenterede selv for, at Sharpe Ratioen ikke bør benyttes til at udvælge foreninger blandt en gruppe af foreninger med det mål at bygge en multi-forenings portefølje. Forfatterne har dog valgt Sharpe Ratioen grundet dens udbredelse i den akademiske litteratur samt af hensyn til dens empiriske performance. Denne afhandling bruger CAPM, 4-faktor modellen og Sharpe Ratio som out-of-sample performancemål. For at belyse Morningstar ratings forudsigelsesevne relativt til andre mål benyttes de tre performancemål også som in-sample predictors for fremtidig performance. 4.3.6 Beregning af den danske SMB-, HML- og WML-faktor Såvel som udvælgelsen af det korrekte benchmarkindeks er vigtig for asset pricing modellerne, er de resterende faktorer essentielle for analysens resultater. Kenneth French har beregnet faktorerne i 4-faktor modellen (SMB, HML og WML) for 5 af rapportens 6 geografiske grupper12 (French, 2015). Data for disse faktorer er derfor indhentet fra hans hjemmeside og er derefter blevet justeret for valutakursændringer, da de alle er opgjort i USD. Faktorerne for det danske marked er dog ikke tilgængelige på Frenchs hjemmeside, hvorfor forfatterne selv beregnet disse. Da de danskfokuserede foreninger udgør den tredjestørste geografiske gruppe, anses faktorerne som værende uundværlige, således rapportens analyser bliver så retvisende som muligt. De danske faktorer beregnes efter samme fremgangsmåde, som French selv benytter. Beregningerne tager udgangspunkt i aktierne noteret i OMX Copenhagen Benchmark-indekset, idet dette er det samme markedsindeks, der benyttes som benchmarkindeks for Danmark (se bilag 7.2). Der er endvidere taget forbehold for, at de medtagede virksomheder skal have været noteret på børsen i perioden oktober 2003 til og med oktober 2014. Kun 32 af de 42 noterede aktier i OMXCB-indekset har data for hele denne periode. Derfor har vi inkluderet 10 tilfældigt udvalgte13 aktier med data for hele perioden, hvilket øger datagrundlaget for beregningerne. SMB- og HML-faktoren: For at konstruere SMB- og HML-faktoren er aktierne inddelt i to grupper baseret på markedsværdi (big og small) samt 3 grupper baseret på B/M-ratio (value og growth). Medianen for markedsværdierne er break point, mens B/M opdeles ved 30%- og 70%percentilerne. De øverste 30% er value-aktier, mens de nederste 30% er growth aktier. Dermed er de midterste 40% neutrale. Dette skaber seks ligevægtede porteføljer for hver et-årige periode (oktober-september), som vist i tabel 4.1. Porteføljerne resorteres derefter på årlig basis. 12 13 Asien eksl. Japan, Europa, Global, Japan og Nordamerika Tilfældigt udvalgt under det krav at alle 10 branchesegmenter stadig skal være repræsenteret 21 Tabel 4.1: SMB- og HML-porteføljer Median Markedsværdi 70% B/M percentil 30% B/M percentil Small Value Big Value Small Neutral Big Neutral Small Growth Big Growth SMB faktoren er det gennemsnitlige månedlige afkast for de tre small-stock porteføljer minus det gennemsnitlige afkast for de tre big-stock porteføljer. Det er dermed det månedlige merafkast en investor ville have fået ved at investere i ’små’ kontra ’store’ virksomheder 1 1 SM B = (SmallV alue+SmallN eutral+SmallGrowth) (BigV alue+BigN eutral+BigGrowth) 3 3 (4.10) HML faktoren beregnes på en lignende måde, men er i stedet det gennemsnitlige afkast for value-porteføljerne minus det gennemsnitlige afkast for growth-porteføljerne. Faktoren beskriver merafkastet ved at have investeret i value-aktier kontra vækst-aktier, 1 HM L = (BigV alue + SmallV alue) 2 1 (BigGrowth + SmallGrowth) 2 (4.11) WML-faktoren: Indledningsvist rangeres porteføljerne igen baseret på markedsværdi. Herefter rangeres aktierne på månedsbasis (periode t) afhængigt af deres kumulative afkast fra periode t-12 til t-2. Den seneste måned ekskluderes for at undgå short-term reversal effects som f.eks. ekstreme kursudsving forårsaget af underliggende likviditetsforhold eller lignende mikroøkonomisk struktur (Jegadeesh, 1990; Lo and MacKinlay, 1990; Boudoukh, Richardson, and Whitelaw, 1994; Asness, 1994; Grinblatt and Moskowitz, 2004). Dette følger Fama & Frenchs egen metode til beregning af WML. Igen benyttes 30%- og 70%percentilerne som break-points. De 30% bedst performende aktier fra t-12 til t-2 (past winners) udgør winner-porteføljen for næste måned og omvendt for de 30% værst performende. Derefter beregnes effekten ved at trække det gennemsnitlige afkast for de to ’taber’-porteføljer fra det gennemsnitlige afkast for de to ’vinder’-porteføljer, 1 W M L = (BigW inner + SmallW inner) 2 1 2 (BigLoser + SmallLoser) (4.12) SMB-, HML- og WML-faktorerne for de geografiske grupper kan ses i bilag 7.2. Det er værd at bemærke, at SMB- og HML-faktorerne er beskedne for de valgte geografiske grupper og pågældende tidsperiode. En række studier har over de seneste år undersøgt tendensen og årsagerne 22 til, at faktorerne er aftaget i størrelse. En videre diskussion af dette er dog uden for rapportens omfang. 4.4 Ratings baseret på valgte performancemål Dette test bygger på samme teori som testet af ratingpersistens beskrevet i afsnit 4.2.1 med antalstabeller, mens opsætningen differentierer. Hvor persistenstestet undersøger Morningstarfordelingen i starten og slutningen af en periode, undersøger dette afsnit fordelingen af Morningstar ratings i slutningen af afhandlingens tidsperiode og måler denne ift. ratings lavet på baggrund af henholdsvis Sharpe Ratio, CAPM-alphaer og 4-faktor-alphaer. Dette giver i alt tre tests, da Morningstars ratings fungerer som referencegruppe grundet afhandlingens fokus. Eftersom metoden tager udgangspunkt i samme tests som benyttet i persistensundersøgelsen, er den statistiske del behæftet med samme forudsætningsbrud. Derfor udføres både afrapportering af p-værdier og fortolkning af de observerede antalstabeller. H0 -hypotesen i denne undersøgelse er, at der er uafhængighed mellem to ratingsystemer, og at en fordeling lig Morningstars ikke opnås gennem de alternative metoder. Baggrunden for dette test er, at en investeringsforening skal have mindst 10 års afkast for at opnå en ”fuld” Morningstar rating jf. afsnit 2.2. En rating er et vægtet gennemsnit af foreningens 3-, 5- og 10-årige MRAR. Denne afhandling anvender samme vægtning for at skabe en lignende rating med de tre alternative predictors. Dette sker ved at beregne en 3-, 5- og 10-årig Sharpe Ratio, CAPM-alpha og 4-faktoralpha for hver investeringsforening. Analysen kræver en slutrating, der ikke sammenfalder med en måneds afkast, og derfor foretages de 10-årige regressioner på 9 år og 11 måneders data. Dette vurderes at være af ubetydelig karakter for resultaterne. For at kunne give ratingtildelingerne findes det vægtede gennemsnit ved at anvende samme vægte som Morningstar. Det tildelte antal af hver rating svarer til antallet, Morningstar har tildelt. Derved stilles de fire ratingsystemer lige. De tre sammenligninger undersøger herefter, om Morningstars ratings er forskellig fra de andre. 23 4.5 Morningstar ratings’ forudsigelsesevne Forudsigelsesevnen af Morningstar ratings testes både ved analyse af periodevis performance gennem dummy variable regressioner samt test af performance ved månedlig reparametrisering. Idet disse analyser udføres vha. regressioner, diskuteres forudsætningerne tilknyttet OLS først. 4.5.1 Forudsætninger for regressionsanalyse Ordinary Least Squares: I afhandlingen benyttes Ordinary Least Squares (OLS) regression14 til at estimere de ukendte parametre herunder konstantleddet alpha, i CAPM og 4-faktor modellerne. Denne lineære estimator minimerer summen af de kvadrerede afvigelser. Disse residualer er de vertikale afstande mellem de observerede værdier i et datasæt og de forventede værdier forudsagt af en lineær regression. Den lineære regressionsmodel opskrives på matriceform som, y = X +✏ (4.13) Den afhængige variabel y og fejlleddet ✏ er n ⇥ 1 vektorer, hvor n repræsenterer antallet af observationer. X er en n ⇥ p matrice, hvor p er antallet af forklarende variable plus en konstant. er en p ⇥ 1 vektor, der estimeres netop ved at minimere de tidligere nævnte kvadrerede afvigelser. Under de følgende fire Gauss-Markov antagelser er OLS den bedste, lineære, unbiased estimator (BLUE) (Verbeek, 2012), 1. E(✏i ) = 0, i = 1, 2, 3, ..., n 2. {✏1 , ..., ✏n } og {x1 , ..., xn } er uafhængige 3. V ar(✏i ) = 2, i = 1, 2, 3, ..., n 4. Cov(✏i , ✏j ) = 0 i, j = 1, 2, 3, ..., n, i 6= j Den første betingelse siger, at den forventede værdi af fejlleddet skal være lig nul. Ved at inkludere et konstantled i en regression bliver summen af residualerne lig nul. Den anden betingelse siger, at samtlige fejlled skal være uafhængige af samtlige forklarende variable. Hvis dette er tilfældet, siges de forklarende variable af være eksogene, og estimatoren er ikke biased. Dette er en stærk antagelse, der faktisk implicerer, at de tre andre antagelser er opfyldte. Estimatoren er stadig konsistent, hvis blot det samhørende fejlled og de forklarende variable for hver observation er uafhængige, dvs. E(xi ✏i ) = 0. De to første betingelser antages opfyldt. De sidste to antagelser betyder, at fejlleddene skal være homoskedastiske, og at de ikke må udvise seriekorrelation. Dette kan opsummeres til, at varians-kovariansmatricen har en konstant værdi 14 På dansk kaldet “Mindste Kvadraters Metode” 24 i diagonalen og off-diagonalværdier lig nul, V ar(✏|X) = 2I n. Såfremt dette ikke er tilfældet, er OLS ikke den mest efficiente estimator, hvilket betyder, at der findes andre estimatorer, der har en lavere varians. Residualerne fra regression af investeringsforeningernes fulde afkastserier er testet for homoskedasticitet vha. både Whites og Breusch-Pagans test. Whites test udføres ved at estimere modellen med OLS under nulhypotesen om homoskedasticitet og efterfølgende regressere de kvadrerede residualer på de forklarende variable samt disses kvadrater og krydsprodukter. R2 -værdien fra denne regression ganges med antallet af observationer, og dette giver en 2 -fordelt observatorværdi. 59 af de 170 foreninger (35%) afviser ved Whites test nulhypotesen om homoskedasticitet og udviser dermed signifikante problemer med heteroskedasticitet. For robusthed udføres Breusch-Pagans, der minder om Whites test, men her regresseres residualerne blot på de forklarende variable og ikke disses krydsprodukter og kvadrater. Ved dette test afviser 38 ud af de 170 foreninger nulhypotesen om homoskedasticitet. Residualerne er desuden testet for autokorrelation vha. Breusch-Godfreys test. Med dette test er det muligt at undersøge, hvorvidt der er seriekorrelation op til lag nummer p i regressionerne. Seriekorrelation er empirisk et typisk observeret problem, når der arbejdes med tidsserieobservationer. Af de 170 foreninger udviser hhv. 29 og 24 signifikante problemer med autokorrelation jf. Breusch-Godfreys test med hhv. 1 og 12 lags. Der kan argumenteres for forskellige laglængder, men forfatterne har valgt at teste med hhv. én måned og ét års lag. De ovenstående resultater indikerer tydelige problemer med både heteroskedasticitet og seriekorrelation i en betydelig del af regressionerne. Dette betyder, at Gauss Markov antagelse tre og fire er overtrådt, og OLS er dermed ikke længere efficient. For at overkomme disse problemer benyttes Newey-West’ standard-errors i regressionerne, da disse er robuste over for begge forudsætningsbrud. Antallet af robuste lags skal manuelt vælges, og her benytter forfatterne Verbeeks (2012) formel, lags = T 1/4 , hvilket betyder, at der ved treårige tidsperioder (36 observationer) er anvendt to lags, og at der ved syvårige tidsperioder (84 observationer) er anvendt tre lags. Normalfordelte fejlled: Normalitet i fejlleddene er ikke en betingelse for, at OLS er BLUE, men for at inferere på baggrund at regressionsresultaterne er normalitet en væsentlig betingelse. Efter udførelse af Jarque-Beras test, der samlet vurderer residualernes skævhed og kurtosis, afvises nulhypotesen om normalitet i 40 ud af 170 tilfælde. Disse normalitetsproblemer kan forsøges afhjulpet ved at tage den naturlige logaritme til afkastseriene, som gjort i visse andre studier. Dette gøres hovedsagligt, idet afkast kan være højreskævt fordelt (log normalfordelt), fordi der eksisterer en nedre grænse for mulige tab, men ingen øvre grænse for mulige gevinster. Ingen af afhandlingens bearbejdede afkast kommer i nærheden af den nedre grænse, og selvom der observeres problemer med normalfordeling af data, er dette ikke forsøgt afhjulpet ved at bruge logaritmiske afkast. De observerede normalitetsproblemer betyder, at inferens på baggrund af regressionsresultaterne skal tolkes med varsomhed. 25 Multikollinearitet: Perfekt multikollinearitet mellem de forklarende variable leder til, at OLS estimatoren ikke er unikt defineret, mens høj multikollinearitet leder til, at de estimerede koefficienter fra regressionerne er upræcise (Verbeek, 2012). Problemer med dette kan opstå i afhandlingens multiple 4-faktor regressioner. Samtlige forklarende variable herfra er derfor undersøgt for multikollinearitet, og dette er gjort ved skiftevis at regressere den ene forklarende variabel på de resterende tre samt en konstant. R2 -værdien fra hver af disse regressioner er indsat i nedenstående formel, der giver variansinflationsfaktoren (VIF) for hver af de k variable, V IF (bk ) = 1 1 Rk2 (4.14) Målet har en nedre grænse på nul, men ingen øvre grænse. Desto mere én variabel kan forklares af de resterende variable, desto lavere bliver brøkens nævner, og desto større bliver VIF-faktoren. Typisk benyttes en VIF-værdi på 5 eller 10 som grænse for, hvornår der er væsentlige problemer med multikollinearitet. Den højest observerede værdi i afhandlingens forklarende variable er 3,09, hvorfor det antages, at der ikke er problemer med multikollinearitet. Unit roots: Det er generelt forventeligt, at kurser/priser vil være tidsafhængigt integrerede af første eller anden orden, I(1) eller I(2), men at månedlige afkast, som afhandlingen arbejder med, vil være stationære, dvs. I(0). Grafiske illustrationer af afhandlingens variable ser meget stationære ud med et gennemsnit omkring 0. At regressere to ikke-stationære variable på hinanden kan lede til spurious regression (Wooldridge, 2009), hvor resultaterne har høje forklaringsgrader og signifikante værdier, men i realiteten er nonsens. Af denne årsag er afkastserierne og faktorerne for en sikkerheds skyld undersøgt for at indeholde unit roots ved hjælp af Augmented DickeyFuller test med varierende lags og med/uden en konstant. Ydermere er det ikke-parametriske Philips-Perron test anvendt, da det tager forbehold for eventuel seriekorrelation i de enkelte variable. Ingen af de undersøgte variable fastholder de to tests nulhypotese om én eller flere unit roots. For robusthed er KPSS-test af variablene også udført. Dette test har modsatte hypoteser af de to førnævnte, og ingen af variablene er i nærheden af at afvise nulhypotesen om, at de ikke indeholder unit roots. 4.5.2 Analyse af periodevis performance Den første af de to metoder, vi anvender til at undersøgelse forudsigelsesevnen af Morningstar ratings, er en dummy variable regressionsanalyse. Med dette test er det muligt både at undersøge, hvorvidt der eksisterer et monotont forhold mellem ratinggrupperne, og hvorvidt Morningstars 5-stjernede gruppe performer bedre end de alternative ratingsystemers 5-stjernede gruppe. 4.5.2.1 Test for monotont forhold Testet består af at rangere grupper baseret på en in-sample periode og derefter følge disse grupper out-of-sample. Fremgangsmåden følger Blake & Moreys (2000) og Morey & Gottesmanns (2006), 26 og ligesom i disse to artikler arbejder vi med 3-årige perioder. Perioden på 3 år er valgt som et trade-off mellem at have et tilstrækkeligt antal observationer i regressionerne og at have et passende antal out-of-sample perioder af rimelig længde. Analysen foretages som et rullende vindue, og det giver i alt 5 delvist overlappende out-of-sample perioder. En illustration af dette kan ses i tabel 4.2. Afhandlingens årsinddeling går fra oktober til september, således ’År 1’ løber fra oktober 2004 til og med september 2005. Tabel 4.2: Tidsperioder for 3-års test År 1 År 2 År 3 År 4 År 5 År 6 År 7 År 8 År 9 År 10 1. in-sample 1. out-of-sample 2. in-sample 2. out-of-sample 3. in-sample 3. out-of-sample 4. in-sample 4. out-of-sample 5. in-sample 5. out-of-sample In-sample rangeringsmål: Morningstar Rating, Sharpe ratio, CAPM og 4-faktor Out-of-sample performancemål: Sharpe Ratio, CAPM og 4-faktor Der arbejdes med i alt fire rangeringsmål: Morningstar rating, Sharpe ratio, CAPM og 4-faktor model. Der ses ikke udelukkende på Morningstar som ratingsystem, da en vurdering af forudsigelsesevnen kræver sammenligning med alternative mål. Derudover er det interessant at se, hvorvidt andre mål er i stand til at forudsige performance bedre end Morningstar. Rangering af Morningstar sker alene efter de tildelte ratings ultimo in-sample perioden. At rangere investeringsforeningerne baseret på hvert af de tre alternative mål kræver, at de enkelte foreninger evalueres i den 3-årige in-sample periode. Efterfølgende sorteres foreningerne i faldende orden, og de modtager så en rating. Antallet af tildelte ratings til de alternative predictors er tilsvarende Morningstars, så de fire ratingsystemer er ligestillede mht. antallet af foreninger i hver stjernegruppe. Denne evaluering, rangering og ratingtildeling foretages for alle fem in-sample perioder. Foreninger indgår kun i en in-sample rangering, hvis de har tilstrækkeligt data til også at indgå i out-of-sample perioden. Antallet af inkluderede foreninger i testet falder derfor, efterhånden som det rullende vindue bevæger sig frem i analyseperioden. Datasættet indeholder kun enkelte 1-stjernede foreninger, og i den sidste periode er der slet ingen. Dette svækker muligheden for at påvise eventuelle forskelle mellem denne gruppe og de øvrige. En oversigt over fordelingen af ratings og antallet af foreninger i de forskellige tidsperioder kan ses i bilag 7.2. Dernæst performanceevalueres de enkelte foreninger i de fem 3-årige out-of-sample perioder ud fra afhandlingens tre valgte performancemål: Sharpe Ratio, CAPM og 4-faktor modellen. Dette gøres 27 for samtlige fire ratingsystemer. Resultaterne fra denne databehandling omkodes til dummy variable, der repræsenterer en forenings tildelte ratinggruppe. Dermed kan foreningernes performance linkes til deres ratinggruppe. Oplysningen om hver forenings rating og samhørende out-of-sample performance indsættes i nedenstående dummy-variable regression, Pi = 5 + 4 D4i + 3 D3i + 2 D2i + 1 D1i + ✏i (4.15) Pi = Out-of-sample performancemål dvs. enten Sharpe Ratio, CAPM- eller 4-faktor-alpha; D4i = 1 hvis der er tale om en 4-stjernet forening målt efter Morningstar rating eller et alternativt ratingsystem, 0 hvis dette ikke er tilfældet; D3i = 1 hvis der er tale om en 3-stjernet forening målt efter Morningstar rating eller et alternativt ratingsystem, 0 hvis dette ikke er tilfældet; D2i = 1 hvis der er tale om en 2-stjernet forening målt efter Morningstar rating eller et alternativt ratingsystem, 0 hvis dette ikke er tilfældet; D1i = 1 hvis der er tale om en 1-stjernet forening målt efter Morningstar rating eller et alternativt ratingsystem, 0 hvis dette ikke er tilfældet; i = 1 til N, hvor N er antallet af foreninger i den pågældende sample. En medtagelse af alle fem dummyvariable i regressionerne ville skabe perfekt multikollinearitet. De 5-stjernede foreninger fungerer som referencegruppe for regressionerne, der udføres med Whitefejlled grundet heteroskedasticitet. En undersøgelse af monotoni i Morningstars ratingsystem foretages ved at se, hvordan de fire øvrige ratinggrupper performer sammenlignet med den 5stjernede gruppe, hvor performance f.eks. måles ved Sharpe Ratio. I tilfælde hvor der er et perfekt monotont forhold, vil koefficienterne for dummy 4-1 alle være signifikant negative i stigende størrelse. Hvis dette bliver udfaldet af regressionerne, er det pågældende ratingsystem i stand til at identificere de foreninger, der performer relativt bedst. Hvis koefficienterne for dummy 4-1 derimod er signifikant positive, betyder det, at den 5-stjernede gruppe for ratingsystemet har klaret sig signifikant dårligere i out-of-sample perioden. Hver af de fire ratingsystemer kan evalueres ved tre performancemål. Med fem perioder i alt foretages 15 regressioner for hvert ratingsystem. Hver af disse regressioner har fire dummy variable, der indikerer ratingruppen, og dermed evalueres systemer på 60 koefficienter. Der er altså 60 muligheder for, at et ratingsystems 5-stjernede gruppe out- eller underperformer de øvrige ratings (4-1). 28 I de ovenfor diskuterede regressioner fungerer den 5-stjernede gruppe som reference. Et ratingsystem, der er i stand til at identificere et monotont forhold, vil også kunne udpege 4-stjernede foreninger, som efterfølgende outperformer de 3-1 stjernede foreninger, osv. Derfor udføres de samme dummy variable regressioner én gang til, men løbende udelades en ratinggruppe, og den højest ratede af de tilbageværende fungerer som ny reference. Dermed undersøges der også, om koefficienterne for ratinggruppe 3 er signifikant forskellige fra ratinggruppe 2-1, og om koefficienterne for ratinggruppe 2 er signifikant forskellige fra ratinggruppe 1. Resultatet af dummy regressionerne præsenteres og diskuteres i afsnit 5.4.1.1. Som tidligere benævnt er der ingen 1-stjernede foreninger i den sidste out-of-sample periode, hvorfor det heller ikke er muligt at inkludere dem i regressionerne for den femte periode. 4.5.2.2 Niveautest på tværs af ratingsystemer Dette relative tests hensigt er at sammenligne Morningstars 5-stjernede foreningers performance med de tre alternative predictors 5-stjernede foreninger. Metodologien følger til dels den samme som i ovenstående afsnit (4.5.2.1), idet der måles på fem out-of-sample perioder. Forskellen er, at dette niveautest udelukkende er interesseret i at vurdere performance af de 5-stjernede foreninger. Denne vurdering foretages som en relativ performancemåling, hvor Morningstar som referencegruppe vurderes i forhold til de øvrige tre ratingsystemer. Det er interessant at se, om de foreninger, Morningstar udpeger som de bedste, faktisk opnår et signifikant højere afkast end de tre alternative predictors. Testet benytter de samme 5-stjernede grupper som ved det monotone test, men dummy variablene omkodes. Dermed fås 15 regressioner (fem perioder og tre performancemål), som hver indeholder tre dummy variable. Det er derfor muligt, at Morningstar out- eller underperformer de tre andre ratingsystemer i 45 tilfælde. Alle 15 regressioner følger nedenstående form. Det er kun perioderne og performancemålene, der varierer, Pi = 0 + SR 1 Di + CAP M 2 Di + 4F 3 Di + ✏i (4.16) Pi = Out-of-sample performancemål dvs. enten Sharpe Ratio, CAPM- eller 4-faktor-alpha; DiSR = 1 hvis der er tale om en 5-stjernet forening iflg. Sharpe Ratio rating, 0 hvis dette ikke er tilfældet; DiCAP M = 1 hvis der er tale om en 5-stjernet forening iflg. CAPM rating, 0 hvis dette ikke er tilfældet; 29 Di4F = 1 hvis der er tale om en 5-stjernet forening iflg. 4-faktor rating, 0 hvis dette ikke er tilfældet; i = 1 til N, hvor N er antallet af 5-stjernede foreninger i den pågældende sample. Morningstar er valgt som referencegruppe, fordi dette ratingsystem er i fokus. Resultaterne fra de 45 regressioner præsenteres i afsnit 5.4.1.2. 4.5.3 Test af performance ved månedlig reparametrisering Ved dette test foretages der også både en test for det monotone forhold og niveautest mellem de 5-stjernede grupper. 4.5.3.1 Test for monotont forhold Dummy-variable testet, der er udført i tråd med Blake & Moreys (2000) fremgangsmåde, bruger tre års in-sample og tre års out-of-sample. Dette stiller et relativt stort datakrav til foreninger, der er ophørt i løbet af den 10-årige periode, og samtidig skal survivorship bias håndteres. Patton & Timmermann (2010) har udviklet et test, der har til formål at undersøge, om der eksisterer et monotont forhold mellem forskellige grupper. I vores tilfælde vil vi teste, hvorvidt 5-stjernede foreninger har et større risikojusteret afkast end 4-stjernede, og hvorvidt disse er større end 3stjernede, osv. Hvor dummy variable testet var baseret på fem delvist overlappende 3-årige out-ofsample perioder, består denne analyse af at risikojustere én stor periode på i alt 84 observationer (7 år) for hver ratinggruppe. Dummy variable testet fra Blake & Morey (2000) testede enkeltvis de 5-stjernede foreningers risikojusterede performance mod hver af de øvrige fire stjernegrupper. Resultatet af dette test giver ét svar på, om der er et monotont forhold imellem et ratingsystems stjernegrupper. Tilsvarende dummy-variable testet er der i alt fire in-sample ratingsystemer bestående af Morningstar, Sharpe Ratio, CAPM og 4-faktor. I dette test fungerer kun de to sidstnævnte som out-of-sample performancemål. Denne gang er det ikke muligt at medtage Sharpe Ratio som out-of-sample performancemål, fordi metoden har krav om, at målene skal være tidsvarierende, hvilket uddybes senere i dette afsnit. Rangeringerne laves ud fra den mindst mulige out-of-sample tidshorisont, hvilket er én måned. Der er dermed næppe tale om en relevant handelsstrategi for almindelige investorer, da en portefølje af investeringsforeninger i så fald skal reevalueres hver måned. At bruge dette test, der udnytter det fulde datasæt og dets månedlige observationer, giver en form for robusthed, der er tilsvarende modelleringen af ratings i overgangsmatricerne. Der dannes fem stjerneporteføljer ved at følge den seneste måneds rating i én periode. Dette starter først fra den 36. måned, da de tre alternative ratingsystemer har en tvungen in-sample 30 periode på tre år til at danne deres rangeringer. For at give fuld sammenlignelighed arbejdes der med samme periodelængde på tværs af ratingsystemerne. Dermed evalueres hver forening med de tre alternative performancemål baseret på de første 36 måneder. Dette skaber så rangeringerne, der bruges til at udvælge stjernegruppernes afkast i den 37. måned. Dette gøres som et rullende vindue på månedlig basis for alle fire ratingsystemer, indtil den 119. observation er den sidste insample måned, og den 120. observation er den sidste out-of-sample måned. Med denne håndtering kan aktieforeninger, der ikke eksisterer i hele den 10-årige periode, blot falde fra løbende, fordi deres afkast kun inkluderes så længe, de eksisterer. Med andre ord laves der kun en in-sample udvælgelse af en given forening, hvis den har et afkast i den kommende måned. Dette har flere fordele, herunder at datakravet sammenlignet med dummy-variable testet falder fra 61 måneder til 37 måneder, for at en forening kan indgå. Det ændrede datakrav betyder, at der initialt indgår 170 foreninger versus 154 i dummy-variable testet, men at der i de sidste periode er 109 foreninger tilbage mod 110. Endnu en gang bestemmes antallet i hver ratinggruppe ud fra det antal, Morningstar har tildelt. Dermed er der igen lige mange foreninger indeholdt i hver ratinggruppe på tværs af ratingsystemerne. Ved ratingsystemerne baseret på CAPM og 4-faktor modellen er der valgt at rangere på alphaernes t-statistikker i stedet for de observerede alphaer. Det betyder, at den største, observerede alpha ikke nødvendigvis modtager en 5-stjernet rating, hvis denne har en meget høj robust standard-error, hvilket resulterer i en lille t-statistik. For hver af de 84 (7 år) out-of-sample måneder, tages det gennemsnitlige afkast for de foreninger, der har den samme rating. På denne måde får hver ratinggruppe et gennemsnitligt, månedligt merafkast, og det er disse out-of-sample porteføljer, der risikojusteres vha. CAPM og 4-faktor modellen. Regressions-, beregnings- og sorteringsarbejdet, der ligger til grund for analysen, består af mellem 170 og 109 regressioner i hver af de 84 in-sample perioder, der efterfølgende sorteres månedligt efter performance. Med fire ratingsystemer, som hver indeholder fem stjerneporteføljer, giver det i alt 20 porteføljer. De kan noteres som ri,t , hvor t = 1, ..., 84 og rating i = 1, ..., 5 for hvert ratingsystem. Hver af disse 20 stjerneporteføljer risikojusteres med hhv. CAPM og 4-faktor modellen. Dette giver én alpha-værdi fra hver estimation. Nedenfor ses et eksempel på 4-faktor regressionerne. CAPM-regressionerne udføres tilsvarende, men her udelades SMB, HML og WML, ri,t = ↵ ˆ i + ˆ1 rt,M + ˆ2 SM Bt + ˆ3 HM Lt + ˆ4 W M Lt + ✏ˆi,t (4.17) Alphaen og residualerne bruges til at lave et estimat for 84 tidsvarierende alphaer. Denne metode blev bl.a. brugt af Blake & Morey (2000), der kaldte dem ”modified alphas”. Disse dannes ved at tage alphaen og tillægge månedens residual fra regressionen, 31 (4.18) ↵ ˆ i,t = ↵ ˆ i + ✏ˆi,t Hver af de fem stjernegrupper på tværs af ratingsystemerne og performancemålene får dermed et estimat for deres månedlige risikojusterede afkast. Estimatet kan være enten positivt eller negativt afhængigt af alpha-estimatet selv, og hvordan periodens faktiske observation er placeret i forhold til det lineære regressionsestimat (residualet). De gennemsnitlige tidsvarierende alphaer T P findes ved µ̂i = (1/T ) ↵ ˆ i,t . Resultatet af dette giver selvfølgelig bare de oprindelige alphat=1 estimater. Senere i afsnittet introduceres en bootstrapping-metode, der gør det nødvendigt at have tidsvarierende alpha-estimater. For hvert af de fire ratingsystemer ønsker vi at vide, om den gennemsnitlige alpha for den 5-stjernede gruppe er større end den 4-stjernede gruppes, osv. Dvs. at der undersøges, hvorvidt µ5 > µ4 > µ3 > µ2 > µ1 . For at det kan testes, hvorvidt de risikojusterede afkast er stigende fra lave til høje ratings, defineres i 1 ⌘ µi µi 1, i = 2, ..., 5, der samlet kan skrives som en søjlevektor, =[ 1 , ..., 4] 0. Denne søjlevektor indeholder forskellene mellem ratinggruppernes risikojusterede afkast. Testet for det monotone forhold tager følgende hypoteser: H0 : 0 H1 : >0 Nulhypotesen er, at forholdet mellem ratinggrupperne er fladt eller svagt faldende, og alternativhypotesen er, at forholdet er stigende. En afvisning af nulhypotesen betyder altså, at det givne ratingsystems risikojusterede afkast besidder et monotont forhold, således at højtratede foreninger har de højeste risikojusterede afkast og vice versa. Alternativhypotesen kan omskrives til H1 : min i=1,.., 4 i > 0, således der testes, om den mindste forskel mellem alphaerne er større end 0. For at teste om dette er tilfældet introduceres teststatistikken, JT = min ˆ i i=1,.., 4 (4.19) hvor populationsværdierne er erstattet med sampleværdierne. Hvis den mindste af de fire alphaforskelle er større end nul, så er de alle større end nul, og i disse tilfælde bør nulhypotesen forkastes. Den estimerede vektor ˆ = [ ˆ 1 , ..., ˆ 4 ]0 er asymptotisk normalfordelt med en konstant varianskovariansmatrice. Det findes i undersøgelsen ikke rimeligt at anvende asymptotiske egenskaber, der baserer sig på T ! 1, når undersøgelsen kun indeholder 84 tidsobservationer. Dette er jf. Patton & Timmermann (2010) et typisk empirisk problem, hvorfor de i deres testudvikling har 32 benyttet en bootstrap-metode, der hverken behøver at estimere varians-kovariansmatricen eller gøre sig antagelser om fordelingen af data - der er tale om et ikke-parametrisk test. Såfremt man har et stort, normalfordelt datasæt, så bør man ikke benytte denne bootstrap-metode. Bootstrap-metoden fungerer i praksis ved, at der i stedet for at benytte de sædvanlige 84 tidsobservationer kronologisk tilfældigt udtrækkes tidsvarierende alphaer fra hver portefølje med tilbagelægning af disse tilbage i observationssættet. Dette giver et forudbestemt antal bootstraps med nye tidsindeks, og disse nye porteføljer kan noteres som, (b) µ̂i = (1/T ) T X (b) ↵ ˜ i,⌧ (t) (4.20) t=1 hvor ⌧ (1), ..., ⌧ (84) er de nye tilfældigt udtrukne tidspunkter, i = 1, ..., 5 repræsenterer stjernegruppen, og b = 1, ..., B er antallet af bootstraps. De tilfældigt udvalgte tidsindeks, ⌧ (t), er ens på tværs af porteføljerne for at bevare eventuelle tidsmæssige afhængigheder. Afhandlingen bruger 1.000 bootstraps. De skabte afkastserier behandles på samme måde som de observerede, og derfor regnes de gennemsnitlige forskelle mellem ratinggrupperne. Ligesom det observerede data har en test-statistik, så har de bootstrappede dataværdier det også, (b) (b) JT = min ( ˆ i i=1,.., 4 ˆ i ) , b = 1, 2, ..., 1000 (4.21) Ved at fratrække de faktisk observerede gruppeforskelle fra de bootstrappede gruppeforskelle pålægges testet nulhypotesen om, at forskellen mellem disse to er nul. Dette er det strengeste krav, der kan stilles ud fra nulhypotesen. Det er parallelt til et t-test, hvor værdien fra nulhypotesen fratrækkes en observeret værdi for at se, om forskellen er forskellig fra nul. Slutteligt beregnes p-værdien fra testet ved, B 1 X (b) p̂ = 1{JT > JT } B (4.22) b=1 hvor udtrykket, der summeres over, bliver 1, hver gang den mindste observerede bootstrappede test-statistik er større end den faktiske observerede test-statistik. Hver gang det modsatte er tilfældet, så bliver den lig 0. Fortolkningen er, at vi er interesserede i, om værdien af test-statistikken er høj eller lav under nulhypotesen. Til udførelse af testet for et monotont forhold anvendes en kode, der er tilgængelig på Andrew Pattons hjemmeside15 . Koden og testet er oprindeligt udviklet til at undersøge monotoni ift. CAPM eller Liquidity Preference Hypothesis, men kan jf. Patton & Timmermann (2010) også benyttes til risikojusterede mål. Det skal derfor bemærkes, at vi ikke har stået for udviklingen af 15 Link: http://public.econ.duke.edu/~ap172/ 33 koden, men at vi har indsat de tidsvarierende alphaer for de respektive porteføljer og valgt, hvordan testet skal udføres. Ved hjælp af koden bootstrappes fordelingen under nulhypotesen. Hvis få bootstrap-teststatistikker (under 5%) er af samme størrelse som den observerede test-statistik, så må den observerede være langt væk fra nulhypotesen. Derfor forkastes H0 , og alternativhypotesen om et monotont stigende forhold accepteres. Hvis mange bootstrap-teststatistikker er større end den observerede, så er p-værdien høj, og nulhypotesen kan ikke forkastes. Der udføres 1.000 bootstraps, så hvis mindre end 50 af de bootstrappede værdier er større end de observerede, påvises der et monotont forhold ved et 5% signifikansniveau. 4.5.3.2 Niveautest på tværs af ratingsystemer Den ovenfor beskrevne metode anvendes tilsvarende til at teste for et fladt forhold på tværs af ratingsystemerne med Morningstar som referencegruppe. Her fokuserer afhandlingen udelukkende på de porteføljer, der bliver udpeget som 5-stjernede. Vi undersøger altså, om de foreninger, Morningstar udpeger som 5-stjernede, er i stand til at outperforme de, der findes de tre alternative predictors. Resultaterne fra de to tests præsenteres i afsnit 5.4.2. 34 5 Empiriske resultater Resultaterne af afhandlingens analyser præsenteres i dette afsnit. Opstillingen følger samme rækkefølge som metodeafsnittet. 5.1 In-flow på tværs af grupper I tabel 5.1 ses resultaterne af kapital in-flow analysen. Det er vigtigt at huske, at der er tale om en estimationsmetode, hvor der ses bort fra udbytter og mulige fusioner. Der ser ud til at eksistere et monotont forhold mellem ratings og kapital in-flow til foreningerne fra rating 2-5. I gennemsnit over den 10-årige periode oplevede de 1 - 3 stjernede foreningerne out-flows, mens de 4- og 5-stjernede foreninger oplevede in-flows. Resultaterne for de 1-stjernede foreninger er, ligesom i resten af rapporten, baseret på meget få observationer. Ved histogramanalyse og vha. Jarque-Beras test for normalitet identificeres alvorlige problemer. Data er både højreskævt, og der er mange ekstreme observationer. Det gennemsnitlige månedlige in-flow for de 1-stjernede foreninger er den eneste af de fem stjernegrupper, der ikke er signifikant forskellig fra nul ved et t-test. Det er desværre ikke muligt at tolke og inferere på baggrund af disse t-statistikker grundet normalitetsproblemerne. Tabel 5.1: Månedligt kapital in-flow for Morningstargrupper Rating 1 2 3 4 5 Gennemsnitligt kapital in-flow, % -0,13 -0,76 -0,38 0,23 0,66 Den umiddelbare positive sammenhæng mellem ratings og kapital in-flow stemmer overens med resultaterne fra tidligere studier (Gruber, 1996; Guercio and Tkac, 2002; Guercio, D. D. and Tkac, 2003). Det er dog vigtigt at understrege, at ovenstående diskussion om sammenhæng mellem Morningstar ratings og kapital in-flow udelukkende er baseret på korrelation. Der er intet grundlag for kunne at vurdere kausalitet. Ydermere kan det nævnes, at der højst sandsynligt også findes andre faktorer end Morningstar ratings, der kan påvirke kapital in-flowet til investeringsforeninger. Andre undersøgelser har forsøgt at forklare in-flow ud fra variable som f.eks. Morningstar rating, risikojusteret afkast, ledelsesegenskaber og lignende (Sirri and Tufano, 1998; Goetsmann and Peles, 1997). 35 5.2 5.2.1 Persistens i ratings Antalstabeller på tværs af tid En opsummering af resultaterne fra de 55 antalstabeller kan ses i bilag 7.2, der viser de to pværdier for hver test. Der er stort sammenfald mellem ratinggrupperingerne, og det kan bl.a. bemærkes, at særligt inden for en 2-årig horisont er samtlige resultater signifikante. Ved alene at vurdere p-værdierne tyder det i høj grad på, at der er persistens i ratings grundet det store sammenfald mellem analyserne. Af de 110 tests fastholder kun 13 (12%) nulhypotesen om uafhængighed mellem start- og sluttidspunkterne. I de resterende 97 tests (88%) vælges alternativhypotesen om afhængighed mellem to tidspunkter og dermed persistens. Resultaterne stemmer overens med Khorana & Nelling (1998). Desværre er observatorværdierne fejlbehæftede, da det lave antal foreninger i analysen medfører, at en væsentlig del af de 25 felter i hver antalstabel har forventede værdier under 5. Tabel 5.2: Antalstabeller: Start- og slutrating Okt 2004 - Okt 2007 Okt 2007 - Okt 2010 Fra\Til 1 2 3 4 5 Fra\Til 1 2 3 4 5 1 2 3 1 0 0 1 0 0 4 1 0 2 4 14 15 9 0 2 1 5 12 3 0 3 1 8 34 22 5 3 1 7 27 14 4 4 1 2 12 12 10 4 1 3 16 15 7 5 0 0 1 5 7 5 0 0 10 5 3 2 p-værdi: 0, 000 2 Likelihood ratio p-værdi: 0, 000 p-værdi: 0, 309 Likelihood ratio p-værdi: 0, 124 Tabel 5.2 viser eksempler på to af de 55 antalstabeller. Den første viser ændringen i fordelingen af ratings fra datasættets begyndelse i oktober 2004 til oktober 2007, og den anden viser udviklingen fra oktober 2007 til oktober 2010. Både 2- og likelihood ratio-testet afviser nulhypotesen om uafhængighed for observationerne i den første periode, men ingen af de to tests er i stand til dette i den anden periode. Det er gældende for begge antalstabeller, at ingen 1-stjernede foreninger endte som 5-stjernede eller omvendt. Det interessante i antalstabellerne er diagonalværdierne, da de viser, hvor mange foreninger endte med samme rating, som de havde i begyndelsen af perioden. I den første periode falder observationerne relativt pænt i diagonalen, men der er dog sket et væsentligt antal skift til naboratings. I den anden antalstabel blev én af de initialt 1-stjernede 36 foreninger 4-stjernet, og hele 10 ud af de 5-stjernede blev 3-stjernede. Fra en ren visuel vurdering ser det ud til, at det var få forskelle i ratingplaceringer mellem de to antalstabeller, der var årsag til, at den første er signifikant ned til 1%, og den anden har p-værdier på hhv. 12% og 31%. Dette understreger blot, at test-værdierne skal tolkes med varsomhed. 5.2.2 Estimerede overgangsmatricer I dette afsnit behandles ratings for de 187 danske aktieforeninger. Når en forening ophører med at eksistere, er den i datasættet noteret med rating 0 i den efterfølgende periode, og herefter indgår den ikke længere. Dette giver i alt 17.948 ratingobservationer. Til beregning af generatormatricen findes først oplysningen om, hvor mange skift der er sket fra rating til rating over datasættets 10-årige periode. En oversigt over dette ses i tabel 5.3. Da det ikke tolkes som et skift at fastholde en rating, er diagonalværdierne i matricen lig nul. Fra matricen ses det, at det typisk er ’nabo-ratings’, som der skiftes til. Dette er også forventeligt, da en rating består af mange års data, og det vil være usandsynligt, at mange foreninger vil formå at skifte flere ratingniveauer op (ned) baseret på én måneds god (dårlig) performance. Dette antages også at være årsagen til, at der i hele perioden ikke er en eneste 1-stjernet forening, der direkte bliver 5-stjernet eller omvendt. Der sker i alt 244 skift væk fra en 5-stjernet til en anden rating, og heraf er de 242 til en 4-stjernet rating. I alt observeres 2.524 skift mellem ratings ud af i alt 17.870 ratingobservationer (fratrukket skift til rating 0). Med andre ord forventes foreninger i gennemsnit af skifte rating ca. hver 7. måned. Tabel 5.3: Antal skift mellem ratinggrupper Fra\Til 1 2 3 4 5 0 Total 1 0 112 1 0 0 0 113 2 110 0 325 1 1 0 437 3 4 341 0 554 1 0 900 4 0 4 582 0 242 0 828 5 0 0 1 245 0 0 246 0 6 23 31 14 4 0 78 Total 120 480 940 814 248 0 2.602 Den anden oplysning, der skal bruges til at beregne generatormatricen, er det samlede antal 365dages år, der er brugt i hver rating. Disse oplysninger ses i bilag 7.2, og de svarer til integralet, der blev diskuteret i det metodiske afsnit. Med de to ovenstående oplysninger er det muligt at ˆ jf. metodeafsnittet. Med beregne et estimat for hver ˆ i,j , der skal indgå i generatormatricen, ⇤ denne generatormatrice har forfatterne beregnet overgangsmatricer med forskellige tidshorisonter 37 for udviklingen i ratings, og det fremkomne resultat for 1-månedsmatricen kan ses nedenfor i tabel (5.4). Overgangsmatricerne for de resterende tidsperioder kan findes i det vedlagte data. Tabel 5.4: 1 måneds overgangsmatrice, % sandsynligheder P 1/12 = Fra\Til 1 2 3 4 5 0 1 80,8 3,4 0,1 0 0 0 2 16,4 84,5 4,1 0,2 0 0 3 1,7 10,7 87,8 8,5 0,5 0 4 0,1 0,6 7,4 87,3 9,8 0 5 0 0 0,2 3,8 89,5 0 0 1,2 0,8 0,4 0,3 0,2 100 Fortolkningen af overgangsmatricen er, at over den 10-årige periode forventedes 1-stjernede foreninger i 80,8% af tilfældene at beholde den samme rating i næste måned. For 16,4% af de 1-stjernede foreninger vil man forvente, at de bliver 2-stjernet i stedet. På denne helt korte tidshorisont har de 5-stjernede foreninger den højeste fastholdelsessandsynlighed af alle på 89,5%. Ligesom i opgørelsen over antal skift fra rating-til-rating, er de forventede skift koncentreret omkring naboratings. Det er især fastholdelsessandsynlighederne, der er interessante for persistensundersøgelsen, og disse findes i diagonalen på overgangsmatricerne. Resultaterne fra beregning og aflæsning af overgangsmatricerne med længere tidshorisonter er indsat i tabel 5.5. Tabel 5.5: Fastholdelsessandsynligheder, % Rating \ Tid 5 4 3 2 1 1 md. 90 87 88 85 81 3 mdr. 73 69 71 63 54 6 mdr. 55 53 56 44 32 1 år 35 40 43 28 14 3 år 14 30 32 13 3 5 år 11 27 29 10 2 7 år 10 24 26 9 2 Fra tabellen står det klart, at fastholdelsessandsynligheder er hurtigt aftagende selv inden for helt korte tidshorisonter. Dette er også tydeligt efter en visuel inspektion af datasættet, der afslører, at selv foreninger med en rimelig fast rating over tid udsættes for enkelte ratingskift. Dette er en konsekvens af Morningstars ratingmetodologi, der opdateres månedligt og tildeles relativt. Efter seks måneder vil man kun forvente, at lidt over halvdelen af de 5- og 4-stjernede foreninger har fastholdt deres ratings. Disse tal er fortsat hastigt faldende på længere sigt, og efter tre år havde kun 14% af de højest ratede foreninger stadig den høje rating. Resultaterne er i tråd med både 38 Hereil et al. (2010) og Garnier & Pujol (2007), der har undersøgt europæiske og amerikanske ratings. 5.2.3 2- Delkonklusion for persistens i ratings og likelihood ratio-testet viste overordnet tegn på, at ratings er faste over tid særligt inden for en to-årig horisont. Disse to test er dog behæftet med væsentlige forudsætningsbrud. Ydermere udelader metoden oplysninger om skift mellem start-/sluttidspunktet og negligerer samtidig et potentielt survivorship bias. Af ovennævnte grunde inkluderede vi endnu en analysemetode, der vha. overgangsmatricer viser sandsynlighederne for at fastholde ratings over forskellige tidshorisonter. Tilgangen udnytter al information fra datasættet, og derfor straffes ratingskift mellem start-slut tidspunkter. Fra denne undersøgelse ser ratings langtfra persistente ud, da kun knap halvdelen af de højtratede fonde forventes af fastholde sin rating efter et halvt år. På en treårig horisont, der er udgangspunktet for den første performanceanalyse, forventes kun 14% af de 5stjernede at fastholde sin rating. Dette leder til den overordnede konklusion, at ratings tyder på at være relativt ustabile. 5.3 Ratings baseret på alternative performancemål I alt 109 foreninger har data for hele perioden, og derfor består analysen af at evaluere disse på 3-, 5-, og 10-årig basis ved hvert af de tre performancemål. Databehandlingen og sorteringen kan ses i de elektroniske bilag. Baseret på ratings er der lavet tre antalstabeller, hvor Morningstars ratingfordeling sammenlignes med hhv. Sharpe Ratio, CAPM og 4-faktor modellens ratingfordeling. Ligesom ved test af ratings overtræder antalstabellerne forudsætningen om, at ingen celler må have forventede værdier lavere end 5. Også i denne analyse er det diagonalerne, der er interessante. Ratingfordelingerne i de tre undersøgelser er summeret i tabel 5.6, og testresultaterne leder til to konklusioner. Først og fremmest tyder det på, at et ratingsystem baseret på Sharpe Ratio ikke genererer den samme fordeling som Morningstar. Specielt omkring de 3-stjernede foreninger er Sharpe Ratioen og Morningstar kun enige om 14 foreninger, mens de resterende 21, som er 3-stjernet ifølge Morningstar, er spredt rundt på de andre kategorier af Sharpe Ratioen. Der ser overordnet ikke ud til at være en fremherskende afhængighed mellem de to ratingsystemer, hvilket også kommer til udtryk i de to insignifikante p-værdier. Ud fra det observerede ser det ikke ud til, at man ikke kan skabe en ratingfordeling tilsvarende Morningstars ved at anvende Sharpe Ratio. Når der kigges på CAPM og 4-faktor ratings er resultatet anderledes. Disse tilgange ratingsystemer viser et større sammenfald med Morningstar. Det kan eksempelvis ses, at over halvdelen af foreningerne i Morningstars 3- og 4-stjernede gruppe tilsvarende falder i både CAPM og 4faktor systemets 3- og 4-stjernede grupper. De overordnede sammenfald resulterer i afvisninger af uafhængighed for begge ratingsystemer. Med visse forbehold tyder det på, at man ved hjælp 39 af CAPM og 4-faktor regressioner kan rate investeringsforeninger med nogenlunde samme udfald som Morningstar. Tabel 5.6: Morningstar ratingtildeling vs. alternative ratingtildelinger MS-rating Sharpe Ratio rating 1 2 3 4 5 1 0 0 0 1 0 2 0 0 4 3 0 3 1 4 14 14 2 4 0 2 13 30 9 5 0 1 4 6 1 Pearson 2 , p-værdi: 0, 66 Likelihood ratio, p-værdi: 0, 55 5.4 1 2 3 4 5 CAPM rating 1 2 3 4 0 0 0 1 0 1 4 2 1 5 19 9 0 1 10 34 0 0 2 8 p-værdi: 0, 009 p-værdi: 0, 004 5 0 0 1 9 2 1 2 3 4 5 4-faktor rating 1 2 3 4 0 0 0 1 1 1 4 1 0 6 19 9 0 0 12 34 0 0 0 9 5 0 0 1 8 3 p-værdi: 0, 000 p-værdi: 0, 000 Morningstar ratings’ forudsigelsesevne Som beskrevet i afsnit 4.5 analyseres forudsigelsesevnen af Morningstar ratings gennem et periodeopdelt test, der er baseret på rullende vinduer af 3 år, og et med månedlige ratingporteføljer. Den samlede databehandling for begge tests er vedlagt som elektronisk bilag. 5.4.1 5.4.1.1 Periodevis performance Test for monotont forhold Som beskrevet i afsnit 4.5.2.1 laves der evaluering efter tre forskellige performancemål (Sharpe Ratio, CAPM og 4-faktor) for alle fem out-of-sample perioder, hvilket giver i alt 15 dummyvariable regressioner. Hver af disse 15 regressioner indeholder fire dummy-variabler, og dette giver 60 koefficienter til at evaluere hver af de fire forskellige in-sample ratingsystemer (Morningstar, Sharpe Ratio, CAPM og 4-faktor rating) på. Hertil skal der dog bemærkes, at der i sidste out-ofsample periode fra 2011 - 2014, ingen 1-stjernede foreninger er efter Morningstars system, hvorfor de andre ratingsystemer heller ikke har en 1-stjernet gruppe. Dette fjerner 3 koefficienter (én for hver af de tre performancemål), således der totalt set bliver 57 koefficienter at evaluere hvert ratingssystem ud fra. Tabel 5.7 viser en oversigt over resultaterne for dummy variable regressionerne med de 5-stjernede foreninger som reference. Antallet af gange, hvor der er signifikant negativ forskel mellem referen- 40 cegruppen og en koefficient, kan aflæses i den første kolonne16 . F.eks. kan det konkluderes, at 15 gange ud af de 57 mulige har Morningstars ratingsystem været i stand til at rangere en 5-stjernet gruppe, som i den efterfølgende 3-årige out-of-sample periode har outperformet én af de andre stjernegrupper (1-4 efter Morningstars eget system). Omvendt kan det også bemærkes, at i 10 af de 57 gange har Morningstar rangeret en 5-stjernet gruppe, som efterfølgende signifikant har underperformet en anden gruppe, da koefficienten for disse grupper har været signifikant positiv. Der blev altså ikke påvist en signifikant performanceforskel i 32 ud af de 57 out-of-sample tilfælde. Denne tendens med ikke konsekvent at kunne udvælge en 5-stjernet gruppe, som efterfølgende outperformer de andre ratinggrupper, går igen for de alternative ratingssystemer. Sharpe Ratioens 5-stjernede grupper bliver outperformet flere gange, end de outperformer gruppe 4-1. CAPM outperformer lige så mange gange, som den bliver outperformet. 4-faktor modellen klarer sig bedre end de tre andre ratingsystemer, idet den outperformer de andre ratinggrupper 22 ud af 57 gange. Gældende for alle fire ratingsystemer er, at deres 5-stjernede gruppers outperformance er ligelidt fordelt mellem ratinggruppe 4-2. Rating 1 outperformes sjældent, hvilket kan skyldes det lave antal foreninger i gruppen. Det skal endvidere bemærkes, at der er store udsving i regressionernes forklaringsgrader. Tabel 5.7: Relativ performancemåling med 5-stjernede referencegrupper Antal gange ud af 57 hvor 0 >⇤ 4 1 Antal gange ud af 57 hvor 0 <⇤ 4 1 Antal gange ud af 15 hvor 0 >⇤ 4 Antal gange ud af 15 hvor 0 >⇤ 3 Antal gange ud af 15 hvor 0 >⇤ 2 Antal gange ud af 12 hvor 0 >⇤ 1 Morningstar rating 15 10 5 4 4 2 Sharpe Ratio rating 12 16 3 4 4 1 CAPM rating 18 18 6 6 6 0 4-faktor rating 22 13 6 6 6 4 *Signifikansniveau: 5% Forskel i performance mellem ratinggrupper kan ske ved samtlige tre out-of-sample performancemål. I bilag 7.2 ses en oversigt over, hvilke mål outperformance skete ved. Både CAPM og 4-faktor ratings outperformance er ligeligt fordelt mellem de tre performancemål. For ratings ved Sharpe Ratio skete outperformance i syv ud af 12 gange ved Sharpe Ratio, to gange ved 4-faktor og tre gange ved CAPM risikojustering. Sharpe Ratioen er altså bedst til at forudsige outperformance målt ved Sharpe Ratio. En meget væsentlig observation, som kan ses i bilag 7.2, er, at relativ over- og underperformance er spredt ud over tidsperioderne. Overperformance er koncentreret omkring periode 2 (fra 2008 - 2011), og det samme er gældende for underperformance i periode 1 (fra 2007 - 2010). I de 16 Optællinger er lavet på baggrund antallet af signifikante resultater. Et eksempel med en oversigt af regressioner for Morningstar kan ses i bilag 7.2. Oversigter for de alternative ratingsystemer kan ses i de elektroniske bilag 41 resterende perioder kan der stort set ikke påvises forskelle i performance. Disse resultater antyder en vis grad af tilfældighed. Tabel 5.8 bygger på samme information som vist i første kolonne i tabel 5.7, men her sammenlignes henholdsvis ratinggruppe 4 med gruppe 3-1; ratinggruppe 3 med gruppe 2-1; ratinggruppe 2 med gruppe 1. Antallene i tabellen viser de tilfælde, hvor referencegrupperne har outperformet de øvrige. Tabellen viser, at Morningstar og CAPM ikke har været gode til at identificere et monotont forhold for rating 4-1, idet referencegrupperne kun i få tilfælde har outperformet de resterende. Med gruppe 4 som reference har Sharpe Ratio ratings været det bedste ratingsystem med outperformance i 11 ud af 42 mulige tilfælde. For sammenligningerne af de lavere ratings påvises der kun få forskelle. Tabel 5.8 viser endvidere, at Sharpe Ratio og 4-faktor ratings’ højere ratede grupper bliver outperformet hyppigere end Morningstar og CAPM ratings. Ses der bort fra de 5-stjernede foreninger som referencegruppe, gælder det for alle fire ratingsystemer, at de højere ratings bliver outperformet omtrent lige så mange gange, som de outperformer de lavere ratings. Tabel 5.8: Relativ performancemåling med varierende referencegrupper Antal gange ud af 42 hvor 0 >⇤ 3 1 med D4 som referencegruppe Antal gange ud af 27 hvor 0 >⇤ 2 1 med D3 som referencegruppe Antal gange ud af 12 hvor 0 >⇤ 1 med D2 som referencegruppe Antal gange ud af 42 hvor 0 <⇤ 3 1 med D4 som referencegruppe Antal gange ud af 27 hvor 0 <⇤ 2 1 med D3 som referencegruppe Antal gange ud af 12 hvor 0 <⇤ 1 med D2 som referencegruppe Morningstar rating 0 4 1 4 1 1 Sharpe rating 11 3 1 5 8 3 CAPM rating 3 1 1 1 3 0 4-faktor rating 8 3 1 3 5 1 Signifikansniveau: 5% 5.4.1.2 Niveautest på tværs af ratingsystemer Opsummeringen i tabel 5.9 viser tvetydige resultater. Det ses, at Morningstars 5-stjernede gruppe outperformer andre ratingmåls 5-stjernede grupper seks gange (13,3%), mens Morningstar selv bliver outperformet otte gange (17.8%). Fra oktober 2007 til september 2010 slår de alternative ratingmål Morningstar i syv ud af ni mulige tilfælde17 . Fra oktober 2010 til september 2013 outperformer Morningstar de andre ratingsystemer fem ud af ni mulige gange, og bliver ikke selv outperformet en eneste gang. Perioden hvor Morningstar klarer sig relativt godt, efterfølges af en periode uden forskel i performance. Dette er til trods for, at de 3-årige perioder har to års dataoverlap. Det samme er gældende for de alternative ratingsystemers gode periode. 17 3 ratingsystemer og 3 performancemål = 9 mulige forskelle pr. periode 42 Tabel 5.9: 5-stjernet performance på tværs af ratingsystemer ’07 - ’10 ’08 - ’11 ’09 - ’12 ’10 - ’13 ’11 - ’14 Sum % # gange ud af 9 Morningstar > Andre 0 0 1 5 0 6 (ud af 45) 13,3% # gange ud af 9 Morningstar < Andre 7 1 0 0 0 8 (ud af 45) 17,8% # gange ud af 3 Morningstar > Sharpe Ratio 0 0 0 1 0 1 (ud af 15) 6,7% # gange ud af 3 Morningstar > CAPM 0 0 1 2 0 3 (ud af 15) 20,0% # gange ud af 3 Morningstar > 4-faktor 0 0 0 2 0 2 (ud af 15) 13,3% Signifikansniveau: 5% 5.4.2 Test af performance ved månedlig reparametrisering I dette afsnit beskrives resultaterne for det månedlige reparametriserende test. Først gennemgås testet for det monotone forhold inden for hvert ratingsystem og derefter for niveau på tværs af de fire ratingsystemer. 5.4.2.1 Test for monotont forhold Figur 5.1 er et grafisk eksempel på de beregnede stjerneporteføljer for hhv. CAPM og Morningstar ratings. Figur 5.1: CAPM vs. Morningstar 43 Målt ved CAPM-risikojustering ser det overordnet ud til, at CAPM ratings besidder et monotont forhold fra rating 1 til 5. Den observerede alpha for rating 4 er dog lidt mindre end den for rating 3. For Morningstars vedkommende er den overordnede tendens fra rating 1 til 5 også stigende, men mellem rating 2 og 3 er der et stort fald i det månedligt merafkast. Det bemærkes også, at ændringen mellem rating 4 til 5 er relativt flad. Det er de observerede alphaer fra risikojusteringerne, der, som beskrevet i metodeafsnittet, laves tidsvarierende ved at tillægge residualet fra hver periode, og herefter bootstrappes der på forskellene mellem ratinggrupperne. Resultaterne fra CAPM og 4-faktor evalueringerne af hvert ratingsystem er indsat i tabel 5.10. Tabel 5.10: Test af monotont forhold: Risikojusteret vha. CAPM og 4-faktor CAPM alpha (p-værdi) 4-faktor alpha (p-værdi) Morningstar rating 24% 26% Sharpe Ratio rating 0%* 0%* CAPM rating 2,5%* 0,4%* 4-faktor rating 4,3%* 7,9% *: Signifikansniveau på 5% Førnævnte Morningstar og CAPM henholdsvis fastholder og afviser nulhypotesen om et fladt forhold. Dette viser, at selvom den observerede alpha for rating 4 var lavere end rating 3 ved CAPM ratings, afvises hypotesen om et fladt forhold stadig. Det samme er dog ikke tilfældet for Morningstar, der har en p-værdi på hele 24%. Som det eneste af de fire ratingsystemer kan nulhypotesen om et fladt forhold mellem ratinggrupperne ikke afvises for Morningstar. Sharpe Ratio ratings afviser helt ned til et 1% signifikansniveau, og 4-faktor ratings besidder også et signifikant monotont forhold. Resultaterne fra risikojustering ved 4-faktor modellen er næsten identiske med CAPM-justeringen bortset fra, at det monotone test ved 4-faktor ratings nu kun er signifikant ved et 10% niveau. Sharpe Ratio ratings er også her signifikante ved 1%. Morningstar har igen en meget høj p-værdi, og dermed kan der heller ikke påvises et monotont forhold ved en 4-faktor justering. 5.4.2.2 Niveautest på tværs af ratingsystemer Vi er endnu en gang interesserede i den relative performance af Morningstars højest ratede foreninger. Derfor testes denne 5-stjernede gruppe mod alternative grupper, forfatterne har dannet på lige vilkår, men ud fra de tre andre performancemål. Resultaterne fra denne undersøgelse er indsat i tabel 5.11. 44 Tabel 5.11: Morningstars 5-stjernede gruppe vs. de tre alternative predictors’ Morningstar > De tre alternative CAPM-justering 0 ud af 3 gange 4-faktor-justering 0 ud af 3 gange Signifikansniveau: 5% Morningstar < De tre alternative 0 ud af 3 gange 0 ud af 3 gange Hverken målt ved CAPM eller 4-faktor justering er det muligt at påvise en signifikant forskel mellem Morningstar og de tre alternative ratingsystemers 5-stjernede gruppe. Dette er til trods for, at Morningstar som det eneste system ikke besidder et monotont forhold. Manglende power i testet kan være en mulig forklaring til, at der ikke kan påvises signifikant forskel. Ved 4-faktor justering påvises det dog, at den 5-stjernede gruppe dannet ved CAPM ratings signifikant outperformer Morningstar ved et 10% signifikansniveau. Det er ikke muligt at påvise andre forskelle. Dermed er der ved afhandlingens valgte signifikansniveau på 5% ikke påvist forskelle mellem Morningstar og de alternative ratingsystemers 5-stjernede grupper. 5.4.3 Delkonklusion på analyse af forudsigelsesevne Det første test for monotoni ved dummy variable regressionerne viste, at evnen til at forudsige forskel i performance mellem ratinggrupperne er skiftende fra periode til periode. Hverken Morningstar eller de tre alternative ratingsystemer var konsekvent i stand til at udpege et monotont forhold. Ved testet for et overordnet monotont forhold var Morningstar som det eneste af de fire ratingsystemer ikke i stand til at identificere et stigende forhold i risikojusterede afkast fra lave til høje ratinggrupper. Sammenligningen af ratingsystemernes 5-stjernede grupper viste en stor grad af tilfældighed ved anvendelse af dummy variable regressionerne. Morningstar var i kun én ud af fem perioder i stand til at outperforme de alternative, mens den i en anden periode selv blev outperformet. De tre resterende perioder gav ingen overbevisende tegn på forskel mellem Morningstars og de alternative ratingsystemer. Resultatet er sammenfaldende med månedstestets konklusion. Af seks mulige sammenligninger var Morningstars 5-stjernede gruppe ikke i stand til at outperforme de alternative ratingsystemer en eneste gang. Ved et 10% niveau er der tegn på, at den 5-stjernede gruppe fundet ved CAPM har leveret et højere risikojusteret afkast end Morningstars 5-stjernede gruppe. 45 6 Konklusion Analyserne er baseret på et 10-årigt datasæt bestående af de 187 danske aktieinvesteringsforeninger, der havde en Morningstar rating i oktober 2004. Afhandlingens fokus har været at undersøge forholdet mellem danske investeringsforeningers performance og deres Morningstar rating i et forsøg på at vurdere brugbarheden og forudsigelsesevnen af disse ratings. Konklusionen er bygget op omkring fem opstillede hypoteser og vil besvare hver af disse, før afhandlingens hovedspørgsmål besvares. Hypotese 1 og 3 omhandler hhv. relevansen af undersøgelsen og forskelle i ratingtildelinger mellem Morningstar og alternative ratingsystemer. Hypotese 2, 4 og 5 vurderer den faktiske performance og brugbarhed af Morningstar ratings. H1 : Der er en positiv sammenhæng mellem investeringsforeningers kapital in-flow og deres Morningstar rating Analysen af forholdet mellem investeringforeningernes rating og deres estimerede net in-flow af kapital tyder på, at der eksisterer en positiv sammenhæng. De 5-stjernede foreninger har i løbet af perioden oplevet et gennemsnitligt positivt in-flow af kapital på 0,66% af deres formueværdi på månedlig basis. Ratinggruppe 4 har ligeledes oplevet et positivt in-flow, mens de resterende tre stjernegrupper har oplevet et out-flow af kapital. H2 : Morningstar ratings er i sig selv persistente Analyserne af persistens gav modstridende resultater. Resultaterne fra antalstabellerne indikerer, at ratings er persistente. Modsat antalstabellerne tager overgangsmatricerne forbehold for, at ratings kan variere mellem start- og sluttidspunktet. Med denne tilgang virker ratings langtfra persistente, idet sandsynlighederne for at fastholde en 5- og 4-stjernet rating efter seks måneder var ca. 50%. Samlet vurderes det overordnet, at foreningernes rating over kortere perioder var forholdsvist faste, men de mange små skift til naboratings leder til en afvisning af persistens. H3 : En rating-inddeling tilsvarende Morningstars opnås ikke af alternative ratingsystemer Vi undersøgte placeringen for komplette, vægtede ratings beregnet på baggrund af det fulde datasæt. Sammenligning af ratingplaceringerne for Morningstar med placeringerne for de tre alternative predictors viser overordnet et betydeligt sammenfald. Det er særligt ratings tildelt vha. CAPM og 4-faktor modellen, der næsten grupperer tilsvarende Morningstar. Ratings efter Sharpe Ratio havde også sammenfald med Morningstar, men ikke i en lige så væsentlig grad. 46 H4 : Performance af Morningstars stjernegrupper udviser et monotont forhold Morningstar var som det eneste af fire ratingsystemer ikke i stand til at udpege et monotont forhold ved bootstrap-testet. Heller ikke da vi fulgte Morningstar ratings out-of-sample over 3 år, udviste de overbevisende evner til at identificere et monotont forhold sammenlignet med alternative predictors. Den 5-stjernede gruppe identificeret vha. 4-faktor modellen var i 39% af tilfældene i stand til at outperforme de andre grupper. For Morningstar var det tilsvarende tal 26%. Morningstar viste tegn på gode egenskaber i én periode ud af fem, men tilsvarende dårlige egenskaber i en anden periode. Det virkede generelt tilfældigt, hvornår Morningstar performede godt, hvorfor denne hypotese afvises. H5 : Morningstars 5-stjernede gruppe performer bedre end alternative ratingsystemers 5-stjernede grupper Sammenligningen af de risikojusterede afkast for de 5-stjernede grupper på tværs af ratingsystemerne viste ved bootstrap-test, at Morningstar ikke er i stand til at outperforme de alternative systemer. CAPM ratings viste tegn på at være bedre end Morningstar, men ikke signifikant. Målt på 3-årige perioder var Morningstars 5-stjernede foreninger i seks ud af 45 tilfælde bedre end de tre alternative mål. I otte ud af 45 tilfælde var de alternative mål bedre end Morningstar. Resultaterne er i høj grad præget af tilfældigheder. Én af fem perioder var god for Morningstar, mens en anden var god for de alternative predictors. De bedste foreninger ifølge Morningstar er ikke i stand til at outperforme de bedste foreninger fundet ved de tre alternative mål, hvilket fører til en afvisning af hypotesen. Der er tegn på, at højtratede foreninger modtager større kapital in-flow end lavtratede foreninger. Dette øger relevansen af at undersøge Morningstar ratings som indikator for fremtidig performance. Undersøgelsen af persistensen i disse ratings viste, at selvom investeringsforeninger overordnet forbliver i samme ende af ratingskalaen over kortere tidshorisonter, udsættes de i gennemsnit for skift næsten halvårligt. Således kan investorer ikke købe en 5-stjernet forening og forvente, at denne rating fastholdes over flere år. Dette svækker den potentielle anvendelighed af Morningstar ratings som investeringsredskab. Selv ved et performancetest med månedlig opdatering, hvorved persistens i ratings reelt set bliver irrelevant, er Morningstar, modsat andre ratingsystemer, ikke i stand til at identificere et monotont forhold. Heller ikke ved sammenligning af Morningstar med alternative ratingmål er performance overlegen. De enkelte perioder med god performance virker tilfældige, og dermed har Morningstar ratings ikke udvist forudsigelsesevner. 47 7 7.1 Diskussion og perspektivering Diskussion af resultater Flere faktorer kan have påvirket afhandlingens konklusioner i en væsentlig grad. I alt har mellem 170 og 109 foreninger (observationer) indgået i performanceanalyserne og med opdeling i fem grupper, giver dette et svagt datagrundlag. Det lave antal observationer har i høj grad påvirket antalstabellerne, da forudsætningerne for udførelse ikke var opfyldt, hvorfor vi valgte at fortolke placeringer og sammenfald af ratings. Særligt har et konsekvent lavt antal 1-stjernede foreninger betydet, at det kun i få tilfælde har været muligt at påvise performanceforskelle i mellem denne gruppe og de øvrige. Dernæst er analyserne endvidere afgrænsede fra at behandle loads. En medtagning af disse vil sænke foreningernes afkast og potentielt ændre konklusionerne. Den sande ændring afhænger bl.a. af de enkelte foreningers front- og back-end loads samt en fastlæggelse af investeringshorisonten. Morningstar tager forbehold for loads i deres ratingtildeling, og alt andet lige vil foreninger med relativt lavere omkostninger have lettere ved at opnå højere ratings og vice versa. Det kan derfor ikke afvises, at Morningstar ratings vil udvise bedre relativ performance i en analyse, hvor der tages forbehold for loads. Ydermere er den undersøgte sample på 10 år hverken stor sammenlignet med, hvor længe Morningstar har tildelt ratings, eller hvor længe der har eksisteret investeringsforeninger i Danmark. Konsekvensen af at undersøge en kort tidsperiode blev muligvis demonstreret af Morey & Gottesmann (Morey and Gottesman, 2006), der varsomt konkluderede, at Morningstar var en god pegepind for fremtidig performance. Deres undersøgelse bestod kun af tre års out-of-sample, og de gav flere mulige forklaringer på resultaterne herunder en diskussion af hot-hands fænomenet. I denne afhandling udviste Morningstar også overlegen forudsigelsesevne i én ud af de fem 3-årige perioder, og det kan blot være sådan en periode, Morey & Gottesmann har undersøgt. Morningstars ratingmetodologi er kompleks sammenlignet med CAPM og 4-faktormodellen, da den bl.a. involverer nytteteori og mål for investorers risikoaversion. Det er interessant at undersøge, hvorvidt de observerede ratingsammenfald mellem Morningstar og de to alphabaserede ratingsystemer forbliver signifikante, når et større antal observationer indgår. Hvis dette er tilfældet, betvivler det hele eksistensgrundlaget for Morningstar ratings. En væsentlig forskel mellem Morningstars stjernetildeling, og den vi foretager ud fra de tre alternative predictors, er, at Morningstar ratings indeholder 3-10 års historiske oplysninger, og de alternative blot 3 års justeret afkast. Der er altså lagt mere vægt på den seneste information hos de alternative mål, da foreningernes Morningstar rating også kan indeholde 5 og 10 års data. Dette får forfatterne til at undre sig over, hvorvidt det observerede sammenfald i ratingtildelingerne (hypotese 3), når det fulde datasæt bruges i alle ratingsystemer, betyder, at det afgørende 48 for forudsigelse af relativ performance snarere er hukommelseslængden i et ratingsystem frem for den metodologiske risikojustering. Et forslag til videre arbejde kan derfor være at variere de alternative måls in-sample periodelængder. 7.2 Perspektivering Empirisk er det velkendt, at historisk performance ikke er en garanti for fremtidig. Hverken Morningstar eller de tre alternative predictors foretager forecasts, men i stedet er deres rangeringer alene vurderet på historiske oplysninger. Af bl.a. denne årsag udførte vi et ikke-parametrisk bootstrap-test på månedlig data og tillod derved inkludering af al senest tilgængelig information i hvert ratingsystem. På trods af dette var Morningstar, modsat de tre alternative mål, ikke i stand til at udpege et overordnet monotont forhold. Afhandlingens analyser har udelukkende taget udgangspunkt i at evaluere relativ performance investeringsforeningerne imellem. Herved er der ikke taget stilling til den absolutte performance af foreningerne, hvilket er et meget omdiskuteret emne. Nærværende afhandling berører dermed ikke, hvorvidt det har leveret et over- eller undernormalt risikojusteret afkast at investere de enkelte stjernegrupper, men derimod om man har opnået det relativt bedste afkast ved at vælge de højest ratede foreninger. Hvis ingen investeringsforeninger er i stand til at levere et overnormalt afkast, betvivler det deres og Morningstar ratings’ eksistensgrundlag samt denne afhandlings relevans. Hvis nogle investeringsforeninger derimod er i stand til at levere et overnormalt afkast, øger det relevansen af afhandlingens konklusion. De populære Morningstar ratings har netop ikke konsekvent været i stand til at udpege de relativt bedste investeringsforeninger. Trods tegn på bedre egenskaber end Morningstar har alternative mål heller ikke været i stand til dette. 49 References Antypas, A., G. M. Caporale, N. Kourogenis, and N. Pittis (2009): “Selectivity, Market Timing and the Morningstar Star-Rating System,” CESifo Working Paper No. 2580. Asness, C. S. (1994): “Variables That Explain Stock Returns: Simulated and Empirical Evidence,” PhD thesis. Banz, R. W. (1981): “The Relationship Between Return and Market Value of Common Stocks,” Journal of Financial Economics, 9(1), 3–18. Black, F., M. C. Jensen, and M. Scholes (1972): The Capital Asset Pricing Model: Some Empirical Tests, vol. 81. Blake, C. R., and M. R. Morey (2000): “Morningstar Ratings and Mutual Fund Performance,” Journal of Financial and Quantitative Analysis, 35(3), 451–483. Blume, M. E. (1998): “An Anatomy of Morningstar Ratings,” Financial Analysts Journal, 54(2), 19–27. Boudoukh, J., M. Richardson, and R. F. Whitelaw (1994): “Industry Returns and the Fisher Effect,” Journal of Finance, 49(5), 1595–1615. Carhart, M. M. (1997): “On Persistence in Mutual Fund Performance,” Journal of Finance, 52(1), 57–82. Damato, K. (1996): “Morningstar Edges Toward One-Year Ratings,” The Wall Street Journal, p. C1. Duret, A.-S., P. Hereil, P. Mitaine, N. Moussavi, and T. Roncalli (2008): “Fund Rating Systems and Performance Predictability,” Working Paper, Universite d Evry, pp. 1–17. Fama, E. F. (1970): “Efficient Capital Markets: A Review of Theory and Empirical Work,” Journal of Finance, 25(2), 383–417. Fama, E. F., and K. R. French (1992): “The Cross-Section of Expected Stock Returns,” Journal of Finance, 47(2), 427–465. Fama, E. F., and K. R. French (1996): “Multifactor Explanations of Asset Pricing Anomalies,” Journal of Finance, 51(1), 55–84. Fama, E. F., and K. R. French (1993): “Common Risk Factors in the Returns On Stocks And Bonds,” Journal of Financial Economics, 33(1), 3–56. Frazzini, A., and L. H. Pedersen (2014): “Betting Against Beta,” Journal of Financial Economics, 111(1), 1–25. 50 French, K. (2015): “Fama/French Research Factors,” sidst tilgået den 3. maj, p. <http://mba.tuck.dartmouth.edu/pages/faculty/ken.f. Garnier, O., and T. Pujol (2007): “Can Today’s Stars Be Used To Read the Stars of the Future?,” Les Cahiers Scientifiques de l AMF, 3(March), 1–39. Gerrans, P. (2006): “Morningstar Ratings and Future Performance,” Accounting and Finance, 46(4), 605–628. Goetsmann, W. N., and N. Peles (1997): “Cognitive Dissonance and Mutual Fund Investors,” Journal of Financial Research, 20(2), 145–158. Grinblatt, M., and T. J. Moskowitz (2004): “Predicting Stock Price Movements From Past Returns: The Role of Consistency And Tax-Loss Selling,” Journal of Financial Economics, 71(3), 541–579. Gruber, M. J. (1996): “Another Puzzle: The Growth in Actively Managed Mutual Funds,” Journal of Finance, 51(3), 783–810. Guercio, D. D., and P. A. Tkac (2002): “The Determinants of The Flow of Funds of Managed Portfolios: Mutual Funds vs. Pension Funds,” Journal of Financial and Quantitative Analysis, 37(November), 523–557. Guercio, D. D., and P. A. Tkac (2003): “The Effect of Morningstar Ratings on Mutual Fund Flows,” Working Paper, University of Oregon Department of Finance. Hammer, D. A. (1991): “Dynamic Asset Allocation: Strategies for the Stock, Bond and Money Markets,” John Wiley and Sons, New York. Hereil, P., N. Moussavi, and P. Mitaine (2010): “Mutual Fund Ratings and Performance Persistence,” White Paper, Quant Research by Lyxor. IFB (2015): “Statistikker i excel,” sidst tilgået den 3. maj, pp. <http://www.investering.dk/statistikker–i–excel1>. Jaffe, C. (1995): “Rating The Raters: Flaws Found in Each Service,” Boston Globe, p. 78. Jegadeesh, N. (1990): “Evidence of Predictable Behavior of Security Returns,” Journal of Finance, 45(3), 881–898. Jegadeesh, N., and S. Titman (1993): “Returns to Buying Winners and Selling Losers: Implications for Stock Market Efficiency,” Journal of Finance, 48(1), 65. Jensen, M. C. (1968): “The Performance of Mutual Funds in the Period 1945-1964,” Journal of Finance, 23(2), 389–416. 51 Khorana, A., and E. Nelling (1998): “The Determinants and Predictive Ability of Mutual Fund Ratings,” Journal of Investing, 7(3), 61–66. Lintner, J. (1965): “The Valuation of Risk Assets and The Selection of Risky Investments in Stock Portfolios and Capital Budgets,” Review of Economics and Statistics, 47(1), 13–37. Lo, A. W., and C. A. MacKinlay (1990): “When Are Contrarian Profits Due to Stock Market Overreaction?,” Review of Financial Studies, 3, 175–205. Malkiel, B. G. (1995): “Returns from Investing in Equity Mutual Funds 1971 to 1991,” The Journal of Finance, 50(2), 549–572. Markowitz, H. (1952): “Portfolio Selection,” Journal of Finance, 7(1), 77–91. Mikkelsen, N. H. (2014): “Danske og Nordiske Fonde i Europæisk Perspektiv,” Morningstar. Morey, M. R. (2005): “The Kiss of Death: A 5-Star Morningstar Mutual Fund Rating,” Journal of Investment Management, 3(2), 41–52. Morey, M. R., and A. A. Gottesman (2006): “Morningstar Mutual Fund Ratings Redux,” Journal of Investment Consulting, 8(1), 25–37. Morningstar (2009): “Morningstar Fund Rating Methodology,” . Patton, A. (2015): “Code for the monotonic relationship (MR) tests in Patton and Timmermann (2010),” sidst tilgået den 3. maj, p. <http://public.econ.duke.edu/˜ap172/>. Patton, A. J., and A. Timmermann (2010): “Monotonicity in Asset Returns: New Tests with Applications to The Term Structure, The CAPM, And Portfolio Sorts,” Journal of Financial Economics, 98(3), 605–625. Roll, R. (1977): “A Critique of The Asset Pricing Theory’s Tests Part I: On Past And Potential Testability of The Theory,” Journal of Financial Economics, 4(2), 129–176. Rosenberg, B., K. Reid, and R. Lanstein (1985): “Persuasive Evidence of Market Inefficiency,” Journal of Portfolio Management, 11, 9–17. Schuermann, T., and Y. Jafry (2003): “Measurement and Estimation of Credit Migration Matrices,” Financial Institutions Center, The Wharton School of the University of Pennsylvania, pp. 1–44. Sharpe, W. F. (1964): “Capital Asset Prices: A Theroy of Market Equilibrium Under Conditions of Risk,” Journal of Finance, 19(3), 425–442. Sharpe, W. F. (1966): “Mutual Fund Performance,” The Journal of Business, 39(January), 119–138. 52 Sharpe, W. F. (1998): “Morningstar’s Risk-Adjusted Ratings,” Financial Analysts Journal, 54(4), 21–33. Sirri, E. R., and P. Tufano (1998): “Costly Search and Mutual Fund Flows,” The Journal of Finance, 53(5), 1589–1622. Stattman, D. (1980): “Book Values and Stock Returns,” The Chicago MBA: A Journal of Selected Papers, 4, 25–45. Verbeek, M. (2012): A Guide to Modern Econometrics. John Wiley & Sons, Ltd, 4th edn. Wooldridge, J. (2009): Introductory Econometrics - A Modern Approach. South-Western CENGAGE Learning, 4th edn. 53 Bilag Bilag A - Geografisk inddeling og benchmarkoversigt Benchmarks Danmark Europa Asien (ekskl. Japan) Global Japan Nordamerika Total Antal 29 55 8 69 12 14 187 Indeks (kapitalvægtet, brutto) OMX København Benchmark (OMXCB) MSCI Europe MSCI Asia ex Japan MSCI World MSCI Japan MSCI North America Bilag B - Overgangsmatrice Pt = 1 2 3 4 5 0 1 2 3 pti,j 54 4 5 0 Bilag C - Faktorer for geografiske grupper SMB HML WML Danmark -0,15% -0,32% 0,54% Europa 0,12% 0,09% 0,88% Asien ekskl. Japan -0,11% 0,39% 0,76% Global 0,04% 0,17% 0,49% Japan 0,10% 0,42% 0,20% Nordamerika 0,11% 0,09% 0,20% Bilag D - Fordeling af antal foreninger i hver ratinggruppe Rating \ Periode 5-stjernet 4-stjernet 3-stjernet 2-stjernet 1-stjernet Total 2004-’07-’10 22 47 57 23 5 154 2005-’08-’11 18 52 47 20 2 139 55 2006-’09-’12 14 37 44 19 1 115 2007-’10-’13 13 38 52 7 1 111 2008-’11-’14 14 36 51 9 0 110 Bilag E - Sammentælling af antalstabeller til persistensanalyse Fra/Til Okt ’04 Okt ’05 Okt ’06 Okt ’07 Okt ’08 Okt ’09 Okt ’10 Okt ’11 Okt ’12 Okt ’13 Okt ’05 0* - Okt ’06 0* 0* - Okt ’07 0* 0* 0* - Okt ’08 0* 0* 0* 0* - Okt ’09 0,001* 0,095 0* 0* 0* - Okt ’10 0,002* 0,363 0,006* 0,309 0* 0* - Okt ’11 0,005* 0,033* 0,001* 0,1 0* 0* 0* - Okt ’12 0,007* 0,109 0,017* 0,273 0* 0* 0* 0* - Okt ’13 0* 0,008* 0* 0,02* 0* 0* 0* 0* 0* - Sep ’14 0,028* 0,001* 0* 0,002* 0* 0,027* 0* 0* 0* 0* Okt ’06 0* 0* - Okt ’07 0* 0* 0* - Okt ’08 0* 0* 0* 0* - Okt ’09 0* 0,087 0* 0* 0* - Okt ’10 0* 0,394 0,003* 0,124 0* 0* - Okt ’11 0,003* 0,004* 0* 0,033* 0* 0* 0* - Okt ’12 0,021* 0,128 0,005* 0,295 0* 0* 0* 0* - Okt ’13 0,003* 0,007* 0* 0,013* 0,008* 0* 0* 0* 0* - Sep ’14 0,302 0,034* 0,048* 0,343 0,004* 0,044* 0,001* 0* 0* 0* Signifikansniveau: 5% Fra/Til Okt ’04 Okt ’05 Okt ’06 Okt ’07 Okt ’08 Okt ’09 Okt ’10 Okt ’11 Okt ’12 Okt ’13 Okt ’05 0* - Signifikansniveau: 5% Bilag F - Samlet antal år brugt i hver rating Tid \ Rating Samlet antal år 1 46 56 2 228 3 573 4 475 5 182 Bilag G - Morningstars forudsigelsesevne, eksempel på 3-årig dummy variable test Justeret ved Sharpe Ratio Periode 5 (konstant) 4 (4-stjernede) 3 (3-stjernede) 2 (2-stjernede) 1 (1-stjernede) N R2 2007 - 2010 -0,144* 0,067* 0,044 0,361 0,057 154 0,068 2008 - 2011 0,081* -0,063* -0,053* -0,084* -0,118* 139 0,111 2009 - 2012 0,244* -0,070* -0,278 -0,062* 0,067* 115 0,079 2010 - 2013 0,164* -0,001 0,057 -0,046 0,012 111 0,064 2011 - 2014 0,349* 0,106 0,154* 0,155* - 110 0,065 N R2 Justeret ved CAPM Periode 5 (konstant) 4 (4-stjernede) 3 (3-stjernede) 2 (2-stjernede) 1 (1-stjernede) 2007 - 2010 -0,308* 0,524* 0,390* 0,335* 0,514* 154 0,092 2008 - 2011 0,369* -0,405* -0,288* -0,475* -0,560* 139 0,127 2009 - 2012 0,211* -0,241* -0,207* -0,107 -0,133 115 0,077 2010 - 2013 -0,166 -0,087 0,065 0,126 0,041 111 0,034 2011 - 2014 -0,408* 0,164 0,279 0,352 - 110 0,029 N R2 Justeret ved 4-faktor model Periode 5 (konstant) 4 (4-stjernede) 3 (3-stjernede) 2 (2-stjernede) 1 (1-stjernede) 2007 - 2010 -0,265* 0,491* 0,344* 0,293 0,495 154 0,092 2008 - 2011 0,218* -0,354* -0,237* -0,442* -0,469 139 0,139 2009 - 2012 0,062 -0,173 -0,117 -0,096 -0,010 115 0,042 2010 - 2013 -0,071 -0,126 -0,001 -0,029 -0,176 111 0,032 2011 - 2014 -0,313* 0,181 0,205 0,232 - 110 0,018 * Signifikansniveau: 5% 57 Bilag H - Oversigt over 5-stjernet outperformance Antal gange ud af 19 hvor 0 >⇤ 4 1 målt ved Sharpe Ratio Antal gange ud af 19 hvor 0 >⇤ 4 1 målt ved CAPM Antal gange ud af 19 hvor 0 >⇤ 4 1 målt ved 4-faktor Total Morningstar rating 6 6 3 15 Sharpe Ratio rating 7 3 2 12 CAPM rating 6 6 6 18 4-faktor rating 8 7 7 22 Signifikansniveau: 5% 58
© Copyright 2025