いくつかのデータポイントが異なる2つの回帰の比較


0

私は、各セクターが互いに独立している(セクター間の相関係数がすべて0である)各セクターに株式市場のリスク(S&P 500インデックス)がどの程度起因するかを説明するモデルを構築しました。

たとえば、私は次のデータを持っています:

Period                      Consumer Discretionary    Consumer Staples    Energy    Financials    Health Care    Industrials    Information Tech    Materials    Telecommunication    Utilities
2018-04-26 to 2018-05-25    10.32%                      7.13%             7.75%      12.61%        15.21%           7.34%          27.62%            7.79%            1.76%           2.45%
2018-04-27 to 2018-05-29    7.90%                      5.22%            4.96%        20.67%        12.27%           10.97%         21.85%           9.72%             5.41%         1.01%

値を計算するためにローリング回帰を使用しています(1日のリターン、31日間のローリング期間を使用)。2018-04-26と2018-05-25の間、総市場リスクの10.32%は、他のセクターから独立した消費者裁量セクターによって説明されていると解釈されています。同様に、2018-04-27から2018-05-29の間、総市場リスクの21.85%は、他のセクターから独立している情報技術セクターによって説明されています。

これら2つの回帰の入力データはまったく同じですが、最初の回帰には2018-04-26が含まれ、2018-05-29は含まれていませんが、2番目の回帰は2018-が含まれていません04-26ですが、2018-05-29は含まれています。したがって、連続する2つの行は、2つのデータポイントが異なります。

私の質問は、回帰の出力データと入力データを使用して、値の変化の原因となっている入力データを特定することは可能ですか?

たとえば、2つの行の間でFinancialsのリスク寄与が12.61%から20.67%に増加していることがわかります。これは、2018-05-29で何かが発生したためですか?これは、2番目の回帰には存在しますが、最初の回帰には存在しませんか?それとも、2018-04-26のせいですか?これは、最初の回帰には存在しますが、2番目の回帰には存在しませんか?どちらでもない場合、これらの2つのデータポイント(2018-04-26と2018-05-29)は変更を説明する上でそれほど重要ではないということですか?

出力データを考慮して、実際に市場で何が起こったかを知り、それを定性的に説明したいので、この分析に興味があります。この種の分析の名前は何ですか?

ありがとうございました。

3

Given your current setup, it would be hard to tell whether 2018-04-26 or 2018-05-29 is the cause of the change.

There are a variety of regression diagnostics that can be used to determine which point is significant. I would recommend starting with Cook's Distance. This is a measure of the influence of an individual point on the final regression. It works by calculating the effect of deleting an individual observation from the regression.

If you don't have access to a library for calculating Cook's Distance, then you could simply delete each observation from your regression and recalculate your stats. This is very close to a technique called JackKnife Resampling.

I would also recommend starting from a regression sample that includes both days, so that you can isolate the effect of removing one or other of the days when using these techniques. BTW, I also want to echo that you might have more luck on Cross Validated or Stats (see, e.g., https://stats.stackexchange.com/questions/8344/influence-functions-and-ols).