ニュース量に対するTAQの30分ごとの在庫量データの回帰


2

特定の株の30分ニュースのボリュームに対して30分株のボリュームの回帰を実行することを計画しています。分析のために2年間のデータを見ています。しかし、私は毎日の非取引時間期間に何をすべきかについて考えがつかなくなっていますか?

具体的に:1.取引所の稼働時間についてのみデータを回帰する必要があります。つまり、回帰のY値には、開始から毎日9:30〜16:00までの30分ごとの「在庫量」が含まれます。回帰期間の終了日までの日付とX値は、30分ごとに対応する「ニュース量」になりますか?

または

  1. データを30分で等間隔にして、在庫量とニュース量に「ゼロ」を指定して、毎日の「非取引時間」を含める必要がありますか?

どちらの場合も、回帰の結果は異なると思います。緊急のアドバイスが必要です。

2

Do not run the zeros against the zeros. This is similar to how weekends are treated in academic studies. There is not five days with two additional days of 0 in the regressions for each week in the sample... there is just the five days (although I do encourage you to read about the weekend effect).

Your hypothesis is that there exists a function $Volume(t) = f(News(t)) + e(t)$. When the market is closed, no such function can exist, so what are you supposedly estimating with the zeros in the regression equation? If you include the zeroes, then what you are saying to the model is that during these times $Volume(t)=0$ because $News(t)=0$. Yet we know this is false, and that they are both zero because $t \in \{Market Close\}$.

If you are really concerned about the irregularly spaced time series, you could consider a more legitimate data generating process:

$$ Volume(t) = f(News(t))*I(t \in \{Market Open\}) + c*I(t \in \{Market Close\}) + e(t)$$

where $I$ is an indicator function. However you will notice that this will give you identical parameter estimates (if $f$ is linear with an intercept) as if you simply estimated the original equation during trading hours only.