ビッグデータ解析による上がる株・下がる株の特徴抽出 〜9年間・40万のチャート形状分析(1株1000円以下)〜

はじめに

日本市場の株価チャートがどのような形状をしていたとき、上昇しやすいのか(あるいは減少しやすいのか)ということは、投資を行う人であれば、誰であっても興味があることだと思います。そのためここでは、データ分析を活用してこれを明らかにしてみます。来週あがるチャートは何?という疑問に対して、一定の示唆を与えるものです。

  • 本記事は、無断で転載することを禁止します。どこかに載せたい場合は、このページのリンクをお願いします。

分析1: データの前処理

まずは、どのようなデータを使用し、どのように加工したのか、簡単に説明します。

  • 2012年1月〜2020年12月までの9年間の日本市場の銘柄を使用します。
  • 月曜日から金曜日までの5日間の始値について、そのすべての価格が揃っているデータを取り出します。すなわち、欠損がある週や、休日がある週のデータは分析から除外します。
  • 5日間分(5つの数字)で構成される数字の集まりを、1チャートと表現することにします。
  • 1株あたり1000円以下の銘柄を対象にします。

→ 結果と考察

およそ40万のチャートが取得されました。簡単に概算を示しておきますと、1年間あたり使用可能な銘柄数がだいたい1000程度で、ここの銘柄が1年間で40週間分程度のチャートを保有しています。それが9年間分あるわけですから、1000*40*9 = 40万前後のチャートとなります。

分析2: k-means法によるチャート形状分類

月から金曜日までの5日間で構成される40万のチャートは、それぞれがバラバラな形状を保持しています。しかしながら、40万の種類があるというわけではなく、似ているものがたくさん含まれているはずです。そのため、k-means法を用いて、チャート形状の分類を行いました。具体的な手続きは以下の通りです。

  • 個々のチャートの最小を0、最大を1とする規格化処理を実施する(今回はあくまで形状に注目しますので、絶対的な価格の大小関係の情報を消失させます)。すなわち、月〜金のうち、一番安い価格が0、一番高い価格が1になります。
  • k-means法を実施し、k個のクラスタに分割します。
  • これにより得られたk個のクラスタの重心座標とサンプルサイズを見ながら、適切なクラスタ数を決定します(当初はエルボー法を使用しましたが、芳しくなかったので、上記の方法を採択しました)。

→ 結果と考察

結果として、40万チャートが15のクラスタに分割されました。

チャート形状の分類結果(9年間分・40万チャート)
  • 横軸: 5日間(月、火、水、木、金)
  • 縦軸: 株価(0-1規格化されたチャートの重心であることに注意)
  • 各図のタイトルにあるC0〜C14は15個のクラスタ名を意味し、丸括弧内はそのクラスタに所属するチャート数と所属割合となります。
  • エラーバーは、そのクラスタに所属しているチャートから得られた標準偏差です。

この結果をみますと、15クラスタは概ね独立していることがわかります。

分析3: 上昇・減少確率の算出

分析1、分析2により、9年間で存在する40万チャートが15種類に分類されることがわかりました。続いて、どのチャートが上昇しやすい(あるいは減少しやすい)のかについて考えてみます。このため、上昇と減少の意味を以下のように定義しておきます。

  • 「t週目の金曜日の始値」と「t+1週目の月〜金曜日の始値の平均値」を比較し、
  •  → 後者が1%以上高い: 株価が上昇した(上昇)
  •  → 後者が1%以上低い: 株価が減少した(減少)
  •  → それ以外: 株価が変化していない(不変)
  • tには任意の自然数が入ります。例えば t=5 であれば、5週目と6週目を比較することになります。

ある任意の週に、月〜金の5日間の始値を見て、どのクラスタに所属するのかを金曜日の朝に判断してから、その銘柄を購入し、来週に売却するというシチュエーションを想定しています。

→ 結果と考察

各々のチャートに対する来週の上昇・不変・減少確率を以下に示します。

チャート形状に対する来週の上昇・不変・減少確率

これを見ますと、減少・不変・上昇の3状態が綺麗に30%ずつ分配されていることが見て取れます。つまり、チャートの形だけを見て、株価が上がるか下がるかを正確に予測することは難しいことを示しています。ただし、確率の偏りも見て取れます。これを明白にするために、表の4行目に上昇確率から減少確率を引いたものを載せてみました(絶対値が2%以上のもののみ記載しました)。これを見ますと、

  • チャートC1、C2、C4、C7、C8、C14は上昇する確率が高い。
  • チャートC0、C5、C13は減少する確率が高い。

といった傾向がわかります。これがどのような形状なのか確認してみます。

チャート形状の分類結果と上昇・減少のしやすさ

相対的に減少しやすいものは赤枠、上昇しやすいものは青枠で囲ってみました。また、特にその傾向が強いものは実線、そうではないものは破線にしています。

これをみますと、

  • 週末にかけて下がっていったチャートが、翌週に上昇しやすい
  • 週末にかけて上がっていったチャートが、翌週に減少しやすい

といった特徴を垣間見ることができます(例外としてC8を除きます)。上がるものは下がる、下がるものは上がるということでしょうか。上昇確率が減少確率と比べ最も高いものは、C2とC14ですので、この形が確認された場合に購入するという行為が他に比べてリスクが少ないことを意味します。また、手持ちの銘柄が金曜日の時点で減少しやすい形状になっていれば、売却するのも一つの選択かもしれません。

ただし、あくまで相対的に上昇・減少しやすいだけであり、絶対的な上昇・不変・減少の確率は表の通りです。表を見るとわかるように、1週間のチャートの形状のみから増減を明白に予測することはとても難しいことが示唆されます。したがいまして、このブログの結果は参考資料程度に捉え、自己責任で売買をお願い致します。

補足

今回は、翌週に1%以上高くなることを上昇、1%以上低くなることを減少と定義しました。これだと物足りない方もいるかもしれません。そのために、3%以上を閾値にした結果も出しています。この場合、不変の確率が跳ね上がりますが、上昇と減少のしやすさの関係性については、本文で述べたものと似たような結果になっています。