私のe-Statでのデータマイニングの現在の目的は以下の通りです
大量の政府公開データの中から
①面白そうなデータをピックアップする
②データをわかりやすくサマライズする
・列情報などを必要な項目に絞り込む
・前年度比5倍とか急激な変化があった場合をピックアップできるようにする
最終的にはこれらを自動でできるようにしたいです。
今回は、まず①面白そうなデータをピックアップすることを目的にe-Statを見てみましょう。
ランキングページを見てみよう
e-Statのトップページ(https://www.e-stat.go.jp/)の画面の下の方にランキングという欄があります。
そのランキングの現在(2021/12/26)3位が「アイスクリーム」なんです。
アイスクリームが含まれるのはどんなデータか
「アイスクリーム」は柔らかめのキーワードなので面白いデータの予感がします。
「アイスクリーム」が含まれるデータはどんなデータなんでしょうか?
ちょっと見てみましょう。
「アイスクリーム」が含まれるデータは7640件あるみたいです。
ちょっと多いですね。。。
検索条件なのですが、提供分類、表題を検索 データベース、ファイル内を検索にチェックがついています。
「検索のしかた」をみてみるとキーワードのOR検索やAND検索もできそうです。
ちなみに検索キーワードでの絞り込みはAPI(統計表情報取得)でももちろんできます。
curl "https://api.e-stat.go.jp/rest/3.0/app/getSimpleStatsList?appId=xxxxxxxxxx&searchWord=アイスクリーム"
アイスクリームだと数が多すぎるので試しに「ガリガリ君」で検索してみましたが、0件でした。「ハーゲンダッツ」で検索したところ22件引っかかってきました。
「ハーゲンダッツ」どこに出てくるのかなと思ってAPIを一通り叩いてみたのですがAPIの実行結果からは「ハーゲンダッツ」は見つけられませんでした。
エクセル表示を見てみたところ、「銘柄」という項目に「バニラアイスクリーム,カップ入り(110mL入り),「ハーゲンダッツ バニラ」」とありました。
どうも全国のアイスクリームの価格を「ハーゲンダッツ バニラ」を基準に算出しているみたいです。
ちなみに、2020年だと1番安いのが長野市の221円で1番高いのが那覇市の300円でした。
単にハーゲンダッツの価格ってだけだと少しパンチ力弱いかもしれませんね。。。
個人的には明治のスーパーカップが1位でジャンボモナカが2位でとかアイスクリーム売れ筋ランキングとかの方が楽しいのですが、政府はそこまで調べてくれないですよね。
小売統計調査とは
小売物価統計調査はお米の価格から葬儀代まで約800の小売価格を調査したデータ
調査結果は、年金等の給付見直しの際の基礎資料や、公共料金の上限値を決める際の資料として、幅広く利用されているそうです。
アイスクリームは約800ある中の項目の一つです。
小売物価統計調査をピックアップするとしたら、ここ数年で値段が大きく変化しているものや地域間の差が特に大きいものとかですかね。
「小売物価統計」でgoogle検索して面白そうな記事を見てみると
「今年のX’マスケーキは小さくなるか」という記事がありました。
ケーキにもよく使われる小麦や油量種子はとりわけ高騰が目立つ
→
小売物価統計調査によると、東京都区部の小売価格で、今年11月の1kgあたりの小麦価格は1年前より約20円上昇した。食用油に至っては1kgあたり約60円と大幅な値上がりで、価格が比較的安定している食品の代名詞ともなってきた鶏卵でさえ、1パックあたり約12円上昇した。
→
クリスマスイブにケーキを買って帰る人も多いだろうが、今年は例年と比べて値段がほとんど同じなのにサイズが小さくなっていても不思議ではない。
こんな感じのものは自動的にピックアップできると理想的なんですけどね。
今日のところのまとめ
自動的にピックアップするとしたら
・柔らかめのキーワード
・ここ数年間で値が急激に変化してるもの
・地域間の格差が大きいもの
ですかね。データを見ていって判定項目を増やしていきたいと思います。
その他、アイスクリームでの検索結果には「家計調査」というのもありました。
家計の4半期での支出額の平均を出したものなのですが、アイスクリームの支出は当然夏が冬の倍くらい多い感じになってます。
アイスクリームは当たり前ですが、その他季節によって大きく支出が違うものって何なのかは少し興味がありますね。
毎月や四半期ごとに値があるものについては、期間によって差が大きいものはピックアップしても良いかもしれませんね。