Kaggleからダウンロード可能な機械学習用データセット
Kaggleは世界中のデータサイエンティストが自身の腕を競い合うコンペティションだ.
競技者たちはスポンサーが提供するデータセットに適切な予測なモデルを構築し,その予測精度を競う.もしあなたが1位をとることができたのであれば,賞金(大体$25,000の場合が多い)を受け取ることができる.
しかし,Kaggleにはオープンソースデータのプラットフォームとしての側面が存在することをご存じだろうか? 実はKaggleには,世界中のありとあらゆる組織が無償で公開したデータが山のように投稿されているのだ.
Kaggleで公開されるデータは,ユーザーによる製品に関する評価をまとめたデータや銃と暴力に関するデータなどお堅いものから,今大人気のオンラインゲームPUBGにおける死因のデータやサッカーのランキングに関するデータなど個人的な趣向をそそられるキワモノデータまでありとあらゆるデータが公開されている.
オープンソースのデータは,コンペティションとは異なり,賞金は出ないが機械学習の勉強用としては非常に有用だ.そこで本記事では,筆者の備忘録もかねてKaggleを漁って見つけたデータを紹介する.
Grammar and Online Product Reviews | Kaggle
- ユーザーによる製品に関する評価をまとめたデータ- 銃と暴力に関するデータPUBG Match Deaths and Statistics | Kaggle
- バトルロワイヤル制オンラインゲームPUBGにおける死因をまとめたデータ.
- マッチ回数は720,000回を超える.
- データはPUBG戦績サイト [https://pubg.op.gg/](https://pubg.op.gg/)から抽出.- [FIFA](http://d.hatena.ne.jp/keyword/FIFA)のサッカーのランキングに関するデータStack Overflow 2018 Developer Survey | Kaggle
- 100,000人以上の開発者に対する調査をまとめてデー[タセット](http://d.hatena.ne.jp/keyword/%A5%BF%A5%BB%A5%C3%A5%C8)
- データの中身は,[ハッカソン](http://d.hatena.ne.jp/keyword/%A5%CF%A5%C3%A5%AB%A5%BD%A5%F3)にでたことがあるとか,得意な[プログラミング言語](http://d.hatena.ne.jp/keyword/%A5%D7%A5%ED%A5%B0%A5%E9%A5%DF%A5%F3%A5%B0%B8%C0%B8%EC)は何かとか色々.
- [プログラマ](http://d.hatena.ne.jp/keyword/%A5%D7%A5%ED%A5%B0%A5%E9%A5%DE)向けの知恵袋サイトStackOverflowが作成者なのでデータの品質は確か.
- 開発者1人に対して30分の調査を行ったらしい.- インドの犯罪の件数を各州ごとにまとめたデータ
- 犯罪をまとめたデー[タセット](http://d.hatena.ne.jp/keyword/%A5%BF%A5%BB%A5%C3%A5%C8)はちらほら見かけるが,インドは珍しい