(クラス分類)タイタニック号の生存予測＞AI-Plant Bamboo(AI構築プラットフォーム)

2020年7月16日に、自社開発した、プログラミング不要のAI構築プラットフォーム(AI-Plant Bamboo)のベータ版をリリースしました。タイタニック号の生存予測をやってみたいと思います。

＜参考：予測の流れの動画＞

生存可否、性別、年齢等の訓練データにて機械学習をおこない、生存可否の列がないテストデータの生存予測をする、Kaggle(分析コンペサイト)のコンペです。

乗客1名が1行のデータ：訓練データ(12列×891行)、テストデータ(11列×418行)

データ：以下のページの画面左下の「Data Explorer」の「test.csv」と「train.csv」

Kaggleから、データ(trian.csv、891行)をダウンロードして、8割(712行)と2割(179行)に分割し、学習用に以下のデータを作成しました。

f:id:abist_maruyama:20201213155504p:plain

f:id:ABIST_AI:20200720093901p:plain

f:id:abist_maruyama:20201213155915p:plain

f:id:ABIST_AI:20200720095706p:plain

項目4の欠損値処理を見ると、「Age」と「Cabin」の欠損率が15%超とけっこう大きく、欠損行を削除するとデータが減るので、今回は特徴量列から外します（欠損値処理をせずに学習をかけると「欠損値処理をしろ」と怒られます）

f:id:ABIST_AI:20200720101402p:plain

f:id:ABIST_AI:20200720102125p:plain

f:id:abist_maruyama:20201213160412p:plain

f:id:abist_maruyama:20201213160822p:plain

f:id:ABIST_AI:20200720100047p:plain

f:id:ABIST_AI:20200720102950p:plain

学習が完了しました(5分ぐらいで)。おすすめのアルゴリズムをが表示されるので「csvファイルを利用して予測する」をクリックし、テストデータ(tai-test.csv)をアップロードします

f:id:ABIST_AI:20200720105119p:plain

f:id:ABIST_AI:20200720105551p:plain

f:id:ABIST_AI:20200720110108p:plain

結果をエクセルで作成した混同行列で確認すると、正解(死亡:110, 生存:69)に対し、正しく予測できた数が、死亡:91、生存:55となり、正解率81.6%になりました。

f:id:abist_maruyama:20201215142316p:plain