予測の流れの動画
House Prices(住宅価格)の予測とは
住宅の販売データにて機械学習をおこない、住宅の販売価格(SalePrice)を予測するKaggle(分析コンペサイト)のコンペです。
>House Prices: Advanced Regression Techniques
データ
住宅販売1件が1行のデータ
- 訓練データ(81列×1460行)
- テストデータ(80列×1459行)
- 上述のページのDataタブ内の「train.csv」と「test.csv」
AI-Plant Bambooを使ってみる
現状機能
- データ前処理が可能(相関行列が追加されました)
- 相関行列:数値データの組み合わせの相関係数の表 (「好き・嫌い」のようなカテゴリ変数は含まれません)
- クラス分類と回帰が可能(回帰機能が追加されました)
- クラス分類:タイタニック予測のように、それぞれの行を生存したかどうかなどの離散カテゴリに分類する
- 回帰:今回のハウスプライス予測のように、価格などの連続変数を予測する
Welcomeページ→https://welcome.aiplant-bamboo.com/
データ準備
Kaggleの訓練データ(train.csv)を8:2で分割し、以下データを作成しました。
- 訓練データ:HP-train1.csv (1168行)
- テストデータ:HP-train2.csv (292行)
使ってみる
画面キャプチャは添付せず、動画の流れに沿って説明します。
ログイン >AI-Plant Bamboo Beta
訓練データアップロード、テーブル作成
- データ一覧
- ファイルをアップロードする
- 訓練データをアップロード:HP-train1.csv
- データ変換に進む
- このデータをテーブルに追加する
- ファイルをアップロードする
前処理
- テーブル一覧
- データを分析する
- 住宅の販売価格(SalePrice)と相関の強いデータを使うと予測の結果も良くなりますので、今回は新たに追加された「相関行列」で相関を確認して学習に使用するカラムを選択します。
- 相関行列
- データ分析のページ下段に表示されます
- 色の濃さで相関の強さを表します
- 相関係数にて並び替えできるので「SalePrice列」を係数が大きい(赤色が濃い)行が上にくるように並び替えます
- 今回は、係数0.3以上のカラムを選択します
- 相関行列の画面コピーをとり、学習に使うカラムを選択するときのメモとします
- モデルを作成する
- 特徴量列とラベル列の選択
- 特徴量列:相関行列の画面コピーを見ながら選択します
- ラベル列:SalePriceを選択します
- 欠損値処理
- LotFrontage:特徴量列から外します
- MasVnrArea:ゼロに置換します
- GarageYrBlt:特徴量列から外します
- アルゴリズム
- 「回帰モデル」のみ選択します
- 特徴量列とラベル列の選択
- データを分析する
学習
テストデータアップロード
- テストデータ (HP-train2.csv)をアップロードします
予測
予測結果ダウンロード
予測結果の確認
- 予測結果のSalePriceとテストデータのSalePriceを比較し結果を確認します