(回帰)House Prices(住宅価格)予測>AI-Plant Bamboo(AI構築プラットフォーム)

予測の流れの動画

youtu.be

House Prices(住宅価格)の予測とは

住宅の販売データにて機械学習をおこない、住宅の販売価格(SalePrice)を予測するKaggle(分析コンペサイト)のコンペです。

House Prices: Advanced Regression Techniques

データ

住宅販売1件が1行のデータ

  • 訓練データ(81列×1460行)
  • テストデータ(80列×1459行)
  • 上述のページのDataタブ内の「train.csv」と「test.csv」

AI-Plant Bambooを使ってみる

現状機能

  • データ前処理が可能(相関行列が追加されました)
    • 相関行列:数値データの組み合わせの相関係数の表 (「好き・嫌い」のようなカテゴリ変数は含まれません)
  • クラス分類と回帰が可能(回帰機能が追加されました)
    • クラス分類:タイタニック予測のように、それぞれの行を生存したかどうかなどの離散カテゴリに分類する
    • 回帰:今回のハウスプライス予測のように、価格などの連続変数を予測する

Welcomeページ→https://welcome.aiplant-bamboo.com/

データ準備

Kaggleの訓練データ(train.csv)を8:2で分割し、以下データを作成しました。

  • 訓練データ:HP-train1.csv (1168行)
  • テストデータ:HP-train2.csv (292行)

使ってみる

画面キャプチャは添付せず、動画の流れに沿って説明します。

ログイン >AI-Plant Bamboo Beta

訓練データアップロード、テーブル作成

  • データ一覧
    • ファイルをアップロードする
      • 訓練データをアップロード:HP-train1.csv
    • データ変換に進む
      • このデータをテーブルに追加する

前処理

  • テーブル一覧
    • データを分析する
      • 住宅の販売価格(SalePrice)と相関の強いデータを使うと予測の結果も良くなりますので、今回は新たに追加された「相関行列」で相関を確認して学習に使用するカラムを選択します。
      • 相関行列
        • データ分析のページ下段に表示されます
        • 色の濃さで相関の強さを表します
        • 相関係数にて並び替えできるので「SalePrice列」を係数が大きい(赤色が濃い)行が上にくるように並び替えます
        • 今回は、係数0.3以上のカラムを選択します
      • 相関行列の画面コピーをとり、学習に使うカラムを選択するときのメモとします
    • モデルを作成する
      • 特徴量列とラベル列の選択
        • 特徴量列:相関行列の画面コピーを見ながら選択します
        • ラベル列:SalePriceを選択します
      • 欠損値処理
        • LotFrontage:特徴量列から外します
        • MasVnrArea:ゼロに置換します
        • GarageYrBlt:特徴量列から外します
      • アルゴリズム
        • 「回帰モデル」のみ選択します

学習

テストデータアップロード

  • テストデータ (HP-train2.csv)をアップロードします

予測

予測結果ダウンロード

予測結果の確認

  • 予測結果のSalePriceとテストデータのSalePriceを比較し結果を確認します