8月31日にAI-Plant Bambooのデータ可視化に「箱ひげ図」が追加されましたので、それを使って再度ハウスプライス予測をします。
箱ひげ図は、量的変数とカテゴリ変数の関係を見ることができます。変数については以下記事にて
blog.abist-ai.com
前回のHouse Prices予測は、目的変数に関係のありそうな量的変数を選択して実施しました。
blog.abist-ai.com
目的変数とカテゴリ変数の関係
AI-Plant Bambooでデータ可視化をおこない、目的変数(Sale Price)と各カテゴリ変数の関係をひとつずつ見ていきます(個人的な感覚によります)。
>AI-Plant Bamboo>テーブル一覧>データを分析する
>>データの可視化>データの分布>箱ひげ図(カテゴリごと)
>>データの可視化>データの割合>円グラフ

カテゴリー変数 |
見た感じ |
使うか |
MSZoning |
日本でいうところの用途地域。RLとRMについて箱ひげ図を見ると、RLが高めRMが低めという価格の特徴を表していそうです。 他のカテゴリはデータが少ないので、FVはRLに、RHとCはRMに統合してしまってもいいかなと思いました。あとRMの外れ値っぽい1データを削除するとより特徴を表すか。 |
使う |
Street |
ほぼ1カテゴリのデータのみです。 |
× |
Alley |
こちらも、ほぼ1カテゴリのデータのみですね。 |
× |
LotShape |
土地の形状。IR1とRegについて箱ひげ図を見ると、IR1が高めRegが低めという価格の特徴をそれなりに表していそうです。 他のカテゴリはデータが少ないので、IR1に統合してしまってもいいか。 |
使う |

カテゴリー変数 |
見た感じ |
使うか |
LandContour |
土地の平坦性。ほぼ、LvlとHLSのデータで、グラフを見るとHLSはデータが少ないうえに、Lvlに含まれてしまうように見えます。 |
× |
Utilities |
ほぼ1カテゴリのデータのみです。 |
× |
LotConfig |
土地の位置(間口の数や角地など)。Insideが3/4を占め、次のCornerは平均等の基本統計情報(箱やひげの形)がInsideに似ているので、価格の特徴をとらえられていなそうです。 |
× |
LandSlope |
ほぼ1カテゴリのデータのみです。 |
× |

カテゴリー変数 |
見た感じ |
使うか |
Neighborhood |
市内の地区。ごちゃごちゃでよくわかりませんが、なにか特徴あるかもしれませんね。 |
使う |
Condition1 |
周辺情報。Normが圧倒的に多く、次のFeedrは箱ひげの形違いますがNormに含まれてしまっているように感じます。 |
× |
Condition2 |
ほぼ1カテゴリのデータのみです。 |
× |
BldgType |
住宅の種類。Condition1と同じような感じです。 |
× |

カテゴリー変数 |
見た感じ |
使うか |
HouseStyle |
住宅のタイプ。箱ひげ図を見ると、2Story、1Storyと価格の特徴を表していそうです。その他は統合考えてもいいか。 |
使う |
RoofStyle |
屋根の種類。Hip、Gableにて価格の特徴を表してそう。Gableの外れ値を削除してもいいか。 |
使う |
RoofMatl |
ほぼ1カテゴリのデータのみです。 |
× |
MasVnrType |
石積みベニヤタイプ。Stone、BrkFace、Noneを見ると価格の特徴を表してそう。欠損値NaNはNoneに変換。BrkFaceの外れ値を削除してもいいか。 |
使う |

カテゴリー変数 |
見た感じ |
使うか |
Exterior1st |
住宅の外装。ごちゃごちゃでよくわかりませんが、なにか特徴あるかもしれない。 |
使う |
Exterior2nd |
よく見るとExterior1stとあまり違いがなさそうです。 |
× |
ExterQual |
外装材の品質。Ex、Gd、TAと価格の特徴を表してそうです。Exのデータ少ないのでGdに統合か。 |
使う |
ExterCond |
外装の状態。TAが圧倒的に多く、次のGdはTAに含まれてしまっているように感じます。 |
× |

カテゴリー変数 |
見た感じ |
使うか |
Foundation |
基礎。PConc、CBlock、BrkTilと価格の特徴を表してそうです。その他はデータ少ないので近いものに統合か。 |
使う |
BsmtQual |
地下室の高さ。Ex、Gd、TAと価格の特徴を表してそうです。欠損値NaNはTAに変換。Exのデータ少ないのでGdに統合か。 |
使う |
BsmtCond |
地下室の状態。TAが圧倒的に多く、次のGdはTAに含まれてしまっているように感じます。 |
× |
BsmtExposure |
地下室の露出。Gd、Av、Mn、Noと価格の特徴を表してそうです。欠損値NaNはTAに変換。Av、Mnは統合したほうがいいか。 |
使う |

カテゴリー変数 |
見た感じ |
使うか |
BsmtFinType1 |
地下室の評価。GLQとそれ以外で価格の特徴を表しているように見えます。 |
使う |
BsmtFinType2 |
特徴なさそうです。 |
× |
Heating |
ほぼ1カテゴリのデータのみです。 |
× |
HeatingQC |
暖房設備の品質。EXとそれ以外で価格の特徴を表しているように見えます。 |
使う |

カテゴリー変数 |
見た感じ |
使うか |
CentralAir |
セントラルエアコン。価格の特徴を表しているように見えますが… |
△ |
Electrical |
電気設備。SBrkrとそれ以外で価格の特徴を表しているように見えますが… |
△ |
KitchenQual |
キッチン品質。価格の特徴を表しているように見えます。EXが少ないのでGdに統合すると特徴がより強くなりそう。 |
使う |
Functional |
家の機能。Typとそれ以外で価格の特徴を表しているように見えますが… |
△ |

カテゴリー変数 |
見た感じ |
使うか |
GarageType |
ガレージの場所。BuiltInとAttchd、それ以外でわけるとうまく価格の特徴を表すような気がします。 |
使う |
GarageFinish |
ガレージのインテリア仕上げ。FinとUnf、それ以外でわけるとうまく価格の特徴を表すような気がします。 |
使う |
GarageQual |
ガレージ品質。ほぼTAとNanです。 |
× |
GarageCond |
ガレージの状態。ほぼTAとNanです。 |
× |

カテゴリー変数 |
見た感じ |
使うか |
FireplaceQu |
暖炉の品質。半分NaNです。 |
× |
PavedDrive |
私道の舗装。価格の特徴を表しているように見えますが… |
△ |
PoolQC |
プールの品質。ほぼNaNです。 |
× |
Fence |
フェンスの品質。8割NaNです。 |
× |

カテゴリー変数 |
見た感じ |
使うか |
MiscFeature |
その他の機能。ほぼNaNです。 |
× |
SaleType |
販売の種類。NewとCWDとCon、それ以外でわけると価格の特徴を表すような気がします。WDの外れ値っぽいものに注意しつつ。 |
使う |
SaleCondition |
販売条件。Partialとそれ以外で価格の特徴を表しているように見えますが… |
△ |
長くなったので、データ前処理(カテゴリ統合や欠損値補完)、学習、予測は別の記事にしたいと思います。