(回帰)House Prices(住宅価格)予測(EDA:カテゴリ変数を見る)>AI-Plant Bamboo(AI構築プラットフォーム)

8月31日にAI-Plant Bambooのデータ可視化に「箱ひげ図」が追加されましたので、それを使って再度ハウスプライス予測をします。

箱ひげ図は、量的変数とカテゴリ変数の関係を見ることができます。変数については以下記事にて blog.abist-ai.com

前回のHouse Prices予測は、目的変数に関係のありそうな量的変数を選択して実施しました。 blog.abist-ai.com

目的変数とカテゴリ変数の関係

AI-Plant Bambooでデータ可視化をおこない、目的変数(Sale Price)と各カテゴリ変数の関係をひとつずつ見ていきます(個人的な感覚によります)。
AI-Plant Bamboo>テーブル一覧>データを分析する
>>データの可視化>データの分布>箱ひげ図(カテゴリごと)
>>データの可視化>データの割合>円グラフ

f:id:abist_maruyama:20200904182333p:plain

カテゴリー変数 見た感じ 使うか
MSZoning 日本でいうところの用途地域。RLとRMについて箱ひげ図を見ると、RLが高めRMが低めという価格の特徴を表していそうです。
他のカテゴリはデータが少ないので、FVはRLに、RHとCはRMに統合してしまってもいいかなと思いました。あとRMの外れ値っぽい1データを削除するとより特徴を表すか。
使う
Street ほぼ1カテゴリのデータのみです。 ×
Alley こちらも、ほぼ1カテゴリのデータのみですね。 ×
LotShape 土地の形状。IR1とRegについて箱ひげ図を見ると、IR1が高めRegが低めという価格の特徴をそれなりに表していそうです。
他のカテゴリはデータが少ないので、IR1に統合してしまってもいいか。
使う


f:id:abist_maruyama:20200905094433p:plain

カテゴリー変数 見た感じ 使うか
LandContour 土地の平坦性。ほぼ、LvlとHLSのデータで、グラフを見るとHLSはデータが少ないうえに、Lvlに含まれてしまうように見えます。 ×
Utilities ほぼ1カテゴリのデータのみです。 ×
LotConfig 土地の位置(間口の数や角地など)。Insideが3/4を占め、次のCornerは平均等の基本統計情報(箱やひげの形)がInsideに似ているので、価格の特徴をとらえられていなそうです。 ×
LandSlope ほぼ1カテゴリのデータのみです。 ×


f:id:abist_maruyama:20200905103313p:plain

カテゴリー変数 見た感じ 使うか
Neighborhood 市内の地区。ごちゃごちゃでよくわかりませんが、なにか特徴あるかもしれませんね。 使う
Condition1 周辺情報。Normが圧倒的に多く、次のFeedrは箱ひげの形違いますがNormに含まれてしまっているように感じます。 ×
Condition2 ほぼ1カテゴリのデータのみです。 ×
BldgType 住宅の種類。Condition1と同じような感じです。 ×


f:id:abist_maruyama:20200905104500p:plain

カテゴリー変数 見た感じ 使うか
HouseStyle 住宅のタイプ。箱ひげ図を見ると、2Story、1Storyと価格の特徴を表していそうです。その他は統合考えてもいいか。 使う
RoofStyle 屋根の種類。Hip、Gableにて価格の特徴を表してそう。Gableの外れ値を削除してもいいか。 使う
RoofMatl ほぼ1カテゴリのデータのみです。 ×
MasVnrType 石積みベニヤタイプ。Stone、BrkFace、Noneを見ると価格の特徴を表してそう。欠損値NaNはNoneに変換。BrkFaceの外れ値を削除してもいいか。 使う


f:id:abist_maruyama:20200905110513p:plain

カテゴリー変数 見た感じ 使うか
Exterior1st 住宅の外装。ごちゃごちゃでよくわかりませんが、なにか特徴あるかもしれない。 使う
Exterior2nd よく見るとExterior1stとあまり違いがなさそうです。 ×
ExterQual 外装材の品質。Ex、Gd、TAと価格の特徴を表してそうです。Exのデータ少ないのでGdに統合か。 使う
ExterCond 外装の状態。TAが圧倒的に多く、次のGdはTAに含まれてしまっているように感じます。 ×


f:id:abist_maruyama:20200905114139p:plain

カテゴリー変数 見た感じ 使うか
Foundation 基礎。PConc、CBlock、BrkTilと価格の特徴を表してそうです。その他はデータ少ないので近いものに統合か。 使う
BsmtQual 地下室の高さ。Ex、Gd、TAと価格の特徴を表してそうです。欠損値NaNはTAに変換。Exのデータ少ないのでGdに統合か。 使う
BsmtCond 地下室の状態。TAが圧倒的に多く、次のGdはTAに含まれてしまっているように感じます。 ×
BsmtExposure 地下室の露出。Gd、Av、Mn、Noと価格の特徴を表してそうです。欠損値NaNはTAに変換。Av、Mnは統合したほうがいいか。 使う


f:id:abist_maruyama:20200906150753p:plain

カテゴリー変数 見た感じ 使うか
BsmtFinType1 地下室の評価。GLQとそれ以外で価格の特徴を表しているように見えます。 使う
BsmtFinType2 特徴なさそうです。 ×
Heating ほぼ1カテゴリのデータのみです。 ×
HeatingQC 暖房設備の品質。EXとそれ以外で価格の特徴を表しているように見えます。 使う


f:id:abist_maruyama:20200906155551p:plain

カテゴリー変数 見た感じ 使うか
CentralAir セントラルエアコン。価格の特徴を表しているように見えますが…
Electrical 電気設備。SBrkrとそれ以外で価格の特徴を表しているように見えますが…
KitchenQual キッチン品質。価格の特徴を表しているように見えます。EXが少ないのでGdに統合すると特徴がより強くなりそう。 使う
Functional 家の機能。Typとそれ以外で価格の特徴を表しているように見えますが…


f:id:abist_maruyama:20200906161244p:plain

カテゴリー変数 見た感じ 使うか
GarageType ガレージの場所。BuiltInとAttchd、それ以外でわけるとうまく価格の特徴を表すような気がします。 使う
GarageFinish ガレージのインテリア仕上げ。FinとUnf、それ以外でわけるとうまく価格の特徴を表すような気がします。 使う
GarageQual ガレージ品質。ほぼTAとNanです。 ×
GarageCond ガレージの状態。ほぼTAとNanです。 ×


f:id:abist_maruyama:20200906163321p:plain

カテゴリー変数 見た感じ 使うか
FireplaceQu 暖炉の品質。半分NaNです。 ×
PavedDrive 私道の舗装。価格の特徴を表しているように見えますが…
PoolQC プールの品質。ほぼNaNです。 ×
Fence フェンスの品質。8割NaNです。 ×


f:id:abist_maruyama:20200906163921p:plain

カテゴリー変数 見た感じ 使うか
MiscFeature その他の機能。ほぼNaNです。 ×
SaleType 販売の種類。NewとCWDとCon、それ以外でわけると価格の特徴を表すような気がします。WDの外れ値っぽいものに注意しつつ。 使う
SaleCondition 販売条件。Partialとそれ以外で価格の特徴を表しているように見えますが…


長くなったので、データ前処理(カテゴリ統合や欠損値補完)、学習、予測は別の記事にしたいと思います。