8月31日にAI-Plant Bambooのデータ可視化に「箱ひげ図」が追加されましたので、それを使って再度ハウスプライス予測をします。
箱ひげ図は、量的変数とカテゴリ変数の関係を見ることができます。変数については以下記事にて blog.abist-ai.com
前回のHouse Prices予測は、目的変数に関係のありそうな量的変数を選択して実施しました。 blog.abist-ai.com
目的変数とカテゴリ変数の関係
AI-Plant Bambooでデータ可視化をおこない、目的変数(Sale Price)と各カテゴリ変数の関係をひとつずつ見ていきます(個人的な感覚によります)。
>AI-Plant Bamboo>テーブル一覧>データを分析する
>>データの可視化>データの分布>箱ひげ図(カテゴリごと)
>>データの可視化>データの割合>円グラフ
カテゴリー変数 | 見た感じ | 使うか |
---|---|---|
MSZoning | 日本でいうところの用途地域。RLとRMについて箱ひげ図を見ると、RLが高めRMが低めという価格の特徴を表していそうです。 他のカテゴリはデータが少ないので、FVはRLに、RHとCはRMに統合してしまってもいいかなと思いました。あとRMの外れ値っぽい1データを削除するとより特徴を表すか。 |
使う |
Street | ほぼ1カテゴリのデータのみです。 | × |
Alley | こちらも、ほぼ1カテゴリのデータのみですね。 | × |
LotShape | 土地の形状。IR1とRegについて箱ひげ図を見ると、IR1が高めRegが低めという価格の特徴をそれなりに表していそうです。 他のカテゴリはデータが少ないので、IR1に統合してしまってもいいか。 |
使う |
カテゴリー変数 | 見た感じ | 使うか |
---|---|---|
LandContour | 土地の平坦性。ほぼ、LvlとHLSのデータで、グラフを見るとHLSはデータが少ないうえに、Lvlに含まれてしまうように見えます。 | × |
Utilities | ほぼ1カテゴリのデータのみです。 | × |
LotConfig | 土地の位置(間口の数や角地など)。Insideが3/4を占め、次のCornerは平均等の基本統計情報(箱やひげの形)がInsideに似ているので、価格の特徴をとらえられていなそうです。 | × |
LandSlope | ほぼ1カテゴリのデータのみです。 | × |
カテゴリー変数 | 見た感じ | 使うか |
---|---|---|
Neighborhood | 市内の地区。ごちゃごちゃでよくわかりませんが、なにか特徴あるかもしれませんね。 | 使う |
Condition1 | 周辺情報。Normが圧倒的に多く、次のFeedrは箱ひげの形違いますがNormに含まれてしまっているように感じます。 | × |
Condition2 | ほぼ1カテゴリのデータのみです。 | × |
BldgType | 住宅の種類。Condition1と同じような感じです。 | × |
カテゴリー変数 | 見た感じ | 使うか |
---|---|---|
HouseStyle | 住宅のタイプ。箱ひげ図を見ると、2Story、1Storyと価格の特徴を表していそうです。その他は統合考えてもいいか。 | 使う |
RoofStyle | 屋根の種類。Hip、Gableにて価格の特徴を表してそう。Gableの外れ値を削除してもいいか。 | 使う |
RoofMatl | ほぼ1カテゴリのデータのみです。 | × |
MasVnrType | 石積みベニヤタイプ。Stone、BrkFace、Noneを見ると価格の特徴を表してそう。欠損値NaNはNoneに変換。BrkFaceの外れ値を削除してもいいか。 | 使う |
カテゴリー変数 | 見た感じ | 使うか |
---|---|---|
Exterior1st | 住宅の外装。ごちゃごちゃでよくわかりませんが、なにか特徴あるかもしれない。 | 使う |
Exterior2nd | よく見るとExterior1stとあまり違いがなさそうです。 | × |
ExterQual | 外装材の品質。Ex、Gd、TAと価格の特徴を表してそうです。Exのデータ少ないのでGdに統合か。 | 使う |
ExterCond | 外装の状態。TAが圧倒的に多く、次のGdはTAに含まれてしまっているように感じます。 | × |
カテゴリー変数 | 見た感じ | 使うか |
---|---|---|
Foundation | 基礎。PConc、CBlock、BrkTilと価格の特徴を表してそうです。その他はデータ少ないので近いものに統合か。 | 使う |
BsmtQual | 地下室の高さ。Ex、Gd、TAと価格の特徴を表してそうです。欠損値NaNはTAに変換。Exのデータ少ないのでGdに統合か。 | 使う |
BsmtCond | 地下室の状態。TAが圧倒的に多く、次のGdはTAに含まれてしまっているように感じます。 | × |
BsmtExposure | 地下室の露出。Gd、Av、Mn、Noと価格の特徴を表してそうです。欠損値NaNはTAに変換。Av、Mnは統合したほうがいいか。 | 使う |
カテゴリー変数 | 見た感じ | 使うか |
---|---|---|
BsmtFinType1 | 地下室の評価。GLQとそれ以外で価格の特徴を表しているように見えます。 | 使う |
BsmtFinType2 | 特徴なさそうです。 | × |
Heating | ほぼ1カテゴリのデータのみです。 | × |
HeatingQC | 暖房設備の品質。EXとそれ以外で価格の特徴を表しているように見えます。 | 使う |
カテゴリー変数 | 見た感じ | 使うか |
---|---|---|
CentralAir | セントラルエアコン。価格の特徴を表しているように見えますが… | △ |
Electrical | 電気設備。SBrkrとそれ以外で価格の特徴を表しているように見えますが… | △ |
KitchenQual | キッチン品質。価格の特徴を表しているように見えます。EXが少ないのでGdに統合すると特徴がより強くなりそう。 | 使う |
Functional | 家の機能。Typとそれ以外で価格の特徴を表しているように見えますが… | △ |
カテゴリー変数 | 見た感じ | 使うか |
---|---|---|
GarageType | ガレージの場所。BuiltInとAttchd、それ以外でわけるとうまく価格の特徴を表すような気がします。 | 使う |
GarageFinish | ガレージのインテリア仕上げ。FinとUnf、それ以外でわけるとうまく価格の特徴を表すような気がします。 | 使う |
GarageQual | ガレージ品質。ほぼTAとNanです。 | × |
GarageCond | ガレージの状態。ほぼTAとNanです。 | × |
カテゴリー変数 | 見た感じ | 使うか |
---|---|---|
FireplaceQu | 暖炉の品質。半分NaNです。 | × |
PavedDrive | 私道の舗装。価格の特徴を表しているように見えますが… | △ |
PoolQC | プールの品質。ほぼNaNです。 | × |
Fence | フェンスの品質。8割NaNです。 | × |
カテゴリー変数 | 見た感じ | 使うか |
---|---|---|
MiscFeature | その他の機能。ほぼNaNです。 | × |
SaleType | 販売の種類。NewとCWDとCon、それ以外でわけると価格の特徴を表すような気がします。WDの外れ値っぽいものに注意しつつ。 | 使う |
SaleCondition | 販売条件。Partialとそれ以外で価格の特徴を表しているように見えますが… | △ |
長くなったので、データ前処理(カテゴリ統合や欠損値補完)、学習、予測は別の記事にしたいと思います。