[問題] 迴歸分析中變數重要性
大家好
我不是統計背景出身的
但今天跟學生咪挺時聊到
在迴歸分析中可以利用某解釋變數加入前後的 R^2 變化
來當作該變數的重要程度
請問這個做法是常見或正確的嗎?
有沒有相關文獻可供參考呢?
我自己想了一個反例如下:
假設有三個解釋變數 x1, x2, x3
其中 x1 和 x2 很有解釋力但卻高度共線性
x3 則是聊勝於無的變數
在控制 x1 和 x3 時
由於 x2 和 x1 高度共線性
所以額外加入 x2 並不會讓 R^2 上升太多
另一方面
在控制 x1 和 x2 時
由於 x3 本身沒啥用處
所以額外加入 x3 也不會讓 R^2 上升太多
綜上所述
光靠 R^2 的變化來定義變數重要性可能會有問題(?)
但如果把上例的 x1 拿掉呢?
我也不知道答案
印象中在隨機森林裡有類似的變數重要性定義方式
但我查了 ISLR 第二版的 8.2.1 節
其定義是將每棵樹加入該解釋變數後下降的 RSS 取平均
但這麼一來
由於資料已經重新取樣
共線性的問題應該不大
與上述範例裡的迴歸分析似乎又不相同
還請各位大大指點迷津或者提供相關文獻
萬分感謝~ <(_ _)>
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 211.78.36.246 (臺灣)
※ 文章網址: https://www.ptt.cc/bbs/Statistics/M.1722443551.A.5FF.html
留言