多元迴歸分析主要是依據數字等量化數據進行,但除了這些,其他非數字的事物也能被轉換成數字並加入分析中。這時候我們會用到「虛擬變數」這種方法。巧妙使用這個手法,能夠擴大多元迴歸分析的考量因素。

這次,我們來介紹虛擬變數的製作方法、應用範例,以及進行分析時的注意事項。

虛擬變數是什麼?

虛擬變數是將非數字數據轉化為數字的一種方法。具體來說,就是把非數字數據轉換為「0」和「1」的數列。

例如,為了觀察消費稅增稅對景氣的影響,可以把增稅前的期間設為「0」,增稅後設為「1」,這樣就能考慮增稅所引發的變化。

虛擬變數的製作方法

虛擬變數的製作方法大致分為兩種情況:二選一的情況(例如:包含/不包含)和多選的情況(例如:星期)。

二選一的虛擬變數

將兩個選項中的一個轉為「0」,另一個轉為「1」。

  • 是 → 1、否 → 0
  • 包含 → 1、不包含 → 0
  • 男 → 1、女 → 0

為了易於識別,可以給每個虛擬變數命名。在計量經濟學領域中,常用「○○虛擬變數」來命名。

多選的虛擬變數

在這種情況下,可以依據包含的因素數量製作相應的虛擬變數。以星期為例,若要製作虛擬變數,

  • 星期一虛擬變數:星期一設為1,其它日設為0
  • 星期二虛擬變數:星期二設為1,其它日設為0
  • 依此類推,設至星期日虛擬變數,共有7種虛擬變數

同樣地,若要觀察三種不同活動(A/B/C)的進行期間帶來的影響,則可以製作對應的虛擬變數:

  • 活動A虛擬變數:活動A進行期間設為1,其它時期設為0
  • 依次類推,設以活動B虛擬變數、活動C虛擬變數

真正進行分析時,會用到多種類型中的若干種「比包含數量少一個數」的虛擬變數(這是相關分析的細節,若同時使用所有變數,則分析結果的精度會極低)。

虛擬變數在多元迴歸分析中的應用案例

虛擬變數的製作非常簡單,但通過巧妙應用,可以對各種分析十分有幫助。以下展示一些具體分析案例。

居酒屋的來客數與「星期幾」的關係

利用星期的虛擬變數,可以分析「星期幾」的影響程度。以居酒屋為例,如果希望知道「在店前派發傳單的數量」對「來客數」的影響。

假設「星期五」來客數最高,那麼在「星期五」派發傳單時,傳單的效果可能因星期五的高來客數而變得模糊。

此時可以用「星期五」的虛擬變數來區分分析。通過排序「星期五」的虛擬變數,可以判斷是否是因為「星期五」或者是「派發傳單」導致來客數增加。

電子報的轉換率是否受「時間段」影響?

考慮電子報的轉換率的影響因素時,可以分析「時間段」這個因素。轉換率會受多種因素影響,但我們假設「傍晚發送電子報的反應會更好」。此時可將發送時間段加入分析。如9-12時虛擬變數、12-15時虛擬變數、15-18時虛擬變數分段的虛擬變數。

需注意,上述以3小時為單位的虛擬變數可能不是最合理的劃分。實際上,靈活應用虛擬變數是分析中的一個關鍵。例如,可以設置「上班時間段(8-9時)虛擬變數」、「午休時間段(12-13時)虛擬變數」、「回家時間段(19-20時)虛擬變數」這樣的三個虛擬變數,可能會更準確地反映數據的變化。

排除「不明原因的例外」

最後,我們可以在「不明原因但有特殊表現的數據」中設置虛擬變數。

這可能是最實用的方法。與前兩個案例中的假設分析不同,現實中經常有「原因不明的數據異常」出現在數據集中,這可能是數據採集錯誤,或某些罕見事件影響(例如颱風導致的週銷量劇減)。在這些情況下,可對該「例外」設置虛擬變數,以在分析中納入這些特殊性。如此一來,能同時處理整體趨勢與局部例外。

例如,考慮8月份的「冰淇淋銷量」受到「最高氣溫」、「降雨量」、「路過人數」的影響。在分析時,可發現8月27日銷量極低,8月16日至18日銷量異常增長。將這兩個「例外」排除後,可顯著提升分析精度,進而提高未來銷量預測的準確性。