【博評】用民調配票,聰明嗎?

撰文:馬嶽
出版:更新:
每天去看誰上榜,誰出局的「跑馬仔新聞」(horse race journalism),差不多是沒有意義,甚至可以是誤導選民。因為以這個樣本數目,新東和新西應該每天都有至少 10 張名單,在統計學上屬於 too close to call。
馬嶽
有政黨表示不應相信民調,也有團體呼籲根據民調作策略投票。聰明選民究竟應該怎做呢?(資料圖片)

選舉進入直路,愈來愈多人關注民調走勢。有政黨表示不應相信民調,也有團體呼籲根據民調作策略投票。聰明選民究竟應該怎做呢?

我對所謂「滾動民調」數字,一直半信半疑。最疑惑是,個別候選人每天上落可以很大,多至 6%、7% 之譜。

例如馮檢基在 8 月 18 日發表的民調是 7%,一天後變成 4%;同日,譚文豪由 11% 變為 6%。何秀蘭在 8 月 15 日是 5%,一天後跳至 11%,之後在 8 月 21 日,由 9% 跌至 4%。

選舉過程中,支持程度當然有可能大上大落,例如有選舉事件(event)或醜聞,但這次選戰中不大看到。那為什麼可以一天上落這麼多呢?

有效樣本太小 隨機因素影響太大

港大民調透明度很高。網站上,有每次調查的原始數據 spss.sav 檔供下載,稍懂社會科學統計的,都可以自己拿來玩玩。我看了相關數據一下,發覺原因很簡單:有效樣本,比我想像還要小,每天上落可能和選情沒有直接關係。

新西由 8 月 13 至 17 日的民調,名義上有約 260 個樣本,但真正表示了投票選擇的,每天其實分別只得 28、36、38、38、30 人,5 天共 170 人。每一天,有一個人表示支持某候選人,當日支持度就有 3%,兩個人就是 6%。

馮檢基在 8 月 13 日的 28 人樣本中,有 6 個人支持,當日佔 21%,這 6 票一直包括在 13 至 17 日公布的滾動民調中,直至 8 月 18 日被剔出,馮的總支持人數於是由 13 人變為 7 人,7% 變了 4%。

馮檢基在 8 月 13 日的 28 人樣本中,有 6 個人支持,當日佔 21%,直至 8 月 18 日被剔出,馮的總支持人數於是由 13 人變為 7 人,7% 變了 4%。(資料圖片)

同樣地,港島每天表示投票選擇的,大約是 30 人。何秀蘭在 8 月 15 日的調查有 9 人支持,佔當天 31 名表態者的 29%,推高了她的支持。到了 21 日公布的 16 至 20 日滾動民調剔出了這 9 人,一天內暴跌 5%。

大家可以想像,選民過百萬、地域分殊由天水圍到蒲台島到葵芳邨的新界西,每天只有三十多個答案,可以做成很大偏差。例如當天多抽了幾個鄉郊離島,何君堯的支持度就可能暴升。

如果看大概 7 至 10 日的平均支持,樣本較多,會比較可靠。短期變化或單日支持度,則會受很多隨機因素影響,並不可靠。縱使港大說,後期會把樣本做大一倍,仍然是太小了。

民調只反映長期走勢 難作策略投票根據

你會問:這樣小的樣本,調查有多大參考價值?

有些調查結果應該比較有信心。

例如超級區議會,因為每天起碼有百多人表態,所以較少大上大落。

有一些長期拋離的候選人,例如葉劉、楊岳橋、田北辰等,應該真是拋離。

有一些長期不超過 1% 的,應該真的是很少支持了。(84 張名單中,這可佔了大約 24 張)

有一些長期拋離的候選人,例如葉劉、楊岳橋、田北辰等,應該真是拋離。(資料圖片)

但每天去看誰上榜,誰出局的「跑馬仔新聞」(horse race journalism),差不多是沒有意義,甚至可以是誤導選民。因為以這個樣本數目,新東和新西應該每天都有至少 10 張名單,在統計學上屬於 too close to call。

我知道有政黨參考港大民調時,把民調併作 10 天一組來看,看的是移動走勢,而非實數。這樣有 make sense 的地方,因為這樣樣本才勉強夠大,但也只能看到 10 天平均支持度。從選舉決勝角度,出現了至少 5 天時差。

選舉和跑馬一樣,你全程領先沒有用,過了終點領先也沒有用,只要壓線那一刻贏才有用。在 9 月 2 日給你前 10 天或者前 5 天民調的平均支持度,可以和 9 月 4 日投票日的支持度差很遠。

以現在的民調規模,根本很難準確估計大部分名單在選舉前夕的支持度。在大量名單短兵相接 too close to call 下,用這個作策略投票根據,並不見得真正聰明了。

 

【全城最快 每日更新】看港大民調 最新候選人名單及走勢
【你該選哪位?】互動遊戲:選出最接近你的候選人
【了解候選人】他們為香港做過什麼?立場是什麼?
【深度評論】撥開雲霧 讀懂選戰形勢

(本文純屬作者意見,不代表香港01立場。)