馬嶽｜用民調配票，聰明嗎？｜香港01

每天去看誰上榜，誰出局的「跑馬仔新聞」（horse race journalism），差不多是沒有意義，甚至可以是誤導選民。因為以這個樣本數目，新東和新西應該每天都有至少 10 張名單，在統計學上屬於 too close to call。
馬嶽

有政黨表示不應相信民調，也有團體呼籲根據民調作策略投票。聰明選民究竟應該怎做呢？（資料圖片）

選舉進入直路，愈來愈多人關注民調走勢。有政黨表示不應相信民調，也有團體呼籲根據民調作策略投票。聰明選民究竟應該怎做呢？

我對所謂「滾動民調」數字，一直半信半疑。最疑惑是，個別候選人每天上落可以很大，多至 6%、7% 之譜。

例如馮檢基在 8 月 18 日發表的民調是 7%，一天後變成 4%；同日，譚文豪由 11% 變為 6%。何秀蘭在 8 月 15 日是 5%，一天後跳至 11%，之後在 8 月 21 日，由 9% 跌至 4%。

選舉過程中，支持程度當然有可能大上大落，例如有選舉事件（event）或醜聞，但這次選戰中不大看到。那為什麼可以一天上落這麼多呢？

有效樣本太小　隨機因素影響太大

港大民調透明度很高。網站上，有每次調查的原始數據 spss.sav 檔供下載，稍懂社會科學統計的，都可以自己拿來玩玩。我看了相關數據一下，發覺原因很簡單：有效樣本，比我想像還要小，每天上落可能和選情沒有直接關係。

新西由 8 月 13 至 17 日的民調，名義上有約 260 個樣本，但真正表示了投票選擇的，每天其實分別只得 28、36、38、38、30 人，5 天共 170 人。每一天，有一個人表示支持某候選人，當日支持度就有 3%，兩個人就是 6%。

馮檢基在 8 月 13 日的 28 人樣本中，有 6 個人支持，當日佔 21%，這 6 票一直包括在 13 至 17 日公布的滾動民調中，直至 8 月 18 日被剔出，馮的總支持人數於是由 13 人變為 7 人，7% 變了 4%。

馮檢基在 8 月 13 日的 28 人樣本中，有 6 個人支持，當日佔 21%，直至 8 月 18 日被剔出，馮的總支持人數於是由 13 人變為 7 人，7% 變了 4%。（資料圖片）

同樣地，港島每天表示投票選擇的，大約是 30 人。何秀蘭在 8 月 15 日的調查有 9 人支持，佔當天 31 名表態者的 29%，推高了她的支持。到了 21 日公布的 16 至 20 日滾動民調剔出了這 9 人，一天內暴跌 5%。

大家可以想像，選民過百萬、地域分殊由天水圍到蒲台島到葵芳邨的新界西，每天只有三十多個答案，可以做成很大偏差。例如當天多抽了幾個鄉郊離島，何君堯的支持度就可能暴升。

如果看大概 7 至 10 日的平均支持，樣本較多，會比較可靠。短期變化或單日支持度，則會受很多隨機因素影響，並不可靠。縱使港大說，後期會把樣本做大一倍，仍然是太小了。

民調只反映長期走勢　難作策略投票根據

你會問：這樣小的樣本，調查有多大參考價值？

有些調查結果應該比較有信心。

例如超級區議會，因為每天起碼有百多人表態，所以較少大上大落。

有一些長期拋離的候選人，例如葉劉、楊岳橋、田北辰等，應該真是拋離。

有一些長期不超過 1% 的，應該真的是很少支持了。（84 張名單中，這可佔了大約 24 張）

有一些長期拋離的候選人，例如葉劉、楊岳橋、田北辰等，應該真是拋離。（資料圖片）

但每天去看誰上榜，誰出局的「跑馬仔新聞」（horse race journalism），差不多是沒有意義，甚至可以是誤導選民。因為以這個樣本數目，新東和新西應該每天都有至少 10 張名單，在統計學上屬於 too close to call。

我知道有政黨參考港大民調時，把民調併作 10 天一組來看，看的是移動走勢，而非實數。這樣有 make sense 的地方，因為這樣樣本才勉強夠大，但也只能看到 10 天平均支持度。從選舉決勝角度，出現了至少 5 天時差。

選舉和跑馬一樣，你全程領先沒有用，過了終點領先也沒有用，只要壓線那一刻贏才有用。在 9 月 2 日給你前 10 天或者前 5 天民調的平均支持度，可以和 9 月 4 日投票日的支持度差很遠。

以現在的民調規模，根本很難準確估計大部分名單在選舉前夕的支持度。在大量名單短兵相接 too close to call 下，用這個作策略投票根據，並不見得真正聰明了。

（本文純屬作者意見，不代表香港01立場。）

【博評】用民調配票，聰明嗎？