【採訪手記】「塞車之城」專題是如何鍊成
在香港,塞車問題每日都在虛耗數百萬人的寶貴光陰,被迫呆坐在車廂中。
針對問題,《香港01》於2017年10月中開始製作專題,歷時2個月,收集2012年10月1日至2017年9月30日期間,《香港電台》交通消息(匯集運輸署、警方及相關部門的路面及交通資訊)及《商業電台》馬路的事交通消息,合共163,258項資料,解構香港淪為塞車之城的原因。
#1 意念源由
記者與一般打工仔女一樣,上班通勤時間長年飽受塞車煎熬,有時上Facebook地區群組或討論區,都可見到街坊叫苦連天。
2017年3月,記者參加一個本地開放數據日 Hackathon(黑客松),其中一位參與者,一直積極利用工餘時間自行整理政府公開資料的程式設計師黃浩華(howawong)曾就香港的交通事故研究相關數據,把所得數據可視化,希望可製作預測模型。當天他己完成初步的數據收集,並向其他參與者解說意念(當天直播片段,演示程式碼及成果)。
記者受其啟發,回到編輯室後便仿照黃浩華的方法再做一遍,認為此議題值得深入探討。
#2 資料來源
香港現時未有具系統地整合交通事故消息的數據集。城中相對較豐富的資料便要數上香港商業電台(商台)交通消息,包括了最新消息與過往數年時間的紀錄。消息來源多是由電台與各運輸業界及司機合作的「馬路的事 守望相助計劃」。眾所周知,路面上最清楚交通情況的莫過於駕車人士本身,故此計劃收集得來的資訊極為珍貴。
相似的資料還有香港電台(港台)交通消息,但在文字表達層面上,仍可作更為統一的格式。運輸署也有提供一定資訊,網頁版多集中大型事故,其他實時資訊如交通意外或壞車,市民則要安裝專屬的流動應用程式,方可得知。警方在接報交通事故亦會發出公告,惟該項資料僅向特定用戶開放,沒有公開可存取的方法,隨便公開挪用或帶來法律責任,故只能用作輔以參考及驗證之用。除了上述機構外,還有市民自發透過社交媒體的各個突發交通事故報料群組或應用程式,分享身處附近的消息,惟資訊較為分散,難以有效簡便地整理。
#3 資料整理
是次《香港01》塞車之城專題,主要整合商台與港台分別刊登於其網頁的資料。仔細研究下發現,兩個來源資料也有差異,這與記者事前的預想──既是同一項交通事故,有關的消息理應不會有明顯分別──有所出入。
兩家電台發佈報道的時間有先後不難理解,因編採程序不同。發佈時間上的差異,影響對事故的陳述,例如事故所導致的車龍龍尾位置隨時間遷移已經改變了。這個情況使得在整合兩邊資料作量化分析車龍長度時需作一些假設,以僅能以較短者作準。
另一問題是資料表達沒有嚴謹的規範,如龍翔道西行,有時會紀錄為「往荃灣方向」,有時則標示「往葵涌方向」。又需花額外時間整理及組合。
最為艱鉅的挑戰是錯別字。一般而言,傳媒機構需與時間競賽,有時出現錯別字、有著從業員個人特色的標點符號運用、簡略用語等都增加整合數據的難度。最終唯一的解決方法只能是人手、肉判斷及處理問題,極度費時失事,容易出錯,亦有可能影響最終結果。
#4 補充資料同樣缺乏
電台的資料整合後可找到過往5年的各地點交通事故發生頻率、時間、種類、完成處理事故的時間及車龍總計長度。不過單靠這項資訊,並不足以完滿全個專題,還需要其他補充資料。
記者翻查過往立法會、區議會文件、政府各項交通研究報告,了解道路設計原初設計、改善道路措施討論過程等。很可惜,這些資料一如其他政府公開的文件,多是不方便機器分析的PDF檔案,包括運輸署製作的交通運輸調查的行車速度及流量、區議會討論該區由警方提供的交通意外數字,均需以人手分別輸入成可運算的數字格式。
#5 視覺化參考
在資訊爆炸的互聯網世代,各媒體業者均費煞思量試圖吸引讀者駐足片刻觀看新知舊聞。外國現時流行「Scrollytelling」方式,不少數據視覺化的新聞專題結合圖像、文字、影片與網頁互動特性,向受眾呈現新聞故事,例如《金融時報》、《南華早報》兩家傳媒的一帶一路專題均運用地圖,配合動畫效果呈現資料。《香港01》塞車之城專題亦受這兩個專題啟發,逐頁切入香港塞車現象,配以動畫及影片敘述造成塞車背後的成因。
#6 實際操作
現時有逾八成讀者使用手機或平板電腦等流動裝置上網,我們認為專題網頁的首要原則要適應流動裝置(responsive design)。不過知易很難,因各流動裝置的效能和螢幕大小均有巨大差異,除非有足夠資源把所有流動裝置均測試一次,否則難以確定所有裝置可以流暢瀏覽。由開發到測試大致完成,最後竟需逾一個多月,大大超出原先預算。
「塞車之城」以地圖為主軸的呈現,此方式涉及的技術細節,包括地圖基底圖來源、顯示效能、標籤顯示、以至風格配色都需要顧及。其中,由車廂內攝錄的路況影片與地圖動畫同步的環節花上不少的時間調節;一方面要提取影片播放進度,另一方面要即時更新地圖標示位置,讓讀者理解影片中所指出的具體地理位置。
全個專題的顯示和動畫主要賴以一個名為 maptalks 的程式套件。雖然這套件仍為待完善(alpha version),但功能上已足夠使用,而maptalks 還可以配搭其他套件,如 D3.js、ECharts.js、THREE.js 使用,豐富畫面效果。
#7 伸引發展
是次專題以資料陳述和呈現為主,但交通事故數據能有更多的作為。例如結合天氣、節日、鐵路事故等資訊,輸入到一個預測模型,便可推測出發生交通事故的發生機會率,提醒駕車人士注意安全,減少意外。
#8 取之社會,用之社會
塞車之城專題仍有改善之處,但整個計劃可說是站在巨人的肩膀上,由擬訂議題、搜集資料到資料呈現都是基於前人所留下來的成果,添以加工才能完成。
我們希望將來會有更多例子能令社會繼續踏前,也希望有關當局及機構不再吝嗇他們從城市紀錄的數據,向公眾以機器可閱讀分析的格式,免費開放使用,成為大家的巨人肩膀。