【開放數據】83政府部門今年推700數據 19部門僅將舊數轉格式

撰文:陳嘉慧 簡浩德
出版:更新:

政府近年力推開放數據,各部門早前亦已交出開放數據計劃。《香港01》記者初步統計,83個政府部門年內會推出715個數據集,當中不乏亮點,如實時數據及應用程式介面﹙API﹚。不過,這些新推出的數據集並非全部是首次公開的資料;當中過半數據是舊有數據,包括部門把舊有數據轉換檔案格式,然後上載至資料一線通網站。

記者根據計劃文件的描述,嘗試逐一在網上搜尋相關數據集,發現至少有415個,即58%計劃在公年內公布的數據集,實為原已公開在政府網站的內容,不少部門只是將數據集轉換檔案類型。

金管局、機電工程署等至少19個部門,今年即將公開的數據集全為現有內容,主要是把數據轉換成方便市民使用的檔案格式。

其中,金管局、機電工程署等至少19個部門,今年計劃公開的數據集全為現有內容,主要是把數據轉換成方便市民使用的檔案格式。

一些部門計劃開放的數據較為冷門,除了此前引起討論的特首、司長辦公室新聞稿外,也有水務署物業的室內空氣質素等數據。審計署及破產管理署更將服務承諾當成開放數據。此外,政府新聞處將環保報告作為開放數據,即環保措施的成效及訂立的環保目標,這也是該部門未來3年內唯一開放的數據集。

政府開放數據5大問題

新推出的數據集以舊內容居多,例如金管局今年開放的數據,全部本來就可以在其網站上下載。﹙開放數據計劃文件﹚

1. 舊內容

數據本身已於部門網站公開,新增數據集只是把該處的資訊轉為 CSV 等格式上載到「資料一線通」﹙data.gov.hk﹚。

例子:社會福利署各項服務機構的名單及資料,教育局的中小學名單等

2. 有新一時期的數據集當成新開放數據

將新增的年度數據,當成新一批數據集,更好做法是將之加入現有數據集中。

例子:選舉事務處區議會選區新登記選民的年齡組別及性別分佈﹙2019年﹚參考數據

3. 更新頻率過疏

數據發佈頻率慢於數據收集頻率。

例子:渠務署污水處理廠的排放水每日流量數據,僅每月更新一次

4. 各部門數據不可互通,不利於數據集的整合及分析

不同部門的數據因為命名及錄入方式而不可互通,數據使用者若想將不同數據整合分析,需要花費時間清理及統一數據內容。

例子:教育局及衛生防護中心對幼稚園學校名稱有不同的表述方法

5. 數據缺乏細節,只提供總數或平均數

部分數據本身帶有空間、時間屬性,但政府部門僅提供每年更新一次的總數或平均數。

例子:消防處的火警類型、火災成因、火災級別分成不同數據集,難以對數據作更多分析,例如不能對火警類型及級別作相關性作分析

格式有改善 新增實時數據、API

《香港01》早於2017年3月已推出專題報導,探討政府不少開放資料集的檔案格式不利於分析及應用的問題,例如將資料加工成PDF檔案、圖像檔案等。

整體而言,各政府部門今次計劃推出的資料集數據格式有所提升。例如金管局此前只在官方網站提供XLSX格式數據,而今年6月將上載至「資料一線通」網站的數據集亦會提供JSON格式,其他部門的數據也多採用CSV等機讀格式發放。此外,金管局亦已於去年7月在網站推出50組金融數據及重要資訊的開放應用程式介面﹙API﹚。

政府今年推出的數據集不乏實時更新的數據,例如天文台氣像資料、創新科技署提供科學園人流統計等。政府亦將於人流密集地區設置約400支「多功能智慧燈柱」,實時收集交通、空氣質素、氣象等實時數據。

政府以現有人手應付開放數據

而就開放數據的工作,各部門會否增加專門人手?資科辦透露,現時各政府部門均已在現有人手指派一位人員,專門負責統籌相關工作,該名人員通常為主任級人員,涉及不同的職系。資科辦又指,一般而言,各政府部門的現有人手及資源可應付推行相關工作,資科辦會視情況提供技術和財政支援。

數據集發水問題仍在

《香港01》在2017年3月曾統計發現,「資料一線通」網站上6,751項資料中,有7成是「水份」,包括同一項資料按年份或月份分拆上載網頁等。然而在新政策下,個別部門仍存在同样問題,例如選舉事務處會將各年的區議會選區新登記選民數據,當成不同的數據集。