【開放數據】83政府部門今年推700數據 19部門僅將舊數轉格式
政府近年力推開放數據,各部門早前亦已交出開放數據計劃。《香港01》記者初步統計,83個政府部門年內會推出715個數據集,當中不乏亮點,如實時數據及應用程式介面﹙API﹚。不過,這些新推出的數據集並非全部是首次公開的資料;當中過半數據是舊有數據,包括部門把舊有數據轉換檔案格式,然後上載至資料一線通網站。
記者根據計劃文件的描述,嘗試逐一在網上搜尋相關數據集,發現至少有415個,即58%計劃在公年內公布的數據集,實為原已公開在政府網站的內容,不少部門只是將數據集轉換檔案類型。
其中,金管局、機電工程署等至少19個部門,今年計劃公開的數據集全為現有內容,主要是把數據轉換成方便市民使用的檔案格式。
一些部門計劃開放的數據較為冷門,除了此前引起討論的特首、司長辦公室新聞稿外,也有水務署物業的室內空氣質素等數據。審計署及破產管理署更將服務承諾當成開放數據。此外,政府新聞處將環保報告作為開放數據,即環保措施的成效及訂立的環保目標,這也是該部門未來3年內唯一開放的數據集。
政府開放數據5大問題
1. 舊內容
數據本身已於部門網站公開,新增數據集只是把該處的資訊轉為 CSV 等格式上載到「資料一線通」﹙data.gov.hk﹚。
例子:社會福利署各項服務機構的名單及資料,教育局的中小學名單等
2. 有新一時期的數據集當成新開放數據
將新增的年度數據,當成新一批數據集,更好做法是將之加入現有數據集中。
例子:選舉事務處區議會選區新登記選民的年齡組別及性別分佈﹙2019年﹚參考數據
3. 更新頻率過疏
數據發佈頻率慢於數據收集頻率。
例子:渠務署污水處理廠的排放水每日流量數據,僅每月更新一次
4. 各部門數據不可互通,不利於數據集的整合及分析
不同部門的數據因為命名及錄入方式而不可互通,數據使用者若想將不同數據整合分析,需要花費時間清理及統一數據內容。
例子:教育局及衛生防護中心對幼稚園學校名稱有不同的表述方法
5. 數據缺乏細節,只提供總數或平均數
部分數據本身帶有空間、時間屬性,但政府部門僅提供每年更新一次的總數或平均數。
例子:消防處的火警類型、火災成因、火災級別分成不同數據集,難以對數據作更多分析,例如不能對火警類型及級別作相關性作分析
格式有改善 新增實時數據、API
《香港01》早於2017年3月已推出專題報導,探討政府不少開放資料集的檔案格式不利於分析及應用的問題,例如將資料加工成PDF檔案、圖像檔案等。
整體而言,各政府部門今次計劃推出的資料集數據格式有所提升。例如金管局此前只在官方網站提供XLSX格式數據,而今年6月將上載至「資料一線通」網站的數據集亦會提供JSON格式,其他部門的數據也多採用CSV等機讀格式發放。此外,金管局亦已於去年7月在網站推出50組金融數據及重要資訊的開放應用程式介面﹙API﹚。
政府今年推出的數據集不乏實時更新的數據,例如天文台氣像資料、創新科技署提供科學園人流統計等。政府亦將於人流密集地區設置約400支「多功能智慧燈柱」,實時收集交通、空氣質素、氣象等實時數據。
政府以現有人手應付開放數據
而就開放數據的工作,各部門會否增加專門人手?資科辦透露,現時各政府部門均已在現有人手指派一位人員,專門負責統籌相關工作,該名人員通常為主任級人員,涉及不同的職系。資科辦又指,一般而言,各政府部門的現有人手及資源可應付推行相關工作,資科辦會視情況提供技術和財政支援。
數據集發水問題仍在
《香港01》在2017年3月曾統計發現,「資料一線通」網站上6,751項資料中,有7成是「水份」,包括同一項資料按年份或月份分拆上載網頁等。然而在新政策下,個別部門仍存在同样問題,例如選舉事務處會將各年的區議會選區新登記選民數據,當成不同的數據集。