【開放數據】政府計劃文件竟是83份PDF 要人手逐份下載逐份睇

撰文:陳嘉慧 簡浩德
出版:更新:

政府今年初推出開放數據政策,公布各部門的年度計劃,涉及逾650數據集。《香港01》發現全部83份計劃書,分別上載到83個部門,若要比較分析各部門的計劃,就只能逐個打開網頁,然後下載83份文件,過程相當繁複。
另外,全部文件採用PDF檔案,令市民難以利用電腦分析資料,而且各計劃書格式並不統一。有部門的計劃書是圖檔無法複製當中文字,另表格欄數、標題不一亦有違開放數據要求有統一格式的標準。政府資訊科技總監辦公室回應指,日後會考慮增加以上文件的機器可讀版本。

政府於去年9月定下開放政府數據的新政策,要求所有政府部門制訂和公布年度開放數據計劃。今年1月初,政府資訊科技總監辦公室﹙資科辦﹚宣佈80多個政府門已發佈首份計劃,涉及逾650項資料。

資科辦發言人表示,為協助各政府部門制訂開放數據計劃,此前有為部門提供指引,包括數據格式、更新頻率、收集公眾意見的途徑等;並安排簡報會詳述工作流程;亦有就計劃初稿、數據的格式和細分程度提供意見,並會考慮在今年內將各部門的開放數據計劃經整理後以機讀格式發佈。

資科辦:會考慮以機讀格式發佈計劃文件

早前有報導指,部分政府部門將網誌及演辭等內容當成開放數據。政府資訊科技總監林偉喬當時回應指,網誌及新聞公告並非無用,因為在人工智能及大數據下,若有機讀格式,研究人員便可對文本進行趨勢分析及政策研究。然而,是次發佈的計劃文件全是PDF格式,並且分開83個檔案,不利數據整合及分析,亦有違開放數據標準中,以統一格式、機讀方式發放數據的原則。如可增加機器可讀版本,對議題感興趣的人士,可編寫程式定期監察新數據集發放,評估數據質素。

《香港01》記者下載並檢視全部計劃文件,發現各部門文件格式不一,包括表格欄數不一、個別文件會有合併跨欄的情況、索引有中有英、分類原則不一致等,令使用者需要花大量時間整理數據,增加分析數據的難度。以下圖片展示各項問題的實際情況:

↓政府開放數據計劃文件格式問題多 增分析難度↓

若市民要一覽各政府部門的開放數據計劃,步驟可算繁複,需於資料一線通網站找到有關目錄,再點入個別部門網站的相關頁面,才可找到PDF檔案的下載連結。(網頁截圖)

當中,知識產權署的計劃文件更是以圖片檔案製作而成,要使用當中的文字內容,需要用上光學文字辨識(OCR)等特別工具,先將檔案轉換成文字檔,方可再調整格式及校對。