2014年3月,北京大學教授陳松蹊在霧霾彌漫的一天,產生分析環境數據的想法。然而當研究工作推進時,他們向環保部門申請共享PM2.5歷史數據無果,卻拿到了美國大使館的監測數據,大喜!當他們進而向氣象部門申請獲得氣象數據時卻被告知需要付費20多萬元,幾周后,他們發現美國氣象研究機構的網站上有北京南郊觀象臺每半小時的氣象數據,免費!
課題組成員不解:“用納稅人的錢建立的公共部門,用納稅人的錢以公共服務名義購置的儀器,所收集的數據,出于保密需要不公開也就罷了。現在居然標價出售,而且價格不菲……”
陳松蹊那天睡不著了。他寫下了課題組的這段經歷,呼吁共享基本的公共數據,使各研究機構、企業能及時無償獲取、分析這些數據,對提高一個國家的實力至關重要。都說數據是新的“石油”,如果不能做到基本公共數據的社會共享,中國對大數據的利用恐怕在起跑線上就落后了。
三月初在一霧霾彌漫京城之日,突生一分析環境數據的想法。作為統計學研究者,也想為防治霧霾這一困擾國家之事做點貢獻,立刻發動中心的學生與幾個同事,開展PM2.5及相關數據的收集。首先從aqicn.org/city/Beijing/cn開始,發動“廣大”師生每小時記錄一次。
aqicn.org/city/Beijing/cn頁面截圖aqicn.org/city/Beijing/cn頁面截圖
說起這個網頁,有個故事。去年秋天想請斯坦福統計系的美國科學院院士Rob Tibshirani教授到北大統計科學中心訪問、講學。Tibshirani是超高維回歸分析LASSO算法的發明者(這一算法已有幾萬個引用)。統計中心國際咨詢委員會主席、斯坦福大學統計系王永雄(也是美國科學院院士)說Tibshirani教授對中國很感興趣,建議我們邀請來中國講學。我就和清華的張學恭教授以兩校兩個中心的名義邀請。Tibshirani開始對我們的邀請很熱情,之后一個多月就沒有了回復。一再詢問,支支吾吾幾個回合后,他寄來了aqicn.org的鏈接。
Tibshirani教授也就沒有來,然而那個網站我每天必訪問之,以了解空氣質量。aqicn.org是幾個工程師義務將環保部分散在各地的觀測站收集的PM2.5數據,及美國駐華使館在東直門外的數據綜合整理發布的一個網站。它有主要污染物指標的每小時數據,但它關于氣象因素的收集不全。大家知道污染的程度受氣象條件影響很大。這使得我再次發動同學們收集氣象臺公布的實時氣象數據(www.nmc.gov.cn)。
www.nmc.gov.cn頁面截圖www.nmc.gov.cn頁面截圖
眾所周知,想要統計數據告訴我們它們所隱含之規律,讓數據“說話”,必須有很多數據才行。從今年3月至今只有區區幾十天的數據,太少了。遂起了獲取歷史數據之念。
在研究了幾個相關網頁之后,我給環保部和北京市環保局打了多個電話,沒有結果。再同美國大使館聯系,說我們想要他們收集的PM2.5歷史數據,對方讓我們寫個申請。申請后幾天就收到從2008年到2014年3月底的PM2.5數據。大喜!然而只有PM2.5,沒有同時間的氣象數據也不行,大家都知道風也是影響PM2.5的重要因素。這使我們想到了氣象局。
黃老師是去年從美國請來的年輕教授,他自告奮勇同北京氣象局聯系。幾周后他報告說氣象局可以給數據,但要花錢買:2008年后的數據要20多萬元。我不信,請他再問。得到的解釋是:“每小時的數據只是幾塊錢,不貴的”。20多萬對我們做統計學來說是一筆大錢。為什么用納稅人資助獲得的氣象數據可以這樣賣?為什么不可以像其它國家一樣無償公開?
那天黃老師在他的微信說:“用納稅人的錢建立的公共部門,用納稅人的錢以公共服務名義購置的儀器,所收集的數據,出于保密需要不公開也就罷了。現在居然標價出售,而且價格不菲……”我們那天都睡得不太好。我在他的微信上回帖:“這叫錯位,異化,愿國家進步,有效率。”
再過幾周黃老師和張同學發現,一美國氣象研究機構的網站上有北京南郊觀象臺每半小時的氣象數據,免費!大家面面相覷,一時無語。
我后來和北大一數學院士談起此事,他說北大一同事所研究的中國地表方面的數據也是從美國得到的。看來這不是一個部門的問題。這使我想到一些研究機構在辦公樓頂安裝儀器自己采集數據。其實這些數據環保局和氣象局都已經有了,但由于數據不能共享,大家只能“自力更生”了。然而一臺儀器需要專人維護,要經常調試、檢測,這也是一種科研資金的浪費,這些經費本來可以用在更重要的研究上。
應該說,氣象局、環保局已經開始對氣象、環境信息通過網站即時發布。但對各學科的研究者來說,規范的長時間的歷史數據更有科學價值。然而獲取規范的長時間的歷史數據仍是無路可循。往往要通過關系,甚至高價購買。
共享基本的公共數據,使各研究機構、企業能及時無償獲取、分析這些數據,對提高一個國家的實力至關重要。都說數據是新的“石油”,如果我們不能做到基本公共數據的社會共享,中國對大數據的利用恐怕在起跑線上就落后了。
我建議,氣象、環保等不涉及國家安全的公共數據應該公開。可以簽署協議對數據的使用進行規范,此外對研究團隊的資質以及一些敏感的數據也可以審慎評估。
希望在這件事上政府先帶個頭,為非公共機構也公開他們的數據做個榜樣,為中國在大數據的利用上建立一個有效率的環境。
(作者為北京大學光華管理學院商務統計與經濟計量系聯合系主任、講席教授、北京大學統計科學中心聯席主任)
(聲明:本文僅代表作者觀點,不代表本網立場。)