close

為何咱們的資料還不夠開放?

「資料」有何用場,能吃嗎?

6,000英里的馬路,600英里的地鐵,400英里的自行車道以及0.5英里的電車軌道——這是羅斯福島上測量到的資料。

上述基礎設施資料,來自市政機構的發佈,譬如:交通部會奉告你未來將有多少通向國外的公路,大紐約交通運輸管理局會自信滿滿奉告你一條地鐵軌道延伸的長度,同樣,大多數市政機構會給出相似的資料。

如下是來自計程車管理委員會的呈文:紐約市規模內大概有13,500輛計程車。

為何咱們的資料還不夠開放?

這些資料是否頗有趣?然而你有想過這些資料來自何處嗎?

擁有這些資料當然很好,政府機構裡總有人或許會說:也許咱們的市民對這個或是那個數字感興致呢。所以他們就從新將原始資料撿拾起來,做些加加減減的運算,成為了咱們剛才看到的數字。

那麼問題來了——咱們怎麼整頓這些數字呢?

事實上,咱們對這個城市有著太多的好奇以及疑惑,以至於這些機構無法回答詳盡,這樣以來,這些資料並無施展出應有的作用。

咱們的政策制訂者並無疏忽這個問題,早在2012年,Bloomberg市長就簽署了一個資料開放的法案,該法律強迫請求城市機構把他們獲得的所有資料公開到線上且可搜尋,在咱們看來,這已是全國規模內最全面以及最有雄心的資料開放法案了。在簽署法案的這兩年以來,開放資料門戶上已經公佈了一千來條的資料,這真的很酷。

所以你無須只是單純地去計算計程車的數量,而是應進一步的問一些問題,譬如:紐約的交通高峰是在甚麼時刻?交通擁擠的確很使人頭疼呀。

咱們將計程車數量只看成數字,而GPS記錄儀則記錄走街串巷的每次路程——依據這些資料,我做了一個紐約計程車全天時速均值的圖表:從午夜時分到早上5點18分,車速一直在增添,隨後一切都在變慢,直到早上8點35分,平均車速達到了11.5英里每小時並一直維持著這個車速,一直到下晝六點半——這象徵著,計程車全天都在以這個速度行駛,所以,紐約市沒有交通高峰「時刻」,紐約「全天」都處於高峰狀況。

這是否頗有道理的模樣?這些都是資料的功勳。

假設你是交通規劃師,你會頗有興致瞭解這個情況;假設你想要快點去到某個處所,只需要把鬧鐘定在早上4點45分,那可就萬事大吉了。

剛才我所說的「紐約全天高峰」這個結論並非自然而來的,而是要歸功於咱們的訊息自由法。

在計程車委員會的網站上,你想要取得你想要的資料的話,有一張表格要填,然後就座等他們聯絡你吧——有一個叫做Chris Wong的人真的就這麼做了。Chris來了之後,他們請求他帶一個全新的硬碟,全新的哦,5個小時之後,資料就都複製下來了。像Chirs這樣的人但願資料能夠公開,於是把他拿到的資料掛在網上供下載,這就是剛才「紐約全天高峰」的原始資料的來源。

這個結論不得不讓咱們大吃一驚,當然GPS記錄儀也十分給力。

在資料開放的路上,殺出程咬金——資料的「不易取得」以及「不易讀取」

市民們需要大老遠拿一個挪動硬碟獲得這些資料,才得以讓政府部門資料公開——這樣的「公開」真的夠「公開」了嗎?這充其量只是「公共資料」,還算不得咱們期待的「資料公開」呢。

咱們但願市民可以足不出戶就能去分析政府的公開資料,而不是填寫申請表長途跋涉帶著硬碟漫長等待……

我還依據自行車事故數量,做了一個紐約市最危險的十字路口的地圖。地圖上紅色部份最為危險。

為何咱們的資料還不夠開放?

由圖可知,Manheim以東,尤為是它的低窪路段,是自行車事故高發路段,這可以理解,因為不少自行車從橋上下來;然而像Williamsburg以及皇后大道(Avenue Queens)為何也是危險地區,這是值得城市規劃者斟酌的。

這才是咱們需要的資料,這才是咱們一直在尋找的資料,這些資料並非平空得來的,它們經由了有心人對原始資料的再挖掘。

咱們在呼籲開放資料的時候,遇到了另一個問題:PDF檔案格式。

也許有人曾經嘗試過從PDF上複製資料,這顯然是吃力不討好的活計。而你們需要的自行車事故資料,來自紐約警署,並且是成百上千頁的PDF檔案——要曉得,光是複製貼上這些資料,可能就要花上一兩百個小時呢。

有一個叫做John Kraus的人,他沒有選取複製貼上,而是開發了一個「紐約警署資料解碼程式」,然後登陸紐約警署官網,下載了這些人們需要的資料,並進行內容抓取,將結果放在網上,人們才得以做出「紐約市最危險十字路口」的地圖。

從咱們取得的資料來看,每一次事故都是茫茫表格中的一列,很難想像:咱們需要多少這樣的PDF才能完成這個地圖呢?咱們能取得這些資料的PDF當然已經很好了,畢竟咱們有「資料解碼程式」,可是對于想要分析資料的市民來講,PDF格式遠遠不夠,甚至太鋪張時間。

咱們的城市應該在「資料易患」以及「資料易讀」這兩方面更為努力才行呀。

值得確定的是,最近幾個月,許多職能部門都公開了他們的資料;然而有太多的資料還被禁錮在PDF格式裡,觸不可及,譬如犯罪資料、城市預算,只提供了PDF版本。試想一下,那些抉擇城市預算的立法者們,他們也無法對預算進行詳細分析,那他們投票的意義是否大打折扣了呢。

這樣想來,咱們的城市或許應該在「資料易讀」上面做得更好。

當然也有不少不是PDF格式的資料,就譬如我做的一個地圖,關於紐約最髒的30條水道。

為何咱們的資料還不夠開放?

聽起來儘管奇怪,然而我依據的是水中糞便大腸菌的含量。圖上圓圈越大,水質越差,圈圈小的水對比乾淨。這個資料來自過去五年裡,對內陸水道的水質監測資料。內陸的水道的圓圈都對比大,普遍都對比臟。

從中,咱們可以有所收成的是:第一,千萬不要在排入小溪或者運河的水功能變數游泳,第二,通過這個方式,我得悉紐約最髒的下水道在哪裡。因為五年來,94%的水質樣本資料都顯示某地的下水道糞便大腸菌含量過高,觸犯了「讓人們無法游泳」的法律。

這些資料你可沒辦法在城市呈文上看到,當然也不會呈現在城市官網的首頁上,儘管咱們能達到這個原始資料就已經值得高興了;因為這些資料還不是公佈在開放資料門戶網站上,所以取得這個原始資料也並非那麼簡單。

要是你去開放資料門戶上面逛一逛,你就會發現,咱們能看到的是一連串的年份以及月份;剛才那些資料是來自環保部門的網站,每一個連結開啟舊檔都是一個Excel表格,每一個Excel表格又是這樣不同,連標題都不同。你只能複製、貼上、從新排版……

當然,依據這些資料作出「水質地圖」是挺不錯的。

翻譯:張天驕

編纂:曾明

營運:張蔚涵

來自:鏑次元¥資料新聞

為何咱們的資料還不夠開放?

「資料」有何用場,能吃嗎?

6,000英里的馬路,600英里的地鐵,400英里的自行車道以及0.5英里的電車軌道——這是羅斯福島上測量到的資料。

上述基礎設施資料,來自市政機構的發佈,譬如:交通部會奉告你未來將有多少通向國外的公路,大紐約交通運輸管理局會自信滿滿奉告你一條地鐵軌道延伸的長度,同樣,大多數市政機構會給出相似的資料。

如下是來自計程車管理委員會的呈文:紐約市規模內大概有13,500輛計程車。

為何咱們的資料還不夠開放?

這些資料是否頗有趣?然而你有想過這些資料來自何處嗎?

擁有這些資料當然很好,政府機構裡總有人或許會說:也許咱們的市民對這個或是那個數字感興致呢。所以他們就從新將原始資料撿拾起來,做些加加減減的運算,成為了咱們剛才看到的數字。

那麼問題來了——咱們怎麼整頓這些數字呢?

事實上,咱們對這個城市有著太多的好奇以及疑惑,以至於這些機構無法回答詳盡,這樣以來,這些資料並無施展出應有的作用。

咱們的政策制訂者並無疏忽這個問題,早在2012年,Bloomberg市長就簽署了一個資料開放的法案,該法律強迫請求城市機構把他們獲得的所有資料公開到線上且可搜尋,在咱們看來,這已是全國規模內最全面以及最有雄心的資料開放法案了。在簽署法案的這兩年以來,開放資料門戶上已經公佈了一千來條的資料,這真的很酷。

所以你無須只是單純地去計算計程車的數量,而是應進一步的問一些問題,譬如:紐約的交通高峰是在甚麼時刻?交通擁擠的確很使人頭疼呀。

咱們將計程車數量只看成數字,而GPS記錄儀則記錄走街串巷的每次路程——依據這些資料,我做了一個紐約計程車全天時速均值的圖表:從午夜時分到早上5點18分,車速一直在增添,隨後一切都在變慢,直到早上8點35分,平均車速達到了11.5英里每小時並一直維持著這個車速,一直到下晝六點半——這象徵著,計程車全天都在以這個速度行駛,所以,紐約市沒有交通高峰「時刻」,紐約「全天」都處於高峰狀況。

這是否頗有道理的模樣?這些都是資料的功勳。

假設你是交通規劃師,你會頗有興致瞭解這個情況;假設你想要快點去到某個處所,只需要把鬧鐘定在早上4點45分,那可就萬事大吉了。

剛才我所說的「紐約全天高峰」這個結論並非自然而來的,而是要歸功於咱們的訊息自由法。

在計程車委員會的網站上,你想要取得你想要的資料的話,有一張表格要填,然後就座等他們聯絡你吧——有一個叫做Chris Wong的人真的就這麼做了。Chris來了之後,他們請求他帶一個全新的硬碟,全新的哦,5個小時之後,資料就都複製下來了。像Chirs這樣的人但願資料能夠公開,於是把他拿到的資料掛在網上供下載,這就是剛才「紐約全天高峰」的原始資料的來源。

這個結論不得不讓咱們大吃一驚,當然GPS記錄儀也十分給力。

在資料開放的路上,殺出程咬金——資料的「不易取得」以及「不易讀取」

市民們需要大老遠拿一個挪動硬碟獲得這些資料,才得以讓政府部門資料公開——這樣的「公開」真的夠「公開」了嗎?這充其量只是「公共資料」,還算不得咱們期待的「資料公開」呢。

咱們但願市民可以足不出戶就能去分析政府的公開資料,而不是填寫申請表長途跋涉帶著硬碟漫長等待……

我還依據自行車事故數量,做了一個紐約市最危險的十字路口的地圖。地圖上紅色部份最為危險。

為何咱們的資料還不夠開放?

由圖可知,Manheim以東,尤為是它的低窪路段,是自行車事故高發路段,這可以理解,因為不少自行車從橋上下來;然而像Williamsburg以及皇后大道(Avenue Queens)為何也是危險地區,這是值得城市規劃者斟酌的。

這才是咱們需要的資料,這才是咱們一直在尋找的資料,這些資料並非平空得來的,它們經由了有心人對原始資料的再挖掘。

咱們在呼籲開放資料的時候,遇到了另一個問題:PDF檔案格式。

也許有人曾經嘗試過從PDF上複製資料,這顯然是吃力不討好的活計。而你們需要的自行車事故資料,來自紐約警署,並且是成百上千頁的PDF檔案——要曉得,光是複製貼上這些資料,可能就要花上一兩百個小時呢。

有一個叫做John Kraus的人,他沒有選取複製貼上,而是開發了一個「紐約警署資料解碼程式」,然後登陸紐約警署官網,下載了這些人們需要的資料,並進行內容抓取,將結果放在網上,人們才得以做出「紐約市最危險十字路口」的地圖。

從咱們取得的資料來看,每一次事故都是茫茫表格中的一列,很難想像:咱們需要多少這樣的PDF才能完成這個地圖呢?咱們能取得這些資料的PDF當然已經很好了,畢竟咱們有「資料解碼程式」,可是對于想要分析資料的市民來講,PDF格式遠遠不夠,甚至太鋪張時間。

咱們的城市應該在「資料易患」以及「資料易讀」這兩方面更為努力才行呀。

值得確定的是,最近幾個月,許多職能部門都公開了他們的資料;然而有太多的資料還被禁錮在PDF格式裡,觸不可及,譬如犯罪資料、城市預算,只提供了PDF版本。試想一下,那些抉擇城市預算的立法者們,他們也無法對預算進行詳細分析,那他們投票的意義是否大打折扣了呢。

這樣想來,咱們的城市或許應該在「資料易讀」上面做得更好。

當然也有不少不是PDF格式的資料,就譬如我做的一個地圖,關於紐約最髒的30條水道。

為何咱們的資料還不夠開放?

聽起來儘管奇怪,然而我依據的是水中糞便大腸菌的含量。圖上圓圈越大,水質越差,圈圈小的水對比乾淨。這個資料來自過去五年裡,對內陸水道的水質監測資料。內陸的水道的圓圈都對比大,普遍都對比臟。

從中,咱們可以有所收成的是:第一,千萬不要在排入小溪或者運河的水功能變數游泳,第二,通過這個方式,我得悉紐約最髒的下水道在哪裡。因為五年來,94%的水質樣本資料都顯示某地的下水道糞便大腸菌含量過高,觸犯了「讓人們無法游泳」的法律。

這些資料你可沒辦法在城市呈文上看到,當然也不會呈現在城市官網的首頁上,儘管咱們能達到這個原始資料就已經值得高興了;因為這些資料還不是公佈在開放資料門戶網站上,所以取得這個原始資料也並非那麼簡單。

要是你去開放資料門戶上面逛一逛,你就會發現,咱們能看到的是一連串的年份以及月份;剛才那些資料是來自環保部門的網站,每一個連結開啟舊檔都是一個Excel表格,每一個Excel表格又是這樣不同,連標題都不同。你只能複製、貼上、從新排版……

當然,依據這些資料作出「水質地圖」是挺不錯的。

翻譯:張天驕

編纂:曾明

營運:張蔚涵兩岸商貿,在家工作,網路創業,創業賺錢思惟,微商平台,賺新台幣

來自:鏑次元¥資料新聞

arrow
arrow
    全站熱搜
    創作者介紹
    創作者 wechat101 的頭像
    wechat101

    兩岸微商網路創業平台

    wechat101 發表在 痞客邦 留言(0) 人氣()