我老是在證明這樣一個論點,即資料無處不在——並且不少都是免費的。在開始大資料分析以前,公司不必定要樹立自己的大規模資料倉庫。企業以及政府將大量資訊投入到公共領功能變數的舉措,使得每一個人都能夠獲取海量資料。
兩岸商貿,網路創業,創業賺錢思惟,微商平台迄今為止,從大藍籌企業到極小型創業公司,均可以使用比以往更多的資料。我的不少客戶都在向我追求他們在向大資料方面努力時可使用的頂尖資料源,下面描寫的就是如今可以獲取的,一些好用同時免費的大資料來源。
1. Data.gov http://data.gov/
美國政府去年允諾使所有政府資料都能在網上免費獲取。這個網站是第一階段,作為一個門戶網站,囊括了從氣候到犯罪的一切驚人的資訊。
2. 美國人口普查局 http://www.census.gov/data.html
一個關於美國公民日子的豐厚資訊,內含人口資料,地功能變數資料以及教育。
3. 歐洲聯盟開放資料門戶 http://open-data.europa.eu/en/data/
如上所述,但它是基於歐洲聯盟機構的資料。
4. Data.gov.uk http://data.gov.uk/
來自英國政府的資料,內含《英國國家書目》——自1950以來所有的英國書籍以及出版物的元¥資料。
5. 中情局世界概況 https://www.cia.gov/library/publications/the-world-factbook/
267個國家歷史、人口、經濟、政府、基礎設施以及軍事資訊。
6. Healthdata.gov https://www.healthdata.gov/
125年來美國的醫療保健資料,內含索賠型醫保資料,流行病學以及人口統計。
7. NHS 健康以及社會保健資訊中心 http://www.hscic.gov.uk/home
來自英國國民健康服務的健康狀況資料集。
8. Amazon網路服務公共資料集 http://aws.amazon.com/datasets
巨型公共資料源,內含1000個基因組專案,試圖樹立最全面的人類遺傳資訊資料庫以及美國宇航局的衛星圖像資料庫。
9. Facebook Graph https://developers.facebook.com/docs/graph-api
儘管Facebook使用者個人資料中的不少資訊是私有的,但不少也不是——Facebook提供Graph API作為查詢大量資訊的一種模式,它的使用者很樂意與世界分享(或是說是不能暗藏,因為他們尚無制訂如何設定隱私功能)。
10. Gapminder http://www.gapminder.org/data/
世界衛生組織以及世界銀行的資料聚攏,內含世界各地的經濟、醫療以及社會統計資料。
11. Google Trends http://www.google.com/trends/explore
自2004年以來,對於所有癥結字的搜尋量(作為總搜尋的比例)的資料統計。
12. Google財經https://www.google.com/finance
40年的股票市場資料,並實時更新。
13. Google BooksNgramshttp://storage.googleapis.com/books/ngrams/books/datasetsv2.html
搜尋以及分析數以百萬¥計的數字圖書全文,作為Google圖書項目的一部份。
14. 國家氣候資料中心 http://www.ncdc.noaa.gov/data-access/quick-links#loc-clim
從美國國家氣候資料中心採集的環境、氣象以及氣候資料集。全世界最大的天氣資料存檔。
15. DBPedia http://wiki.dbpedia.org
維基百科蘊含數以百萬¥計的資料,日子中每一個事物的結構化以及非結構化資訊。DBpedia的是一個用來分類的大型專案,並建立了一個公共的,免費發佈的並容許任何人來分析這些資料的資料庫。
16. Topsy http://topsy.com/
免費而全面的社交媒體資料是很難獲得的——畢竟這些資料是為那些大玩家(Facebook,Twitter等)發生利潤的,所以他們不想等閒送人。然而Topsy提供了一個可搜尋回溯至2006年公共微博的資料庫,以及現在一些用來分析會話的工具。
17. Likebutton http://likebutton.com/
在全世界規模內,從你自己的網路中挖掘Facebook的公共資料,來瞭解在某個時刻人們「喜歡」什麼。
18. New York Times《紐約時報》http://developer.nytimes.com/docs
可搜尋的新聞文章的索引檔案,可以追溯到1851年。
19. Freebase http://www.freebase.com/
一個關於人,地點以及事物的結構化資料的社區資料庫,記錄數超過45萬¥個。
20. 百萬¥歌曲資料集http://aws.amazon.com/datasets/6468931156960467
超過一百萬¥首歌曲以及音樂作品的元¥資料。部份屬於亞馬遜網路服務。
留言列表