論文:SIGIR 2014年論文集
http://dl.acm.org/citation.cfm?id=2600428
論文:EMNLP 2014 accepted paper list
http://emnlp2014.org/papers.html
論文:AAAI 2014 論文集
http://www.aaai.org/Library/AAAI/aaai14contents.php
論文:Annual Review of Statistics and Its Application
http://www.annualreviews.org/toc/statistics/1/1 各領域統計前沿的應用回顧,涉及物理、地理、生物、經濟、政治、金融各個領域。
SIGIR獲獎論文
SIGIR2014最佳論文: Partitioned Elias-Fano indexes
最佳學生論文: Towards better measurement of attention and satisfaction in mobile search
SIGIR十年最佳論文獎:Beyond independent relevance: methods and evaluation metrics for subtopic retrieval
論文:大數據綜述文章Toward Scalable Systems for Big Data Analytics: A Technology Tutorial
http://ieeexplore.ieee.org/xpl/articleDetails.jsp?arnumber=6842585 大數據綜述文章,涵蓋數據生成,獲取,存儲,及分析等主要技術的綜述。
Tutorial:2014年七月CMU舉辦的機器學習夏季課
http://www.mlss2014.com 有近50小時的視頻、十多個PDF版幻燈片,覆蓋深度學習,貝葉斯,分布式機器學習,伸縮性等熱點話題。
學習:線性代數的學習及相關資源
http://52opencourse.com 匯集了資源,包括電子版教材
機器學習庫:Torch7
http://torch.ch/ Torch7是一個支持機器學習算法的科學計算框架,由Facebook AI Research發布。
機器學習庫:GraphLab Create
http://graphlab.com/products/create/overview.html 一個用于圖數據、結構化數據和文本數據的大規模機器學習平臺。
數據清理工具:OpenRefine
https://github.com/OpenRefine/OpenRefine OpenRefine是一個數據清理的優秀工具。它根源于MIT David Karger實驗室的研究。該實驗室在交互式數據處理的前沿。David Huynh把這個研究帶到MetaWeb,也即Freebase團隊。被Google收購后,工具改稱Google Refine。后來開源成為OpenRefine。
圖數據庫:Cayley:Google員工開發的開源圖數據庫
https://github.com/google/cayley Cayley是由 Google 員工開發的一個開源圖數據庫,受 Freebase 和Google 的知識圖譜背后數據庫的啟發。其目的是成為開發者在 Linked Data 和圖數據(語義網絡、社交網絡等)的工具之一。
資源:12個大數據可視化工具合集匯總
http://bigdata.memect.com/?tag=survey+visualization 12個大數據可視化工具合集匯總,涵蓋超過50個可視化工具(表格,地圖,時間軸,動態圖表,樹,有向圖等),大約80% javascript包,例如d3.js,timeline.js,Springy.js。
資源:工信部《2014 大數據白皮書》
http://vdisk.weibo.com/s/zm_eIVP-nkFAe 工信部發布了《2014 大數據白皮書》
資源:麥肯錫《中國數字轉型》報告
http://www.mckinsey.com/insights/high_tech_telecoms_internet/chinas_digital_transformation
數據集:Common Crawl Data Available
http://commoncrawl.org/blog/ 由Common Crawl基金會抓取的互聯網網頁數據集,共包含26億網頁,大小183TB 。
|