學術活動
ACL 2012會議報道
EMNLP-CoNLL 2012會議報道
SIGIR 2012國際會議錄取的部分國內論文列表
中國中文信息學會2012年重點學術活動預告
The Asia Information Retrieval Societies Conference (AIRS) |
|||||
CIPS-SIGHAN聯合組織的有關中文資源和評測的學術會議(CLP2012)
CIPS-SIGHAN Joint Conference on Chinese Language Processing (CLP2012)
2012年評測任務如下:
- 微博領域的漢語詞語切分
- 漢語命名實體識別與歧義消解
- 漢語句法分析(簡體和繁體)
會議時間地點:2012年12月20~21日,在天津大學召開(AIRS2012)
評測報名請參考會議網站:http://www.lance-lee.com/clp2012/bakeoff-cn.html
ACL 2012會議報道
1.概況
計算語言學學會( The Association for Computational Linguistics,ACL) 旗下的ACL年會是國際上最具影響的計算語言學及自然語言處理學術會議。2012年,第50屆ACL年會與計算語言學學會的另一頂級學術會議EMNLP(Empirical Method for Natural Language Processing)于7月8~14日在韓國濟州島(Jeju)聯合召開。濟州島是韓國的旅游勝地,位于朝鮮半島南端,是韓國最大的島,方圓1825平方公里,居民51.45萬,是個由火山噴發而形成的火山島。圍繞濟州島,周圍還有8個有人島和55個無人島。島中央海拔1950米的漢拿山,號稱韓國第一高峰,因受近海暖流的影響,全年氣候溫和,有"韓國的夏威夷"之稱。除ACL、EMNLP主會議外,還有11 個專題研討會(Workshop ) 和6 個專題講座( Tutorial)同期舉行。 |
|
![]() |
2.專題講座(Tutorial)
今年ACL的Tutorial共包含6個講座,講座的信息如下表所示:
題目 |
講者 |
Qualitative Modeling of Spatial Prepositions and Motion Expressions |
|
State-of-the-Art Kernels for Natural Language Processing |
|
Topic Models, Latent Space Models, Sparse Coding, and All That: A Systematic Understanding of Probabilistic Semantic Extraction in Large Corpora |
|
Multilingual Subjectivity and Sentiment Analysis |
|
Deep Learning for NLP (without Magic) |
|
Graph-based Semi-Supervised Learning Algorithms for NLP |
由于近年來以Topic Model為代表的圖模型算法在NLP領域得到了廣大的應用,大大推動了這一領域的發展,因此來自CMU的副教授Eric Xing所講述的關于Topic Model在面對大規模數據下語義分析的基本模型、算法和應用引起了很多與會者的興趣,同時Eric Xing教授對于Topic Model與Sparse Coding的結合進行了概述性的介紹,而Eric Xing教授在EMNLP會議的Keynote Session上對于這一部分進行了更為詳細的介紹。此外,由于近幾年Deep Learning 在語音識別領域獲得巨大的成功,越來越多的研究者試圖將Deep Learning用于文本分析的各個任務中,因此來自Stanford的Manning教授等人所帶來的"Deep Learning for NLP (without Magic)"專題報告也在與會者中引起了強烈的反響。 |
|
![]() |
3.論文
每年的ACL 論文,尤其是主會議長文(Full Paper) ,基本反映了自然語言處理領域的最新研究進展、代表了本領域最高研究水平。今年的主會議論文投稿數達到了940篇,其中長文571篇、短文369 篇。被錄用的長文有83 篇oral、29篇poster,錄用率為19 %;短文被錄用77篇,錄用率20 %。
在今年的會議中,程序委員會專門對于所錄用的長文題目中的關鍵詞進行了統計,如下:
entity 5、evaluation 5、hierarchical 5、information 5、joint 5、syntactic 、、topic 5、discriminative 6、lexical 6、statistical 6、chinese 7、dependency 7、machine 8、modeling 8、models 8、language 10、word 10、parsing 11、model 12、learning 14、translation 15 |
從統計結果中,我們可以看出NLP的傳統研究領域:機器翻譯、句法分析,包括統計學習仍然是會議的熱點研究問題。另外,本次會議增設了Social Media領域,反映了自然語言處理對新興Web 2.0研究熱點的關注和在社交媒體下自然語言的處理問題。
此外,本屆ACL是第50屆,因此此次會議的兩個Keynote Speech都與ACL的50周年活動相關,同時也增加了Anthology Session,從而對于ACL的Anthology建設工作進行介紹。Keynote Speech包含Philadelphia大學的ARAVIND K. JOSHI帶來的"Remembrance of ACLs past"以及Macquarie University的Mark Johnson教授帶來的"Where do we go from here?"兩個報告。其中ARAVIND K. JOSHI對于ACL過去50年的重要事件,并且對于研究方向的發展、語言學與AI等領域的關系等問題提出了自己的看法。Mark Johnson教授從自身的角度對于可能爆發的研究點進行預測,提出了自己的看法,并對年輕人在進行科研工作時科研方向的選擇方面給出一些建議和忠告。 |
|
![]() |
從國家分布來看,美國所發表的論文數量仍然占據第一位。在中國大陸方面,有北京大學、清華大學、中科院自動化所、中科院計算所、哈爾濱工業大學等單位共發表論文15篇。此外,商業機構中的百度公司和微軟亞洲研究院也有論文發表。其他發表論文較多的國家有日本、新加坡、德國、加拿大等。
今年的所有錄取論文中共有兩篇論文獲得了最佳論文以及最佳學生論文獎,其中清華大學計算機系博士生布凡的論文(合作老師:李航,朱小燕)"String Re-writing Kernel"被評為大會最佳學生論文。論文提出了一種新的核方法,可以在不使用句法分析器的前提下快速魯棒地度量句子對之間的結構相似度。該方法可以被應用到同義句識別,句子蘊含關系識別以及相似問題檢索等許多自然語言處理以及信息檢索的任務中。另外,大會的最佳論文來自日本的NTT通訊科學實驗室(NTT Communication Science Laboratories),第一作者為Hiroyuki Shindo。該文章提出了一種基于符號改良的樹替換語法,并將其用到句法分析中。該工作可以將傳統的樹替換語法和符號改良整合到一個統一的框架下,并自動地從訓練數據中進行學習。該方法可以在賓大樹庫的相關測試集上取得92.4%的F1值,獲得了當前在這個數據集上的最好的效果。 |
|
![]() |
4.總結與其他
總的來說,ACL是自然語言處理一年一度的頂級會議,在會場親眼目睹了國際學者們的風采,也領略了頂級自然語言處理的研究水平。同時也感受到了華人在自然語言處理、信息檢索、語言技術領域中地位的迅速提升。相信隨著時間的推移以及中國的不斷發展,人類語言技術領域必將會有華人更大的舞臺。
EMNLP-CoNLL 2012會議報道
1.概況
自然語言處理實證方法會議(The Conference on Empirical Methods in Natural Language Processing, 簡稱EMNLP)自1993年開始舉辦,迄今已成為自然語言處理領域極具影響力和規模的頂級會議。該會議的主題涵蓋了語用學、語義學、信息抽取、問答系統、情感分析、機器翻譯、自然語言處理、文本挖掘、文檔摘要等主題。EMNLP會議每年召開一次,有超過500人參加。該國際會議以其世界一流的學術水平,受到學術界和產業界的高度關注,歷屆會議都曾給自然語言處理的創新發展帶來啟示。
自然語言學習會議(the Conference on Natural Language Learning)是ACL SIGNLL的年度會議。除大會之外,自1999年起,每一年CoNLL都會組織一個自然語言的共享任務(shared task),通過提供訓練和測試數據來推動相關任務的發展。歷屆CoNLL的共享任務(從NP Chunking、Clause Identification、Named Entity Recognition、Semantic Role Labeling、Dependency Parsing一直到今年的Multilingual Unrestricted Coreference), CoNLL都在以其獨特的方式推動著自然語言處理的發展。
2012年,EMNLP-CoNLL 2012聯合會議于7月12~15日在韓國濟州島成功召開。濟州島是韓國最大的島嶼,風景秀麗,島中央是通過火山爆發而形成的海拔1951米的韓國最高峰———漢拿山(Mt.Halla),同時也有世界新七大自然奇觀之一的日出峰。
2.論文
在投稿方面,EMNLP-CoNLL 2012共收到606篇投稿(其中有36篇被撤回或者不經過審稿直接拒稿)。最終共有99篇論文被接受為口頭報告,40篇被接受為張貼報告,總體論文錄取率為24.8%。
為了展示Oral論文的錄用領域,我們總結了所有Oral論文的錄用領域,并呈現在表1中。我們可以看到,機器翻譯仍然是EMNLP最大的領域,共有12篇口頭報告論文被錄用,機器學習、信息抽取領域緊隨其后,都有超過10篇論文被錄用。傳統的NLP領域如Parsing、Semantics、Dialogure、POS、WSD等領域錄用論文都在6篇左右。在新興領域方面,Social Media成為了最大的新興熱點,共有6篇論文錄用,這也表明了NLP領域對社會化媒體如微博的關注。我們也看到,隨著IBM的Watson系統和蘋果公司的Siri系統的發布,研究人員對問答系統的興趣也在回歸,這一屆會議共有3篇問答的論文被錄用。
領域 |
Oral錄用 |
Machine Translation |
12 |
Machine Learning |
11 |
Information Extraction |
10 |
Parsing |
9 |
Semantics |
8 |
Social Media |
6 |
Dialogue |
6 |
POS, WSD |
6 |
Sentiment & Opinion |
6 |
Discourse |
5 |
Summarization |
3 |
Phonemes, Words and Speech |
3 |
Question Answering |
3 |
Large-Scale NLP Algorithms |
3 |
Information Retrieval |
3 |
NLP Applications |
3 |
Evaluation |
2 |
TOTAL |
99 |
今年的EMNLP中,大陸的研究人員多有斬獲。因此在參會人員中,經??梢钥吹酱箨憣W者,包括來自于北京大學、清華大學、復旦大學、蘇州大學、中科院自動化所、中科院軟件所、中科院計算所、百度和微軟亞洲研究院等單位的研究人員。同時除了上述中國大陸學者的情況外,來自中國香港和中國臺灣、 新加坡、 日本及歐美各國的華人學者也在 EMNLP 2012上展示了強大實力。
3.特邀報告
今年的兩個特邀大會報告分別從技術方面和Web的信息獲取模式演化方面關注了NLP的發展方向。第一個特邀報告題目是由卡內基梅隆大學的Eric Xing教授做的"On Learning Sparse Structured Input-Output Models", 主要展示了如何學習Sparse Structured Input-Output Model(SIOM)的技術。SIOM指的是:(1)模型的輸入變量具有豐富的結構特性,例如文檔中詞匯由于句法和語義依存所帶來的豐富結構;(2)模型的輸出變量同樣具有一定的結構,例如句法分析樹和topic結構的表示。Eric Xing報告了用于學習SIOM的相關模型、算法和理論,并且展示了積累具有非常高維輸入/輸出空間的模型例子。
與第一個報告關注技術不同,由Microsoft Research的Patrick Pantel所做的第二個特邀報告"The Appification of the Web and the Renaissance of Conversational User Interfaces"主要從Web的信息獲取模式變革角度探討了NLP發展的挑戰和機遇。Patrick Pantel認為,當前用戶獲取信息的模式正從傳統的中心化獲取模式(以搜索引擎為主要代表)轉換為高度定制化的功能獲取模式。由于這些功能通常存在于許多個相互獨立的的應用中,信息獲取的碎片化是一個嚴重的問題。例如,當我們計劃旅游時,我們會需要攜程來預訂酒店、地圖應用來查詢交通、旅游攻略應用來計劃旅游路線等等。這就需要有技術能夠高效的整合和解決當前以應用為中心的信息獲取模式的碎片化問題。在報告中,Patrick Pantel展示了一種以實體為中心的對話機制來解決上述問題?;谝詫嶓w為中心的對話機制,用戶的交互信息被解釋為實體及可加之于其上的動作,并最終可以以此為基礎安排不同的網頁和應用來滿足用戶的需求。
4.最佳論文
今年EMNLP的最佳論文共有三篇,分別是德國馬普研究所的"PATTY: A Taxonomy of Relational Patterns with Semantic Types"、UC Berkeley的"Training Factored PCFGs with Expectation Propagation"和UPenn的"A Coherence Model Based on Syntactic Patterns"。這三篇論文分別研究了關系抽取模板的構建及語義類別對模板獲取的幫助、如何使用Expectation Propagation來解決PCFG訓練中語法的指數增長問題、以及如何使用文本中的內在話語結構來幫助共指消解。
SIGIR 2012國際會議錄取的部分國內論文列表
所有文章列表請參閱:http://www.sigir.org/sigir2012/papers.php,以下是部分國內論文列表:
題目 |
作者 |
機構 |
Adaptive Query Suggestion for Difficult Queries |
Yang Liu Ruihua Song Yu Chen Jian-Yun Nie Ji-Rong Wen |
北京理工大學 微軟亞洲研究院 蒙特利爾大學 微軟亞洲研究院 |
Manhattan Hashing for Large-Scale Image Retrieval |
Weihao Kong Wu-Jun Li |
上海交通大學 |
Mining Query Subtopics from Search Log Data |
Yunhua Hu Yanan Qian Hang Li Daxin Jiang Jian Pei |
微軟亞洲研究院 西安交通大學 微軟亞洲研究院 微軟亞洲研究院 西蒙弗雷澤大學 |
Multi-Aspect Query Summarization by Compositing Query |
Wei Song Qing Yu Zhiheng Xu Ting Liu Sheng Li Ji-Rong Wen |
哈爾濱工業大學 微軟 中國科學院 哈爾濱工業大學 哈爾濱工業大學 微軟 |
Supporting Efficient Top-k Queries in Type-Ahead Search |
Guoliang Li Jiannan Wang Chen Li Jianhua Feng |
清華大學 清華大學 加州大學歐文分校 清華大學 |
Group Matrix Factorization for Scalable Topic Modeling |
Quan Wang Zheng Cao Jun Xu Hang Li |
微軟亞洲研究院 上海交通大學 微軟亞洲研究院 微軟亞洲研究院 |
Fighting against Web Spam: A Novel Propagation Method based on Click-through Data |
Chao Wei Yiqun Liu Min Zhang Shaoping Ma Liyun Ru |
清華大學 清華大學 清華大學 清華大學 清華大學 |
Learning Hash Codes for Efficient Content Reuse Detection |
Qi Zhang Yan Wu Xuanjing Huang |
復旦大學 復旦學學 復旦大學 |
Modeling Concept Dynamics for Large Scale Music Search |
Jialie Shen HweeHwa Pang Meng Wang Shuicheng Yan |
新加坡管理大學 新加坡管理大學 合肥工業大學 合肥工業大學 |
What Reviews are Satisfactory: Novel Features for Automatic Helpfulness Voting |
Yu Hong Jun Lu Jianmin Yao Qiaoming Zhu |
蘇州大學 蘇州大學 蘇州大學 蘇州大學 |
Modeling User Posting Behavior on Social Media |
Zhiheng Zu Qing Yang |
中國科學院自動化研究所 中國科學院自動化研究所 |
Collaborative Personalized Tweet Recommendation |
Chen Kailong Chen Tianqi Guoqing Zheng Jin Ou Yong Yu |
上海交通大學 上海交通大學 上海交通大學 上海交通大學 |
See-To-Retrieve: Efficient Processing of Spatio-Visual Keyword Queries |
Chao Zhang Lidan Shou Ke Chen |
浙江大學 浙江大學 浙江大學 |
Top-k Learning to Rank: Labeling, Ranking and Evaluation |
Shuzi Niu Jiafeng Guo Yanyan Lan Xueqi Cheng |
中科院計算技術研究所 中國科學院 中科院計算技術研究所 |
Dual Role Model for Question Recommendation in Community Question Answering |
Fei Xu Zongcheng Ji Bin Wang |
中科院計算技術研究所 中科院計算技術研究所 中科院計算技術研究所 |