leileiya的個人博客分享 http://www.ueservicedoffices.com/u/leileiya

博文

第八屆哈工大-微軟亞洲研究院語言技術暑期學?偨Y

已有 4241 次閱讀 2013-8-7 12:14 |系統分類:科研筆記|關鍵詞:哈工大,微軟亞洲研究院,語言技術,機器翻譯,語義分析,機器學習| 機器翻譯, 微軟亞洲研究院, 哈工大, 語言技術, 語義分析

201372426日,參加了為期三天的在哈爾濱工業大學威海校區舉辦的由中國中文信息學會主辦、微軟亞洲研究院贊助的第八屆語言技術暑期學校。聽取了多位自然語言處理領域的國際知名專家授課,他們是微軟亞洲研究院Jun'ichi Tsujii教授、愛丁堡大學Philipp Koehn教授、英國Exeter大學Richard Everson教授、劍橋大學Diarmuid ó Séaghdha博士、英國阿伯丁大學Chenghua Lin博士,講座內容包括機器學習、句法分析、語義分析、統計機器翻譯和情感分析等。

第一天早上進行開幕式,Philipp Koehn教授代表各位專家致辭簡要闡明了人類與機器交流所需的自然語言處理技術給人類社會帶來和即將帶來的現實應用。微軟亞洲研究院的吳楓博士和劉康平博士為到場各位師生展示了微軟公司近年來在人機交互技術方面所取得的重要成果,包括speech translation、kinect、hair modeling等技術。緊接著Philipp Koehn教授講授了統計機器翻譯相關內容,講到機器翻譯共有三個層次,分別為詞匯轉換、句型轉換、語義轉換。統計機器翻譯就是對眾多的已翻譯平行語料進行統計分析建立翻譯模型來指導新的需要翻譯的語料,通過概率值的計算最終從眾多的翻譯結果中找到最好的翻譯結果,也就是概率值最大的。翻譯中存在的問題包括從詞語的角度講存在著一詞多義的問題,我們需要利用上下文找到此語境下的最佳翻譯,從短語的角度講如何準確的翻譯一些慣用搭配,從句子的角度講存在多種句子結構重組的問題,從語義的角度講如何準確的翻譯出一些指代詞。由于每一個句子每一個詞語的翻譯可以有多種,我們需要從中找出最好的翻譯,我們根據語料中每個詞語短語的使用頻率,建立翻譯路徑找出最好的翻譯組合。最后Philipp Koehn教授講授了如何將機器翻譯與人工翻譯結合,使得機器翻譯能夠最大化的幫助人進行翻譯。下午Jun'ichi Tsujii教授進行了句法分析相關內容介紹,我們需要實現快速深入準確的分析句子,對不同的句子類型我們需要清晰的辨別出主語賓語以及它們之間的謂語動詞,利用隱馬爾科夫模型進行詞語標注和預測,利用樹形結構表示每個句子,通過對句子進行詳細的標注與分析可以解決許多的檢索問題。

第二天上午是學生研討會,有來自北京師范大學、沈陽航空航天大學等的學生進行了口頭報告。北師大的三位同學報告了機器翻譯相關研究,第一位同學研究專利翻譯的相關內容,重點研究名詞+動詞結構的識別問題,利用HNC理論;第二位同學研究專利翻譯中長句子的識別問題,通過建立一些規則識別出長句子中的連詞、動詞等;第三位同學主要講解了機器翻譯中人類和機器進行交互相關問題。最后一位同學主要研究中心詞的提取問題,利用經典的齊普夫(Zipf)定律。下午Koehn教授做了如何做研究和撰寫學術文章的講座。Koehn教授講到做研究的過程have an ideadefine the problemdefine an evaluationpreliminary studiesimplement a baselineimplement you methodevaluate analyze refine。接著對學術文章的各個部分的注意事項就行了詳細的介紹,具體包括abstract、introduction、related work、description of the problem、description of your method、experimental setup、results、analysis部分。

第三天上午Richard Everson教授講授了機器學習的基本內容,主要包括邏輯回歸問題、分類問題、非監督學習,如何從大量的頭像圖片中識別出某一個人、信息檢索的結果如何排序、預測受傷者是否可以得救、自動對大量藥物進行類型分類等都是機器學習可以解決的問題。機器學習可以分為監督學習和非監督學習,監督學習包括分類和回歸,非監督學習包括聚類、PCA、ICA、LDA等。邏輯回歸是在已知大量對象的特征輸入和輸出的情況下,預測新對象的輸出結果,利用實際值和預測值之間的差值是否最小進行預測結果評估,分類同樣是在在已知大量對象的特征輸入和輸出的情況下,不同的是輸出的是對象類別而不是具體的值,在基于大量對象的學習的基礎上根據新對象的輸入屬性值判定其類別。分類方法中最簡單的一種方法就是最近鄰分類器,根據對象近距離對象中每種類型的頻率判斷該對象的類型。然后介紹了神經網絡算法,重點講解了隱含層個數的選擇,如果過多就會過擬合,過少就會欠擬合。接著進一步講授了對于對象有多個屬性時如何進行降維處理和對非線性模型的處理,結合具體的在圖像處理和語音分離中的應用。最后介紹了三種進行機器學習研究的開源軟件,分別是weka、python中的scikit-learn包、matlab中的netlab包。最后Richard Everson教授指出我們在做研究的過程中如何快速的實現我們的想法是最為重要的,不需要花很多的時間在具體細節的實現上,使用這些開源包,可以使我們的研究事半功倍。下午Chenghua Lin博士給我們講解了情感分析和意見挖掘相關內容介紹。用戶對某一對象意見的表達方式可以分三種,一種是直接表達,一種是隱含表達,一種是使用反諷語氣表達。情感分析有三個層級,詞語層、句子層、文檔層,有兩種傳統的情感分類技術,分別是基于詞典的方法和基于語料的方法;谠~典的方法就是利用情感詞典對文本進行直接匹配,基于語料的方法就是對訓練語料進行特征提取,利用樸素貝葉斯、支持向量積、最大熵等算法進行模型學習將學好的模型應用到測試集上,結果顯示SVM算法的表現最好。接著Chenghua Lin博士講解了最新的利用主題模型技術(LDA)進行情感分類,以及LDA模型的擴展JST模型和reverse-JST模型的應用。最后一部分講解了在某些領域訓練數據不足的情況下,可以使用其他領域的數據進行遷移學習的比較研究。

各位專家除了介紹了各自研究領域的基本理論和方法,還以大量生動的例子和研究結果介紹了本領域內最新研究進展,受益匪淺。




http://www.ueservicedoffices.com/blog-918667-714845.html

上一篇:《Information Access on the Social Web》報告聽后感
下一篇:社會化標簽系統用戶標注行為研究

8 黃富強 吳小蘭 章成志 蘇金亞 徐碩 趙宇翔 haoye rosejump

該博文允許注冊用戶評論 請點擊登錄 評論 (2 個評論)

數據加載中...

Archiver|手機版|科學網 ( 京ICP備14006957 )

GMT+8, 2019-7-17 12:52

Powered by ScienceNet.cn

Copyright © 2007- 中國科學報社

返回頂部
时时彩平台