leileiya的個人博客分享 http://www.ueservicedoffices.com/u/leileiya

博文

用計量學研究核心文獻和面向文本理解的實體消岐技術研究報告總結

已有 3626 次閱讀 2013-11-19 14:16 |個人分類:講座心得|系統分類:科研筆記|關鍵詞:計量學,信息抽取,實體消岐,知識庫| 信息抽取, 知識庫, 計量學, 實體消岐

       11月13日上午在南京大學信息管理學院聽取了Prof. Dr. Wolfgang Gl?nzel教授有關《用計量學研究核心文獻》的報告。利用計量學中的引用與被引用關系,構建文獻之間的二維表,將余弦相似性(VSM)應用在此二維表,作者將其稱之為偶合角,來度量文獻之間的相似性。利用圖結構將文獻之間的相似性表示出來。作者還提出了兩種相似性關系,文獻A和文獻B相似,是因為它們都引用了CDEF文獻;文獻A和文獻B相似,是因為它們都被CDEF文獻引用。
       11月14日下午在南京大學計算機學院聽取了孫樂教授有關《面向文本理解的實體消岐技術研究》的報告。   隨著用戶信息需求的精準化和關聯化的要求,我們需要對互聯網上大量的信息進行抽取最終實現對文本理解。具體來說需要抽取實體、實體的類別、實體的屬性以及實體之間的關系等等,將這些抽取出的信息組成知識庫,可以用有向超圖的形式表示,F有代表性大規模知識庫有yogo、Dbpedia、Freebase、nell、google知識圖譜,最有名的當屬google的知識圖譜,google要求并入其知識圖譜的知識準確率大于99%,這是十分高的要求,因為知識是不斷變化并不斷增長的,F有的國外知識庫很多,但國內的很少。作者介紹了其研究所在進行中文知識庫的構建,包括常用詞語、概念、概念類別、關系詞等等。接著作者指出了知識庫構建方面存在的問題,包括知識表示方法(RDF)、多個知識庫的融合,垂直領域的高覆蓋率知識庫構建方法,接著孫老師具體介紹了信息抽取的方式為模式填充,例如對一個事件,抽取出事件的類型、地點、事件、死亡人數等。我們在百度、google檢索頁面右邊看到的人名檔案就是一種信息抽取案例。信息抽取常用方法有基于手寫規則的方法和機器學習的方法。孫老師總結了構建知識庫的準則:web2.0協同共建+信息抽取+人工驗證。
       通過大規模的知識庫進行文本理解時,最重點和難點要處理的問題就是實體消歧,現有的中文語義計算有基本單元語義分析、組合語義的語義分析、篇章語義分析。實體消歧知識關注實體級別的語義分析,例如:蘋果可以是一種水果,也可以是蘋果公司,F有的解決方法是通過連接文本與知識系統來獲取更多的信息進行實體消歧。
      接著孫老師講了他們研究所的3個工作:基于實體的知識鏈接,通過網絡上詞的出現頻率,構建實體知識庫,并對各個實體名字的各種形式,如原型、縮略、省略等也存儲在知識庫中,基于實體提及模型分析實體上下文詞分布;基于篇章的主題鏈接是基于圖傳遞進行協同推斷篇章主題;融合實體知識的篇章總結,僅有實體知識是不夠的,需要基于實體-主題模型建立文本主題模型。
   最后作者提出了幾點總結與展望:1.文本語義理解技術突破;2.從處理小規模文本到處理海量規模文本;3.從處理規范文本到處理多源異質文本;4.從對小規模文本的深度分析到基于冗余的淺層分析技術;5.從利用人工標注語 料到利用自然標注語料;6.從注重準確率到注重召回率+時間效率.



http://www.ueservicedoffices.com/blog-918667-743055.html

上一篇:聽取詞語認知屬性的語言知識庫建設報告總結
下一篇:參加《全國圖書情報與檔案管理博士生學術論壇》總結

5 許培揚 曹聰 劉桂鋒 章成志 王曉光

該博文允許注冊用戶評論 請點擊登錄 評論 (2 個評論)

數據加載中...

Archiver|手機版|科學網 ( 京ICP備14006957 )

GMT+8, 2019-7-16 16:45

Powered by ScienceNet.cn

Copyright © 2007- 中國科學報社

返回頂部
时时彩平台