1. 统计句法分析建模中基于信息论的特征类型分析
- Author
-
穗志方, 赵军, 俞士汶, 穗志方, 赵军, and 俞士汶
- Abstract
統計句法分析利用概率評價模型評價每棵候選句法樹存在的可能性 ,選擇概率值最高的候選句法樹作為最終的句法分析結果 .因此 ,統計句法分析的核心是一個概率評價模型 ,而各種概率評價模型的本質區別主要在于它們分別是根據上下文中的哪些特征來賦予句法樹概率的 .在統計句法分析研究領域 ,雖然已經提出了大量的概率評價模型 ,然而 ,不同的模型用到了不同類型的特征 .如何評價這些特征類型對于句法分析的作用呢 ?針對以上的問題 ,本研究為統計句法分析提出了一種特征類型的分析模型 ,該模型可以從信息論的角度量化地分析不同類型的上下文特征對于句法結構的預測作用 .其基本思想是利用信息論中熵與條件熵的度量來顯示一個特征類型是否抓住了預測句法結構的主要信息 .如果加入某個特征類型之后當前句法結構的不確定性 (熵 )明顯下降 ,則認為該特征類型抓住了上下文中影響句法結構的某些主要信息 .特征類型分析的信息論模型利用預測信息量、預測信息增益、預測信息關聯度以及預測信息總量四種度量從不同的側面量化地分析各種特征類型及特征類型組合對于當前目標的預測作用 .實驗以 Penn Tree Bank為訓練集 ,將上下文中不同的特征類型對于句法分析規則的預測作用進行了系統的量化分析 ,得出了一系列有關不同. In statistical parsing , the pro babilistic models are used to ev aluate the po ssibility of each candidate pa rse tree, w here the parse tree with the largest probability is deemed to be the final result of the parsing. Therefore, the co re of statistical parsing is a probabilistic evaluation model. The main difference among the v ario us probabilistic evaluatio n models lies in w hich types o f features in the co ntex t are used to assig n the probabilities to the parse trees. Various probabilistic ev aluatio n mo dels have been propo sed in the field of sta tistical parsing , where different models use different feature types. How to ev alua te a fea ture ty pe 's predictiv e pow er fo r the parsing tree? The paper pro poses an informa tion-theo ry-based feature ty pe analy sis model. Using the method, w e can qua ntita tiv ely analy ze the pow er of different fea ture types fo r sy ntactic structure prediction from the view point of informa tion theo ry. The basic idea is that w e use entro py a nd conditio nal entropy to measure w hether a fea ture type g rasps some of the info rmation fo r syntactic structure predictio n. If the av erage uncertainty of the sy ntactic structures declines apparently, the fea ture ty pe is deemed to hav e g rasped some intrinsic ling uistic informa tio n in the contex t that has close rela tio n to the sy ntactic structure. Using Penn-Treebank as training and testing set, o ur ex periment qua ntita
- Published
- 2001