znsoft
管理员
管理员
  • 注册日期2001-03-23
  • 最后登录2018-11-13
  • 粉丝101
  • 关注6
  • 积分943分
  • 威望14436点
  • 贡献值7点
  • 好评度2410点
  • 原创分5分
  • 专家分100分
  • 社区居民
  • 最爱沙发
  • 社区明星
阅读:532回复:0

关于条件随机场的简单理解

楼主#
更多 发布于:2016-06-25 23:59
关于条件随机场的简单理解


作者zack


关于条件随机场的简单理解:简单解释

总的来说:Hmm只考虑前一个词和对应概率矩阵的转移概率。CFR考虑更多,例如当前词长度对应的词性概率,当前词位置对应的词性概率等。
对于词性标注而言:
例如词性标注  
首先有一个统计好的标注集,通过对标注集的统计,得到概率矩阵。
每一个词语是观测序列上的内容,而词语对应的词性属于隐含变量,目的是根据当前词语找到概率矩阵对应的值,求得下一个词语的词性。当前词的隐含变量只和上一个词语有关。这就是HMM,也就是说我得到上一个词语的词性可以根据那个词性对应的概率得出下一个词语的词性的概率。
CRF要复杂一些,我需要考虑更多内容,例如当前词语的长度对应的词性的概率,当前词语出现的位置(句子开头)对应的词性概率,还要考虑HMM那种方法,然后对求得的概率求和除以考虑的个数例如3维的(即考虑3个条件),然后选出最大的概率。
CRF来说,可以在二维条件转移矩阵基础上再增加一维词语特征,如AB相邻,A是动词且B单词长度超过3时,B是名词的概率是xx"。大家可能注意到了马尔科夫链的窗口为1,即它仅考虑上1个词,这不见得是最合理的。这其实是一个对特征稀疏问题的折中,可以想象仅对两个词性AB统计P(B|A)能够得到很多数据的反馈,而如果统计长度为6的窗口,如P(G | ABCDEF)就会遇到数据稀疏的问题,因为很可能序列ABCDEF根本就没有在数据集中出现过.数据稀疏对机器学习的影响是巨大的,因此马尔科夫链实际以损失一定全局信息的基础上换来了更饱满的数据。
CRF,在一个二维概率矩阵之上加了更多内容,例如它不止考虑上一个词的词性,我还考虑当前词的长度,出现的位置等信息。在统计集中有这些概率,例如,P ( ”词语长度>3" --> 名词词性)的概率为0.9 P("词语位于句子末尾“ --> 名词词性)概率为0.4,且一个词恰好满足这两个特征,则其为名词的条件概率为 (0.9 + 0.4) / 2 = 0.65. 这样,CRF根据这个条件转移数值再结合词性的马尔科夫特性(这个词的词性经过上一个词进行概率转移矩阵得到),就可以使用与HMM类似的方法寻找最优的词性标注序列了。


(以下摘自谋篇博文因出处不详,未做说明,请见谅)
下文仅针对专门做自然语言处理的同学做一个快速形象的上手简介,并指出最重要的特征。这里假设你已经有基本的自然语言处理概念和马尔科夫链的基本知识。CRF本质上是隐含变量的马尔科夫链+可观测状态到隐含变量的条件概率。说隐含变量和可观测状态很抽象,我们以词性标注为例(如果你不知道什么是词性标注,请百度一下),在词性标注中词性标签就是隐含变量,具体的词语就是可观测状态,词性标注的目的是通过可观测到的一个个单词推断出来每个单词应该被赋予的词性标签。下文将用词性标签和词语代替上述两个名词。


 先说马尔科夫链,这里体现了CRF的随机场特征(准确的说是马尔科夫随机场)。这里CRFHMM都假设词性标签是满足马尔科夫性的,即当前词性仅和上一个词性有概率转移关系而与其它位置的词性无关,比如形容词后面跟形容词的概率是0.5,跟修饰性的概率为0.5,跟动词的概率为0。因此,通过在一个标注集上进行统计,我们很容易得到一个概率转移矩阵,即任意词性A后紧邻任意词性B的概率都可以被统计出来。对HMM来说这部分就结束了,对CRF来说,可以在二维条件转移矩阵基础上再增加一维词语特征,如AB相邻,A是动词且B单词长度超过3时,B是名词的概率是xx"。大家可能注意到了马尔科夫链的窗口为1,即它仅考虑上1个词,这不见得是最合理的。这其实是一个对特征稀疏问题的折中,可以想象仅对两个词性AB统计P(B|A)能够得到很多数据的反馈,而如果统计长度为6的窗口,如P(G | ABCDEF)就会遇到数据稀疏的问题,因为很可能序列ABCDEF根本就没有在数据集中出现过.数据稀疏对机器学习的影响是巨大的,因此马尔科夫链实际以损失一定全局信息的基础上换来了更饱满的数据,实验证明这笔交易在词性标注时是赚的。


 再说词性与词语直接的映射概率,这里体现了CRF的条件特征。如果是HMM,这里会直接统计词性-->单词的条件概率矩阵,比如动词生成发射的概率可能为1.5%,而生成微软的概率为0. 然后对于每一种可能的词性序列结合与条件概率相乘就能得到每一个候选序列的生成概率,然而取概率最高的作为标注结果即可。而CRF正好反过来,CRF通过发掘词语本身的特征(如长度,大小写,匹配特定词表等,也可以包括词语本身),把每个词语转化成为一个一维特征向量(vector),然后对于每个特征计算特征到词性的条件概率,这样每个词语对候选词性的条件概率即为所有特征条件概率的加和。比如我们假设特征向量只有两个,且P ( ”词语长度>3" --> 名词词性)的概率为0.9 P("词语位于句子末尾“ --> 名词词性)概率为0.4,且一个词恰好满足这两个特征,则其为名词的条件概率为 (0.9 + 0.4) / 2 = 0.65. 这样,CRF根据这个条件转移数值再结合词性的马尔科夫特性,就可以使用与HMM类似的方法寻找最优的词性标注序列了。


 为了装得更学术一点本想再贴一个公式搞了半天没贴成功还是算了不过在上面的PPT链接中大家可以找到所以就不写了。总的来说CRF优于HMM的地方在于,它可以引入更多的特征,包括词语本身特征和词语所在上下文的特征,而非单词本身。从某种角度讲,它结合了HMM和最大熵方法。
这有一篇不错的博文推荐一下:http://blog.sina.com.cn/s/blog_6d15445f0100n1vm.html
http://www.zndev.com 免费源码交换网 ----------------------------- 软件创造价值,驱动提供力量! 淡泊以明志,宁静以致远。 ---------------------------------- 勤用搜索,多查资料,先搜再问。
游客

返回顶部