注册 登录  
 加关注
   显示下一条  |  关闭
温馨提示!由于新浪微博认证机制调整,您的新浪微博帐号绑定已过期,请重新绑定!立即重新绑定新浪微博》  |  关闭

清翔兔de博客

清翔来自品质 blog.i1984.com

 
 
 

日志

 
 

基于模板的文本特征抽取器程序  

2006-01-18 17:23:11|  分类: 默认分类 |  标签: |举报 |字号 订阅

  下载LOFTER 我的照片书  |

设计目标:为便于实现对文本的处理,经常需要将文本中的字符序列转换成一个特征向量的序列。一般先给出一系列特征模板,如下面给出了三个特征模板:
(a) Cn (n=2,-1,0,1,2 )
(b) CnCn+1( n=-2,-1,0,1)
(c) C-1C1

例如,对于给定的字符序列“新华社记者”,需要依次对字符序列中的每一个字符分别应用三个模板抽取相应的特征,当考虑字符“社”时,模板(a)产生的特征是:C-2=新、C-1=华、C0=社、C1=记、C2=者。模板(b)产生的特征是C-2C-1=新华、C-1C0=华社、C0C1=社记、C1C2=记者。这样,字符序列中的任意一个字符根据这三个特征模板就对应一个特征向量,而一个字符序列就会对应一个特征向量序列。为进一步便于处理,我们还将根据特征模板所生成的所有特征值存入一个特征字典中,每个特征值将在特征字典会对应一个序号,如特征字典中第五个特征是C-1C0=华社,则该特征的序号即为5。这样,我们就可以将前面的每一个字符所对应的特征向量转换为一个数字向量(即向量中的每个数字元素表示的是该特征在特征字典中的序号),任意一段文本则可以转换为一个序号向量的序列。

功能设计要求:
(1)对一个指定的文本文件,能够根据前述的三个特征模板将文本文件中的字符序列转换为一个相应的特征向量序列(特征向量为序号向量)。
(2)能够保存和打开特征字典的内容和特征向量序列的内容。
(3)每个模板均应该对应一个类(class),其中模板(a)和(b)的括号内偏移值要求参数化。
(4)文本内的字符序列要求以句子为处理单位,每句产生一个特征向量序列。要求每句对应一个实例(Instance)类,整个文本则对应一个实例序列类(InstanceSequence)。

  评论这张
 
阅读(33)| 评论(0)
推荐 转载

历史上的今天

评论

<#--最新日志,群博日志--> <#--推荐日志--> <#--引用记录--> <#--博主推荐--> <#--随机阅读--> <#--首页推荐--> <#--历史上的今天--> <#--被推荐日志--> <#--上一篇,下一篇--> <#-- 热度 --> <#-- 网易新闻广告 --> <#--右边模块结构--> <#--评论模块结构--> <#--引用模块结构--> <#--博主发起的投票-->
 
 
 
 
 
 
 
 
 
 
 
 
 
 

页脚

网易公司版权所有 ©1997-2018