首页
 
导言
研究
联机系统
许可申请
ckip成员
相关网站
联系我们

 

 

 

 


搜索所有网站
网站搜索ckip

言处理的应用,如机器翻译,语言分析,语言理解和信息检索,要知道/在文本理解的话,使文本就可以被处理。 中句子包含一个空格,如没有分隔符,分隔单词。 此,一个典型的分词系统,试图通过比较发现与词汇,在分词歧义的结果是一个可能的单词组成句子。 多数汉语自动分词系统处理解决模糊问题,而不是确定未知的字眼占3%至5%,所有的字的文章。 此,未登录词识别是一个词算法的重要问题。 频关键字更容易提取和识别脱机,而低频率的关键字应提取上的禁飞区使用形态规则,词素和词搭配。

们的系统是一个中文文字与未登录词识别和的词性标注分割方法。 系统包含一个10万项与pos标记,文字的频率词典,名次标签bigram的信息等词的过程是在词汇为基础,量词词和叠词形态规则。 性标注是已知与未知的话。

我们的分词系统被评为传统中文文字的第一届国际汉语分词评测大赛分割评价的首次通过acl sighan举行。 这是第一个分词系统外的词汇和语法单词识别分类预测能力。

  的分词服务器简化版本,是向公众提供的http://ckipsvr.iis.sinica.edu.tw

林克简建明红白,“ 未知word的中检测基于语料库的学习方法 ”,国际计算语言学和中文语言处理,1998年,第三卷,#1,页27-44。

林克魏健,魏运马2002年,“ 未知的word文档中提取的 ”,2002年的coling,169〜法律程序- 175。

蔚云和陈克健,2003年,“ 自下而上的合并算法中未登录词的提取 ”,前交叉韧带,第二sighan研讨会论文集中文语言处理,序言段31 - 38。

蔚云和陈克健,2003年,“ 介绍ckip汉语分词系统的第一届国际汉语分词评测大赛 ”,前交叉韧带,第二sighan研讨会论文集中文语言处理,pp168 - 171。

于芳陈克健,2003年,“ 可靠和具有成本效益的pos -标记 ”,程序中rocling十五,pp161 - 174。

于芳陈克健,2003年,“ 上下文相关规则模型词性标注 ”,程序中paclic 17,pp146 - 151。

于芳陈克健,2004年,“可靠的和具有成本效益名次标记”,国际计算语言学及中文语言处理,第一卷。 9#1,pp83 - 96

范禅

云马欢兴刘,于芳蔡嘉鸿大,明闳百

家禅宗范(kitajava在iis.sinica.edu.tw)

分析器 学报树库 学报语料库5.0 conceptnet

权所有(c) 语言和知识处理小组 , 信息科学 , 中央研究院 研究所

成龙-玻璃樽激流下载-激流反应网络..
自由空气工艺制作softwear下载下载:飞..
通过cinemanow -电影下载-在线电影..
fs2004
下载微软模拟飞行2004插件-飞兆半导体共和..
霹雳卫星接收机菲律宾
gogoracers.com : :查看主..
下载马姆光碟-所有
cnnbc视频
视频卡-百科,自由的百科全书..
2010-9-8 12:30:09
N
oyayiya
hhyy 机北