韩语OpenSource语言处理软件JHanNanum整理

下载地址:http://kldp.net/projects/hannanum/download

MANUAL下载地址:http://kldp.net/projects/hannanum/forum/316173

简介(韩语):http://semanticweb.kaist.ac.kr/home/index.php/HanNanum

asdf1

前言:

最近整韩语处理,在查看研究室开发的代码的时候头都大了。

一是90年代后期用C++开发的代码,并且编的比较杂。

二是在第一次尝试韩语MORPHOLOGICAL分词的时候直接给我蹦出“Segmentation Fault”,使我仿佛回到了大学时期天天看C代码找“Segmentation Fault”原由的时代,不过五分钟直接就不想深入代码了。

谷歌的时候发现KAIST研发的韩语OpenSource语言处理软件,叫JHanNanum,2010年还有更新,并且是用JAVA写的,直接就拿过来用了。

刚开始的时候有些问题,因为DOCUMENTATION里面写的也不是太详细,以至于捣鼓这玩意儿花了半天的时间,在这里整理一下,以备以后可能会使用或者其他人能更加简单的使用。

(不知道为什么,在韩国在人人上传个图片贼费劲儿,在日志里面插个图片更丫的累。今儿就跳过这个环节了吧。)

其他乱七八糟的功能我就不举例说明了,说个最简单的例子吧。

Korean Morphological Analysis & POS Tagging 例子

Input:

프로젝트 전체 회의.회의 일정은 다음과 같습니다.

日時: 2010년 7월 30일 오후 1시場所: Coex Conference Room

————————————————————————————————–

Output:

프로젝트/ncn 전체/ncn 회의/ncn ./sf회의/ncn 일정/ncn+은/jxc 다음/ncn+과/jct 같/paa+습니다/ef ./sf

日時/ncn+:/sp 2010/nnc+년/nbu 7/nnc+월/nbu 30/nnc+일/nbu 오후/ncn 1/nnc+시/nbu場所/ncn+:/sp Coex/f Conference/f Room/f

===============================请叫我分割线=============================

1.下载

到那个下载地址的话就可以发现很多版本的JHanNanum了。

我下载的是jhannanum 0.8.4这个版本。

2.安装

1)下载的ZIP包移动到ECLIPSE的WORKSTATION目录。

2)解压

3)进入jhannanum 0.8.4目录里面,会有两个ZIP包-“data.zip”跟”conf.zip”,把他俩分别解压了。(注,解压的时候一定要解压到他们自己名字的目录下面。EX. “data.zip”里面的东西一定要解压到名为”data”的目录。)

4)在ECLIPSE里面新建项目,命名跟下载的JHanNanum的文件夹名一样。我的就是”jhannanum 0.8.4″。

3.运行

src/目录你可以发现有一个package叫“kr.ac.kaist.swrc.jhannanum.demo”

里面是各种DEMO EXAMPLES试着运行就可了。

4.问题

1)Parsing Korean Corpus的时候出现过一个minor problem – “java.lang.ArrayIndexOutOfBoundsException:

出现在HMMTagger.java文件中public void initialize(String baseDir, String configFile)函数里面

wp = new WPhead[5000];
for (int i = 0; i < 5000; i++) {
wp[i] = new WPhead();
}
wp_end = 1;
mn = new MNode[10000];
for (int i = 0; i < 10000; i++) {
mn[i] = new MNode();
}把这段代码里的数值 5000 改到 50000, 10000改到100000之后问题消除。2)继续Parsing 50W Kor Corpus的时候,最后老是有几千个句子没有PARSING完就结束。磨叽&查看代码之后,用getResultOfDocument()替换getResultOfSentence()解决了问题。

====================================================================

后言:

没啥后言了,有需求的都拿去下载用吧。

丫的,教授又给新活儿了,研究MOSES去了。 苦逼的代码哥。

Advertisements

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s