본문 바로가기

Function

VWL 텍스트 분석기 0.9



한글 텍스트 분석기입니다.


line 단위로 분석 대상 텍스트가 저장된 txt 파일을 넣고 실행시키면, 빈도 분석과 네트워크 분석을 위한 다수의 파일들을 생성합니다.

텍스트 분석에 대한 지식이 있어야 활용할 수 있으며, 네트워크 분석 역시 별도로 학습해야 합니다.


불용어를 등록할 수 있으며, 사용자 사전도 등록 가능합니다.

시각화 및 분석 프로그램인 UCINET 과 Gephi를 위한 파일들을 생성해냅니다.



Java 기반으로 동작하며, 구동시키려면 JRE 나 JDK를 별도로 다운받아야 합니다.

일반 사용자라면 JRE로 충분합니다. 보통 '자바를 설치합니다' 라는 흰색 빨간색 화면이 나올때는 JRE(실행을 위한 모듈만 들어있는 Java Runtime Environment)를 설치하는 것입니다.

텍스트 분석기에 들어간 형태소 분석기는 Lucene을 위해 만들어진 Arirang Analyzer(2013.10 버젼)를 변형하여 사용하였습니다. Arirang Analyzer는 http://cafe.naver.com/korlucene/ 에 공개된 것이며 해당 까페에 이수명님이 국민대학교 강승식 교수님의 논문을 기반으로 만들었다고 밝히고 있습니다.(http://cafe.naver.com/korlucene/1112)




파일은 아래에 알집으로 분할압축 되어 있으며,

사용법은, 텍스트 분석에 대한 지식이 있다는 전제 하에, 아래 올려져 있는 문서 파일을 꼼꼼히 읽으시면 어렵지 않게 따라해보실 수 있습니다.


그 외 사용법에 대한 질문에는 시간관계 상 답해드리기 어렵습니다.

설명상의 오류에 대한 지적은 감사히 받아들이고 수정하겠습니다.



이 분석기에 포함된 Arirang 형태소분석기는 아파치 라이센스가 적용되어 있습니다.

따라서 이 텍스트 분석기도 아파치 라이센스를 적용합니다. 위키에 따르면 다음과 같습니다.

"아파치 2.0 라이선스는 누구나 해당 소프트웨어에서 파생된 프로그램을 제작할 수 있으며 저작권을 양도, 전송할 수 있는 라이선스 규정을 의미한다. 아파치 라이선스에 따르면 누구든 자유롭게 아파치 소프트웨어를 다운 받아 부분 혹은 전체를 개인적 혹은 상업적 목적으로 이용할 수 있으며 재배포시에는 원본 소스 코드 또는 수정한 소스 코드를 반드시 포함시켜야 하는 것은 아니고[1] [2] 아파치 라이선스, 버전 2.0을 포함시켜야 하며 아파치 소프트웨어 재단에 개발된 소프트웨어라는 것을 명확하게 밝혀야 한다."

https://ko.wikipedia.org/wiki/%EC%95%84%ED%8C%8C%EC%B9%98_%EB%9D%BC%EC%9D%B4%EC%84%A0%EC%8A%A4


본 게시글의 내용이나 압축 파일안에 포함되어 있는 설명글을 인용하거나 재배포 할 때는 반드시 출처를 밝혀주셔야 합니다.




*. Mac 이나 Linux 에서는 테스트 해보지 않았습니다.

*. 분석에 관련된 파일이 한글 이름으로 된 폴더 밑에 있으면 에러가 발생합니다.

*. 배포된 jar 파일에는 분석기에 직접적으로 활용되지 않는 모듈들도 포함되어 있으나, 깔끔하게 제거할 줄 몰라서 용량이 별로 크지 않아 그대로 두었습니다.

*. examples.zip을 다운받아 압축을 푼 후, 텍스트 분석기에 넣고 돌려볼 수 있습니다.

*. 형태소 분석은 사람이 판단하는 것처럼 완벽하게 동작하지는 않습니다.



텍스트 분석 및 시각화.vol1.egg

텍스트 분석 및 시각화.vol2.egg

manual.zip

examples.zip




[분석기 구동 화면]





[생성 파일]





[Gephi 화면 예시 이미지]