아르고넷과 함께한 Lucene

About Lucene

Lucene은 Java 언어로 개발된 정보 검색 분야 Open Source로써 1999년 Doug Cutting에 의해 개발되어 SourceForge에서 배포되었습니다. 2001년에는 Apache Jakarta family로 합류되어 Sub-Project로 개발되어 오다가 2005년 Top-level Apache Project가 되었습니다. Top-level Apache Project로 된 이 후 Lucene.NET, Mahout, Solr, Nutch 등 많은 Sub-Project를 파생시키며 최근 화두가 되고 있는 빅데이터 발전에 큰 기여를 하였습니다.

Lucene의 구조

아르고넷의 Lucene 관련 활동

2008년 KAIST의 Institutional Repository인 KOASAS에 KoreanAnalyzer를 적용하였습니다. KoreanAnalyzer는 뛰어난 검색 성능을 가진 Lucene이 국내에서 한글처리 문제로 인해 국내에서 사용하기에는 많은 제약이 있어 그 활용도를 높이고자 개발을 시작였습니다. 2006년부터 시작된 개발은 사전 개발 및 알고리즘 개발 등 갖은 노력을 거쳐 2008년에 Open Source로 최초 공개 하였습니다. 2009년에는 공개SW 공모전에 참가하여 기업상을 수상하기도 하였고 아래와 같이 여러 기관에 적용을 하였습니다.

  • KAIST : KOASAS (http://koasas.kaist.ac.kr)
  • 서울대학교 : S-Space (http://s-space.snu.ac.kr)
  • KISTI : OAK (http://oak.kisti.re.kr)
  • KIST : KIST 연구자 맞춤형 추천정보 시스템

KoreanAnalyzer의 구조

2006년 개발을 시작하여 꾸준한 활동을 한 결과 Apache Lucene 측에 KoreanAnalyzer를 ‘Arirang’이라는 이름으로 기부를 하였습니다. 지난 4월 Lucene jira Issue를 통해 요청하여 5월에 정식으로 등록되었습니다. 향후 Lucene에 기본적으로 KoreanAnalyzer 기능을 탑재하게 되어 많은 이용자들이 손쉽게 한글 검색을 할 수 있게 되었습니다.

Lucene Jira Issue

제1회 루씬 한글분석기 기술세미나

지난 4월 12일 Coex Conference Room에서 뜻 깊은 세미나가 열렸습니다. 네이버 카페에서 활동 중인 ‘루씬 한글분석기 오픈소스 프로젝트’ 커뮤니티의 주최 하에 커뮤니티의 회원들과 함께하는 ‘제1회 루씬 한글분석기 기술세미나’가 개최되었습니다. 아르고넷과 정보통신산업진흥원(NIPA)이 세미나를 후원하였으며 접수 시작 하루만에 참가 인원이 마감되며 세미나에 대한 큰 호응을 보였습니다.

세미나는 크게 Lucene 분야 전문가들의 발표와 커뮤니티 회원들의 교류의 시간으로 나뉘어져 진행되었습니다. 국민대학교 강승식 교수님, 명플러스소프트 강명구 대표님, 아르고넷 이수명 소장님 등 Lucene 분야 전문가들의 깊이 있는 발표 시간 후, 교류의 시간에는 Open Source 활용에 대한 애로 사항, 커뮤니티의 발전 방향 등 커뮤니티 회월들 간 다양한 의견을 나누며 유익한 시간을 보냈습니다.

제1회 루씬 한글분석기 기술세미나

-한국어 형태소 분석기와 오픈소스 검색엔진의 만남-

  • 일 시 : 2013년 4월 12일 금요일
  • 장 소 : 코엑스(3층) 컨퍼런스룸 318
  • 주 최 : 루씬 한글분석기 커뮤니티
  • 후 원 : (주)아르고넷, 정보통신산업진흥회

행사진행순서

시 간 내 용 발 표 자
12:30~13:30 행사등록
13:30~14:15 한국어 형태소 분석 알고리즘과 자료구조 강승식 교수 (국민대학교)
14:20~15:00 한글분석기와 루씬을 기반으로 한 프로젝트 적용 (뉴스검색, 채팅서버, 블로그/Twitter/Facebook 크롤링) 강명구 대표 (영플러스소프트)
15:05~15:45 소셜미디어 분석과 Lucene의 활용 이진호 차장 ((주)데이터엔지니어스램)
15:45~16:00 Coffee Break
16:00~16:40 Solr로 나만의 검색엔진을 만들어 보자 강동혁 책임연구원 ((주)맥스트)
16:45~17:30 루씬 한글분석기 구조와 활용법 이수명 연구소장 ((주)아르고넷)
17:30~19:00 교류의 시간
이수명