콘텐츠로 바로가기 대메뉴로 바로가기

전체메뉴 보기

시맨틱웹으로 통하는 세상 프로토마가 함께합니다.

1. 시맨틱 텍스트 마이닝 정의

데이터 마이닝

  • 방대한 양의 데이터로부터 이전에 알려져 있지 않은, 잠재적으로 유용한 정보를 발견해내는 일련의 과정을 의미

텍스트 마이닝

  • 비/반정형 데이터에 대하여 자연어처리(Natural Language Processing) 기술과 문서처리 기술을 적용하여 유용한 정보를 추출, 가공하는 것

시맨틱 텍스트 마이닝

  • 텍스트 마이닝에서 문장의 구문뿐 아니라 의미까지 반영한 정보 추출을 의미

2. 시맨틱 텍스트 마이닝 엔진 구성

Semantic Text Mining Engine

3. 시맨틱 텍스트 마이닝 기술

형태소 분석

  • 자연 언어 처리에서 말하는 어떤 대상 어절의 모든 가능한 분석 결과를 출력하는 것을 의미하며 분석에 의하여 키워드로서 가치가 있는 명사들을 추출. 정보 검색 엔진에서 한국어의 색인어 추출에 많이 사용. 형태소 분석 단계에서 문제가 되는 부분은 미 등록어, 오탈자, 띄어쓰기 오류 등을 들 수 있는데, 이들은 형태소 분석에서 치명적인 원인. 또 다른 문제로는 복합 명사 분해가 있는데, '복합 명사'는 '복합+명사', '복+합명사', '복합명+사' 등등의 다양한 방식으로 쪼개질 수 있음

개체명 인식

  • 개체명은 고유명사에 해당하는 인명, 지명, 기관명 등과 날짜와 시간 등을 표현하는 수식 표현을 말함.
  • 개체명 인식은 두 가지 방법으로, 하나는 개체명의 경계를 인식하고 개체명 종류를 결정하는 방법과 개체명의 경계와 종류를 함께 결정하는 방법이 있음
  • 개체명 인식기에 필요한 자질로 단어(복합단어 포함), 품사(복합품사 포함), 접사, 개체명 사전을 이용. 언어처리 문제에서 개체명 인식은 일반적으로 미등록어 문제와 결부되어 있는데, 이 문제를 해결하기 위해서 접사 정보를 사용하며 특별히 두 문자의 접두사와 세 문자의 접미사를 사용할 경우 가장 좋은 성능을 보일수 있음. 또한 개체명 인식의 성능을 개선하기 위해 개체명 사전을 이용

관계추출

  • ML(Machine Learning) 기반 : 기계학습(ML) 기반으로 학습집합을 구성하여 모델링하고, 그 모델링 데이터를 이용하여 대상 문서로 부터 명사간의 의미있는 관계를 추출
  • PM(Pattern Matching) 기반 : 일정한 규칙을 패턴화 하여 대상 문서에서 그 패턴에 일치하는 문장 내 명사들로부터 관계를 추출

트리플(Triple) 생성

  • 개체명과 관계 추출을 통하여 “개체-관계-개체’ 트리플을 추출하여 데이터베이스에 저장하고 원문과 연결시킴
  • 특정 문헌 혹은 다량의 문헌에 대한 이러한 의미적 트리플 집합들은 전문가에 의해서 검증을 받게 되며, 시스템의 오류로 인한 불합리한 트리플들은 제거되거나 수정
  • 여행포털한두름
  • 관련자료
  • Solution
  • 적용사례
  • Contact Us
  • TOP