빅데이터

빅데이터 개요

빅데이터(big data)란 기존 데이터베이스 관리도구의 능력을 넘어서는 대량(수십 테라바이트)의 정형 또는 심지어 데이터베이스 형태가 아닌 비정형의 데이터 집합조차 포함한 데이터로부터 가치를 추출하고 결과를 분석하는 기술입니다.
빅데이터 활용 과정

빅데이터 수집 S/W

비정형 데이터 수집 도구

  • Nutch : 오픈소스 웹 검색 소프트웨어로 웹크롤러의 기능을 제공
  • Flume : 대량의 로그 데이터를 효과적으로 수집하거나 트위터 API를 호출
  • 검색API : 포털(네이버/다음/구글)의 검색 API를 이용 특정 주제의 데이터 수집

정형 데이터 수집 도구

  • Scoop: RDBMS와 HDFS 파일시스템에서 데이터를 주고 받는 기능 제공
  • DB Connector : 대상 DB의 연결 모듈을 개발하여 DB의 데이터를 수집

빅데이터 구축 S/W

빅데이터 처리 플랫폼

  • Hadoop : 대량의 데이터를 처리할 수 있는 클러스터 환경에서 동작하는 분산응용 프로그램을 지원하는 프레임워크 기능을 제공

빅데이터 저장소

  • HDFS : 수십 테라 또는 페타바이트 이상의 대용량 파일을 분산된 서버에 저장하고 수많은 클라이언트가 저장된 데이터를 빠르게 처리할 수 있게 설계된 파일 시스템
  • NoSQL : 빅데이터의 효과적 저장 및 관리에 필요한 기술, 카산드라(Cassandra DB), 몽고DB 등이 있음
  • Mysql : 효율적인 빅데이터 분석을 위하여 정규화된 데이터를 저장하는 RDBMS

빅데이터 분석 및 활용 S/W

빅데이터 분석 도구

  • Pro-SINDI : 대량의 데이터에서 단일 핵심어 뿐만 아니라 5개의 복합명사 까지 추출, 연관관계 추출도 가능한 분석 프로젝트에 최적화된 상용 소프트웨어 워드 클라우드, 파이/바/라인 차트 제공 및 온톨로지 연계 가능
  • Mahout : 대량의 데이터에서 용어(핵심어) 및 관계 추출과 분류 및 필터링에 사용되어지는 기계학습 기반의 알고리즘 및 데이터 분석용 도구
  • R : 빅데이터의 통계적 의미를 찾고 그 패턴을 분석하기 위해서 강력한 통계 기능 제공

민원분석 시스템 : Pro-CAS™

Pro-CAS™(Complaints Analysis System)는 중앙정부, 지방자치단체, 공공기관 또는 일반 기업의 고객만족 경영을 위한 시스템입니다. 다양한 고객의 다양한 요구 사항 및 민원을 분석하여 향후 고객만족 경영을 위한 정책 수립에 활용할 수 있도록 해 줍니다.
민원분석 시스템  화면
  • 게시판 텍스트 수집
  • 민원 대상 분석 및 워드 클라우드 인터페이스
  • 민원 유형 분석 및 파이, 바 차트 인터페이스
  • 민원 원인별 기간별 통계 및 라인차트 인터페이스
  • 민원 키워드 연관어 그래픽 인터페이스
  • 민원 긍정-부정 감성 표현 인터페이스
  • 분석 대상 글 보기 링크 및 검색 인터페이스
  • 각종 통계 커스터마이징 및 관리

인터넷 정보분석 시스템 : Pro-IAS™

Pro-IAS™(Information Analysis System)는 인터넷 상의 뉴스, 블로그, 트위터 등으로부터 특정 정보를 수집 및 분석하여 정책에 활용할 수 있도록 해 줍니다.
인터넷 정보분석 시스템 구조
  • 인터넷 뉴스, 블로그, 트위터 등 수집
  • 대상 정보 분석 및 워드 클라우드 인터페이스
  • 대상 정보 유형 분석 및 파이, 바 차트 인터페이스
  • 정보 소스별 기간별 통계 및 라인차트 인터페이스
  • 분석 대상 글 보기 링크 및 검색 인터페이스
  • 각종 통계 커스터마이징 및 관리

트렌드 동향분석 시스템 : Pro- TAS™

Pro-TAS™(Trend Analysis System)는 정부의 경제, 사회, 문화, 교육 등 제반 정책 과제 또는 기업의 마케팅 등 주요 현안 이슈에 대한 온라인 상의 여론을 분석하여 실무에 반영함으로써 수요자의 만족도를 증대할 수 있도록 해 줍니다.
트렌드 동향분석 시스템 화면
  • 언론 기사, 댓글, 블로그, 트위터 등 온라인 상의 문서 수집
  • 수집 문서의 정제를 통한 키워드 추출 및 키워드의 중요도 및 키워드간 연관성 분석
  • 대상 정보 분석 및 워드 클라우드 인터페이스
  • 이슈 연관어 분석, 댓글 감정 분석, 댓글 상위 기사, 토픽모델링 등 각종 통계 커스터마이징 및 관리