논문 등에서 특정 키워드나 분야에 대한 트렌드를 분석하기 위해서는 뉴스기사나 논문등의 자료로 부터 분석을 할 수 있다.

이번 프로젝트에서는 뉴스 기사를 수집하여 분석을 해보는 케이스였다.

뉴스 기사를 빅카인즈라는 사이트에서 통합해서 제공을 해주고 있었다. 뉴스 기사 뿐만 아니라, 해당 기사의 주요 키워드를 따로 뽑아서 주기도 하며, 검색된 기사들에 대한 분석도 사이트 자체적으로 해주기도 한다.

→ 빅카인즈 빅카인즈(BIG KINDS)

 

빅카인즈(BIG KINDS)

뉴스빅데이터 분석시스템, 뉴스 속 키워드 관계망, 주요 이슈, 정보원, 이슈 트렌드 분석 정보 제공

www.bigkinds.or.kr

 

엑셀로 기사를 다운 받으려면 로그인을 해야되서, 바로 회원가입부터 하는 것을 추천.

▶뉴스검색 → 뉴스검색 · 분석 → 검색어 입력

기간이나 언론사 선택, 상세 검색등이 가능하다.

▶2단계 검색 필터가 필요하면 처리 후에, 3단계 분석 결과 및 시각화를 확인한다

"데이터 다운로드"탭에서 우측 하단에 "엑셀다운로드" 를 누르면 다운받기가 가능하다.

자체적인 분석 결과도 제공해 주는데 꽤나 퀄리티가 좋은것 같다.

▶ 엑셀로 데이터를 받으면 십수개 이상의 컬럼의 데이터들로 제공을 한다.

사실 본문을 분석해서, 키워드 추출하고 불용어 제거 하는 등의 작업을 하는게 순서이지만,

이 사이트에서는 이미 "키워드" 컬럼에 컴마(,)로 구분된 데이터를 제공한다. (다행히도 키워드들은 중복 제거를 하지 않고, 기사에 출현한 횟수만큼, 해당 위치에 키워드를 표시한 것 같다. 중복 제거를 해버리면, TF-IDF 계산에 문제가 있을 수 있기 때문이다. 정확히는 TF값이 안맞게 되는것같다)

그리고, "본문" 컬럼의 데이터를 보면, 아쉽게도 전체 본문을 다 제공하지는 않고 있다. 초반부의 일부 기사 내용만 표시하고, 뒷부분은 말줄임표로 표시되어 있다.

아무튼 이 엑셀 데이터를 기반으로 해서 파이썬 스크립트를 돌려서 키워드 분석을 해보고자 한다.

 

+ Recent posts