방대한 분량들의 텍스트들에 대해서, 주요 키워드들을 뽑아내고, 발생 빈도, 주요 단어간의 관계, 동시 출현 빈도 분석, Word Cloud, 네트워크 분석등을 해보려고 한다.
분석 대상이 되는 텍스트는 특정 주제로 수집된 뉴스 기사들이거나, 논문 등이 될 수 있겠다.
Python Script와 그 외 분석 도구를 활용할 예정이다.
대략 아래 이미지나 엑셀 표의 분석 결과를 얻어 내보려고 한다.
▶Word Cloud

▶ PlotBar

▶키워드 네트워크


▶키워드 빈도

▶ 동시 출현 빈도 (List)

▶ 동시 출현 빈도 (N * N Sheet)

▶ Degree Centrality(연결중심성) 및 Eigenvector Centrality(위세중심성)


▶TF-IDF

연결중심성, 위세중심성, TF-IDF 등등이 정확히는 어떠한 분석적 의미가 있는지는 잘 알지는 못했지만, 키워드 분석에서 해당 결과들을 필요로 하는 경우들이 있어 파이썬으로 구현을 해보았다.
파이썬 문법도 아직 초보여서, 효율적인 코드가 아닌 부분도 있을 수 있다.
◆ 주요 키워드
TF(단어 빈도, term frequency)는 특정한 단어가 문서 내에 얼마나 자주 등장하는지를 나타내는 값으로, 이 값이 높을수록 문서에서 중요하다고 생각할 수 있다. 하지만 단어 자체가 문서군 내에서 자주 사용되는 경우, 이것은 그 단어가 흔하게 등장한다는 것을 의미한다.
역문서 빈도(TF-IDF : Term Frequency-Inverse Document Frequency) 는 한 단어가 문서 집합 전체에서 얼마나 공통적으로 나타나는지를 나타내는 값이다. 전체 문서의 수를 해당 단어를 포함한 문서의 수로 나눈 뒤 로그를 취하여 얻을 수 있다.
[출처] tf-idf - 위키백과, 우리 모두의 백과사전 (wikipedia.org)
tf-idf - 위키백과, 우리 모두의 백과사전
위키백과, 우리 모두의 백과사전. TF-IDF(Term Frequency - Inverse Document Frequency)는 정보 검색과 텍스트 마이닝에서 이용하는 가중치로, 여러 문서로 이루어진 문서군이 있을 때 어떤 단어가 특정 문서
ko.wikipedia.org
중심성 지수
[네트워크 분석] 네트워크 중심성(Centrality) 지수 - 연결(Degree), 매개(Betweeness), 위세(Eigenvector), 근
안녕하세요. 중심성(Centrality) 지수에 대해서 정리해보려고 합니다. 1. 중심성(Centrality) 지수 중심...
blog.naver.com
연결 중심성(Degree Centrality, Cd)
연결 중심성은 중심성 지수에서 가장 간단하면서 기본적인 지표입니다. 이 지표는 한 노드(Node)에 직접적으로 연결된 모든 엣지(Edge)의 개수로 지수를 평가합니다.
[네트워크 분석] 네트워크 중심성(Centrality) 지수 - 연결(Degree), 매개(Betweeness), 위세(Eigenvector), 근접(Closeness)|작성자 Mr WOO
위세 중심성(Eigenvector Centraility, Ce)
연결 중심성(Degree Centraility)는 특정 노드가 다른 노드와 연결된 정도를 나타낸 지수라면, 위세 중심성(Eigenvector Centrailiy)는 특정 노드와 연결된 다른 노드들의 중심성을 가중치에 반영하는 지표입니다. 즉, 위세 중심성이 높은 노드는 연결된 다른 노드가 네트워크에서 중요한 노드들이랑 많이 연결되었다는 의미를 얻을 수 있습니다.
[네트워크 분석] 네트워크 중심성(Centrality) 지수 - 연결(Degree), 매개(Betweeness), 위세(Eigenvector), 근접(Closeness)|작성자 Mr WOO
'SW Project > 빅데이터 키워드 네트워크 분석' 카테고리의 다른 글
빅데이터 키워드 분석 : 연결 중심성, 위세 중심성 계산 (Centrality) (0) | 2023.11.19 |
---|---|
빅데이터 키워드 분석 : 동시 출현 빈도 계산 (0) | 2023.11.19 |
빅데이터 키워드 분석 : Term Frequency, TF-IDF 계산 및 막대그래프(plot-bar) 그리기 (0) | 2023.11.19 |
빅데이터 키워드 분석 : 개발환경, 데이터 정제 (0) | 2023.11.19 |
빅데이터 키워드 분석 : 데이터 수집 (0) | 2023.11.19 |