1997년부터 2024년 1월까지 취합된 신문기사에서 사용된 명사/대명사 단어의 수 입니다.
2음절 이상의 단어에 대해서, 평균 빈도율이 가장 높은 30개 단어를 뽑아봤습니다. 월 단위로 봤을 때 신문에 가장 많이 나오는 단어들입니다.
한국, 기자, 미국, 대통령, 정부, 서울, 사람, 경기, 문제, 중국, 북한, 일본, 대표, 의원, 우리, 세계, 관련, 최근, 지난해, 지역, 국민, 이후, 생각, 이상, 자신, 시작, 기업, 사실, 시간, 후보
아무래도 종합 일간지이다보니 정치, 경제 관련 내용이 많은 듯하고, 신문 기사이다보니 'xxx 기자' 처럼 각 기사에 대해 글쓴이가 표기되다보니 '기자'가 많이 나온 것 같습니다.
이 단어들을 이용해서 생성형 AI에게 문장을 만들어 보라하니 아래와 같은 문장이 생성되었습니다.
한국과 미국 대통령은 지난해 서울에서 만나 북한과 중국, 일본에 대한 세계 정세를 논의했다. 우리 정부는 최근 경기 침체 문제 해결을 위해 지역 기업들과 협력을 시작했으며, 대표 의원들은 국민의 생각을 반영한 정책을 제안했다. 사실 이후 사람들은 자신의 시간을 투자해 관련 이슈에 더 많은 관심을 보이기 시작했고, 이상적인 해결책을 모색하고 있다.
어느 신문기사에 나올 듯한 그럴듯한 문장입니다. 이런 소재의 기사가 30년가 제일 많이 나왔습니다.
처음에는 명사/대명사만을 토큰으로 분리했을 때는 위에서 살펴본 바와 같이 약 30만 개의 토큰이 나왔습니다.
그런데, 명사/대명사/복합명사/부사/감탄사/영어로 토큰의 범위를 증가했을 때는 약 300만 개의 토큰이 나왔습니다. 10배 정도 그 수가 늘어났습니다.
1997년 즈음부터의 역대 대통령 재임 기간은 다음과 같습니다.
여기서 역대 대통령 이름으로 빈도수를 보면, 아래와 같이 나옵니다.
알 수 있는 사항은,
'계엄'으로 검색해보면 아래 그림과 같이 2번 나옵니다.
3번 탄핵 이슈가 있었음을 알 수 있습니다.
[박지성, 손흥민]으로 검색해 보면, 박지성 선수가 2002년 정도부터 인기를 끌다가, 2011년 정도부터 손흥민 선수가 보이다가, 2015년부터는 손흥민 선수가 독보적인 인기를 보입니다.
봄은 3월에, 가을은 9월 혹은 10월에 빈도율 피크를 보입니다. 당연하겠지만 봄에는 '봄'이, 가을에는 '가을'이 인기가 있습니다. 따라서, 계절에 따라 주기적인 빈도율을 보입니다.
그리고, 봄 보다는 가을이 좀 더 인기가 있습니다.
'태풍'으로 검색해 보면, 큰 태풍에 의해 우리가 언제 피해를 입었는 지를 유추할 수 있습니다.