スキップしてメイン コンテンツに移動

投稿

注目

モーニング娘。'17 ブログ解析プロジェクト

1.緒言 モーニング娘。'17のブログにおいて、各個人ごとのブログ内での他メンバーの名前の出現回数を、Pythonによるプログラムで集計し、思いを馳せる。 2.環境 OS ・Windows 7 ・Ubuntu 16.04 言語 ・Python 3 3.集計期間 集計期間は2015年1月1日から2017年7月7日(集計日現在) までの記事とした。 2015年1月1日からとした理由は、2014年12月に加入した12期とそれ以前から活動している9,10,11期のデータを同列に比較することができるためである。 また、あまりに古いデータは現在の状況と乖離が生じるため情報として有益性がないと考えたためでもある。 なお、2016年12月に加入した13期については集計を行ったものの、集計記事数が少ないことには注意が必要である。また当然のことながら、 先輩メンバーのブログにおける13期の名前の頻出数は在籍期間が短い分だけ少なくなる ことも留意しなければならない。 4.集計手順 代表として譜久村聖をもとに集計手順を説明する。 期ごとのブログをクローリング/スクレイピングし、MongoDBに記事ごとにブログ情報を保存する(Fig.1)。 Fig.1 取得記事一覧 記事はJSON形式で保存される。後のデータ処理と再実行時のデータ重複等を考慮し、ブログ本文だけでなく、いくつかの情報をkeyとして保存する(Fig.2)。 Fig.2 記事情報 自然言語処理技術を用い、人名を抽出する。 今回は形態素解析エンジンとして、オープンソースのMecabを使用する。 デフォルトの辞書だと情報が古いため綺麗に分解できないため、システム辞書としてmecab-ipadic-NEologdを使用。さらに、メンバーの特別な呼称を区別するために、筆者が作成したカスタマイズ辞書を併用した(Fig.3)。 Fig.3 カスタム辞書 これをもとに、譜久村のブログ(集計記事数:811)から人名の単語のみ抽出し、頻出単語を上から集計すると以下の結果が得られた。 Fig.4 譜久村のブログにおける人名の頻出単語 オリジナル結果 「ちゃん」「さん」が人名として集計されていたり、中には人名でないものも集計されている

最新の投稿