1.緒言
モーニング娘。'17のブログにおいて、各個人ごとのブログ内での他メンバーの名前の出現回数を、Pythonによるプログラムで集計し、思いを馳せる。
2.環境
OS
・Windows 7
・Ubuntu 16.04
言語
・Python 3
3.集計期間
集計期間は2015年1月1日から2017年7月7日(集計日現在)までの記事とした。
2015年1月1日からとした理由は、2014年12月に加入した12期とそれ以前から活動している9,10,11期のデータを同列に比較することができるためである。
また、あまりに古いデータは現在の状況と乖離が生じるため情報として有益性がないと考えたためでもある。
なお、2016年12月に加入した13期については集計を行ったものの、集計記事数が少ないことには注意が必要である。また当然のことながら、
先輩メンバーのブログにおける13期の名前の頻出数は在籍期間が短い分だけ少なくなることも留意しなければならない。
4.集計手順
代表として譜久村聖をもとに集計手順を説明する。
期ごとのブログをクローリング/スクレイピングし、MongoDBに記事ごとにブログ情報を保存する(Fig.1)。
|
Fig.1 取得記事一覧 |
記事はJSON形式で保存される。後のデータ処理と再実行時のデータ重複等を考慮し、ブログ本文だけでなく、いくつかの情報をkeyとして保存する(Fig.2)。
|
Fig.2 記事情報 |
自然言語処理技術を用い、人名を抽出する。
今回は形態素解析エンジンとして、オープンソースのMecabを使用する。
デフォルトの辞書だと情報が古いため綺麗に分解できないため、システム辞書としてmecab-ipadic-NEologdを使用。さらに、メンバーの特別な呼称を区別するために、筆者が作成したカスタマイズ辞書を併用した(Fig.3)。
|
Fig.3 カスタム辞書 |
これをもとに、譜久村のブログ(集計記事数:811)から人名の単語のみ抽出し、頻出単語を上から集計すると以下の結果が得られた。
|
Fig.4 譜久村のブログにおける人名の頻出単語 オリジナル結果 |
「ちゃん」「さん」が人名として集計されていたり、中には人名でないものも集計されているが、概ねうまく集計できている。
ここで、呼称違いの同一人物をひとつにまとめる。例えば、「どぅー」「工藤」「工藤遥」は同じ人物なので「工藤遥」としてひとつにまとめる。
ちなみに、ここで同一人物をまとめる作業は、モーニング娘'17のメンバーを主として筆者が必要と判断した人物のみ行った。全ての人物に対して条件式を書くのはあまりに膨大なためである。
これらをまとめた結果を下に記す(Fig.5)。
|
Fig.5 譜久村のブログにおける人名の頻出単語 整理後 |
この結果から、執筆者である譜久村聖自身を除いたモーニング娘'17のメンバーのみを抜き出し、CSVファイルとして書き出した後、度数分布表を作成した(Fig.6)。度数分布表は出現回数が多い順にソートしている。
さらに、matplotlibを使って自動でグラフを作成した(Fig.7)。
これらが最終的な結果となる。
|
Fig.6 譜久村聖 度数分布表 |
|
Fig.7 譜久村聖 結果グラフ |
以上の結果から、譜久村聖のブログにおいては生田衣梨奈が最も出現していることが明らかとなった。
なお、上にも述べた通り、13期メンバーである加賀楓と横山玲奈の出現回数が極端に少ないことは、他メンバーと比べて活動期間が短いという事実を考慮しなければならない。
5.結果
各個人の結果を以下に記す。結果は
を1セットとして掲載する。
前節の集計手順で掲載した結果と同一ではあるが、譜久村聖の結果もここに再掲する。
譜久村聖
集計記事数:811
|
Fig.8 譜久村聖 人名頻出単語 整理後 |
|
Fig.9 譜久村聖 度数分布表 |
生田衣梨奈
集計記事数:654
|
Fig.11 生田衣梨奈 人名頻出単語 整理後 |
|
Fig.12 生田衣梨奈 度数分布表 |
|
Fig.13 生田衣梨奈 結果グラフ |
飯窪春菜
集計記事数:785
|
Fig.14 飯窪春菜 人名頻出単語 整理後 |
|
Fig.15 飯窪春菜 度数分布表 |
石田亜佑美
集計記事数:833
|
Fig.17 石田亜佑美 人名頻出単語 整理後 |
|
Fig.18 石田亜佑美 度数分布表 |
|
Fig.19 石田亜佑美 結果グラフ |
工藤遥
集計記事数:801
|
Fig.20 工藤遥 人名頻出単語 整理後 |
佐藤優樹
集計記事数:608
|
Fig.23 佐藤優樹 人名頻出単語 整理後 |
|
Fig.24 佐藤優樹 度数分布表 |
|
Fig.25 佐藤優樹 結果グラフ |
集計記事数:364
|
Fig.26 小田さくら 人名頻出単語 整理後 |
|
Fig.27 小田さくら 度数分布表 |
|
Fig.28 小田さくら 結果グラフ |
尾形春水
集計記事数:839
|
Fig.30 尾形春水 度数分布表 |
|
Fig.31 尾形春水 結果グラフ |
集計記事数:797
|
Fig.32 野中美希 人名頻出単語 整理後 |
|
Fig.33 野中美希 度数分布表 |
集計記事数:871
|
Fig.35 牧野真莉愛 人名頻出単語 整理後 |
|
Fig.36 牧野真莉愛 度数分布表 |
羽賀朱音
集計記事数:526
|
Fig.38 羽賀朱音 人名頻出単語 整理後 |
|
Fig.39 羽賀朱音 度数分布表 |
|
Fig.40 羽賀朱音 結果グラフ
|
加賀楓
集計記事数:152
|
Fig.41 加賀楓 人名頻出単語 整理後 |
|
Fig.42 加賀楓 度数分布表 |
|
Fig.43 加賀楓 結果グラフ
|
横山玲奈
集計記事数:132
|
Fig.44 横山玲奈 人名頻出単語 整理後
|
|
Fig.45 横山玲奈 度数分布表
|
|
Fig.46 横山玲奈 結果グラフ
|
6.考察
これらの結果を見てみると、傍から見ていて仲の良さそうな(好意を抱いていそうな)メンバーはやはり名前を多く出しているように感じる。とはいえ、名前の出現回数が少ないから好意を抱いていないとは必ずしも言えないことには注意が必要である。
どのメンバーも概ね同期の名前を多く出している傾向にあるが、そうでないメンバーもおり、そういった点からも個性が伺える。
特筆すべきは工藤遥の出現率の高さである。工藤遥を除くメンバー12人のうち、6人が工藤遥の名前を1番多く出し、9人が3番以内に多く出している。
これらの結果において、お互いが1番に多く名前を挙げている――言葉を変えるなら「両想い」のメンバーの組み合わせは下記になる。
- 譜久村聖×生田衣梨奈
- 飯窪春菜×工藤遥
- 尾形春水×野中美希
(実際は尾形は羽賀の名前を最も多く出しているが、2番目の野中と2回差なので誤差の範囲とした)