Puppeteerで記事本文中のはてなブログタグを取得する

はてなブログの新機能

はてなブログの記事にはてなブログタグを設定できる機能がリリースされた。

はてなブログタグとは

はてなブログタグ」は「はてなキーワード」からWikiのようなユーザーによる編集機能が除外されて名称変更したサービスで、はてなブログに記事を投稿すると、記事本文中の単語にはてなブログタグの個別ページへのリンクが自動で付与される仕組みになっている。

Puppeteerで記事本文中のはてなブログタグを取得する

せっかくなので、記事本文中のはてなブログタグのリンク付与状況を取得して、はてなブログタグの設定の参考にできると良いと思った。

<a class="keyword" href="http://d.hatena.ne.jp/keyword/%C8%F3%A5%E2%A5%C6">非モテ</a>

ブログ記事のソースを確認すると、はてなブログタグは上のような形式で挿入されているので、Webスクレイピングで容易に取得できそうだ。

Webスクレイピングは以前にも記事を書いたPuppeteerで行うのが簡単だ。

サクッと書いてみた。

先日バズった私の非モテ論記事で試してみる。

$ node index.js https://fuyu.hatenablog.com/entry/2020/10/05/002610
{
  '非モテ': 57,
  '小野ほりでい': 2,
  'フェミニズム': 13,
  '潜在的': 2,
  'ヘテロ': 2,
  'モリー': 1,
  '二村ヒトシ': 1,
  '森岡正博': 1,
  'ブッダ': 2,
  '古今東西': 1,
  rei: 1,
  '中村 元': 1,
  Kindle: 1,
  '本田 透': 1,
  '恋愛資本主義': 4,
  'バロメータ': 1,
  '本田透': 2,
  '電波男': 1,
  'ラク': 1,
  'ウエルベック': 4,
  'ミシェル・ウエルベック': 1,
  '服従': 3,
  'イスラーム': 5,
  '若い女': 1,
  Twitter: 3,
  'ウェルベック': 2,
  'ユートピア': 1,
  'ジェンダー': 4,
  '異性愛': 1,
  '性風俗': 1
}

やはり「非モテ」が圧倒的に多い。この記事であれば、「非モテ」と「フェミニズム」辺りをタグ設定しておけば良さそうだ。

参考記事

JavaScriptで配列の重複数をカウントする処理の参考にした。