Puppeteerで記事本文中のはてなブログタグを取得する
はてなブログタグとは
「はてなブログタグ」は「はてなキーワード」からWikiのようなユーザーによる編集機能が除外されて名称変更したサービスで、はてなブログに記事を投稿すると、記事本文中の単語にはてなブログタグの個別ページへのリンクが自動で付与される仕組みになっている。
Puppeteerで記事本文中のはてなブログタグを取得する
せっかくなので、記事本文中のはてなブログタグのリンク付与状況を取得して、はてなブログタグの設定の参考にできると良いと思った。
<a class="keyword" href="http://d.hatena.ne.jp/keyword/%C8%F3%A5%E2%A5%C6">非モテ</a>
ブログ記事のソースを確認すると、はてなブログタグは上のような形式で挿入されているので、Webスクレイピングで容易に取得できそうだ。
Webスクレイピングは以前にも記事を書いたPuppeteerで行うのが簡単だ。
サクッと書いてみた。
先日バズった私の非モテ論記事で試してみる。
$ node index.js https://fuyu.hatenablog.com/entry/2020/10/05/002610 { '非モテ': 57, '小野ほりでい': 2, 'フェミニズム': 13, '潜在的': 2, 'ヘテロ': 2, 'モリー': 1, '二村ヒトシ': 1, '森岡正博': 1, 'ブッダ': 2, '古今東西': 1, rei: 1, '中村 元': 1, Kindle: 1, '本田 透': 1, '恋愛資本主義': 4, 'バロメータ': 1, '本田透': 2, '電波男': 1, 'ラク': 1, 'ウエルベック': 4, 'ミシェル・ウエルベック': 1, '服従': 3, 'イスラーム': 5, '若い女': 1, Twitter: 3, 'ウェルベック': 2, 'ユートピア': 1, 'ジェンダー': 4, '異性愛': 1, '性風俗': 1 }
参考記事
JavaScriptで配列の重複数をカウントする処理の参考にした。