半教師ありページランクを用いたウェブページからの教師なしメインコンテンツ抽出

はじめに

ウェブページ（HTML文書）はヘッダーフッダー，メニュー，広告など，自身の内容とは関係のない多くのノイズを含んでいます．これらのノイズはウェブページ解析を非常に難しくさせています．特に最近では，ページに関連した広告が貼られていたりするので，ウェブページ解析がさらに難しくなっているように思います．

このような問題は昔から研究されていて，HTMLからのメインコンテンツ抽出 (Main Content Extraction)とか，本文抽出とか呼ばれています．多くの既存手法は，DOMの構造を元にメインコンテンツに該当するDOM要素を特定します．そのために，入念にスコア関数を設計したり，教師データから学習させたりする試みがなされています．スコア関数や素性には，ほとんどと言っていいほどテキスト情報が使われます．よって，これらはニュース記事など，そのページのメインコンテンツがテキストである場合，十分な性能が期待できます．

しかしながら，ウェブページの中には，テキスト以外をメインコンテンツとするページもあります．例えば，何かのメタ情報のみを掲載しているページや，動画や画像メインのページなどです．このような場合，上記のような手法では，非常に少ないテキスト情報からメインコンテンツ部分を予測することになり，結果として性能の低下を生みます．今回は，テキスト以外をメインコンテンツとするページにもある程度適用できるようなメインコンテンツ抽出アルゴリズムの構築を目指します．

DOM PageRank: DOM要素への重み付け

以前，

ラプラス正則化を用いた半教師付きページランク

を提案しました．半教師付きページランクを実行するには，隣接行列 $\mathbf{A}$ と初期重み $\mathbf{u}$ が必要です．教師データを $\mathbf{u}$ で表現すれば，その情報を活用できます．今回はこれをメインコンテンツ抽出に応用したアルゴリズム，DOM PageRankを提案します．この場合，DOMツリーをそのまま隣接行列として与えれば，あとは初期値をどう決めるかの問題になります．

具体的に定式化していきます． $G=(V, E)$ をDOMツリーの無向グラフ表現とします．つまり， $V$ がテキストノードを含むDOMの要素， $E$ がその間のエッジです． $E$ を隣接行列 $\mathbf{A}$ で表現します．ただし，

$\begin{align*} A_{ij} = \left\{\begin{array}{ll} 1 & if \ (i,j) \in E \\ 0 & otherwise \end{array}\right. \end{align*}.$

$\mathbf{u}$ をどう決めるかによって，結果が変わってきます．基本的には， $u_i$ には $v_i$ が重要であればあるほど高い値を設定します． $\mathbf{u}$ の決定例を幾つか考えてみました．

DOMツリー内の重要な要素とは何でしょうか？とりあえず先人達と同じようにテキストノードは重要だと考えると， $\mathbf{u}$ は以下のようになります（これをテキスト一様重みと呼びます）．

$\begin{align} u_i = \left\{\begin{array}{ll} 1 & \text{if} \ v_i \ \text{is a text node} \\ 0 & otherwise \end{array}\right. \end{align}$

基本的には，テキスト一様重みで良さそうですが，テキストの中には重要なものとそうでないものがあると考えられます．例えばウェブページのタイトルやディスクリプションは重要だと考えてもいいと思います．この考えを用いて，タイトルやディスクリプションと似たテキストは重要だと仮定すると，以下のような重み関数も考えられます（これをタイトル重みと呼びます）．

$\begin{align*} u_i = \left\{\begin{array}{ll} (1-\beta) + \beta \left(sim(w_i, w_{title}) + sim(w_i, w_{desc})\right) & \text{if} \ v_i \ \text{is a text node} \\ 0 & otherwise \end{array}\right. \end{align*}$

ただし， $w_i$ は $v_i$ が持つテキスト， $w_{title}$ はタイトル， $w_{desc}$ はディスクリプション， $\beta \geq 0$ はトレードオフパラメータです．

その他にも，画像や動画メインのページも考慮すると，<img>や<video>タグにも初期重みをいくらか与えることも考えられます．

さて，これで $\mathbf{A}$ と $\mathbf{u}$ を元に，すべてのDOM要素 $V = \{v_i\}_{i=1}^n$ に対して，重み $\{f_i\}_{i=1}^n$ が付きます．

メインコンテンツ抽出

半教師付きページランクにより，すべてのDOM要素 $V = \{v_i\}_{i=1}^n$ に対して，重み $\{f_i\}_{i=1}^n$ が付きます．次は，メインコンテンツ抽出にこのDOM要素への重みを活用します．ここはあまり深く考えず，包括的にメインコンテンツを抽出するために，Sunらによって提案されたDensitySumを用います． DensitySumでは，あるDOM要素 $v_i$ のスコア $g_i$ を以下のように求めます．

$\begin{align*} g_i = \sum_{v_j \in Children(v_i)} f_j \end{align*}$

つまり，あるDOM要素のスコアは，その子要素の合計値であると定義します． Sunらはさらに抽出アルゴリズムも提案していますが，今回はシンプルにメインとなるDOM要素 $\hat{v}$ を以下のように定義します．

$\begin{align*} \hat{v} = \text{argmax}_{v_i \in V} \ g_i \end{align*}$

実験

実験してみました．今回は，教師ありメインコンテンツ抽出アルゴリズムである，dragnetと比較してみます．

とりあえず画像メインのページとして，

を選びました．2つ目は本文抽出で有名なしょこたんブログです．抽出結果を以下の表1, 表2に示します（今回はテキストで示しますが，実際にはDOM要素をスコア付きで取得できます）．なお $\alpha$ は正則化パラメータで，大体0.5にしとけば良さそうです．

表1: 癒されたい人集合！一生離れないと誓った「にこいちアニマル」に悶える12選 | CuRAZY [クレイジー]の抽出結果

手法	抽出したテキスト
DOM Page Rank (テキスト一様重み, $\alpha=0.5$ ）	Facebook でシェアする Twitter でシェアする LINE で送るネコ部をフォローするクレイジーの最新記事をお届けします 1. 窒息するギリギリまでギュッ View post on imgur.com 2. くっついてないと焦りだす View post on imgur.com 3. 夢の中でも二匹は一緒 http://bit.ly/16Yh5ll 4. ご主人が出かけると始まるダンスパーティー Boomer (Golden retriever) and Trigger (Lab) 5. ２匹にイタズラさせたら横に出る者はいない View post on imgur.com 6. 一緒にいると自然と笑顔に View post on imgur.com 7. 落ち込んだら片方が慰める View post on imgur.com 8. 溶けて１匹になっちゃいそう View post on imgur.com 9. どこにも行かないって約束！ http://catasters.tumblr.com/post/139548429975/thank-you-for-reminding-me-to-wish-you-a-happy 10. 愛が溢れ出ちゃってる View post on imgur.com 11. 他のワンコそっちのけ View post on imgur.com 12. 二人の間には誰も入れない View post on imgur.com Editor クレイジーピンククレイジー特戦隊、唯一の女子隊員！最近Twitter始めました♡クレイジーガールなつぶやきしていくので、是非フォローしてください( ✧Д✧) 最近、習字道具を一式揃えました！ Twitter：https://twitter.com/curazypink クレイジーピンクの他の記事 local_offer 動物ネコ大好き！仲良し猫犬公園桃ドリンク不運この記事が気に入ったらいいね！しよう最新記事をお届けしますフォローしよう友達に追加しよう
dragnet	歴代のあだ名は「ラーメン屋の娘」「シュワちゃん」「プレデター」「雨女」「サイババ」「ダヴ」「39の女（中２で握力39だったので）」等々です♡ Twitter：https://twitter.com/curazypink クレイジーピンクの他の記事

手法

抽出したテキスト

DOM Page Rank (テキスト一様重み, $\alpha=0.5$ ）

Facebook でシェアする Twitter でシェアする LINE で送るネコ部をフォローするクレイジーの最新記事をお届けします 1. 窒息するギリギリまでギュッ View post on imgur.com 2. くっついてないと焦りだす View post on imgur.com 3. 夢の中でも二匹は一緒 http://bit.ly/16Yh5ll 4. ご主人が出かけると始まるダンスパーティー Boomer (Golden retriever) and Trigger (Lab) 5. ２匹にイタズラさせたら横に出る者はいない View post on imgur.com 6. 一緒にいると自然と笑顔に View post on imgur.com 7. 落ち込んだら片方が慰める View post on imgur.com 8. 溶けて１匹になっちゃいそう View post on imgur.com 9. どこにも行かないって約束！ http://catasters.tumblr.com/post/139548429975/thank-you-for-reminding-me-to-wish-you-a-happy 10. 愛が溢れ出ちゃってる View post on imgur.com 11. 他のワンコそっちのけ View post on imgur.com 12. 二人の間には誰も入れない View post on imgur.com Editor クレイジーピンククレイジー特戦隊、唯一の女子隊員！最近Twitter始めました♡クレイジーガールなつぶやきしていくので、是非フォローしてください( ✧Д✧) 最近、習字道具を一式揃えました！ Twitter：https://twitter.com/curazypink クレイジーピンクの他の記事 local_offer 動物ネコ大好き！仲良し猫犬公園桃ドリンク不運この記事が気に入ったらいいね！しよう最新記事をお届けしますフォローしよう友達に追加しよう

dragnet

歴代のあだ名は「ラーメン屋の娘」「シュワちゃん」「プレデター」「雨女」「サイババ」「ダヴ」「39の女（中２で握力39だったので）」等々です♡ Twitter：https://twitter.com/curazypink クレイジーピンクの他の記事

表2: 10年｜中川翔子オフィシャルブログ Powered by Amebaの抽出結果

手法	抽出したテキスト
DOM PageRank (テキスト一様重み, $\alpha=0.5$ ）	2016-07-15 09:53:22 NEW ! テーマ：ブログいよいよ明日はポケモン映画公開‼️ 10年連続で映画ゲスト声優として参加させていただけるなんて幸せの極みです。感謝と愛‼️であしたの舞台挨拶を楽しみにしています夏はポケモン‼️ 今日までしか買えない前売り券でボルケニオンをもらおう AD いいね！リブログする NEW リブログボタンが追加されました！さっそく試してみようリブログって何？いいね！した人｜リブログ(0) 中川翔子さんの読者になろうブログの更新情報が受け取れて、アクセスが簡単になります読者になるツイート記事一覧｜ポケモンGO » 最近の画像つき記事ドラゴンクエストライ… 昨日アリーナおとといドラゴンクエストライ… おととい
dragnet

手法

抽出したテキスト

DOM PageRank (テキスト一様重み, $\alpha=0.5$ ）

2016-07-15 09:53:22 NEW ! テーマ：ブログいよいよ明日はポケモン映画公開‼️ 10年連続で映画ゲスト声優として参加させていただけるなんて幸せの極みです。感謝と愛‼️であしたの舞台挨拶を楽しみにしています夏はポケモン‼️ 今日までしか買えない前売り券でボルケニオンをもらおう AD いいね！リブログする NEW リブログボタンが追加されました！さっそく試してみようリブログって何？いいね！した人｜リブログ(0) 中川翔子さんの読者になろうブログの更新情報が受け取れて、アクセスが簡単になります読者になるツイート記事一覧｜ポケモンGO » 最近の画像つき記事ドラゴンクエストライ… 昨日アリーナおとといドラゴンクエストライ… おととい

dragnet

青字の部分は僕がメインコンテンツだと判断した部分です． DOM PageRankはメインコンテンツ前後の多少のノイズを含んではいるものの，うまく抽出できています．一方でdragnetは完全に抽出に失敗しています．

おわりに

今回は，半教師付きページランクをウェブページ（HTML文書）のメインコンテンツ抽出に応用してみました．さらに，簡単ではありますが，dragnetと性能を比較し，その実用性を示しました．この手法の強みは，初期重みを用いて，バイアスを入れることができるところです．今回はメインコンテンツ抽出ということで，テキストノードは重要だというバイアスを入れました．もちろん，他の重みを使うこともできるので，重みを変えるだけで異なるアルゴリズムに変身します．次回以降は，ウェブページの意味解析とかやりたいと思います．

コード

コードはgistに載せています．

https://gist.github.com/nkt1546789/dfc4f01dbf4aa8a9d32762e904865560

一応ここにも載せておきます．