テキストマイニングメモ

Webページのメインコンテンツの抽出方法。

「HTMLからのメインコンテンツ抽出 (Main Content Extraction)」とか「本文抽出」とか呼ぶらしい。