2017-10-20 テキストマイニングメモ Webページのメインコンテンツの抽出方法。 「HTMLからのメインコンテンツ抽出 (Main Content Extraction)」とか「本文抽出」とか呼ぶらしい。 個別の詳細記事抽出のためのWebページ分割手法の提案 確率モデルを用いたWebブロックの役割推定手法とその応用 半教師ありページランクを用いたウェブページからの教師なしメインコンテンツ抽出