スパムプログ(スプログ)とは,アフィリエイト収入を得ることを目的として,
広告主への誘導または対象サイトのページランクを増加する目的の
もとで,機械的な文書作成や他サイトの引用という手段を用いて自動的に記事を生成し,
大量のリンクを有するようなブログのことである.
このようなスパムブログの特性を分析するとともに,
それらを効果的に排除する技術を開発している.
- 研究助成
- 筑波大学 ロケット・スタート支援
「外国語文書中の評価・意見情報の抽出・翻訳サービスの実現」,
(代表者),平成18年度.
- 情報・システム研究機構 国立情報学研究所
共同研究(公募型)
-
「世界ニュースのための多言語ニュース記事およびウェブブログ記事収集および分析支援システムの構築」
(分担者),平成19年度.
- 科研費 基盤(B),「トピックの特性を言語間で比較・対照分析する多言語ウェブテキストマイニングの研究」,
(代表者),平成20〜22年度.
スパムブログデータセットの作成と分析
日本語ブログ空間における主要ブログホスト会社10社を対象としてスパムブログを収集し,
同一のスパムブログ作成者によって自動生成されたスパムブログ(大量生成型スパムブログ)の
特性を分析する.
機械学習を用いたスパムブログ検出および能動学習によるスパムブログ収集・検出
-
"機械学習を用いたスパムブログ検出における信頼度の利用",
- 片山 太一, 佐藤 有記, 宇津呂 武仁, 芳中 隆幸, 河田 容英, 福原 知宏,
- データ工学と情報マネジメントに関するフォーラム---DEIM フォーラム--- 論文集, pp.-, March 2009.
-
An Empirical Study on Selective Sampling in Active Learning for Splog Detection,
- Taichi Katayama, Yuuki Sato, Takehito Utsuro, Takayuki Yoshinaka,
Yasuhide Kawada, and Tomohiro Fukuhara,
- Proceedings of the 5th International Workshop on Adversarial Information
Retrieval on the Web, pp. 29-36, April 2009.
スパムブログのHTML構造の類似性を用いた教師なしスパムブログ収集・検出
日本語ブログ空間における主要ブログホスト会社10社を対象として,
スパムブログのHTMLファイルをDOM構造として抽出することにより,
同一のスパムブログ作成者によって自動生成されたスパムブログ(大量生成型スパムブログ)の
HTML構造が酷似していることを示す.
-
"スプログ検出におけるHTML構造の類似性の有効性の評価"
- 片山太一, 芳中隆幸, 宇津呂武仁, 河田容英, 福原知宏.
- 情報処理学会研究報告, 2009-DBS-149, November 2009. (学生奨励賞受賞)
-
Detecting Splogs using Similarities of Splog HTML Structures,
- Taichi Katayama, Takayuki Yoshinaka, Takehito Utsuro,
Yasuhide Kawada, and Tomohiro Fukuhara,
- Proceedings of the 4th International Conference
on Ubiquitous Information Management and Communication, pp. -, January 2010.
________________________________________________________________________