«前の日記(2006-08-26 (土)) 最新 次の日記(2006-09-16 (土))»  

まちゅダイアリー


2006-08-28 (月)

コメント SPAM 対策 - 日本語を含まないコメントを禁止

小ネタ。 コメント SPAM 対策のため、 tDiary の SPAM フィルタや PukiWiki にて、DNS ブラックリストによる SPAM フィルタリングを使っている。 でも、最近はフィルタリングをすり抜けてくるコメント SPAM も増えているので、思い切って日本語を含まないコメントを禁止した。

ASCIIコードを見ながら、半角英数(1バイト文字)にマッチする正規表現を書いてみた(これが言いたかっただけだったり)。

/^[!-~ ]+$/

最初は記号を全部列挙していたんだけど、ハイフンを使って範囲指定すれば楽だね。

追記 (2006/09/02)

上の正規表現だと行単位のマッチになるので、1行だけ日本語が含まない行があった場合でもマッチしてしまう。 「^$」の代わりに「\A\Z」を使った方がいいね。

/\A[!-~ ]+\Z/

さらに追記 (2006/09/08)

あぁ。また間違ってた。 「\A\Z」を使う場合は、改行も指定してあげないとダメだ。 9月2日の例だと、2行以上で全て英数の文字にマッチしない。

/\A[!-~\n ]+\Z/

これでいいのかな? 時間が無くてちゃんと確かめられてないけど。 NTさんとこだと^$でも問題ないみたいだし、僕の例だと中国語や韓国語の SPAM に対応できないという指摘も頂いたし。

→ やっぱり動いてない気がする…orz。 確実に対処したい人は、きたさんのひらがなフィルタを使った方がいいかも。

/^[!-~ ]+$/m

とりあえず、元の^$方式に複数行オプション(m)をつけたら,tDiaryは動くようになった。 自信ないけど、時間も無いのでとりあえずこれで。 でも何故か、PukiWikiはこれでは上手くいかない。

tDiary 版

「tdiary/filter/japanese.rb」を作成した。

module TDiary
  module Filter
    class JapaneseFilter < Filter
      def comment_filter( diary, comment )
        if comment.body.match(%r|^[!-~ ]+$|m)
          false
        else
          true
        end
      end
    end
  end
end

PukiWiki 版

pukiwiki.ini.php の末尾に関数を記述する。

function check_commentFilter($msg) {
  if(preg_match("/^[!-~\n ]+$/", $msg)) {
    die_message('日本語を含まないコメントは書き込みできません。');
  }
}

ページの編集、コメント投稿の時に、この関数を使ってコメントに半角英数記号以外が使われているかどうかをチェックしている。

plugin/edit.inc.php

function plugin_edit_action()
{
  global $vars, $_title_edit, $load_template_func;

  if (PKWK_READONLY) die_message('PKWK_READONLY prohibits editing');

  $page = isset($vars['page']) ? $vars['page'] : '';

  check_editable($page, true, true);
  check_commentFilter($vars['msg']);

plugin/comment.inc.php

function plugin_comment_action()
{
  global $script, $vars, $now, $_title_updated, $_no_name;
  global $_msg_comment_collided, $_title_comment_collided;

  if (PKWK_READONLY) die_message('PKWK_READONLY prohibits editing');
  check_blackList($vars['page']);
  check_commentFilter($vars['msg']);

plugin/pcomment.inc.php

function plugin_pcomment_action()
{
  global $vars;
  if (PKWK_READONLY) die_message('PKWK_READONLY prohibits editing');
  check_commentFilter($vars['msg']);

小ネタなのでこれくらいに。

Tags: tDiary Wiki
本日のツッコミ(全5件) [ツッコミを入れる]
gitanes (2006-09-01 (金) 15:57)

すばらしいです!導入も簡単でしたし、効果もわかりやすくていいです<br>こういうの待ってました。本当に感謝です<br>これで、いちいち.htaccesで

まちゅ (2006-09-02 (土) 17:09)

いきなりミスが見つかったので修正しました。<br>でも、この方式が普及したら、またいたちごっこでしょうねぇ。

えろぺお (2006-09-04 (月) 02:06)

2バイト文字を含まないコメントを禁止する方法だと、中国語や韓国語の SPAM に対応できません。<br>日本語を含まないコメントを禁止する方法は、きたさんのひらがなフィルタが参考になると思います。<br>http://kitaj.no-ip.com/tdiary/20060625.html#p01

まちゅ (2006-09-07 (木) 22:29)

確かに、「日本語を含まないコメント」ではなく、「英数のみのコメント」を弾く設定ですね。

ボケネコ (2006-11-12 (日) 05:36)

はじめまして。<br>コメントに英数のみのコメントを排除する方法知りませんかとのご質問をいただきましたので、此方のURLを紹介させていただきました。もし問題があるようでしたご連絡ください。http://pchunntouki.seesaa.net/