ホーム > タグ > Code

Code

百度(Baidu)のクソっぷりが止まりません

ちょっと久しぶりですがいつまで経ってもクソな百度について変化が起きているので、書きますね。

220.181.7.75 # baiduspider-220-181-7-75.crawl.baidu.com - Referer無し - Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.0) - zh-cn,zh-tw
220.181.7.87 # baiduspider-220-181-7-87.crawl.baidu.com - Referer無し - Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.0) - zh-cn,zh-tw
220.181.7.88 # baiduspider-220-181-7-88.crawl.baidu.com - Referer無し - Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.0) - zh-cn,zh-tw
220.181.7.95 # baiduspider-220-181-7-95.crawl.baidu.com - Referer無し - Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.0) - zh-cn,zh-tw
220.181.7.124 # baiduspider-220-181-7-124.crawl.baidu.com - Referer無し - Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.0) - zh-cn,zh-tw

今これだけのBaiduspiderが3日間の間に来てます。IPの国籍は中国になっているので、これって
本国のクローラーですね。IPの国籍が中国なら、私のこのブログは中国を完全規制しているので
蹴っているから良いんですが、今の所この百度のCIDRエリアを調べたけど分かりませんでした。
それで、この百度を含んでいる中国のCIDRはもちろん分かりますよ、220.160.0.0/11ですからね。

日本の百度が今クロールしてるのかって前に制御してしまったから、今来ているのかどうかさえも
知らなかったんだけど、そしたら今度は本国から堂々とクロールしに来ますか。また相変わらずの
クソっぷりで。今丁度Googleの中国問題が話題になってるって言う時に、空気読まずにこれか…
検閲なんかしてる中国ごときに私のブログなんて見に来て欲しくないんだよ、Googleと一緒でね。

リファラスパムにロケーション

普通に来るスパムはAkismetが片付けてくれるから良いんだが、最近多いのがリファラスパム。

リファラスパムの特徴はとにかく単細胞バカだと言う事。普通のスパムと違ってひねりが無い!
普通のスパムは串とか使ってとにかく色んなIPから来るんだけど、リファラスパムはIPが固定…
だから、少しは頭をひねってやれよ。私のブログでリファラスパムやろうなんて頭が悪過ぎるわ。

このブログで最初に確認出来たリファラスパムは、Yahoo!ショッピングからのリファラスパムで
IPはmegaegg.ne.jpの固定。もちろんYahoo!に通報して、megaegg.ne.jpは永久規制へと。
それで今来てるリファラスパムはgyao.ne.jpとwakwak.ne.jp。IPが固定されたままでするから
完全にモロバレなんだけどね。ただ、リファラスパムの嫌な特徴として、アクセス解析が反応して
しまう点がある。アクセス解析にリファラスパムが大量に残るのがウザいので、ちと対策しようと。

リファラスパムは単細胞バカだから、感じとして403エラーが何か分かってないっぽい。これまで
ずっとIP規制して403喰らわせてるんだけど、分かってないのかずっと続けてる。それでバカでも
分かる様に考えたのが、リファラスパム=リファラがあるって事だから、そこに飛ばしてやろうと!

それでロケーションが出てくる訳だが、こう言う場合は飛ばし方に注意が必要となる。と言うのも
普通の人はmetaタグで飛ばす事を考えるだろうけど、この方法だとリファラがこのサイトになる。
それにロケーションで飛ばすと言うのはあまり良い事じゃないから、出来るだけこの様な痕跡は
残すべきじゃない。つまりこう言う場合、ページじゃなくシステムレベルで飛ばさなきゃいけない。
それにシステムレベルで飛ばさなきゃいけない理由がもう1個ある。それはアフィリエイトの特性。
アフィリエイトは基本的に自分が踏んじゃいけない事になってる。これしたら点数稼ぎと見なされ
ヘタしたらアフィリエイト解約させられてしまうからね。リファラスパムをシステムレベルで飛ばす
と言うのはつまり、自分で自分のアフィリエイトを踏ませる事になっちゃうと言う訳なんだよねぇ!

そこで.htaccessが出てくる訳だが…これだとシステムレベルで飛ばせる事は飛ばせるんだが
301エラーで飛んでいってしまう。リファラスパムにてめぇは嫌われてんだよ!と思い知らせる為
には403エラーを喰らわせて飛ばしたい。そこで出てくるのがCGIだ!偶然に私のこのブログは
.htaccessで403エラーを発生させ、そしてエラー情報収集CGIが動くと。このCGIで飛ばせば
私の思った通りの動きで飛ばしてくれる(笑)403エラーで情報を取り、システムレベルで飛ばす
からアクセス解析も通らない!まさに完璧だ!これに懲りたらリファラスパムなんてやめとけ(笑)
リファラスパムなんて私は頭が悪い低脳です!って宣伝して周ってる様なもんだぞ、低脳がぁ!

あぁ、ついでにこのリファラスパムしてる奴、相当頭悪いみたいだからIPをみんなに教えるよ(笑)

59.156.138.31 # pppbm4781.tokyo-ip.dti.ne.jp
118.236.183.233 # 118x236x183x233.ap118.gyao.ne.jp
220.213.10.114 # z114.220-213-10.ppp.wakwak.ne.jp

んで、この中でも特に百度並みに酷いのが118.236.183.233のgyao.ne.jpがとにかく酷い!
考えれば分かると思うけど、私のブログにこれだけリファラスパムをやりまくってる訳なんだから
他の場所でやってない訳が無い!つまり、GYAOは色んなとこで規制されてる可能性が高い。
この状況に対処出来ないGYAOを使ってる人も相当バカって言う事よね。情報収集しなさいよ!

ちなみに上記3つのプロバイダは当然、このブログで永久規制かけてます。だから見れません。

百度(Baidu)が相変わらずクソ過ぎる点について

ちょっと久しぶりに百度ネタですが。何か最近、また活発化してきたと同時に嫌な動きが出てる。

61.135.163.156 # Referer無し - Baiduspider+(+http://www.baidu.jp/spider/) - Language無し
119.63.193.224 # Referer無し - Baiduspider+(+http://www.baidu.jp/spider/) - Language無し
119.63.193.225 # Referer無し - Baiduspider+(+http://www.baidu.jp/spider/) - Language無し
119.63.193.226 # Referer無し - Baiduspider+(+http://www.baidu.jp/spider/) - Language無し
119.63.194.45 # Referer無し - Baiduspider+(+http://www.baidu.jp/spider/) - Language無し

これはちょっと前に来てたBaiduspider+だが、私がわざわざrobots.txtにトップで百度は来るな!
って書いてあげてるんだから、robots.txtだけ見て帰りゃいいものを、わざわざクローラーしてくる。
今でも.htaccessで119.63.192.0/21は規制したまんまだから、そこはまぁ百歩譲るとしてもだ?
問題は61.135.163.156だ!このIPは中国になっているが、おまえら日本からがダメだからって
中国から日本用のBaiduspider+を普通動かすか?どこまでクズなんだよ!もうクズもいいとこだ!
おまえら技術ねぇの少しは自覚しろよ?それでどれだけの人に迷惑かけてんのか、そのカラッポの
脳みそで少しは考えてみろよ?中国なんて結局技術なんて何1つ持ってないのを晒してるだけよ?

百度(Baidu)がやっかいなとこから来てる

え~毎度バカバカしい話ではございますが、まぁた!まぁた!百度が迷惑をかけていますが?

百度のクローラーBaiduspider+が今までとは違うIPから来ているんですが、ちょっとここはねぇ…

119.63.193.37 # Baiduspider+(+http://www.baidu.com/search/spider_jp.html)
119.63.193.70 # Mozilla 4.3 - zh-cn,zh-tw
119.63.193.99 # Baiduspider+(+http://help.baidu.jp/system/05.html)
119.63.193.186 # BaiduImagespider+(+http://www.baidu.jp/search/s308.html)
119.63.193.190 # Baiduspider+(+http://www.baidu.com/search/spider_jp.html)
119.63.193.193 # Baiduspider+(+http://www.baidu.com/search/spider_jp.html)
119.63.194.40 # Baiduspider+(+http://www.baidu.com/search/spider_jp.html)

この部分は調べてみたら日本の百度で、119.63.192.0/21で一括りにして指定が可能ですが。
それで、実はやっかいと言うのはこの119.0.0.0/8のエリアから来ていると言う点なんですよね。
119のエリアと言うのは、国別に細かく分けられているエリアで、大部分が中国になってるけど
中国以外にも日本にも割り当てられてるエリアもあって、規制をするのが大変なエリアの1つ…
前のエントリーで中国のIPを完全に規制すると書きましたが、この119エリアはもぉ細か過ぎて
実は日本も含まれてるこの119エリア、全規制かけてました。それくらい大変なエリアなのよ…
全規制かけてたんだけど、今回の百度の出現により、ちゃんと細かく規制をかけ直ししました。
かけ直したけど、中国がらみで今規制強化している事もあって、残念ですが119エリアにある
中国以外の国も中国のIP規制に巻き込まれる形で規制しました。日本は何とか外したけどね。

それで、問題…いや、大問題か。大問題になるのは、119エリアから来ているって事じゃない!
何で私が119エリアからBaiduspider+が来ている事を知ったか?だよ!昔っから言ってますが
私のこのブログは、百度からのアクセスを完全に拒否しています。IPでも当然拒否しているのに
来たから、エラー情報収集CGIに記録されて、それで存在を知った訳です。でもね、それ以前に
何かとてつもなく重要な事忘れていませんか?私ちゃんと昔っからブログに書いてますよね?
robots.txtにBaiduspider+はどこも見るなと。robots.txtを守るってのはやっぱり大嘘だったか。

前からずっと言ってるけど、ルールさえ守れないクズが検索サイトなんて名乗るんじゃねぇよ!

百度(Baidu)の新たなる外道っぷり

ちょっと久しぶりですが、あの百度スパムが最近威力を増してきてるので追加報告を致します!

最近、前に書いたIP以外からのBaiduspider+が多数出現しています。一体どこまで外道なんだ?
まぁこれらが全て本物かどぉかは知りませんが、それでもこれまでのIPから来てるBaiduspider+も
相変わらずrobots.txtを無視してる訳なんだし、ホントに反省って言葉をまったく知らないんだね…

SetEnvIf Accept-Language zh language # 中国語
SetEnvIf User-Agent "Baidu" gedo # 中国検索エンジン Baidu (百度)

Order Allow,Deny
Allow from all

Deny from env=language
Deny from env=gedo
Deny from 60.0.0.0/11 # 60.0.0.0 ~ 60.31.255.255 [2097152 IPs] - CN
Deny from 66.90.73.113 # Baiduspider+(+http://www.baidu.com/search/spider_jp.html)
Deny from 66.90.109.56 # fast.scriptzbox.com - Baiduspider+(+http://www.baidu.com/search/spider_jp.html)
Deny from 72.232.218.82 # 82.218.232.72.static.reverse.layeredtech.com - Baiduspider+(+http://www.baidu.com/search/spider_jp.html)
Deny from 72.249.68.20 # reserve20.3inetwork.com - Baiduspider+(+http://www.baidu.com/search/spider_jp.html)
Deny from 122.152.128.0/23 # 122.152.128.0 ~ 122.152.129.255 [512 IPs] - JP
Deny from 122.152.140.0/23 # 122.152.140.0 - 122.152.141.255 [512 IPs]
Deny from 161.58.189.92 # Baiduspider+(+http://www.baidu.com/search/spider_jp.html)
Deny from 198.145.0.0/16 # 198.145.0.0 - 198.145.255.255 [65536 IPs]
Deny from 202.96.0.0/12 # 202.96.0.0 ~ 202.111.255.255 [1048576 IPs] - CN
Deny from 207.58.185.202 # Baiduspider+(+http://www.baidu.com/search/spider_jp.html)
Deny from 207.234.209.125 # Baiduspider+(+http://www.baidu.com/search/spider_jp.html)
Deny from 208.53.147.195 # Baiduspider+(+http://www.baidu.com/search/spider_jp.html)
Deny from 211.9.49.82 # 211-9-49-82.cust.bit-drive.ne.jp - Baiduspider+(+http://www.baidu.com/search/spider_jp.html)
Deny from 217.146.93.13 # Baiduspider+(+http://www.baidu.com/search/spider_jp.html)

…どぉするよ?こんなにも増えてるんだぞ?しかもさ、最近アクセスアナライザーとかを見てると
外国からも百度のIPとかで検索されて、このブログに来る人が残念ながら増えてきております。
もぉ百度は完全に世界の敵だね。まさに外道だね。こんな百度を世界中で「悪の枢軸」と言う!

それと私が発表したIPでCIDRになってる部分が他の関係無いIPも混ぜてしまってると言う発言
がありましたが私はそんなの気にしてません。私のIPリストは、中国のIPリストを混ぜて総合的
に考えています。それに最近大量のスパムが来まくってますが、その内半分は中国のIPです。
百度とスパム、両方とも絶対に来て欲しくないのでCIDRになってる部分は中国そのままのIPと
考えてもらった方が良いです。それと、最近やっと各国の最新IPリストを得る方法を知りました。
それを使って、IPリストの方も更新しなければいけないので、この先CIDRの範囲も変わってくる
可能性があります。それにも対応しなければいけません。それでIPリスト検索CGIを作りました。
IPリスト検索CGIが完成・公開出来る様になれば、私がこの様に書かなくてもみなさんで調べて
もらえば、その時点での最新の情報を見る事が出来る様になるし。自分だけで全IPのリストを
作っていくってかなり大変な作業ですよorzそれでもスパマーのおかげで結構出来ましたが(笑)

[関連リンク]
中国の検索大手「百度」、前ソニー会長の出井氏を社外取締役に:ニュース – CNET Japan

百度(Baidu)と言う名の外道

私は百度に対しては怒りを通り越して呆れてしまっているので、もぉ書かなくなってしまったが。

じゃ、何でまた書くのか?百度関連で検索して、このブログに来る人があまりに多い。多過ぎ!
みんなまだ調べて来るって事は、未だにBaiduspider+が暴れてるって事だよな?ホントにもぉ
百度いい加減にしろ!私はここしばらくウイルス感染で生ログのチェックをしてないけど、前まで
見てた時はrobots.txtに書いてても当たり前の様に来てるし、またそのrobots.txtも見ないし!
みんなホントに困ってるんだよ?何故それが分からん?まぁそぉ言う低脳集団だから仕方無い。
書かなくなった間でもちゃんと情報収集してBaiduspider+規制は進化してるんで公開しますね。

SetEnvIf Accept-Language zh language # 中国語
SetEnvIf User-Agent "Baidu" gedo # 中国検索エンジン Baidu (百度)

Order Allow,Deny
Allow from all

Deny from env=language
Deny from env=gedo
Deny from 60.0.0.0/11 # 60.0.0.0 ~ 60.31.255.255 [2097152 IPs] - CN
Deny from 122.152.128.0/23 # 122.152.128.0 ~ 122.152.129.255 [512 IPs] - JP
Deny from 202.96.0.0/12 # 202.96.0.0 ~ 202.111.255.255 [1048576 IPs] - CN

60.0.0.0/11はasd.tj.cn、122.152.128.0/23はasianetcom.net、202.96.0.0/12はbta.net.cnで
来たBaiduspider+を規制していますが、こいつら相当の悪でこれら以外のIPを使って来る場合
があるので、とりあえず私が作った中国のIPリストを併用して設定すれば、まず入って来ない。
上で書いたけど、こいつrobots.txtを見ないし従わないから、この方法が必須になりますので。

[関連リンク]
百度が日本語検索サービスを開始–その実力とは? – CNET Japan
中国当局、「百度日本」への中国からのアクセスを遮断か

百度(Baidu)スパム超超超大量爆撃

あの…これもぉ検索ボットってレベルじゃねぇぞ!これからは百度スパムと呼ばせて頂きます!

昨日の生ログを見たら…来てましたよ、百度スパムが!その数何と467回!1日で467回だよ?
前にコメントスパム超大量爆撃事件があったけど、あれでも1日200回よ?それの倍以上って…
こんなに酷いスパム見た事無いわ!一応、前のエントリーで書いた対処法がちゃんと効いてる
様で1発も被弾してませんが、それでもXREAのサーバーは負荷率を計測してしまいましたわorz
どぉやら本気でこのブログを潰す気みたいですね。自分達がやってる事を棚に上げてよくもまぁ。
しかも今回はIPを変えてきました。ip-122-152-129-11.asianetcom.netと言うホストだったけど
このIPを割り出して調べてみると、IPアドレス割当国が日本になってる…これはまた…酷いなぁ。
それと前回使ってたwww91.asd.tj.cnですが、IP割り出せました。それに他に使ってたホストから
その前にずっと昔に使ってたIPが3桁で残ってたので、そのIPエリアをCIDR使って規制しました。
感じとしては3桁目を8エリア規制してみましたが、今の所は百度スパム以外引っかかって無い
ので、このエリアの規制は有効だと思います。それに今回のIPと、さらに他の情報を混ぜると?

SetEnvIf Accept-Language zh lang_ng # 中国語
SetEnvIf User-Agent "Baidu" zako # 中国検索エンジン Baidu (百度)

Order Allow,Deny
Allow from all

Deny from env=lang_ng
Deny from env=zako
Deny from 60.28.16.0/21 # 60.28.16.0 ~ 60.28.23.255 [2048 IPs] Baiduspider+
Deny from 122.152.129.11 # ip-122-152-129-11.asianetcom.net Baiduspider+
Deny from 202.108.11.152 # Baiduspider+
Deny from 202.108.23.81 # xd-23-81-a8.bta.net.cn Baiduspider+

今はこんな感じです。IPが割り出せる様になったのと、この百度スパムのIPを調べ出す方法を
知ったので今は良いけど、ちょっと前にこの百度スパム、UserAgentがカラ(設定されてない)の
ままで来る時があって、それだとzakoに反応しなくなる為、一応IPの規制がメインになります。

しかしまぁ、前のエントリー書いてから百度の事を調べに来た人が大量に居てビックリしました。
そしてみんなその存在を知り、来て欲しくないと思ってる様で、色んなトコで紹介された様です。
そんなスパム行為ばっかりしてる雑魚が日本に進出して受け入れられると思ているのかねぇ?
どこまで脳無しなんだろ。雑魚の百度に私から言いたい事はたった1つだ。「too late(手遅れ)」

[追記]
調べてみたら、robots.txtにこれを書けば止められるかもしれないっぽい。なので、robots.txtに

User-agent: baiduspider
Disallow: /

これを追記した。これで本当に止まれば良いんだけどな。結局、百度スパムには期待してない。

[追記2]
百度スパムを規制してるとrobots.txtも見れないので、見せる為に.htaccessの一番最後に追加

<files robots.txt>
Allow from all
</files>

ったくもぉいちいちマンドクセーなぁ!雑魚検索サイトの分際で、いちいち人の仕事増やすなよ

[関連リンク]
日本進出が決まった中国最大の検索サービス「百度」の実態 – CNET Japan
M.C.P.C.: MT4iと百度(Baidu)クローラの相性問題、mod_securityによるアクセス拒否
ITサポーターズの仲間たち 行儀の悪い糞bot
ITmedia +D PC USER:検索サイト「百度」がえらいことになっている
Robot Info: BaiDuSpider
↑読み込みに時間掛かるけど、Baiduが最近使ったIPが表示されます

IP規制とRBL利用の限界

スパム退治で良く用いられているIP規制とRBLの利用ですが、知ってみるとすでに限界っぽい…

まずIP規制ですが、ちょっと前にKazuさんにCIDRとin-addr.arpaを教えてもらって勉強してました。
CIDRを教えてもらった時は、規制エリアを指定出来ると言う事で凄く役に立って今も使ってます。
が、しかし!?その次のin-addr.arpaを教えてもらった時「あぁ、IP規制もこの辺が限界だなぁ…」って
思いました。今でもうまく説明出来ませんが簡単に言うと、1つのIP内でも色々と細分化されてる
為、規制の最小単位である1IPでも規制したくないIPが存在してる可能性が充分あるって事です。
もっと単純に言うと、私のこのブログはXREAで今s251サーバーなので、IPは210.172.108.230に
なりますが、当然このサーバーを使ってるのは私だけじゃない訳ですよね?他にも使っている人
が居る訳だし、私みたいにドメインを使ってる人も居る。でも、このblog.tanechan.jpを逆引きすると
結局IPは210.172.108.230になります。つまり、このIPじゃ完全に私を指定している事にならない。
なので、これをさらに細分化して私のみを指定する為に必要なのがin-addr.arpaって技みたいorz
IPだと、ここまで難しい事をしないと指定出来ないと言うのが分かった。でも、これを逆に言うとね
ドメインの方を使えば物凄く簡単に私を指定出来るって事にもなります。なのでこのブログ内での
IP規制はドメイン規制をメインに切り替えようと思ってます。IP規制はちょっとした保険レベルかな。

そしてRBLですが、これに上で書いた内容が結構関係しています。miyagawaさんのSpamLookup
で指定しておいた方が良い
と書かれているniku.2ch.netですが、実はこれにXREAのサーバーが
指定されています。さらについ最近テテさんの掲示板で判明しましたが、sbl-xbl.spamhaus.orgと
言うRBLにもXREAが指定されています。登録されている原因はちょっと前にあった事件なんだが
それが原因でXREAのサーバーはまずRBLに登録されてしまっています。まぁその事件の内容が
内容なだけに解除してくれとも言いにくいし。でもこの事件のおかげでホント大迷惑してる訳です。
前のエントリーでもぉトラックバック送りたくないって書いたけど、トラックバックは普通サーバーIP
になるし、このniku.2ch.netやsbl-xbl.spamhaus.orgを使ってるトコも多いと思うから、これで完全に
トラックバックは送れないな。XREAは良いサーバーだと思うけど、XREAのサーバーを使っている
限り、トラックバックと言う機能はきっと意味が無い機能に成り下がるね。なんなんだろ、ホント…

おまけとして、コメントスパム超大量爆撃事件の続報ですが、前の事件の時ほど酷くは無いけど
今でもちゃんと来てますよ。しかもワンパターンだからバレバレだが、IPだけはコロコロ変えてる。
今まではIPでもドメインでも、規制する時はそれなりの回数使われたIPやドメインだけを規制する
やり方でしたが、このスパマーはアホ過ぎて「こいつだ」ってすぐ分かります。で、どぉせ使ってる
IPは全てProxyだろぉから、このアホスパマーが使ったIP・ドメインに関しては、1発で永久規制に
しています。永久規制になったIP・ドメインは書き込めないだけじゃなく、このブログを見る事さえ
出来なくなりますし、さらに解除する気はありません。それで、今までも日本のIPを使ったモノが
ありましたが、規制はしていません。ちゃんとやればトラックバックだって受け取ります。しかし!?
このアホスパマーが日本のIPも使って来ました。このIPが何か、ISPのIPじゃないみたいなので
残念ながら日本のIPだけど永久規制になりました。それで、ここでそのIPを発表しちゃいます!

61.206.125.114 # neptun.ium.ne.jp
202.248.48.251 # xip015251.bba.fenics.jp
203.152.206.153 # 203.152.206.153.static.zoot.jp
218.44.162.34 # dns1.nakashima-mec.co.jp

何で発表したか?と言うと、このアホスパマーが使ったと言う事は簡単に言えば、そのサーバー
にスパムを送信出来る穴があると言う警告です。そのサーバー使用者は良いかも知れませんが
上に書いた様に、他にそのサーバーを使ってる人に大迷惑が掛かる訳ですよ。なので、今ここで
公表されたサーバーの人、穴を塞がないと私のこのブログみたいにスパム認定される事態に…
ちょっとこの4つのwhoisとか見てたんだけど、何か元がインターリンクってのが多い気がするなぁ。
私の中でちょっとインターリンクに対しての評価が暴落してしまったな。監視出来て無い証拠だし。
そぉ言えば「インターリンク」と「スパム」、この2つのキーワードで悩んでた人が周りに居た様な…

[関連リンク]
@IT:DNS Tips:/24よりも小さいアドレスブロックの逆引きの設定方法とは

スパム大量爆撃来たけど…

イインダヨ!グリーンダヨ!!だって来たスパム全てエラー喰らわせて見事追い返してるしさ…

と言う事で、Movable Typeに付いているスパム撃退機能とかありますが、ここでは今このブログ
に導入している強烈なスパム撃退法をちょっと公開しちゃおうと(笑)ただ、このスパム撃退法を
公開する事で逆に穴(抜け道)も分かってしまうだろぉけど、穴が分かった!からと言って、これで
簡単にスパムが送れるとは全然言えない程の小さな穴ですし。「夜の私はガードが固いの」(笑)

まず、コメントスパムの撃退法ですが、ポイントは使用言語です。私のブログは書いてませんが
Japanese Onlyなので単純に日本語以外を弾けば良い訳だが、Movable Typeのプラグインなど
では、コメントの本文に書かれた文字で判別するしか無いので、外人が全文日本語でコメントを
書くと弾く事が出来ない。そこで書いた人のPCが設定・使用している言語を判断して弾きます。
ただこの使用言語、OSの使用言語で判断しているのか、又はブラウザの使用言語で判断して
いるのかはまだ分かっていませんが、どっちにしても物凄~く効くので、ご使用には注意を(笑)
Movable Typeインストールフォルダの.htaccessに下記の6行を書き加えるだけの簡単作業です。

<files mt-comments.cgi>
SetEnvIf Accept-Language ja language_ok
Order Deny,Allow
Deny from all
Allow from env=language_ok
</files>

これは何をしてるか?と言うと、コメントCGIにアクセスした場合、まずとりあえず全部を拒否して
その中で使用言語が日本語の場合だけアクセスを許可する。と言う処理をしてくれるモノです。
スパマーは頭が悪過ぎるので、たったこれだけの事で全滅します。もし仮に、これをクリアしても
次に私が完成させたCGIリネームが待ってます。さらに、これをクリアしても最後に強烈な難問
OgawaさんのCaptcha Pluginがあって、スパマーにはこれがどぉしても突破出来ないみたい(笑)
ここまで突破して、初めてMovable Typeに上がってくる訳ですが、それでもまだSpamLookupで
弾かれてJunk逝きにもなるし。とりあえず使用言語で弾くだけで寂しくなるくらいスパム来ない。

次にトラックバックスパムの撃退法ですが、ここでのポイントはUserAgentです。トラックバックは
ブログシステムが送るモノです。だからトラックバックCGIにアクセスしてくるのは普通サーバー
のIPでブログシステムのUserAgentになります。サーバーの生ログを見る様になってから初めて
気付きましたが、トラックバックスパムってブラウザで送ってます。だからIPはプロバイダIPになり
UserAgentはブラウザのUserAgentになります。つまり、トラックバックCGIにブラウザでアクセス
してくる奴を弾けば良いって事になります。で、さらに気付いた事ですが、スパムを送ってくる奴
のほぼ半分がOpera使ってます。Operaと言えばノルウェー産…ここでもノルウェーかよウザッ!
どのブログか忘れましたが、ブログからトラックバックを送るとブラウザと同じUserAgentになると
言うブログがあるらしいですが、どれの事か忘れた。そんな無名なブログからのトラックバックの
為だけにUserAgentで規制を掛けないと言うのは、あまりにもこちらのリスクがデカ過ぎる訳だし。
Movable Typeインストールフォルダの.htaccessに下記の7行を書き加えるだけで出来ると思う…

<files mt-tb.cgi>
SetEnvIf User-Agent "Mozilla" browser_ng
SetEnvIf User-Agent "Opera" browser_ng
Order Allow,Deny
Allow from all
Deny from env=browser_ng
</files>

何で「出来ると思う」か?と言うと、このソースは今考えて書いたモノで、私が実際に使っている
ソースではありません。実際に使ってるソースはCGIリネーム究極版用に書かれている難しい
内容なので公開には向いてない、と言う事で上に書いたコメントスパム撃退用のモノを即興で
作り変えてみました。多分これで動くと思うんだけどなぁ。前に実施したトラックバックテストとは
まさにこの実験をしていた訳です。この時にも書きましたが、これを仕掛けて弾けるスパムって
全体のだいたい8割ぐらいです。後2割は何か?と言うと、UserAgentが無い奴とか、ブログとか
XOOPSとかみたいにちゃんとそぉ言うシステムを使って送ってきたスパムは通過しちゃいます。
これをクリアされると次に弾く方法がCGIリネームです。元々トラックバックスパムを撃退する為
にCGIリネームの開発が始まった訳ですし。これを突破するとMovable Typeに上がってくる事に
なる。トラックバックはその性質上、間口が広い。悪く言えばスパムをガードしにくい訳なんだが
この7行を入れただけで、トラックバックスパムもまったく上がってこなくて、逆に寂しいくらい(笑)

実はこれらを実行すると、さらに嬉しい副作用が発生します。Orderで弾かれるとサーバーでは
403エラーを返します。この403エラーになった奴の情報を集めれば、スパマーの傾向と対策が
取りやすくなります。そこで私は前にOgawaさんのAutoIPBan Pluginで集めたIPリストにこれらで
集めたIPやUserAgentを記録する様にして整理し、今度はOrderでIPを指定してアクセス規制を
掛けるのに利用したりしています。これでスパムを送れば送る程、規制が強烈になってく訳(笑)
ちなみにこのIPリストを見たい方、中身は結構貴重な情報なのでリンクを貼る事は出来ません
が↓ずっと下にあるトラックバックURLの右の数字の羅列を消してlist-ip.txtにすると見れます。

CGIリネームの開発・発展にはどぉしても.htaccessの勉強が必要なので色々調べてたら偶然
この技を見つけて、何かに使えないかなぁと思って生ログ見てたら、これらを思い付いた訳(笑)
.htaccessに手を出すと言うのは結構危険なので寄り道はこれぐらいにして、またCGIリネーム
の開発に戻らないと。でも多分またこんな感じでCGIリネームの副産物が出てきそうな予感が。

前のエントリーで作ると言ったCGIリネームのページを今回公開しましたが、実はまだ製作途中。

百度(Baidu)酷過ぎるぞ!

スパム規制が強烈過ぎるのか全然上がってこないんだが、今スパムよりさらに酷いモノが来た。

百度とは、中国ナンバーワンの検索サイトなんですが、これの検索ボットの動きがとにかく酷い!
今、検索サイトでは各サイトで検索ボットに来て欲しくない場所を指定出来るrobots.txtを置いて
指定された場所は見に行かないのが常識なんだが、百度の検索ボットってこれを完全に無視!
私は前からずっとrobots.txtにMovable Typeインストールフォルダ内を見ない様に指定してあって
この中にはMovable Typeのブログを携帯で見れる様にするMT4iも置いてある。で、標準で出力
されるPC用のページと、MT4iが出力する携帯用のページと、2つが検索で引っかかるのが嫌で
さらにここはシステム関係が沢山置いてあるから覗かれたくないって事で指定した訳なんだけど
これを百度の検索ボットが容赦無く覗いて行きやがる!さらにXREAのサーバーって当然、CGIが
動くと負荷を計測するシステムになってる。で、MT4iは当然CGIだ!これを容赦無く動かすから
もぉ負荷率が上がる…orzこんな最低な検索サイトに別に引っかかる様にして欲しいとも思わない
し、2度と来て欲しくないので百度の検索ボットには今までに無い徹底的な規制を施しますので。
サイト側の都合も考えず、ルールも無視して好き勝手に動いてさ、人のブログを潰す気なのか?
このまま放置して負荷率が上がり続けてたら、冗談抜きにアカウント凍結されかねないからなぁ!
昔から良く言われてる事だけど、中国と韓国の奴にはとにかく見れない様にした方が良いらしい。

で、.htaccessに以下の内容を追加

SetEnvIf Accept-Language zh lang_ng # 中国語
SetEnvIf User-Agent "Baidu" zako # 中国検索エンジン Baidu (百度)

Order Allow,Deny
Allow from all

Deny from env=lang_ng
Deny from env=zako
Deny from www91.asd.tj.cn # 中国検索エンジン Baidu (百度)

実はまだ酷い部分があって、www91.asd.tj.cnってこの検索ボットが使ってたホスト名なんですが
Orderをホスト名で指定すると、DNS逆引きが発生してサーバーに負荷が掛かってしまうみたい。
だから、ホスト名を逆引きしてIPを出そうと思ったら…IPが出て来ない…orzこれは悪質過ぎるわ。
前からOrderでcnを規制してたのに、こいつは入ってきた。その理由は多分この辺だろぉと思う。
とにかくこいつにはCGIを実行させる前に絶対に403 Forbiddenを喰らわせて完全規制しなければ
いけないので、USER-AGENTと使用言語で規制を掛けると言う大技になってしまった訳なんで。
あ、ちなみに何でzakoか?と言うと、三國無双で私の好きな呂布様が「雑魚が吠えるか…」って
言ってたので、その言葉をそっくりそのままお返ししただけです。呂布に雑魚って言われるって。
流石海賊版大国の中国だけあって、見た目だけで中身が無い技術の酷さはいい加減にしろと!

[関連リンク]
日本進出が決まった中国最大の検索サービス「百度」の実態 – CNET Japan
日本進出が決まった中国最大の検索サービス「百度」の本当の実態 (ひるねこ日記)
Web屋さんのひとりごと 「百度(バイドゥ)」はまともか?
ふと思う–ちょっと考える (いたずら編): Baiduspiderを出入り禁止にする
M.C.P.C.: MT4iと百度(Baidu)クローラの相性問題、mod_securityによるアクセス拒否

Home > タグ > Code

検索
フィード
メタ情報

Return to page top