[ 11281 ] 迷惑メール(spam)撲滅私的調査会 HTML化ログ |
---|
ID-code:/q8xmlI5ru2
ええっと、懸案だった過去ログの一括検索を可能にしました。
先日までに自動による過去ログHTML化まではしており、
あとはgoogleの拾うのを待つかと思いましたが
1000以上もの、しかもリンクを張られにくいページですので
googleはきちんと拾わないんじゃなかろうか、という気がしまして
自分で検索機能を付けることにしました。
で、つけたのは、じゃ〜ん、長年懸案だった「Namazu」さんです。
私は中国史サイトを作っていて、まだgoogleが無かったたときから、
サイト内検索というのに何回かチャレンジしたこと、
実際に設置していたことがありました。
その時には全文検索を用いていました。
現在ではかろうじて中国史人物伝
http://www2g.biglobe.ne.jp/~stakasa/china/zazhuan/zitozi-j.html
の所に残っていますが、
以前はこれが私のサイト内全体を検索するようにしていたのですが、
いつの間にか過負荷で動かないようになってしまったのです。
(BIGLOBEは負荷が一定以上になると動作しない)
そうこうしているうちに「例の」googleが誕生、発展し、
いつの間にやら自分のサイト内ページをほとんどを
拾ってくれると言う、恐るべき、有り難い状況になり、
わざわざ自分で検索システムを設けなくても良くなりました。
それでも管理しているMLの検索システムなどに絡んで
いつか自分でも検索システムを導入できるようになりたいと
思っていたのですが、今日、というか昨日ですが
改めて「Namuza」関連の指南ページを見たところ、
なんとか出来そうだ、ということになり、今回の導入となりました。
導入に当たっては以下のサイトの方々に深く深く海よりも深く感謝します。
日本語全文検索エンジンソフトウェアのリスト
http://www.kusastro.kyoto-u.ac.jp/~baba/wais/other-system.html
Namazu(Perl版)設置ノウハウ
http://village.infoweb.ne.jp/~fwnk1502/data/howto2.htm
Namazu perl版
http://www01.tcp-ip.or.jp/~furukawa/pnamazu/
ID-code:/q8xmlI5ru2(本記事は04/08-03:21に修正されました) 分かりにくくなったので、当掲示板の過去ログシステムについて 用語説明という形で解説しておきます。 [用語説明] ●スレッド 同じ話題を基本とする投稿の集まり。 最初の投稿と、それへの返信、そのまた返信などなどから成る。 新しいスレッドは「新規投稿」で作ることができ、 これを「スレッドを立てる」などと言ったりもする。 スレッドを立てた人を「スレッド主」と呼んだりする。 ●現行ログ まだ過去ログに入っていない投稿データ。 頁下の方の「次の頁」から移動することができ、大体 4〜6頁ほど蓄えられる。蓄えられる投稿数が決まっていて、 溢れた分が「過去ログ」へと移動する(この量は私が適宜調整することがある)。 現行ログである限り、誰でも返信をつけることができ、 また投稿者によってページ下から修正、削除が可能である。 返信がつくと、そのスレッドは一般に最前の頁の一番上へ 移動する。これを「上がる」と言ったりする。当掲示板では スレッド主が「全sage指定」をすることが出来、 それで指定されたスレッドは誰が返信しても「上が」らない。 「sage」については http://bbs.spamstop.net/note.html#sage を参照。 ●通常過去ログ wforumで一般に言われる過去ログのことを指す。すなわち http://bbs.spamstop.net/wforum.cgi?mode=past にて閲覧できるログのこと。 現行ログにおいて、古くなって溢れたものが過去ログとして 加えられていく。 過去ログは一つではなく、やはり一定量を超えると新しく番号のものが 生成される。すなわち、最初は現行ログから溢れた分をa番に保存するが、 a番が一定以上になるとa番への追加は停止し、 次の(a+1)番のログを作成、そこに現行ログから溢れた分を付け足していく。 このようにして 0001番、0002番、0003番.... という「過去ログ」が生成されていく。 wforumではVer3.xxから、過去ログも現行ログと同様な形で 閲覧、検索をするようになり、見た目は現行ログと変わらなくなった。 これに伴い、投稿データも通常のホームページHTML文章として 保存されるのではなく、 wforum.cgiからの呼び出し専用のデータベースとして存在する。 これは 「容量の圧縮になる」「現行ログと変わらない検索が出来る」 というメリットがあるという一方で 「一般のサーチエンジンにほとんど引っかからない」 「検索を各ログ番号ごとにせねばならない」というデメリットを持つ。 思うに...Ver3.xxより前は過去ログをHTML化していたようだが 検索機能が無かったのではないかと思う。 しかもHTML化することは容量の増大を招くし、 それから投稿者のホスト元などの情報が過去ログに入ると 失われると言うデメリットもあったと思われる。 (よく分からない) その為に今のような形になったのであり、 これはこれで完成した形であると思う。 しかしながらやり取りが活発でログが膨大になる掲示板では 必ずしも過去ログをうまく活用しやすい形になっているとは言い難い。 WindowsFAQ http://winfaq.jp/ は非常に活発なやり取りがされている代表的なサイトであるが 過去ログの扱いに苦労している感じが窺える。 とにもかくにも.... ●HTML化ログ 出来る限り過去ログを活用するとなると やはり元に戻ってHTML化することが望ましいと考えた。 そこで当サイトでは過去ログが次の新しい過去ログへ移るとき、 すなわち追記されないことが確定した過去ログが出来たときに、 同時にHTML化ログを生成することにした。 HTML化ログは 「ツリー一覧」 http://bbs.spamstop.net/past/0002.html と 「スレッドごと投稿内容頁」 http://bbs.spamstop.net/past/log/000744.html からなる。 前者では過去ログ一塊りのツリー表示が全部が一頁にまとまったもの、 後者はスレッドごとに頁が作られるものである。 前者のツリーからは後者の頁にリンクが張ってあり、 また逆のリンクも張ってある。 なお、ツリー一覧の大目次 http://bbs.spamstop.net/log_index.html も、上のHTML化ごとに自動で新しく作り直される。 それほど複雑なことをするのではなく、その時にpast直下にある 00XX.htmlを調べ、それらの全てにリンクを張るような頁を作る。 なお、大目次では各ログの投稿番号、投稿日時の範囲を表示しているが これは若干複雑である。 すなわちHTML化する際、ファイル某にそのデータを書き込むようにしている。 0001.htmlが作られたときにはその投稿番号範囲と投稿期間が記入され、 0002.htmlが作られたときにはそのデータが記入され... と一方的に加わっていくデータファイルがあり、 大目次を作るにあたってそのファイルを呼び出して 00XX.htmlの投稿番号範囲などのデータを引っぱり出すのである。 ●投稿された内容の流れ 以上のようなシステムにより、投稿は以下のような流れを辿ることになる。 以上のようなシステムにより、投稿は以下のような流れを辿ることになる。 現行ログ−−−−−−−−−−−−−−−−−−−−−−−−→↓移動ログ追跡機能 ↓ ↓ ↓−追い出されるまで:自動 ↓ ↓ ↓ 通常過去ログ(追記中)←探索?−−−−−−−−−−−−−←↓ ↓ ↓ ↓−その過去ログの追記が終わり次第:自動 ↓ ↓ ↓ ├→通常過去ログ(追記終了)←探索?−−−−−−−−−−−↓ ↓ ↓ HTML化ログ ↓ ツリー一覧 ↓ スレッド毎投稿内容頁←探索?−−−−−−−−−−−−−−← ↓ ↓ ↓ ↓−管理人による手作業 ↓ ↓ ↓ Namazuのインデックス入り ↓ ↓−ロボットが拾い次第 ↓ 一般のサーチエンジン入り 上記のようにHTML化されるのは通常過去ログへの移入よりも ワンテンポ遅れることになる。すなわち現行ログには既に入っていないが まだHTML化されていない投稿(スレッド)というものが存在することになる。 当掲示板では以前から、過去ログに現行ログから過去ログに入った場合に 容易に追跡が出来るような検索システムを設けていたが、今回、 それを若干拡張した。
ID-code:/q8xmlI5ru2
投稿しようしようと思ってし損なっていました投稿です。
まず導入したNamazu利用検索頁はHTML化大目次と同じ
http://bbs.spamstop.net/log_index.html
です。
それから、HTML化頁ですが
1000ファイル以上のファイル数なので、万が一
リンク切れなどが有りましたら御連絡下さると大変助かります。
さらに、これはまたまた半ば愚痴ですが、
インデックス式検索システムは容量を喰います。
なんと、契約サービスは100MBなのに
もはや80MBに達してしまいました!(^_^;;)
元のデータは15〜20MBしかないはずで
HTML化したものとインデックス(+別関係のデータ)で
その量まで行ってしまいました。
トホホですね。
ということで元のデータすなわち通常過去ログ
http://bbs.spamstop.net/wforum.cgi?mode=past
は古いものから順に削除する可能性があります。
それをしても焼け石に水という話もありますが....う〜ん。
先日、過負荷のことで問い合わせがあり、
プログラムを直したと書きましたが
過負荷に関係なく、上位コースへの契約を迫られている
気がしないでもないです。
でもspamに関してそこまで自腹を切るのも馬鹿馬鹿しいわけで〜、
という感じで、どうするかは分かりません。
まあそれまでせいぜい活用して下さい。
ID-code:65Kf4MIAZ.I
K.K.です。
管理人さんの環境がわかりませんけど、
もし常時接続とかやっていてLANとか張ってるんであれば、
自宅サーバー化するっつー手もありますよ。
容量は自分の手元のHDDの分だけ使えますし、転送制限とかなくなりますし。
自前で運営する以上は自己管理の厳重さが要求されるというのがありますけど、
負担は軽くなると思いますよ。
プロバイダが過負荷だって客に苦情突きつけて来るくらいなら、
見切りつけた方がいいと思いますけどね。
あるいは業者代えるとか。
ID-code:u1Lvh1tSM.k
ブラックキャットです。
shitaraba掲示板はどうですか?
苦情にきついですけど、それ以外なら使いやすいです。
(僕の借りている掲示板に移動してしまっても
いいですけど・・・・
なんせ・・・・・方針が・・・以下略)
ID-code:/q8xmlI5ru2
皆様有り難うございます。まあHTML化ログとか全文検索を
諦めれば済む話なんですけどね。
> shitaraba掲示板はどうですか?
> 苦情にきついですけど、それ以外なら使いやすいです。
う〜ん、cgiはやはり手製のものを使わないといろいろな面で
安心できません。たぶんここの掲示板より強力・柔軟な
荒らし対策を施した掲示板はそうそうないですし(笑)
あと自鯖はセキュリティへの配慮など負担が大きいですから。
今の住まいの6畳一間、家賃2.5万という環境で
しっかりした自鯖を導入するのはかなりきつそうです(苦笑)。
私自身、サーバ管理に関心があるわけでもないですし。
そういう点でお世話になっている自鯖管理者の方には深く感謝しています。
#sage
ID-code:65Kf4MIAZ.I
> あと自鯖はセキュリティへの配慮など負担が大きいですから。
> 今の住まいの6畳一間、家賃2.5万という環境で
> しっかりした自鯖を導入するのはかなりきつそうです(苦笑)。
自鯖に6畳一間とか家賃など関係ないですよ。
サーバー専用機にわざわざお金かける必要もありませんし。
(ただしUNIXの知識は蓄えないといけませんけどね)
もっともネット接続自体にお金をかけたくないというのであれば、
仕方が無いんですが…
> 私自身、サーバ管理に関心があるわけでもないですし。
> そういう点でお世話になっている自鯖管理者の方には深く感謝しています。
私も協力したいところですが、
超小規模サーバー(爆)なんで、余裕がないのかもしれません。
#sage
ID-code:CkJudqkaXPo
> で、つけたのは、じゃ〜ん、長年懸案だった「Namazu」さんです。
ご苦労様でした。
さすがに一瞬で検索結果を出してくれて、過去に同じものがないかどうか調べるのに大助かりです。
HTML化のペースとインデックス更新は一日1回ですか?
#sage