タグ「技術 - クローラー」の記事一覧
MOONGIFTプレミアムは、月額500円の有料サービスです。詳細はこちらから。
2011/01/30
日々のサイト運用に。Ruby製のリンクチェッカー「rawler」
rawlerはRuby製のオープンソース・ソフトウェア。Webサイトを運営していると、リンクが変更されたりドメインごと移転したりする。そうした作業の蓄積によって、次第にリンク切れが発生していく。だがこれまでのコンテンツ全てについてチェックするのは大変だ。 実行中 そこで使われるのがリンクチェ...
2007/09/03
タイトル・本文抽出クローラー「Webstemmer」
これはやばい!凄すぎる。 現在進めようと思っているプロジェクトでは、サイト上の本文抽出が重要な技術になっていた。だが、それを一から開発していたのではあまりに時間がかかってしまう。さらに重要な技術ではあるが、それが売りと言う訳ではなかった。 そこで見つけたのがこのソフトウェアだ。まさ...
2007/08/03
クローラーも分散型コンピューティング「Grub」
Open Tech Press | 米Wikia:分散型ウェブ巡回ツールを買収、オープンソース化より。 分散型コンピューティングという手法は面白い。古くはSETI@HOMEやUD Agent等があった。コンピュータが高性能化し、台数が急増している中、利用度はむしろ低くなっている可能性は...













アンケート