|
不想跟大流和大家起一样的标题,所以起这么个标题,见谅;
本来也确实是可说可不说的,相信大家也都一样,为了赚钱也来这里“不得不说”;
——本来只是想凑一百字赚点钱就罢了,没想到一写就收不住了,决定写一个关于建站系列的东西,第一部分还是不偏离当初赚钱写贴子的内容(信息采集),第二个部分谈谈建站需要注意的一些事情及心得,第三个部分还没想好,或许还真能写部书也未必了;
信息采集说白了其实就是新闻小偷,早些年就有了;
第一阶段:
最早的新闻小偷功能简单,倒也好用——因为无论是被偷的还是偷的都处在起步阶段,被偷的不设防,偷的只需要略花些心思就可以手到成功(那个时候像新浪,搜狐都是简单的html,每页的模板都是固定的,把模板内容一去,剩下的就是咱们要的内容了),可是随着时间的变化,人家被偷的发现自己费的劲成就了别人,咽不下这口气,改。
第二阶段:
这个期间的被偷者主要是想出各种办法让你不好偷,毕竟程序不是那么智能的,对于没有规律的东西是没有办法的(这个才是关键,打破规律,才是避免被偷的关键,不过好像没有见到这种防偷的办法,可能是不好操作),这个阶段主要是采用了在内容部分像插入一些版权标识或者乱文(就是像[email=+//-@#$%]+//-@#$%[/email]^&*之类的无规律文字),不过也只是给偷的人增加了一些工作量而已。
第三个阶段:
Web2.0(ajax)到来无疑是给新闻小偷带来了很大的困难,web2.0为了增加用户体验,采用了像javascript+dom的技术,说白了,浏览器第一次请求到的数据可能并不包括你想要的内容,你想要的内容需要浏览器在请求到第一次的数据后执行其中的javascript再次向服务器发送请求,当然,也有可能这次也不是你想要的内容,有时是反复很多次之后才会得到想到的内容,应当说,新闻小偷算是彻底没戏了,不过,好在有很多网站还是很在意服务器的负载及负担问题没有采用这种方式或者部分采用了这种方式,信息采集系统还算是有些用武之地;
第四阶段:
就是现在了,很多网站都开发了自己的activex控件或者使用flash,像土豆网,开心网之类的,他的视频或者一些文件都是由他的控件再次发出的,对于这样的网站,信息采集系统基本无能为力。不过并不代表得不到他的东西,关于办法和工具都会在《建站一,我与信息采集系统可说可不说的故事之三相关工具》中会详加描述;
今天先写这么多,改天我会写《建站二,我与信息采集系统可说可不说的故事二俺就是要偷》
celery 于 2009-7-21 18:19 补充以下内容
哈哈,怎么又给恢复了?很奇怪的版主喔,回家看乱马1/2去,你要没意见我明天可就写二了 |
评分
-
查看全部评分
|