(原)采集百度注册用户信息到底有什么作用?(不断更新)

用50个程序在周末的两天两夜还能采集不少。我要加快速度,免得让百度把漏洞补上。(20080613)

———————–

这年头做站长真不容易,其实我也算不上站长,只是被百度逼的才建了这个站,自己做站要操心域名,空间大小,还要担心数据库是不是够用,用百度空间不用担心这些。一开始我就用百度的空间,而且是特别喜欢百度的产品,简单,实用。后来开发了百度空间留言助手,纯属个人爱好,也没其它想法,结果百度空间就屏蔽了我留言助手这几个字,我想在空间中更新一下开始日志都没办法保存,而且我的网站域名(www.vicmiao.com)也不能用了,最后忍痛还是搬出去了。刚开始研究百度空间的留言验证码时以为,每一张图是唯一对应一组128位字符串,我就开始收集这些字符串,并通过程序记录下这128位对应的四位验证码,

比如:2MD6 对应的128位字符串就是

FA4A5566EE8BEBA9F64C64B0E1A0CBBFF65A02E81CCCF74568FD395C46AA8C5C9

432D45EE6C758924ECC3A4F706F4212EF38699A9F19DD5126643FB097B8C896

image

我用了一套算法来收集验证码,过了几天发现有重复的四位验证吗,但是后面的128位字符串不一样,那样就收集验证码没什么意义了。

现在说怎么收集用户信息,目前有四种方法,一种比一种的效率高。

  1. 通过百度空间的最近访客深度遍历算法,这种算法的缺点很多,a.重复的ID太多,速度慢,b.会有一些用户永远都收集不到 c.只能收集有百度空间的的用户 d.只能收集到用户ID和百度空间名。优点是百度没办法控制,这个方法可以一直用下去。
  2. 通过在线Hier列表,缺点是更新太慢,大概是700个后就会出现重复。优点是,一次能取回用户的一些其它信息。
  3. 通过如何创建群可以知道百度用户ID和唯一数字对应。这个漏洞没几天就被上了。缺点:只有百度ID。优点,速度快。这个方法那几天还在各大网站上公布,当时我记得一贴子说,数字比较小的应该都是内部人员(我也这么认为,79是李彦宏),如果腾讯公司根据这些数字和用户名去百度挖墙角那就不好了。
  4. 这是我目前在用的,具体方法我还不打算公布。还没发现缺点。

下图是用第一种方法收集的信息,总共724962条信息

image

下图是用第三种方法收集的信息,

image

下图是我每天记录的,在我的百度空间发的私贴

image

image

一开始以为百度注册用户只有1千万,但是错了,现在还不知道收集这些用户做什么,但还是没有停下来。现在只是用户信息数据库有1.3GB,如果全部收集完,再加一些分析数据,可能要单独建一个服务器了。先就写这么多吧。

Random Posts

Leave a Reply