问:你把平台搭起来,数据要多久更新一次?
     标题是别人问我的问题,今天来回答了。

     昨天完成的脚本是单线程的,虽然能抓取所有数据,但是由于网页有成千上万个,打开网页速度也慢(程序瓶颈),全部下载一次,可能10个小时都抓不完。

     今天及随后几天要做的几件事情是:

1、首先,将单线程脚本做一个多线程脚本,如果可以的话,线程下面又开多线程,希望能将下载数据压缩到半小时之类。3个工作日完成。

2、增加数据定时更新机制,每天定时更新一次。更新时检查update时间或比较文件大小即可,先比较网页大小再比较update时间避免反复下载。更杀毒软件升级数据库一样,缩小到十分钟之内。0.5个工作日完成。

3、原来是将结果写到txt里去的,要改成写到数据库里。0.5个工作日完成。

      这三件事情,都没有做过,只能慢慢摸索,计划4天调试完吧。批评一下自己,今天做事心浮气躁,还没有掌握多线程的概念就急着写代码了,欲速则不达。