2007年12月8日 星期六
需要完成我的那个idea,需要大量的数据作为支撑。从哪里得到数据呢?开始阶段,我只能手工从网上抄,然后写程序整理并自动生成两倍的数据。
周六,仍旧手工从地图上抄数据,抄得很辛苦。gf也用笔记本帮我抄了起来,但这始终不是事,以我最快的速度,估计一个城市也得七八天才能抄完。时间就是金钱,有没有别的办法呢?

2007年12月9日 星期日
pipa下午在blog上回帖说可以帮我写脚本,不过只能解析本地的文本,所以需要从网页上保存下来。我正为挨个下载网页犯愁时,pipa又给我推荐了wget。我试了一下,果然好用,下载了300多个网页。后来才知道wget是单线程的,以后可以在网上自己写个多线程下载的脚本。

pipa下午要扫除,我闲着没事,鬼使神差想自己学一种脚本自己解析起来。忘了为啥选python而不选perl了,想起来了,我当时以为我本地上有,在本地搜索了一下,都找不到,后来就google了python的最新windows版本。然后就开始安装。开始学习Python,google了一下“python”,点击了python的简明教程,花了一个下午来看,然后就开始动手写了。嗯,还把的保留文章和文摘看了大部分。

晚上,开始调试程序。没有现成的代码,遇到问题只能从网上google答案,看别人写的代码。

临睡前,pipa给我发了他花了他两个小时写的脚本,脚本对网页的解析很不错,得出来了期望的结果。不过他给我发的sh脚本,我不能在本机cygwin命令行下运行。不知道为什么,我的python命令行也用不了,难以置信。可我的确设置了path。

我熬到了三四点才睡的,睡前已经额可以把网页的内容解析出来了,只是部分中文显示为乱码。当天的另外一个成果是熟悉了python的语法。

2007年12月10日 星期一
从起床,花了四个小时,不断google,不断琢磨,终于想明白了各种原因,解决了乱码问题。这个脚本只是上手用的,以后会在此基础上改进。

网站需要不同的数据去支持,从A网站得到的数据只是锦上添花而已,我的基础数据仍然没有。决定去抓B网站的数据,如果得到B网站的数据,我就可以做一个功能相仿的网站了。

我需要从该网站的网页中抓取近十种数据,但该网站网页的格式不太规范和统一,当日完成了初步的脚本,对规范的网页完成抓取。

2007年12月11日 星期二
继续调试脚本,根据网站的不同网页格式进行调试,经过随机测试,对任一网页抓取数据都准确无误。

调试抓取某城市的数据,在1042个网页上抓取想要的数据再保存到本地上,耗时近7分钟。耗时应该与网速有关,有时还会有连接不上的情况,又调试了一下,才解决问题。

2007年12月12日 星期三 雨
早上起来已经是11点多了,啃了一个玉米棒子,开始调试“抓某网站的程序起来”。13:40多调试成功,13:50开始运行,运行到现在,抓了几千上万个网页的数据。不容易啊,前几天我手工从两三百个网页挨个拷贝数据从中午忙到深夜才整理完,而且可能也会忙中出错。看来还是让程序去帮助人干活才轻松些。

写完这篇blog,脚本还在运行,要抓的网页太多,本来想写一个多线程的,但总是报错,只好用这个单线程的顶着了。得到这些数据之后,我就有开一个网站的根本了。处理一下,再图尔谋之。