不知道别人都是怎么抓取网站或者获得感兴趣内容的,也许用网络蜘蛛,也许用别的工具。经过pipa同学介绍,发现wget这个程序不错,可以在网上抓取网页保存到本地来。然后我就可以用程序或者脚本对抓取到的网页进行解析来获取想要的内容了。

     wget功能很强大,支持断点传续,连ftp都可以下载的,也可以根据网页内容来选择下载(例如mp3、jpg等)。不过我用来只抓取网页就可以了,先感受一下。

wget下载地址:
http://www.christopherlewis.com/WGet/WGetFiles.htm

我根据网页的规律,写了一个批处理文件,源代码如下。运行完,利用dos的重定向命令将结果输出到一个批处理文件中,然后在命令行下执行这个批处理文件就可以了。如果运行不了,请注意一下环境变量的设置。

#include <stdio.h>

void main( void )
{

int loop;

for(loop = 1; loop < 302 ;loop++)
{
   printf("wget http://www.×××××.com/search_m/17/10_p%d -O %d.html\n",loop,loop);//注意是-O而不是-o
}
}

命令行下设置path
SET WGET_HOME=E:\tools\wget-1.10.2b
PATH %PATH%;%WGET_HOME%