WinHTTrack Website Copier可以抓取整个网站或者某个网页、某个论坛帖子。以抓取论坛某个主题帖子为例:
很简单的,如果要深入研究请往下看
下载地址:
1、打开WinHTTrack Website Copier,下一步
2、工程名可以以帖子标题命名,最好用英文,分类随意,保存路径建议非C盘。
3、我们要下载若干个帖子,所以操作选择下载个别文件,web地址可以逐个输入,也可以用list列表,列表以回车键分开,对于有规律的帖子,可以在excel中拖动快速形成。
http://bbs.tianya.cn/post-399-70857-1.shtml
http://bbs.tianya.cn/post-399-70857-2.shtml
http://bbs.tianya.cn/post-399-70857-3.shtml
选项,最大深度选择
4、这样我们只搜索当前帖子或页面所在的网址内容,不要外链到其他网站,所以选择0.这两个选项很重要。
5、链接我选择了试图捕获所有的URLs,保存所有指向非HTML文件的链接,例如外部的zip文件或图片文件,首先保存HTML文件,取默认也行,没看出多少区别。
6、构造取默认值即可。
7、搜寻页面取默认值。
8、浏览器标致取默认值。
9、确定后直接开始。
WinHTTrack Website Copier比Offline Explorer Portable(离线浏览器工具)的好处是抓取的文件很精准,没有多余的外链和文件,而且文件都是压缩之后存储的,占用空间较小,而且文件数量很小。而Offline Explorer Portable搜索深度设置为1的时候,会搜索本站点的外链,这不是我想要的,但是设置搜索深度为0的话,又会出现附件没有被下载的问题。
缺点是同一个站点的文件不能共用,需要再次下载,如果把列表放在一起下载,以前下载的又会被覆盖,而Offline Explorer Portable会更新以前下载的目录,它是以站点为单位进行下载的,网站有更新直接刷新下就好了。
WinHTTrack Website Copier还有个缺点是网址不支持变量,对于有规律的网址,需要借助excel生成。而Offline Explorer Portable有网址宏功能,可以自定义网址的起始页,例如page=:{1..4}代表1~4页。
WinHTTrack Website Copier和Offline Explorer Portable都可以下载论坛的附件(包括zip和jpg等类型的图片附件),但是论坛的图片不一定能正确抓取,网页内嵌的图片可以正常抓取,原因有待探索。
- 关键词:
猜你喜欢
联络方式:
电话:13927613927
邮箱:2589366562@qq.com
-
WPS Office 2019 Pro Plus(政府专用含VBA) 安装版
激活码序列号请使用:694BF-YUDBG-EAR69-BPRGB-ATQXHWPS Office 2019 Pro Plus(政府专用含VBA)是一款wps2019政府专业版(含VBA--支持Excel编程)、无ZF logo 外加Word、Excel、PP...
-
SEO入门教程大纲 非详细教程
SEO的中文名叫做搜索引擎优化,主要的作用是将网站的关键词优化到搜索引擎靠前的位置...
-
网站无法访问
本文为您介绍域名指向阿里云服务器,出现网站无法访问的原因,并提供了相应的处理办法供您参考。现象开通网站需要购买域名、购买主机(空间),备案网站、设置域名解析等,任一环节出现...
-
帝国CMS 批量更新信息页地址无效
默认帝国CMS生成信息会附带日期目录,怎么样去掉日期目录 提示:只限新站或者不需要原来的信息的可以使用,有副作用的 第一:原来内容的图片路径随着修改目录名字失效,请改正 第二:未...
-
蓝屏代码0x000000f4解决方法
使用电脑过程中蓝屏出现代码是0x000000f4,英德网站建设小编在这里告诉给大家蓝屏代码0x000000f4的解决方法。解决问题前,回想下出现蓝屏0x000000f4前做了什么操作,这样找问题会...