Java爬虫爬高质量的收费妹子图

2019-11-23 17:28:24 编辑:七云网络 来源:本站原创

废话不多说了,直接进入正题,首先我在Gayhub上面看到了这个项目:

https://github.com/jrhu05/jerryWebSpider

一个用Java写的爬虫,可以爬到很多我喜欢的妹子图,然后我兴致冲冲的看了下运行的说明,dalao一句“项目打包及服务器部署运行请自行搜索”省略了太多太多,顿时让我感到有点为难,可能dalao并不觉得这个步骤有多么重要,但是我觉得很有必要,所以我决定就dalao不想说明的这部分水一篇文章。

首先我们安装一个IDEA,下载地址:

https://www.jetbrains.com/idea/download/#section=windows

下载社区版,社区版=乞丐版=免费版,反正我又不是程序员,之前也就只是偶尔学下python的时候用了一下jetbrains的pycharm,感觉jetbrains做的开发工具确实要比其他同类产品好用很多,扯远了:

然后需要安装JDK8,也就是java开发的工具包:

https://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html

同意软件协议并选择适合你系统版本的:

然后我们把项目下载到本地解压,打开IDEA选择导入:

这个项目用的MAVEN,所以这里选中这个pom.xml点OK就行:

然后弹出这个按如图选择一下:

选中如图所示的项目:

然后添加我们之前安装的JDK8,这里应该是IDEA会自动给你添加上去的:

最后一个界面点击Finish就完成项目的导入了。接着现在看到IDEA的主界面,打开pom.xml,在如图所示的地方加入一段:

<skipTests>true</skipTests>

位置如图:

这样做的目的是为了等下打包的时候跳过TEST,因为我们在本地没有安装MySQL,而打包测试的时候会去尝试连接MySQL,如果MySQL一直连接不上就无法成功打包。偷懒+节约时间吧,我闲的蛋疼还在本地装MySQL。。。

现在我们打开IDEA自带的这个Maven工具:

现在在你的IDEA面板右侧应该可以看到下面这个界面:

先双击clean,然后再双击package,IDEA就会自动帮你把这个项目打成jar包了,如果一切正常,你可以在Run界面看到类似如图的回显:

现在打开你项目根目录下的target目录,如箭头所指的就是我们打出来的jar包:

现在我们将这个jar包和程序需要用到的配置文件application-dev.yml一并使用FlashFXP传到服务器上:

服务器操作系统我这里使用的是CentOS7,所以我们先在服务器上安装一个java环境:

yum -y install java-1.8.0-openjdk*

再安装一个screen:

yum -y install screen

因为程序需要用到MySQL,所以我们现在还需要去安装一个MySQL5.7,注意是5.7,这个.sql文件的语法不兼容5.5。这里我实在是装不动了,偷了个懒用的宝塔面板,如果你还没在服务器上安装,请执行下面的命令安装一下:

yum install -y wget && wget -O install.sh http://download.bt.cn/install/install.sh && sh install.sh

这条命令是安装的宝塔5.9版本,目前官方最新的是6.x,但是我个人觉得6.x很SB,想用的舒服的话还是建议5.9。

面板装完后就还是老样子安装一个LNMP环境,主要这里用到phpmyadmin可以可视化的对数据库进行操作。

先用phpmyadmin新建一个数据库,命名为:my_spider,然后导入项目db目录下的my_spider.sql

回到shell中先把防火墙关了:

systemctl stop firewalld.service

新建一个用来存放妹子图的目录:

mkdir -p /root/leshe

然后编辑程序需要用到的配置文件:

nano application-dev.yml

数据库连接地址:

url: jdbc:mysql://10.1.1.174:3306/my_spider?useUnicode=true&characterEncoding=utf-8&autoReconnect=true

更改为:

url: jdbc:mysql://127.0.0.1:3306/my_spider?useUnicode=true&characterEncoding=utf-8&autoReconnect=true

然后下面这个填写你的数据库root账号和密码:

然后这里我们选择爬Leshe这个站,因为Tuwan这个站作者自己已经爬了而且打包到百度网盘了,我们就不去爬了。

所以这里我们把Leshe的图片保存路径修改为之前我们创建的路径:

imageStorePath: /root/leshe

如图所示:

这样配置好了之后保存,然后我们使用screen创建一个持久化的终端:

screen -S spider

现在我们就可以运行爬虫程序了:

java -jar jerry-web-spider-0.0.1-SNAPSHOT.jar

如果一切正常,你将可以看到类似下图的回显:

现在我们使用浏览器,打开如下地址进行入库:

http://你的服务器公网IP:8088/lesheSpider/startSpider

如果正常可以看到类似如图回显:

其实这一步可以省略的吧,因为作者给我们准备的数据库里面的信息就是目前最新的了,除非Leshe这个站又有更新我们才需要进行这一步操作。

现在我们就可以把自己喜欢的妹子图给下载到本地了:

http://你的服务器公网IP:8088/lesheSpider/startDownLoadImageZipPackage

如果程序运行正常,则可以看到类似如图回显:

在我们之前创建的目录内也可以看到图包都下载成功了:

差不多就是这样了。。。如果亲们还是觉得麻烦,我有时间把自己爬好的妹子图做个种子吧,或者我把打包好的.jar发上来,你们只需要安装一个MySQL配置下就能用了。

主要我觉得怕被泛滥了,然后这个站的站长发现了把下载地址给换了就蛋疼了,要知道这些系列的写真都是要花钱的,尤其是那个“森罗财团”真的有点小贵,虽然这个爬虫并没有爬“森罗财团”的功能。。。另外我可以稍微透露下,森罗财团的摄影师是个地地道道的武汉人,大多数妹子也是武汉周边找的,就酱。。。

这篇文章是转载的

本站文章均为英德网站建设网络原创文章或转载,如有版权纠纷,请联系站长QQ删除
我们猜你喜欢