python制作的小工具–爬取云展网的电子书然后合并成pdf

支持两种链接格式,具体看程序的头部提示!

下载的pdf文件在d盘的yunzhangwang文件夹里面,程序最后有提示!

目前只能下载:https://book.yunzhan365.com/xxxx/xxxx/mobile/index.html

或者:http://www.yunzhan365.com/xxxxxxxxx.html 这样的网址,其他的网址会不行!

如果是在纯文本展示页面获取的链接,到翻书页面获取网址在开始采集!

下载地址

开源代码

import os
import requests
from lxml import etree
import img2pdf
 
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.75 Safari/537.36'}
url = input('请输入云展网图集网址:')
splurl = url.split('/')            #分割网址,准备下面判断
if 'index.html' not in splurl:                #判断是那一种链接
    res = requests.get(url , headers=headers)  #获取源码
    res.encoding = res.apparent_encoding
    xml = etree.HTML(res.text).xpath('//div[@class="show-book-title"]/a/@href')[0].split('/')  #取得book.yunzhan365.con网址进行分割
    purl = xml[2] + '/' + xml[3] + '/' + xml[4] + '/files/' + 'mobile/'                            #构造图片下载网址前缀
    pathname = etree.HTML(res.text).xpath('//div[@class="show-book-title"]/a/text()')      #获取名称
else:
    res = requests.get(url , headers=headers)  #获取源码    
    res.encoding = res.apparent_encoding
    pathname = etree.HTML(res.text).xpath('/html/head/title/text()')      #获取名称
    purl = splurl[2] + '/' + splurl[3] + '/' + splurl[4] + '/files/' + 'mobile/'    #构造图片前缀
 
path = 'D:/yunzhanwang/'                               #存储路径
if not os.path.exists(path):               
    os.makedirs(path)                       #如果路径不存在就创建 
m = 0      #定义图片名称变量
imgs = []       #准备空列表放置图片内容
with open(path + '/' + str(pathname[0]) + '.pdf' , 'wb') as f:       #创建并打开一个pdf文件,准备写入
    while True:         #死循环获取并写入图片
        m += 1      #名称变量
        surl1 = 'http://' + purl + str(m) +'.jpg'          #构造图片链接
        picurl = requests.get(surl1)       #获取图片内容
        if picurl.status_code == 200:       #判断下 如果图片存在就写入列表
            imgs.append(picurl.content)
        else:  
            f.write(img2pdf.convert(imgs))         #把列表中所有的图片内容 写入pdf
            print(f'采集完毕!一共采集了{m -1}张,生成的pdf是{path}目录下【{pathname[0]}.pdf】') 
            break       #中止循环!

 

为TA充电
共{{data.count}}人
人已赞赏
软件专区

中望CAD2021专业版免费

2020-11-11 8:30:53

软件专区

快手主页批量下载采集小助手1.2

2020-11-12 10:42:57

资源下载说明

请使用百度网盘下载资源,请不要在线解压!

1、请记住本站永久网址发布页:http://www.di4.top
2、本站资源大多存储在云盘,如发现链接失效请在下方评论留言,作者看到后会第一时间更新补链。
3、关于解压密码错误或者资源损坏,请查看解压教程:[必看]关于资源教程及常见问题
4、如果有资源想投稿的会员请仔细阅读:投稿指南教程
5、本站大部分资源解压密码均为: di4.top 如密码有误,请查看原帖的资源说明!

个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索