博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Python 爬虫-抓取小说《盗墓笔记-怒海潜沙》
阅读量:7088 次
发布时间:2019-06-28

本文共 1411 字,大约阅读时间需要 4 分钟。

最近想看盗墓笔记,看了一下网页代码,竟然不是js防爬虫,那就用简单的代码爬下了一节:

 

"""爬取盗墓笔记小说-七星鲁王宫"""from urllib.request import urlopenfrom bs4 import BeautifulSoupfrom docx import Documentimport osclass Download():    def __init__(self):        self.baseUrl = 'http://www.daomubiji.com/nu-hai-qian-sha-'        self.basePath = os.path.dirname(__file__)    def makedir(self, name):        path = os.path.join(self.basePath, name)        isExist = os.path.exists(path)        if not isExist:            os.makedirs(path)            print('File has been created.')        else:            print('The file is existed.')        #切换到该目录下        os.chdir(path)    def connect(self, url):        try:            html = urlopen(url)            print(url)            obj = BeautifulSoup(html, 'lxml')        except:            print('This page is not existed.')        return obj    def getContent(self):        doc = Document()        self.makedir('storyFiles')        for page in range(1,47):            if page < 10:                url = self.baseUrl + '0' + str(page) + '.html'            else:                url = self.baseUrl + str(page) + '.html'            obj = self.connect(url)            content = obj.find('article', {
'class': 'article-content'}) doc.add_paragraph(content.text) doc.save('盗墓笔记-怒海潜沙.doc')if __name__ == '__main__': obj = Download() obj.getContent()

 

转载于:https://www.cnblogs.com/fredkeke/p/6646781.html

你可能感兴趣的文章
[java面试]关于多态性的理解
查看>>
常见的MIME类型
查看>>
Leetcode_Wildcard Matching
查看>>
docker 私有仓库简易搭建
查看>>
WCF系列教程之客户端异步调用服务
查看>>
P1201 [USACO1.1]贪婪的送礼者Greedy Gift Givers
查看>>
Android自带的分享功能案例
查看>>
Android广播机制分析
查看>>
Android ADB工具-截图和录制视频(五)
查看>>
PHP/Javascript 数组定义 及JSON中的使用 ---OK
查看>>
php中urldecode()和urlencode()起什么作用啊
查看>>
UVA 11542 Square 高斯消元 异或方程组求解
查看>>
Nginx的内部(进程)模型
查看>>
基于设备树的controller学习(1)
查看>>
递归--练习1--noi3089爬楼梯
查看>>
慢慢过渡到个人博客
查看>>
【转】spring boot web相关配置
查看>>
oc53--autorelease注意事项
查看>>
sigmod2017.org
查看>>
MongoDB集群运维笔记
查看>>