全网小说免费读!!0基础学Python爬虫
http吧
全部回复
仅看楼主
level 11
前言
本文案例适合爬虫入门学习,有些地方描述不清晰,如有疑问欢迎在下方留言。完整代码@ 私聊楼主领取。
环境:Python3.6+Windows
大概思路:
获取小说主页源代码
在主页源代码中找到每个章节的超链接
获取每个章节超链接的源代码
获取章节的内容
保存内容到本地
2020年03月16日 07点03分 1
level 11
导入一些基本的模块:
import requests
from bs4 import BeautifulSoup
import random
以上代码获取网页全部源代码,然后,使用正则表达式获取文章全部章节的URL。
构建函数,避免重复代码
2020年03月16日 07点03分 2
level 11
接下来,用with open方法写入txt文件中。
使用find_all 函数获取内容,并提取第0个 [0] 中的 文本 text。
这样提取出来之后用 join 函数和 split 函数把内容格式化成为一个长的字符串。
最后,出来的效果如下:
2020年03月16日 07点03分 3
level 11
2020年03月16日 07点03分 4
level 1
jkghkjhkj
2020年07月11日 10点07分 7
level 1
jkhjkhkjhkjh
2020年07月11日 10点07分 8
level 1
2020年12月17日 03点12分 11
1