[Python]爬虫常用函数及格式

熊阿初 • 2023年3月12日上午10:48 • 代码及教程 • 阅读 333

requests 库

安装

pip install requests

导入

import requests

获取url信息

response = requests.get(url,header)
response.text
文本文件用text
response.content
多媒体文件用content 同时在读取和写入时使用’wb’参数

获取信息本地保存

with open（'xxxx.html','w',encoding = 'utf-8'） as fp: fp.write(response.text)

lxml 库

安装

pip install lxml

导入

import lxml
from lxml import etree

解析html

root = etree.HTML(response.text)

节点定位

‘/子节点’，’//任意级的子孙节点’，[@节点属性=”节点属性值”]，/text() 表示取标签的文字，/@属性代表取属性的值例如：
root.xpath('//div[@class="bbs-sl-web-post"]/ul/li/div[@class="post-title"]/a/text()')
返回值为列表，所有符合xpath的内容，如果只有一个值，可以用[0]的方式取文本

节点内容保存

如果同时获取了多个标签，可以利用append构造2维列表
info[]
for i in range(len(names)): info.append(names[i],author[i],time[i])

csv库

引入库

import csv

csv内容构成

filednames = ['name','author','time']
确定csv文件的表头
f = open('xxxx.csv','a+',encoding = 'utf-8')
a+的意思是追加写入，而非w的覆盖写入
f_csv = csv.writer(f)
确定写入方式
f_csv.writerows(info)
按行写入
f.close()

json库

导入

import json

dump成json字符串

目前有一个字典items，items[0]形式为{‘name’:’abcdefg’,’href’=’http://www.baidu.com’}
字典对象无法使用write向文件里直接写入，利用json.dumps可以转化成字符串
fp = open('xxx.csv','a',encoding = 'utf-8')
for item in items:
json_string = json.dumps(item，ensure_ascii = false)
将字典转化成json字符串,并不以字节方式存储
fp.write(json_string + '\n')
利用’\n’在每个item后面加个换行
fp.close()

json字符串解析

json_obj = json.loads(json_string)
json字符串转对象（字典）
abc = json_obj['data'][datas]
取data节点下的datas节点的全部内容，保存到abc列表，可以用abc做for循环，提取子数据

原创文章，作者：熊阿初，如若转载，请注明出处：https://www.guofc.com/1012.html

赞 (0)

0 0

[Python]Openpyxl下的Excel操作库的使用

上一篇 2023年2月6日

[Python]数据分析常用库

下一篇 2023年3月13日

代码及教程

[Python]宝塔面板安装Anaconda平台以及Jupyter

本文旨在利用宝塔面板搭建一个可以通过域名访问Jupyter Notebook，可以随时调用和访问。首先去anaconda的官方下载适合的安装包，并且用宝塔的文件管理上传到root…

熊阿初
2023年4月3日
008580
代码及教程

[Axure]Axure中JS的一些便捷使用

Axure中可以很方便的调用JS来实现一些效果 Axure调用JS的方式在交互中选择打开链接，根据需要实现的内容可以选择点击时打卡，也可以选择载入时打开选择“链接到URL或文件…

熊阿初
2023年5月30日
005140
代码及教程

[Python]用wcferry和bark制作双开微信离线推送服务器

在IOS双开微信的时候，由于是对原版微信砸壳后更改包名，再签名的方式，会导致双开微信的推送失效。大多数情况下只能使用常驻内存的插件让微信常驻IOS内存，但是这样会加速手机费电，皮卡…

熊阿初
2024年8月5日
008670
代码及教程

[Excel VBA]将工作表批量另存为工作簿

将Excel文件中的工作表，全部另存为新的工作簿。For i = 2 To Sheets.Count代表第一个sheet不拆分，可以改成1，则全拆分；.SaveAs Filenam…

熊阿初
2022年11月9日
007090
代码及教程

[PHP]自己搭建原型站（网站加密码 + 子文件夹导航）

由于git、svn之类的版本管理工具，更适合代码管理，而在原型设计阶段，由于需求和开发过程中的反馈问题，会导致原型依旧需要对历史的版本进行跟踪和留存，自己搭建一个多版本管理的简易平…

熊阿初
2024年8月4日
002010
代码及教程

[批处理]利用WINRAR批量解压缩

winrar有两个批量解压缩的方式第一种方法，unrar命令 unrar命令会直接调用命令行进行解压缩。具体格式为用法:unrar <命令> -<参数 1&…

熊阿初
2023年1月12日
005820
代码及教程

[Excel VBA]将一个工作表，以某列为依据拆分成多个工作表

将一个工作表，拆分成多个工作表。拆分依据为指定列，指定列相同的拆分至同一个工作表。可以定义拆分后的工作表保留的原表标题行数。比如将下表以姓名为指定列拆分成多个sheet，保留行数为…

熊阿初
2022年11月9日
001.0K0
代码及教程

[Excel VBA]指定行数将所有工作表合并

可以将工作簿中的所有工作表的内容，汇总合并到新工作表。可以设置合并的子表有效数据的行数，这个行数，会作为激活单元格每次合并后的下沉行数，从而保证格式基本统一，或者各表之间内容有明…

熊阿初
2022年11月9日
006760
代码及教程

文章模板原始代码

<blockquote> <h5>收录说明</h5> </blockquote> <details><summar…

熊阿初
2022年9月6日
009440
代码及教程

[Python]数据分析常用库

anaconda平台都有 numpy 导入 import numpy as np 查看版本 np._version_ numpy数组构造 np.array([1,2,3])构造一维…

熊阿初
2023年3月13日
004290

发表回复

登录后才能评论