python爬虫学习之PYTHON爬取中信证券
 
最近突发奇想想学爬虫,python之前搞嵌入式摄像头识别的时候也玩过。网上找了一个练习题,自己尝试解决一下。
一.前期准备
python环境提前需要准备好,这里我装的是python3.10环境。
为了方便我多设备开发,我想要一个稳定不需要来回折腾的环境,通过搜索网上现有方案,最终决定把代码的环境装到服务器上面。遂买了华为云的服务器1年。
方案采用的是vs code 的Remote - SSH插件远程开发,省时省力。开发也在虚拟环境里面开发。非常好用随时随地连接服务器开发。
我的目标是爬取中信证券的相关列表信息
二.网页分析
在中信证券网页右键-->查看源代码
首先观察源代码的charset的关键词,这里指出了网站的编码。防止后面爬取源码的时候乱码。
 
 然后找到我们需要的字样并观察规律。我们看到每一组数据的结构都是一样的。只有我们需要的数据在变化,其他的信息都是一样的。这种情况我们就可以使用正则来获取我们需要的数据。
 
三.代码实现
1.引入相关库
----------------------------------------------------------------------
import re #正则库,分析网页内容抓取想要内容
import requests #HTTP 请求库,获取网页响应结果
-----------------------------------------------------------------------
2.访问并获取源码
3.正则表达式
关于表达式的内用可以看:https://www.runoob.com/python3/python3-reg-expressions.html 这里说一个比较通用的方法。
首先我们要了解,简单的正则
使用正则是我们需要观察,我们需要更开车数据的前后文,找到:不变的特征、变化的部分、还有数据。使用时,不变的特征保留,变化的部分使用.*?匹配,数据使用()保存。如下:
让我们回到中信证券的代码,我们很容易的就能看出变与不变的内容。
观察后我们写出下面的正则
输出结果:
 
最后贴一下完整代码(写python代码果然快,短短几行就能实现功能)
2024-09-21
浏览449
📡技术交流
登录后评论
评论
2