首页>国内 > 正文

全球简讯:使用 Excel 和 Python 从互联网获取数据

2022-09-15 16:51:56来源：快学Pytho

今天的文章主要分为两个部分，一是用通过Python构建一个数据网站，二是分别使用Excel和Python从编写的Web网站上获取数据。

一、构建测试用网站数据

通过Python Flask Web框架分别构建一个Web网站和一个Web API服务。

(相关资料图)

1.构建Web网站

新建一个名为“5-5-WebTable.py”的Python脚本，创建一个包含表格的简单网页。如果读者对构建方法不感兴趣，可跳过以下代码，直接执行脚本“5-5-WebTable.py”打开网站。

（1）安装flask包。

pip install flask

（2）构建包含表格的网页。

from flask import Flaskapp = Flask(__name__)  # 创建Falsk Web应用实例# 将路由“/”映射到table_info函数，函数返回HTML代码@app.route("/")def table_info():        return """HTML表格实例，用于提供给Excel和Python读取
            ……….          用户信息表                    姓名             性别             年龄         
                    小米             女             22         
"""if __name__ == "__main__":    app.debug = True  # 启用调试模式    app.run()  # 运行，网站端口默认为5000

用户信息表
姓名	性别	年龄
小米	女	22

通过命令“python ./5-5-WebTable.py”启动网站，然后在浏览器中输入http://127.0.0.1:5000/，出现如图1所示的网页内容。

图1 使用Flask构建的测试网站

2.构建Web API服务

新建一个名为“5-5-WebAPI.py”的Python脚本，使用flask_restplus包构建Web API服务。如果读者对构建方法不感兴趣，可跳过以下代码，直接执行脚本“5-5-WebAPI.py”打开Web API服务。

（1）安装flask_restplus包。

pip install flask-restplus

（2）导入必要的库与初始化应用对象。

from flask import Flask# Api类是Web API应用的入口，需要用Flask应用程序初始化from flask_restplus import Api# Resource类是HTTP请求的资源的基类from flask_restplus import Resource# fields类用于定义数据的类型和格式from flask_restplus import fieldsapp = Flask(__name__)  # 创建Falsk Web应用实例# 在flask应用的基础上构建flask_restplus  Api对象api = Api(app, version="1.0",          title="Excel集成Python数据分析-测试用WebAPI",          description="测试用WebAPI", )# 使用namespace函数生成命名空间，用于为资源分组ns = api.namespace("ExcelPythonTest", description="Excel与Python Web API测试")# 使用api.model函数生成模型对象todo = api.model("task_model", {    "id": fields.Integer(readonly=True,                         description="ETL任务唯一标识"),    "task": fields.String(required=True,                          description="ETL任务详情")})

（3）Web API数据操作类，包含增、删、改、查等方法。

class TodoDAO(object):    def __init__(self):        self.counter = 0        self.todos = []    def get(self, id):        for todo in self.todos:            if todo["id"] == id:                return todo        api.abort(404, "ETL任务 {} 不存在".format(id))    def create(self, data):        todo = data        todo["id"] = self.counter = self.counter + 1        self.todos.append(todo)        return todo# 实例化数据操作，创建3条测试数据DAO = TodoDAO()DAO.create({"task": "ETL-抽取数据操作"})DAO.create({"task": "ETL-数据清洗转换"})DAO.create({"task": "ETL-数据加载操作"})

（4）构建Web API的路由映射。

HTTP资源请求类从Resource类继承，然后映射到不同的路由，同时指定可使用HTTP方法。

@ns.route("/")  # 路由“/”对应的资源类为TodoList，可使用get方法和post方法进行请求class TodoList(Resource):    @ns.doc("list_todos")  # @doc装饰器对应API文档的信息    @ns.marshal_list_with(todo)  # @marshal_xxx装饰器对模型数据进行格式转换与输出    def get(self):  # 定义get方法获取所有的任务信息        return DAO.todos    @ns.doc("create_todo")    @ns.expect(todo)    @ns.marshal_with(todo, code=201)    def post(self):  # 定义post方法获取所有的任务信息        return DAO.create(api.payload), 201# 路由/对应的资源类为Todo，可使用get、delete、put方法进行请求@ns.route("/")@ns.response(404, "未发现相关ETL任务")@ns.param("id", "ETL任务ID号")class Todo(Resource):    @ns.doc("get_todo")    @ns.marshal_with(todo)    def get(self, id):        return DAO.get(id)    @ns.doc("delete_todo")    @ns.response(204, "ETL任务已经删除")    def delete(self, id):        DAO.delete(id)        return "", 204    @ns.expect(todo)    @ns.marshal_with(todo)    def put(self, id):        return DAO.update(id, api.payload)if __name__ == "__main__":    app.run(debug=True, port=8000)  # 启动Web API服务，端口为8000

（4）开启Web API服务。

通过命令“python ./5-5-WebAPI.py”启动Web API服务，在浏览器中输入“http://127.0.0.1:8000/”将出现如图5-23所示的Web API服务请求方法列表。

图2WebAPI服务请求方法列表

2、抓取用网页数据

Excel可以通过“数据”选项卡下的“自网站”功能抓取网页数据。Python可以使用 requests 库、Beautiful Soup包、Scrapy框架抓取网页数据。

1.通过Excel抓取

单击“数据”→“自其他源”→“自网站”功能。Excel可读取的网页数据有局限：动态网页数据无法自动识别，非表格数据无法自动识别。

（1）单击“数据”→“自其他源”→“自网站”功能。

（2）确保在5.5.1节中编写的Web网站已经开启。

（3）输入网站URL地址“http://127.0.0.1:5000/”

单击“高级”按钮可配置更详细的HTTP请求信息，然后单击“确定”按钮，如图3所示。

图3 配置要读取网站的URL

（4）在“导航器”窗口中选择导入数据。

如图4所示，Excel自动识别网页中的表格数据，选择表名后单击“加载”按钮即可。

图4Excel自动识别网页中的表格数据

2.使用Python抓取

下面演示使用requests库抓取整个网页中的数据，然后使用Beautiful Soup解析网页。读者可参考本书代码素材文件“5-5-web.ipynb”进行学习。

（1）通过requests读取网页数据。

import requests #导入requests包url ="http://127.0.0.1:5000/"strhtml= requests.get(url) #使用get方法请求网页数据

（2）通过Beautiful Soup解析网页。

from bs4 import BeautifulSoupsoup = BeautifulSoup(strhtml.text)  # 将网页内容作为参数，创建soup对象table = soup.find("table")  # 查找网页中的table元素table_body = table.find("tbody")  # 查找table元素中的tbody元素data = []rows = table_body.find_all("tr")  # 查找表中的所有tr元素for row in rows:  # 遍历数据    cols = row.find_all("td")    cols = [ele.text.strip() for ele in cols]data.append([ele for ele in cols if ele])# 结果输出：[[],["小米", "女", "22"],["小明","男","23"],……

3、调用Web API服务

Excel可以通过“数据”选项卡下的“自网站”功能调用Web API服务。Python可以使用 requests 库、Beautiful Soup包、Scrapy框架调用Web API获取数据。

1.使用Excel调用

（1）确保5.5.1节中编写的Web API服务已经开启。

（2）输入Web API方法对应的URL：http://127.0.0.1:8000/ExcelPythonTest/。

（3）处理返回的数据。

调用Web API服务后数据以JSON格式返回，按照5.4.3小节中介绍的方法处理JSON数据。

2.使用Python调用

使用requests库调用Web API方法，然后对返回的JSON数据进行处理，读者可参考本书代码素材文件“5-5-api.ipynb”进行学习。

import requests    #导入requests包url ="http://127.0.0.1:8000/ExcelPythonTest/"strhtml= requests.get(url)    #使用get方法获取网页数据import pandas as pdframe= pd.read_json(strhtml.text)  #使用Pandas包中的read_json函数print(frame)#结果输出：id       task0 1 ETL-抽取数据操作1 2 ETL-数据清洗转换2 3 ETL-数据加载操作

4、两种方法对比

表1所示为Excel和Python抓取互联网数据方法的对比。需要注意Excel从互联网抓取数据的功能并不完善。

表1Excel和Python抓取互联网数据方法对比

关键词：可以使用函数生成直接执行服务请求任务信息