• 技术文章 >Python技术 >Python基础教程

    python数据模块类如何定义

    小妮浅浅小妮浅浅2021-08-10 09:42:03原创2350

    说明

    1、定义数据模块类,名为DataLoader。

    2、类中有核心变量data用于保存爬行数据,以及两个相关界面grab_data(爬取数据)和save_data(保存数据到当地)。

    实例

    grab_data() 的核心代码

    def grab_data(self):
        # 获取入口链接
        entries = self.get_entry()
        # 遍历入口链接,解析得到文章链接
        links = self.parse4links(entries)
        # 遍历文章链接,解析得到文章内容
        datas = self.parse4datas(links)
        # 将相关数据写入变量 data
        self.data = pd.DataFrame(datas)

    save_data() 的核心代码

    def save_data(self):
        # 将变量 data 写入 csv 文件
        self.data.to_csv(self.data_path, index = None)

    我们已经爬取并保存好数据 data,数据以 DataFrame 形式存储,保存在 csv 文件,格式如下:

    |---------------------------------------------------|
    |    id    |     link   |     cont     |    title   |
    |---------------------------------------------------|
    |  page id |  page link | page content | page title |
    |---------------------------------------------------|
    |  ......  |   ......   |    ......    |   ......   |
    |---------------------------------------------------|

    以上就是python数据模块类定义的方法,希望对大家有所帮助。更多Python学习指路:python基础教程

    本文教程操作环境:windows7系统、Python 3.9.1,DELL G3电脑。

    专题推荐:python数据模块类
    上一篇:python mktime()如何计算时间 下一篇:python如何定义索引模块类

    相关文章推荐

    • python动态规划算法的使用过程• python线程安全的介绍及解决方法• python迭代器协议支持的两种方法• python中chardet库的安装和导入• python chardet库的函数用法• python中使用动量交易策略• python动量交易策略的四个步骤• python time库有哪些时钟• python time.ctime()如何做时间加减法• python strftime获取当前时间• python mktime()如何计算时间

    全部评论我要评论

    © 2021 Python学习网 苏ICP备2021003149号-1

  • 取消发布评论
  • 

    Python学习网