V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
lixuda
V2EX  ›  Python

Python 有没有好的 html 格式库

  •  
  •   lixuda · 2019-01-03 11:31:14 +08:00 · 3685 次点击
    这是一个创建于 2188 天前的主题,其中的信息可能已经有所发展或是发生改变。

    网上搜了一圈没有找到合适,做下伸手党。 爬虫得到的是 html 内容,带大量各类标签及 css,id 等 attr 内容, 想通过一个库之间输出干净的 html 只保留简单的 p br img 等标签,谢谢大家

    第 1 条附言  ·  2019-01-03 12:51:37 +08:00
    自己找了个,看看是否适应 bleach:一个基于白名单的 HTML 清理和文本链接库
    14 条回复    2019-01-03 18:09:38 +08:00
    fan2006
        1
    fan2006  
       2019-01-03 11:38:05 +08:00
    用过 lxml 和 beautifulsoup4.
    boom7
        2
    boom7  
       2019-01-03 11:38:38 +08:00
    lxml.html.clean 试一下?
    JackeyGao
        3
    JackeyGao  
       2019-01-03 11:49:02 +08:00
    不确定这个可以不可以, 试试看吧。 https://github.com/kennethreitz/requests-html
    lihongjie0209
        4
    lihongjie0209  
       2019-01-03 11:51:24 +08:00
    不就是 dom 树的 变量
    lihongjie0209
        5
    lihongjie0209  
       2019-01-03 11:53:55 +08:00
    变量 -> 遍历
    poorcai
        7
    poorcai  
       2019-01-03 12:34:52 +08:00 via iPhone
    搭车问 小程序 中有没有好用的?搜了下只有 wxParse ?而且得不到有用的信息
    villivateur
        8
    villivateur  
       2019-01-03 12:56:27 +08:00 via Android
    Beautiful Soup
    tabris17
        9
    tabris17  
       2019-01-03 12:59:41 +08:00
    就说一个,pyquery 有坑,其他如何不清楚
    Huelse
        10
    Huelse  
       2019-01-03 13:05:48 +08:00
    beautifulsoup4 容易点
    huluhulu
        11
    huluhulu  
       2019-01-03 13:09:32 +08:00 via iPhone
    Beautiful Soup 很好用
    WeaponXu
        12
    WeaponXu  
       2019-01-03 16:57:07 +08:00
    bs4 啊
    heiybb
        13
    heiybb  
       2019-01-03 17:05:04 +08:00 via Android
    居然没人说 pyquery 嘛
    Olorin
        14
    Olorin  
       2019-01-03 18:09:38 +08:00
    beautifulsoup4
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   984 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 23ms · UTC 21:08 · PVG 05:08 · LAX 13:08 · JFK 16:08
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.