Pythonのlxmlとcssselectのインストール

Webページからデータを取得するライブラリをインストールする。

> pip install lxml
> pip install cssselect

コマンドでインストール済みか確認する。

>pip list
cssselect (1.0.1)
lxml (3.8.0)

>pip freeze
lxml==3.8.0
cssselect==1.0.1

lxmlライブラリを用いて、Webページからaタグの情報を取得する。

import lxml.html

tree = lxml.html.parse('http://docs.python.jp/3/')
html = tree.getroot()

for a in html.cssselect('a'):
    print(a.get('href'), a.text)
# 出力結果
# genindex.html 索引
# py-modindex.html モジュール
# https://www.python.org/ Python
# ~略~

Python3.6.1で確認した。

コメント

タイトルとURLをコピーしました