Webページからデータを取得するライブラリをインストールする。
> pip install lxml > pip install cssselect
コマンドでインストール済みか確認する。
>pip list cssselect (1.0.1) lxml (3.8.0) >pip freeze lxml==3.8.0 cssselect==1.0.1
lxmlライブラリを用いて、Webページからaタグの情報を取得する。
import lxml.html
tree = lxml.html.parse('http://docs.python.jp/3/')
html = tree.getroot()
for a in html.cssselect('a'):
print(a.get('href'), a.text)
# 出力結果
# genindex.html 索引
# py-modindex.html モジュール
# https://www.python.org/ Python
# ~略~
Python3.6.1で確認した。

コメント