Python3+Scrapy1.5でCakePHPのリリース日の情報を取得してみた

Scrapyを使ってWebページから文字列を取得しようとしてみたけれど、
いい題材がなかったのでCakePHPのリリース日の情報を取得してみた。

Scrapyのページに書かれているサンプルプログラムを元に修正をした。
https://scrapy.org/

import scrapy

class BlogSpider(scrapy.Spider):
  name = 'blogspider'
  start_urls = ['https://bakery.cakephp.org/categories/release.html']
  def parse(self, response):
    for date in response.css('.post-archive'):
      print(date.css('div>h4::text').extract_first() + date.css('div>h4>span::text').extract_first() + ' ' + date.css('div>h2>a::text').extract_first())

出力結果
2018 Sep 03 CakePHP 2.10.12 Released
2018 Sep 02 CakePHP 3.6.11 Released
2018 Aug 04 CakePHP 3.6.10 Released
2018 Jul 25 CakePHP 3.6.9 Released
2018 Jul 23 CakePHP 3.6.8 Released
(略)

コメント

タイトルとURLをコピーしました