Pythonでスクレイピングに挑戦。〜mixiの日記をEvernoteへ放り込みたい〜
更新日:2020.07.16
作成日:2011.11.15
mechanize
の記事を見かけたので、Python
でスクレイピングに挑戦。
mixiの過去の日記をEvernoteに送りたいなぁと思ってます。
mechanizeとBeautifulSoupのインストール
eary install mechanize
easy install BeautifulSoup
過去日記のリスト取得まで
とりあえず、mixiにログインして、過去日記のリストを取得するまで出来たみたい。
#!/usr/bin/env python
#-*-coding: utf-8 -*-
import mechanize
from BeautifulSoup import BeautifulSoup
MAIL = '[email protected]'
PASS = 'password'
# Browser
br = mechanize.Browser()
# Browser options
br.set_handle_equiv(True)
br.set_handle_redirect(True)
br.set_handle_referer(True)
br.set_handle_robots(False)
# User-Agent (this is cheating, ok?)
br.addheaders = [('User-agent', 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_2) AppleWebKit/535.2 (KHTML, like Gecko) Chrome/15.0.874.120 Safari/535.2')]
br.open('https://mixi.jp')
br.select_form(name='login_form')
br['email'] = MAIL
br['password'] = PASS
response = br.submit()
responsediary = br.open('http://mixi.jp/list_diary.pl?from=navi')
soup = BeautifulSoup(responsediary.read())
diaryHistory = soup.find('div', attrs={'id':'bodyMainAreaSub'}).find('div',attrs={'class':'diaryHistory'})
historylinks = diaryHistory.findAll('a')
for link in historylinks:
print link
結果
$ python mixi.py
<a href="list_diary_setting.pl" title="過去日記の閲覧設定">過去日記の閲覧設定</a>
<a href="list_diary.pl?year=2011&month=1" title="2011年01月の日記一覧">01月</a>
<a href="list_diary.pl?year=2011&month=2" title="2011年02月の日記一覧">02月</a>
<a href="list_diary.pl?year=2011&month=3" title="2011年03月の日記一覧">03月</a>
<a href="list_diary.pl?year=2011&month=4" title="2011年04月の日記一覧">04月</a>
<a href="list_diary.pl?year=2011&month=5" title="2011年05月の日記一覧">05月</a>
<a href="list_diary.pl?year=2011&month=6" title="2011年06月の日記一覧">06月</a>
<a href="list_diary.pl?year=2011&month=7" title="2011年07月の日記一覧">07月</a>
<a href="list_diary.pl?year=2011&month=8" title="2011年08月の日記一覧">08月</a>
<a href="list_diary.pl?year=2011&month=9" title="2011年09月の日記一覧">09月</a>
<a href="list_diary.pl?year=2011&month=10" title="2011年10月の日記一覧">10月</a>
<a href="list_diary.pl?year=2011&month=11" title="2011年11月の日記一覧">11月</a>
<a href="list_diary.pl?year=2010&month=1" title="2010年01月の日記一覧">01月</a>
<a href="list_diary.pl?year=2010&month=2" title="2010年02月の日記一覧">02月</a>
<a href="list_diary.pl?year=2010&month=3" title="2010年03月の日記一覧">03月</a>
<a href="list_diary.pl?year=2010&month=4" title="2010年04月の日記一覧">04月</a>
<a href="list_diary.pl?year=2010&month=5" title="2010年05月の日記一覧">05月</a>
<a href="list_diary.pl?year=2010&month=6" title="2010年06月の日記一覧">06月</a>
<a href="list_diary.pl?year=2010&month=7" title="2010年07月の日記一覧">07月</a>
<a href="list_diary.pl?year=2010&month=8" title="2010年08月の日記一覧">08月</a>
<a href="list_diary.pl?year=2010&month=9" title="2010年09月の日記一覧">09月</a>
<a href="list_diary.pl?year=2010&month=10" title="2010年10月の日記一覧">10月</a>
<a href="list_diary.pl?year=2010&month=11" title="2010年11月の日記一覧">11月</a>
<a href="list_diary.pl?year=2010&month=12" title="2010年12月の日記一覧">12月</a>
<a href="list_diary.pl?year=2009&month=1" title="2009年01月の日記一覧">01月</a>
<a href="list_diary.pl?year=2009&month=2" title="2009年02月の日記一覧">02月</a>
<a href="list_diary.pl?year=2009&month=3" title="2009年03月の日記一覧">03月</a>
<a href="list_diary.pl?year=2009&month=4" title="2009年04月の日記一覧">04月</a>
<a href="list_diary.pl?year=2009&month=5" title="2009年05月の日記一覧">05月</a>
<a href="list_diary.pl?year=2009&month=6" title="2009年06月の日記一覧">06月</a>
<a href="list_diary.pl?year=2009&month=7" title="2009年07月の日記一覧">07月</a>
<a href="list_diary.pl?year=2009&month=8" title="2009年08月の日記一覧">08月</a>
<a href="list_diary.pl?year=2009&month=9" title="2009年09月の日記一覧">09月</a>
<a href="list_diary.pl?year=2009&month=10" title="2009年10月の日記一覧">10月</a>
<a href="list_diary.pl?year=2009&month=11" title="2009年11月の日記一覧">11月</a>
<a href="list_diary.pl?year=2009&month=12" title="2009年12月の日記一覧">12月</a>
<a href="list_diary.pl?year=2008&month=1" title="2008年01月の日記一覧">01月</a>
<a href="list_diary.pl?year=2008&month=2" title="2008年02月の日記一覧">02月</a>
<a href="list_diary.pl?year=2008&month=3" title="2008年03月の日記一覧">03月</a>
<a href="list_diary.pl?year=2008&month=4" title="2008年04月の日記一覧">04月</a>
<a href="list_diary.pl?year=2008&month=5" title="2008年05月の日記一覧">05月</a>
<a href="list_diary.pl?year=2008&month=6" title="2008年06月の日記一覧">06月</a>
<a href="list_diary.pl?year=2008&month=7" title="2008年07月の日記一覧">07月</a>
<a href="list_diary.pl?year=2008&month=8" title="2008年08月の日記一覧">08月</a>
<a href="list_diary.pl?year=2008&month=9" title="2008年09月の日記一覧">09月</a>
<a href="list_diary.pl?year=2008&month=10" title="2008年10月の日記一覧">10月</a>
<a href="list_diary.pl?year=2008&month=11" title="2008年11月の日記一覧">11月</a>
<a href="list_diary.pl?year=2008&month=12" title="2008年12月の日記一覧">12月</a>
<a href="list_diary.pl?year=2007&month=1" title="2007年01月の日記一覧">01月</a>
<a href="list_diary.pl?year=2007&month=2" title="2007年02月の日記一覧">02月</a>
<a href="list_diary.pl?year=2007&month=3" title="2007年03月の日記一覧">03月</a>
<a href="list_diary.pl?year=2007&month=4" title="2007年04月の日記一覧">04月</a>
<a href="list_diary.pl?year=2007&month=5" title="2007年05月の日記一覧">05月</a>
<a href="list_diary.pl?year=2007&month=6" title="2007年06月の日記一覧">06月</a>
<a href="list_diary.pl?year=2007&month=7" title="2007年07月の日記一覧">07月</a>
<a href="list_diary.pl?year=2007&month=8" title="2007年08月の日記一覧">08月</a>
<a href="list_diary.pl?year=2007&month=9" title="2007年09月の日記一覧">09月</a>
<a href="list_diary.pl?year=2007&month=10" title="2007年10月の日記一覧">10月</a>
<a href="list_diary.pl?year=2007&month=11" title="2007年11月の日記一覧">11月</a>
<a href="list_diary.pl?year=2007&month=12" title="2007年12月の日記一覧">12月</a>
<a href="list_diary.pl?year=2006&month=6" title="2006年06月の日記一覧">06月</a>
<a href="list_diary.pl?year=2006&month=7" title="2006年07月の日記一覧">07月</a>
<a href="list_diary.pl?year=2006&month=8" title="2006年08月の日記一覧">08月</a>
<a href="list_diary.pl?year=2006&month=9" title="2006年09月の日記一覧">09月</a>
<a href="list_diary.pl?year=2006&month=10" title="2006年10月の日記一覧">10月</a>
<a href="list_diary.pl?year=2006&month=11" title="2006年11月の日記一覧">11月</a>
<a href="list_diary.pl?year=2006&month=12" title="2006年12月の日記一覧">12月</a>
参考
Related contents
TECH
2011.11.21
Pythonのループの書き方いろいろ
TECH
2011.11.14
いまさらだけど、Bot作る〜お天気取得〜
TECH
2021.03.27
【Tableau】Personal Access TokensでTableau REST APIを利用する
TECH
2020.01.30
PuppeteerのwaitForNavigationで正しくページ遷移を待つ
TECH
2017.06.18
EDINETとXBRLとは何か?Pythonで財務諸表のデータを取得する
TECH
2016.09.06
Hugoで人気記事を表示するためJSONを返すAPIサーバを作りData-driven Contentを試してみた
TECH
2016.08.13
PythonでTF-IDFによる文書推薦
TECH
2016.08.12
文書推薦