銀月の符号

Python 使い見習いの日記・雑記

よし準備は整った、キュンキュンするぞ

おい俺、いつにもまして熱心に Python, BeautifulSoup していると思ったら、読み出す HTML の表ってこれなのかよ!? 動機がダメすぎるだろ。

# coding: utf-8

import sys
import urllib2
from BeautifulSoup import BeautifulSoup
from beautifulsouphelper import parse_table, soup2string

#SOURCE_URL = u'http://wiki.madoka.org/ta2/index.php?Mission'
SOURCE_URL = u'http://wiki.madoka.org/ta2/index.php?EndCard'

def main():
    source = urllib2.urlopen(SOURCE_URL).read()
    soup = BeautifulSoup(source)
    body = soup.find(id='body')
    out = sys.stdout
    for table in body.findAll(name='table'):
        for tr in parse_table(table, soup2string):
            for td in tr:
                out.write(td.encode('utf-8'))
                out.write(' ')
            out.write('\n')

if __name__ == '__main__':
    main()

おっと出力結果に文字化け? あり。 u'\u301c' なので波ダッシュ問題か。解決(もしくは納得、仕様どおりなので)したら Django と組み合わせて遊ぶ、かも。取得済みカード管理 Web アプリ? 役に立たなさそうだが、さてはて。