BeautifulSoupデビュー
今までことごとく避けてきたBuetifulSoupだけど、なんか使いたくなったので使っている。やりたい事は、なんか適当なページの文字だけ抜き出す(タグを除去したい)RSSだけがソースならなんか凄い簡単にとれるんだけど、HTMLがソースだと<p>でくくってあったり<div>でくくってあったり色々すぎてめんどくさい。
こういうのって正規表現で抜き出した方が早いのか?
from urllib import urlopen from BeautifulSoup import BeautifulSoup def getContent(url): soup = BeautifulSoup(urlopen(url).read()) return soup if __name__ == '__main__': cont = getContent('http://yahoo.co.jp') print type(cont) str = cont.findAll('td') str.append(cont.findAll('div')) print str
なんかうまくいく方法が思いつかない。