When it’s ready.

出来るまで出来ない

BeautifulSoupデビュー

今までことごとく避けてきたBuetifulSoupだけど、なんか使いたくなったので使っている。やりたい事は、なんか適当なページの文字だけ抜き出す(タグを除去したい)RSSだけがソースならなんか凄い簡単にとれるんだけど、HTMLがソースだと<p>でくくってあったり<div>でくくってあったり色々すぎてめんどくさい。
 こういうのって正規表現で抜き出した方が早いのか?

from urllib import urlopen
from BeautifulSoup import BeautifulSoup

def getContent(url):
  soup = BeautifulSoup(urlopen(url).read())
  return soup

if __name__ == '__main__':
  cont = getContent('http://yahoo.co.jp')
  print type(cont)
  str =  cont.findAll('td')
  str.append(cont.findAll('div'))
  print str

なんかうまくいく方法が思いつかない。