2010年11月19日

BeautifulSoup/python(1)

WEBサイトから情報を集めて表示するサイトを作りたくなった。
ほいで、ググったところBeautifulSoupっていうのが絶賛されている。
試してみますか

(1)導入
↓からダウンロード
http://www.crummy.com/software/BeautifulSoup/#Download

で「BeautifulSoup.py」をpython的にパスの通ってるディレクトリに設置するだけ!


(2)使い方〜宣言
宣言部分はこんな感じで

from BeautifulSoup import BeautifulSoup




(3)使い方〜切り取り方
pagesというディレクトリ以下のfileですでにhtmlが存在していると仮定

fin=open("pages/"+file)
html=fin.read()

soup = BeautifulSoup(html)
links = soup.findAll('table')
for link in links:
  print link



これでtableタグで囲まれたもの全てか表示されます。
あとはバカ正直に単純に要素を引っ張りたいのであれば

str=link.contents[3].contents[1].contents[2].contents[0].encode('utf-8')


とか書けば中身が引っ張れます。
しかし、実際は判断や加工がいるのでlenとかsearchとかreplaceとかとか...を駆使することになると思います。

....この項、続く。
posted by wani at 11:02 | Comment(0) | TrackBack(0) | 日記 | このブログの読者になる | 更新情報をチェックする
この記事へのコメント
コメントを書く
お名前:

メールアドレス:

ホームページアドレス:

コメント:

認証コード: [必須入力]


※画像の中の文字を半角で入力してください。

この記事へのトラックバック