BeautifulSoup | NKTK-WEBLOG

あるタグ配下の文字列を取得したい場合は、.stringを用いて以下のように書ける。
例:

from bs4 import BeautifulSoup

html = "<div>test</div>"
soup = BeautifulSoup(html, "html.parser")
print(soup.find("div").string)

出力結果test

ただし、取得したタグ配下に、さらにほかのタグがあると.stringプロパティはNoneを返す。
そのような場合は、
1. .textプロパティを用いる(配下のタグはすべて削除される)
2. str関数で文字列に変換する(自身のタグも出力される)
3. .contentsにて、配下のタグを全て取得し文字列に変換する(自身のタグは出力されない)
などが考えられると思う。

例 :

from bs4 import BeautifulSoup

html = "<div>test <br>hoge1 <div><div>hoge2</div></div> <br>hoge3</div>"
soup = BeautifulSoup(html, "html.parser")
first_div = soup.find("div")

print("0 : " + str(first_div.string))
print("1 : " + first_div.text)
print("2 : " + str(first_div))
print("3 : " + "".join(map(str, first_div.contents)))

出力結果0 : None
1 : test hoge1 hoge2 hoge3
2 : <div>test <br/>hoge1 <div><div>hoge2</div></div> <br/>hoge3</div>
3 : test <br/>hoge1 <div><div>hoge2</div></div> <br/>hoge3

3に関してはもう少しスマートなやり方がありそうな気がする。

NKTK-WEBLOG

Webとか3DCG, その他趣味とか

「BeautifulSoup」タグアーカイブ

BeautifulSoupにてあるタグ配下のhtmlをそのまま出力したい