티스토리 뷰
beautifulsoup을 이용하여 HTML을 파싱하는 방법을 알아보겠습니다.
bs4의 주요 객체
<html>
<!-- HTML 문서 예제 -->
<p>A</p>
B
<p>C</p>
</html>
- Tag
- HTML Tag 객체
<p>
로 둘러쌓인 객체
- NavigableString
- Tag 밖의 문자, 개행 문자
- 문자
B
- Comment 등
- HTML 주석
- BeautifulSoup
- HTML 문서 그 자체
예제
- 태그의 id, class 정보를 이용하여 찾는 방법
- 태그 애트리뷰트 정보를 이용하여 찾는 방법
- Tag객체의 정보를 확인하는 방법
This file contains bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
from bs4 import BeautifulSoup | |
html_doc = """<html> | |
<head> | |
<title>The Dormouse's story</title> | |
</head> | |
<body> | |
<!-- Comment --> | |
<p class="title" id="p_1"> | |
<b>The Dormouse's story</b> | |
</p> | |
middle data - navigable string | |
<p class="story" id="p_2"> | |
Once upon a time there were three little sisters; and their names were | |
<a href="http://example.com/elsie" class="sister" id="link1">Elsie</a>, | |
<a href="http://example.com/lacie" class="sister" id="link2">Lacie</a> and | |
<a href="http://example.com/tillie" class="sister" id="link3" data-type="sample">Tillie</a>; | |
and they lived at the bottom of a well. | |
</p> | |
<p class="description" id="p_3"> | |
... | |
</p> | |
</body> | |
</html> | |
""" | |
# BS의 파서는 lxml을 가장 추천한다고 함 | |
soup = BeautifulSoup(html_doc, 'lxml') | |
# find_all을 이용할 때는 정규식, 람다식 이용 가능 | |
# <p> 태그 찾기 | |
for p in soup.find_all("p"): | |
print(p) | |
# id를 이용하여 <p> 태그 찾기, 1개만 찾도록 지정 | |
for p in soup.find_all("p", id="p_3", limit=1): | |
print(p) | |
# class를 이용하여 <p> 태그 찾기 | |
for p in soup.find_all("p", class_="story"): | |
print(p) | |
# id, class를 모두 이용하여 <p> 태그 찾기 | |
for p in soup.find_all("p", id="p_2", class_="story"): | |
print(p) | |
# 기호가 들어간 애트리뷰트를 이용해서 <p> 태그 찾기 | |
for p in soup.find_all("p", attrs={"data-type": "sample"}): | |
print(p) | |
# 태그 이름으로 검색 | |
print(soup.body.p.b) | |
# children은 Tag 객체의 요소 | |
# 자식에 대한 정보를 모두 가지고 있음 | |
for item in soup.body.children: | |
print(item) | |
# Tag 객체의 데이터 | |
for a in soup.find_all("a"): | |
print(a) # a 객체 출력 | |
print(a.name) # 객체명: a | |
print(a.text) # 객체내 내용: Lacie | |
print(a.has_attr("href")) # href 애트리뷰틑를 가지고 있나? : True | |
print(a["href"]) # href의 값: http://example.com/lacie | |
print(a.attrs) # 애트리뷰트 전체: {'href': 'http://example.com/elsie', 'class': ['sister'], 'id': 'link1'} |
반응형
'python > 코드조각' 카테고리의 다른 글
[python] 커맨드 출력 결과에서 ansi color code 만 제거 하는 방법 (0) | 2023.08.13 |
---|---|
[python] [SSL: CERTIFICATE_VERIFY_FAILED] certificate verify failed 오류 수정 (2) | 2019.06.25 |
[python] 파이썬을 이용한 프로그레스바 처리 (0) | 2019.06.17 |
[python] 데코레이터를 이용하여 파라미터의 값을 제한 하는 예제 (0) | 2018.09.07 |
[python] 파이썬의 데코레이터(Decorator) 간단 예제 (0) | 2018.09.07 |
반응형
공지사항
최근에 올라온 글
최근에 달린 댓글
- Total
- Today
- Yesterday
링크
TAG
- HDFS
- 파이썬
- build
- 다이나믹
- ubuntu
- 알고리즘
- S3
- 백준
- yarn
- error
- Hadoop
- SQL
- emr
- AWS
- Python
- hbase
- nodejs
- 하둡
- java
- HIVE
- airflow
- 오류
- Linux
- bash
- Tez
- oozie
- 정올
- mysql
- SPARK
- 하이브
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
글 보관함