일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
Tags
- hanghae99
- jQuery
- oauth
- WIL
- programmers
- JPA
- cookie
- jenkins
- spring
- bean
- google oauth
- DI
- Project
- flask
- JWT
- Spring Security
- Anolog
- Stream
- server send event
- python
- real time web
- SseEmitter
- 항해99
- web
- 생명주기 콜백
- javascript
- Java
- html
- Hibernate
- session
Archives
- Today
- Total
끄적끄적 코딩일지
Beautiful soup 사용하기 본문
Web Crawling 이란?
사전적 의미로는 web 상을 기어다닌다는 의미인데 이는 web 상에서 필요한 정보를 수집하는 행위를 말한다. 이는 Web Scraping이라고도 하는데 소프트웨어 기술로 웹 사이트에서 원하는 정보를 추출하는 기술이다.
Beautiful Soup 이란?
Python을 사용하여 Web Crawling을 수행하는 라이브러리
Beautiful Soup 사용하기
사전에 Beautiful soup & requests 라이브러리 설치후 진행한다
pip install bs4
pip install requests
import requests
import bs4
webpage = requests.get("crawling할 url")
soup = bs4.BeautifulSoup(webpage.text,"html.parser") // html으로써 입력정보 분석
// 태그 타고 들어가기
body = soup.select('body > div > p ....')
// 특정 태그 검색하기
p = soup.find('p') // 가장 첫번째 p 태그 검색
plist = soup.find_all('p') // 전체 p 태그 검색
// 특정 class 검색하기
classes = soup.select('.classname')
// tag id로 검색하기
selects = soup.select('#tagId')
// 여러 attrs 를 사용하여 검색하기
ls = soup.find_all({'class':'classname','id':'tagId'})
// 택스트만 읽기
print(soup.select('#id').get_text())
'Python' 카테고리의 다른 글
Jinja2를 사용해서 페이지를 만들어보자 (0) | 2022.05.11 |
---|---|
[python] APScheduler 사용하기 (0) | 2022.05.10 |
BeautifulSoup + Selenium을 이용한 동적 페이지 크롤링 (0) | 2022.05.10 |
Flask 사용하기 (0) | 2022.03.24 |
MongoDB 시작하기 (0) | 2022.03.23 |