끄적끄적 코딩일지

Beautiful soup 사용하기 본문

Python

Beautiful soup 사용하기

BaekGyuHyeon 2022. 3. 23. 21:35

Web Crawling 이란?

사전적 의미로는 web 상을 기어다닌다는 의미인데 이는 web 상에서 필요한 정보를 수집하는 행위를 말한다. 이는 Web Scraping이라고도 하는데 소프트웨어 기술로 웹 사이트에서 원하는 정보를 추출하는 기술이다.

 

Beautiful Soup 이란?

 

Python을 사용하여 Web Crawling을 수행하는 라이브러리

 

Beautiful Soup 사용하기

사전에 Beautiful soup & requests 라이브러리 설치후 진행한다

pip install bs4
pip install requests
import requests
import bs4

webpage = requests.get("crawling할 url")
soup = bs4.BeautifulSoup(webpage.text,"html.parser") // html으로써 입력정보 분석

// 태그 타고 들어가기
body = soup.select('body > div > p ....')

// 특정 태그 검색하기
p = soup.find('p') // 가장 첫번째 p 태그 검색
plist = soup.find_all('p') // 전체 p 태그 검색

// 특정 class 검색하기
classes = soup.select('.classname')

// tag id로 검색하기
selects = soup.select('#tagId')

// 여러 attrs 를 사용하여 검색하기
ls = soup.find_all({'class':'classname','id':'tagId'})

// 택스트만 읽기
print(soup.select('#id').get_text())