python bs4

coding/Python

python bs4

JIN_Coder 2022. 4. 28. 23:47

2022.04.28

크롤링이란 브라우저에서 내가 원하는 데이터를 requests로 가져오고

bs4으로 원하는 데이터를 솎아내는 것을 의미

근데 지금 내가하는건 크로링 보다는 스크롤링에 가깝다고 보면 됨

패키지니까 requests처럼 설치후 임포트 하여 사용

import requests
from bs4 import BeautifulSoup

# 타겟 URL을 읽어서 HTML를 받아오고,
headers = {'User-Agent' : 'Mozilla/5.0 (Windows NT 10.0; Win64; x64)AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36'}
data = requests.get('https://movie.naver.com/movie/sdb/rank/rmovie.nhn?sel=pnt&date=20200303',headers=headers)

# HTML을 BeautifulSoup이라는 라이브러리를 활용해 검색하기 용이한 상태로 만듦
# soup이라는 변수에 "파싱 용이해진 html"이 담긴 상태가 됨
# 이제 코딩을 통해 필요한 부분을 추출하면 된다.
soup = BeautifulSoup(data.text, 'html.parser')

# soup에 브라우저의 html데이터가 다 들어감
print(soup)

url에서 영화 제목을 가져온다고 하면

bs4의 select 함수를 이용 한다

그전에 브라우저에서 원하는 데이터를 select 복사 하여

경로를 확인하고

# 선택자를 사용하는 방법 (copy selector)
soup.select('태그명')
soup.select('.클래스명')
soup.select('#아이디명')

soup.select('상위태그명 > 하위태그명 > 하위태그명')
soup.select('상위태그명.클래스명 > 하위태그명.클래스명')

# 태그와 속성값으로 찾는 방법
soup.select('태그명[속성="값"]')

# 한 개만 가져오고 싶은 경우
soup.select_one('위와 동일')

영화 제목은 #old_content > table > tbody > tr:nth-child(2) > td.title > div > a 의 text 이고

제목들은 #old_content > table > tbody > tr 로 공통된 부모태그가 있는 것을 확인

그럼 movies = soup.select('#old_content > table > tbody > tr') 변수를 만들고 반복문을 돌려서

반복문을 도는 변수에 td.title > div > a 가 있으면 text를 찍으면 영화 제목을 크롤링 할 수 있게 됨

import requests
from bs4 import BeautifulSoup

# URL을 읽어서 HTML를 받아오고,
headers = {'User-Agent' : 'Mozilla/5.0 (Windows NT 10.0; Win64; x64)AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36'}
data = requests.get('https://movie.naver.com/movie/sdb/rank/rmovie.nhn?sel=pnt&date=20200303',headers=headers)

# HTML을 BeautifulSoup이라는 라이브러리를 활용해 검색하기 용이한 상태로 만듦
soup = BeautifulSoup(data.text, 'html.parser')

# select를 이용해서, tr들을 불러오기
movies = soup.select('#old_content > table > tbody > tr')

# movies (tr들) 의 반복문을 돌리기
for movie in movies:
    # movie 안에 a 가 있으면,
    a_tag = movie.select_one('td.title > div > a')
    if a_tag is not None:
    	num = movie.select_one("td:nth-child(1) > img")["alt"]
        title = a_tag.text
        point = movie.select_one("td.point").text
        print(num, title, point)
        
        
# 랭크
#old_content > table > tbody > tr:nth-child(2) > td:nth-child(1) > img
#old_content > table > tbody > tr:nth-child(3) > td:nth-child(1) > img
# 평점
#old_content > table > tbody > tr:nth-child(2) > td.point
#old_content > table > tbody > tr:nth-child(3) > td.point

조건문은 중간 공백으로 인해 .text를 찍을 수 없기에 None이 아닌 a태그의 text만 프린트 한다

'coding > Python' 카테고리의 다른 글

python flask 시작 (0)	2022.04.29
python bs4 하위태그 지우기(원하는 태그만 스크랩핑) (0)	2022.04.29
python pymongo 사용법 (0)	2022.04.29
python requests 사용법 (0)	2022.04.28
파이썬 패키지 설치 (0)	2022.04.28

현재글python bs4

Today :
Yesterday :

til, node,

일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

JIN_CODER

python bs4

'coding > Python' 카테고리의 다른 글

'coding/Python'의 다른글

티스토리툴바

python bs4

'coding > Python' 카테고리의 다른 글

'coding/Python'의 다른글

관련글

티스토리툴바