본문 바로가기

프로그래밍&IT/파이썬

[파이썬] 웹 스크래핑.3 - BeautifulSoup4 - 2. find_all [+ http 메소드:get,post]

BeautifulSoup4

find_all() : 해당 조건에 해당하는 모든 걸 가져오기

<a> 태그 , class가 "title"인 것들 가져오기

# 공통 부분 ~
import requests
from bs4 import BeautifulSoup

url = "https://comic.naver.com/webtoon/weekday"
res = requests.get(url)
res.raise_for_status()

soup = BeautifulSoup(res.text, "lxml")
# ~ 공통 부분

### 목록 가져오기
toons = soup.find_all("a", attrs={"class": "title"})
for toon in toons:
    print(toon.get_text() )

HTTP method 중 Get , Post

Get : 누구나 볼수있게 url에 담아서 보내는것.

   데이터 전송량에 한계있다. 

ex) https://comic.naver.com/webtoon/list?titleId=758037&weekday=mon

Post : Get과 다르게, URL에 보내지 않고, body에다가 데이터를 보낸다.

   헤더필드 중 body의 데이터를 설명하는 Content-Type이라는 헤더필드가 들어가고 어떤 데이터 타입인지 명시

  1. application/x-www-form-urlencoded
  2. text/plain
  3. multipart/form-data

보통 명시하지 않는 경우, 1번의 컨텐츠 타입으로 셋팅된다.

 

보안성은 Post가 Get보다 낫고, 속도는 Get이 Post에 비해서 빠르다.