BeautifulSoup4
find_all() : 해당 조건에 해당하는 모든 걸 가져오기
<a> 태그 , class가 "title"인 것들 가져오기
# 공통 부분 ~
import requests
from bs4 import BeautifulSoup
url = "https://comic.naver.com/webtoon/weekday"
res = requests.get(url)
res.raise_for_status()
soup = BeautifulSoup(res.text, "lxml")
# ~ 공통 부분
### 목록 가져오기
toons = soup.find_all("a", attrs={"class": "title"})
for toon in toons:
print(toon.get_text() )
HTTP method 중 Get , Post
Get : 누구나 볼수있게 url에 담아서 보내는것.
데이터 전송량에 한계있다.
ex) https://comic.naver.com/webtoon/list?titleId=758037&weekday=mon
Post : Get과 다르게, URL에 보내지 않고, body에다가 데이터를 보낸다.
헤더필드 중 body의 데이터를 설명하는 Content-Type이라는 헤더필드가 들어가고 어떤 데이터 타입인지 명시
- application/x-www-form-urlencoded
- text/plain
- multipart/form-data
보통 명시하지 않는 경우, 1번의 컨텐츠 타입으로 셋팅된다.
보안성은 Post가 Get보다 낫고, 속도는 Get이 Post에 비해서 빠르다.
'프로그래밍&IT > 파이썬' 카테고리의 다른 글
[파이썬] 웹 스크래핑.5 - Selenium 기본 (0) | 2021.10.25 |
---|---|
[파이썬] 웹 스크래핑.4 - CSV 기본 (0) | 2021.10.24 |
[파이썬] 웹 스크래핑.3 - BeautifulSoup4 - 1. 설치 및 기본적인 찾기 (0) | 2021.10.22 |
[파이썬] 웹 스크래핑.2 - 정규 표현식 (regular expression) (0) | 2021.10.21 |
[파이썬] 웹 스크래핑.1 - requests (0) | 2021.10.20 |