본문 바로가기

728x90
반응형

파이썬 학습

(2)
[파이썬] 웹 스크래핑.2 - 정규 표현식 (regular expression) 정규 표현식 (Regular expression, 간단히 regexp, regex) 특정한 규칙을 가진 문자열의 집합을 표현하는 데 사용하는 형식 언어 ex) 주민 등록 번호 , 이메일 주소 aa@a.com , IP 주소 체계 등 파이썬 정규표현식 라이브러리 : re comple(패턴) : 패턴 입력 match (문자열) : 주어진 문자열로 확인 group() : 일치하는 문자열 반환 import re p = re.compile('ca.e') # . : 하나의 문자 의미. (ca.e) > care, case 등 # ^ : 문자열의 시작. (^de) > desk, dest 등 # $ : 문자열의 끝. (se$) > base, case 등 m = p.match("case") # print(m.group())..
[파이썬] 웹 스크래핑.1 - requests 웹 스크래핑을 시작해보자. 웹 스크래핑? 웹 페이지에서 내가 원하는 부분만 추려서 가져오는 것 웹 크롤링? 어떤 페이지에서 링크를 따라가면서 모든 내용을 가져오는 것. 웹 페이지를 구성하는 3가지 HTML / CSS / Javs script (JS) => 페이지 : 뼈대 / 꾸미기 / 기능 구현, 실현 HTML (Hyper Text Markup Language) XPath (XML Path Language) 문서의 구조를 통해 경로(Path)위에 지정된 구문을 사용하여 항목을 배치하고 처리하는 방법을 기술하는 언어 HTML내에서 특정 값의 위치/경로를 표현하는 언어. ex) 크롬 브라우저에서 네이버를 들어간 후, 개발자 도구 (F12)를 연다. 특정 위치 확인 후 Copy -> Copy XPath를 누르..

반응형