파이썬을 이용한 웝 크롤링 (python web crawling with Selenium)
본문에서는 파이썬을 이용한 웹 크롤러 제작에 대한 내용을 다룹니다.
개인 정리의 성향이 강하기 때문에 실무에서 사용하는 방법과는 다를 수 있으며, 자바스크립트등을 다루어야 하는 내용은 포함하지 않습니다.
1. 크롤링 환경 구축
2. 프로그래밍 기본
그리고 여기서 오른쪽 클릭을 하면 [검사] 라는 녀석이 있습니다. "크롬 브라우저"에서만 가능합니다.
검사라는 녀석을 클릭하면 옆에 창이하나 생기는데, 이 후 검색어를 입력하는 부분에서 한번더 [우클릭+검사]를 눌러주면 아래 화면과 같이 특정 영역이 지정되는 것을 볼 수 있습니다.
위 사진에서 오른쪽 영역은 해당 페이지의 HTML문서 내용입니다. 그리고 이 HTML문서에서 검색어를 입력하는 영역에 대한 부분이 바로 파란색으로 지정된 영역임을 알 수 있습니다.
아래 그림과 같이 오른쪽 파란색 영역에서 [우클릭 - Copy - Copy XPath]를 누르면 해당 영역에 대한 XPath값을 복사해올 수 있습니다.
이렇게 복사해온 값을 파이썬 코드에서 사용합니다.
앞서 크롬드라이버를 갖고온 driver라는 녀석한테 find_element_by_xpath(' XPath ').send_keys(" 전송할 내용 ") 이라는 형태로 작성하면 아래와 같이 실행했을 때, 구글검색 영역에 send_keys에 입력한 글자가 자동으로 입력되는 것을 볼 수 있습니다.
입력을 했다면, [엔터] 버튼을 눌러서 검색결과를 확인해야겠죠?
아래 코드를 확인해주세요.
위에 xpath의 값은 전과 동일합니다. 다만, send_keys에서 문자를 전달하는 것이 아니라, ENTER키를 누른 액션을 전달한다는게 차이입니다.
즉, 위 코드로 검색창에 커서를 둔 상태로 ENTER키를 누른 효과를 만들 수 있는 것입니다.
일단 여기까지해서 크롤링의 가장 기본적인 부분을 다루어봤습니다.
바로 다음에 이어질 포스터에서는 크롤링을 통하여 실제 데이터라고 할 수 있는 것들을 긇어오는 방법을 알아보겠습니다.
'머신러닝 > 데이터 수집' 카테고리의 다른 글
[파이썬 크롤링] 네이버 동영상 크롤링 (3/4) (Selenium 크롤링) (0) | 2019.04.13 |
---|---|
[파이썬 크롤링] 네이버 동영상 크롤링 (2/4) (Selenium 크롤링) (2) | 2019.04.12 |
[파이썬 크롤링] 네이버 동영상 크롤링 (1/4) (Selenium 크롤링) (0) | 2019.04.12 |
파이썬 웹 크롤링 초급(with, Selenium) (2/2) (0) | 2019.01.02 |