반응형

파이썬을 이용한 웝 크롤링 (python web crawling with Selenium)

본문에서는 파이썬을 이용한 웹 크롤러 제작에 대한 내용을 다룹니다.

이전 포스터의 연장입니다. 내용 이해를 위하여 이전 포스트 확인 부탁드립니다.


1. 텍스트 데이터 수집하기

텍스트 데이터를 수집하는 방법은 비교적 간단한 편이다. 왜냐하면, 이전에 보았던 send_keys가 해당 개체에 값을 전달하는 것이었다면, text라는 녀석을 이용하여 손쉽게 해당 개체가 갖고있는 텍스트 정보를 갖고올 수 있기 때문입니다.

아래는 위키에서 네이버를 검색하고 검색 결과를 갖고오는 모습을 볼 수 있습니다.


보는바와 같이 겨우 7줄의 코드로 모든 과정이 수행됩니다.




< 코드 >

from selenium import webdriver
from selenium.webdriver.common.keys import Keys

driver = webdriver.Chrome('./chromedriver.exe')
driver.get('https://ko.wikipedia.org/wiki/%EC%9C%84%ED%82%A4%EB%B0%B1%EA%B3%BC:%EB%8C%80%EB%AC%B8')
driver.find_element_by_xpath('//*[@id="mp_search"]/table/tbody/tr/td[1]/div/div/form/input[1]').send_keys('네이버')
driver.find_element_by_xpath('//*[@id="mp_search"]/table/tbody/tr/td[1]/div/div/form/input[1]').send_keys(Keys.ENTER)
print(driver.find_element_by_xpath('//*[@id="mw-content-text"]').text)



2. 이미지 데이터 수집하기

이미지 데이터 수집은 조금 복잡할 수 있습니다.

왜냐하면, 사이트마다 처리하는 방식이 많이 다르기 때문이죠.

저는 일단 가장 국내에서 대중적인 네이버를 대상으로 진행했습니다.


왼쪽이 코드고, 오른쪽은 파이썬이 제어하는 크롬화면입니다.


< 코드 >

from selenium import webdriver
from selenium.webdriver.common.keys import Keys

driver = webdriver.Chrome('./chromedriver.exe')
driver.get('https://naver.com')
driver.find_element_by_xpath('//*[@id="query"]').send_keys('마동석')
driver.find_element_by_xpath('//*[@id="query"]').send_keys(Keys.ENTER)
driver.find_element_by_xpath('//*[@id="lnb"]/div/div[1]/ul/li[2]/a/span').click()

link = []
for i in range(1, 30):
    try:
        img = driver.find_element_by_xpath('//*[@id="_sau_imageTab"]/div[1]/div[2]/div['+ str(i) + ']/a[1]/img')
    except:
        img = driver.find_element_by_xpath('//*[@id="_sau_imageTab"]/div[2]/div[2]/div['+ str(i) + ']/a[1]/img')
    link.append(img.get_attribute('src'))


왼쪽 코드부 하단에 link 라는 리스트에 저장되는 내용은 오른쪽 이미지들의 이미지 링크입니다.


반복문내에서 이미지 주소를 갖고와서 바로바로 저장하는 방법보다는 한번에 이미지들의 링크를 수집한 후 이 링크들의 이미지들을 다운로드 하는 방식이 저는 더 편해서 이렇게 했습니다. (중간에 애러떠도 수정하기 쉬우니까요)


그럼 최종적으로 이미지는 어떻게 저장할까요?


파이썬의 내장 라이브러리인 urllib를 사용합니다.




이렇게하면, 현재 파이썬 파일과 함께있는 img폴더에 이미지들이 하나씩 저장되게됩니다. 어때요? 간단하죠?


import urllib.request

count = 0
for url in link:
    count += 1
    urllib.request.urlretrieve(url, './img/img'+str(count)+'.jpg')




다음이야기~

일단 초급과정은 여기서 마무리하겠습니다. 여기서 조금만 응용하면 거의 대부분의 간단간단한 기능들은 모두 구현이 가능합니다.

다음 중급자 코스에서는 Headless 크롤링과, 서버를 속이는 방법을 작성하겠습니다..




반응형
반응형

파이썬을 이용한 웝 크롤링 (python web crawling with Selenium)

본문에서는 파이썬을 이용한 웹 크롤러 제작에 대한 내용을 다룹니다.

개인 정리의 성향이 강하기 때문에 실무에서 사용하는 방법과는 다를 수 있으며, 자바스크립트등을 다루어야 하는 내용은 포함하지 않습니다.



1. 크롤링 환경 구축

 python3 버전과 selenium 라이브러리, 그리고 크롬드라이버가 필요합니다.

 파이썬은 사용을 위한 환경은 아나콘다 3.x버전을 설치하시는 것을 권장합니다. (포스터에서는 아나콘다 3.x 버전 설치시 따라오는 주피터 노트북 사용)
 Selenium은 jupyter notebook에서 [!pip install selenium] 명령으로 간단하게 설치가 가능합니다.

 크롬드라이버는 사용하는 OS에 알맞게 다운로드 후 파이썬 .py 또는 .ipynb 파일과 함께 두면 됩니다.  다운로드 링크 => 다운로드



2. 프로그래밍 기본


다음과 같이 jupyter notebook에서 selenium을 import하고, 아래의 방식으로 크롬드라이버를 실행 할 수 있습니다.

driver.get( URL )을 이용하여 원하는 페이지로 이동도 가능합니다.




그리고 여기서 오른쪽 클릭을 하면 [검사] 라는 녀석이 있습니다. "크롬 브라우저"에서만 가능합니다.



검사라는 녀석을 클릭하면 옆에 창이하나 생기는데, 이 후 검색어를 입력하는 부분에서 한번더 [우클릭+검사]를 눌러주면 아래 화면과 같이 특정 영역이 지정되는 것을 볼 수 있습니다.




위 사진에서 오른쪽 영역은 해당 페이지의 HTML문서 내용입니다. 그리고 이 HTML문서에서 검색어를 입력하는 영역에 대한 부분이 바로 파란색으로 지정된 영역임을 알 수 있습니다.


아래 그림과 같이 오른쪽 파란색 영역에서 [우클릭 - Copy - Copy XPath]를 누르면 해당 영역에 대한 XPath값을 복사해올 수 있습니다.





이렇게 복사해온 값을 파이썬 코드에서 사용합니다.


앞서 크롬드라이버를 갖고온 driver라는 녀석한테 find_element_by_xpath(' XPath ').send_keys(" 전송할 내용 ") 이라는 형태로 작성하면 아래와 같이 실행했을 때, 구글검색 영역에 send_keys에 입력한 글자가 자동으로 입력되는 것을 볼 수 있습니다.






입력을 했다면, [엔터] 버튼을 눌러서 검색결과를 확인해야겠죠?


아래 코드를 확인해주세요.



위에 xpath의 값은 전과 동일합니다. 다만, send_keys에서 문자를 전달하는 것이 아니라, ENTER키를 누른 액션을 전달한다는게 차이입니다.


즉, 위 코드로 검색창에 커서를 둔 상태로 ENTER키를 누른 효과를 만들 수 있는 것입니다.



일단 여기까지해서 크롤링의 가장 기본적인 부분을 다루어봤습니다.


바로 다음에 이어질 포스터에서는 크롤링을 통하여 실제 데이터라고 할 수 있는 것들을 긇어오는 방법을 알아보겠습니다.

반응형

+ Recent posts