반응형

파이썬을 이용한 웝 크롤링 (python web crawling with Selenium)

본문에서는 파이썬을 이용한 웹 크롤러 제작에 대한 내용을 다룹니다.

개인 정리의 성향이 강하기 때문에 실무에서 사용하는 방법과는 다를 수 있으며, 자바스크립트등을 다루어야 하는 내용은 포함하지 않습니다.



1. 크롤링 환경 구축

 python3 버전과 selenium 라이브러리, 그리고 크롬드라이버가 필요합니다.

 파이썬은 사용을 위한 환경은 아나콘다 3.x버전을 설치하시는 것을 권장합니다. (포스터에서는 아나콘다 3.x 버전 설치시 따라오는 주피터 노트북 사용)
 Selenium은 jupyter notebook에서 [!pip install selenium] 명령으로 간단하게 설치가 가능합니다.

 크롬드라이버는 사용하는 OS에 알맞게 다운로드 후 파이썬 .py 또는 .ipynb 파일과 함께 두면 됩니다.  다운로드 링크 => 다운로드



2. 프로그래밍 기본


다음과 같이 jupyter notebook에서 selenium을 import하고, 아래의 방식으로 크롬드라이버를 실행 할 수 있습니다.

driver.get( URL )을 이용하여 원하는 페이지로 이동도 가능합니다.




그리고 여기서 오른쪽 클릭을 하면 [검사] 라는 녀석이 있습니다. "크롬 브라우저"에서만 가능합니다.



검사라는 녀석을 클릭하면 옆에 창이하나 생기는데, 이 후 검색어를 입력하는 부분에서 한번더 [우클릭+검사]를 눌러주면 아래 화면과 같이 특정 영역이 지정되는 것을 볼 수 있습니다.




위 사진에서 오른쪽 영역은 해당 페이지의 HTML문서 내용입니다. 그리고 이 HTML문서에서 검색어를 입력하는 영역에 대한 부분이 바로 파란색으로 지정된 영역임을 알 수 있습니다.


아래 그림과 같이 오른쪽 파란색 영역에서 [우클릭 - Copy - Copy XPath]를 누르면 해당 영역에 대한 XPath값을 복사해올 수 있습니다.





이렇게 복사해온 값을 파이썬 코드에서 사용합니다.


앞서 크롬드라이버를 갖고온 driver라는 녀석한테 find_element_by_xpath(' XPath ').send_keys(" 전송할 내용 ") 이라는 형태로 작성하면 아래와 같이 실행했을 때, 구글검색 영역에 send_keys에 입력한 글자가 자동으로 입력되는 것을 볼 수 있습니다.






입력을 했다면, [엔터] 버튼을 눌러서 검색결과를 확인해야겠죠?


아래 코드를 확인해주세요.



위에 xpath의 값은 전과 동일합니다. 다만, send_keys에서 문자를 전달하는 것이 아니라, ENTER키를 누른 액션을 전달한다는게 차이입니다.


즉, 위 코드로 검색창에 커서를 둔 상태로 ENTER키를 누른 효과를 만들 수 있는 것입니다.



일단 여기까지해서 크롤링의 가장 기본적인 부분을 다루어봤습니다.


바로 다음에 이어질 포스터에서는 크롤링을 통하여 실제 데이터라고 할 수 있는 것들을 긇어오는 방법을 알아보겠습니다.

반응형
반응형

MAC에서 VSCode를 사용하여 C언어와 C++을 사용하는 방법

전편에 이어서 작성된 글입니다. 본편에서는 디버거 연동을 다룹니다.


전편에 이어서 이번에는 디버깅을 하는 과정을 다루겠습니다.



[왼쪽에 벌레잡는 그림] -> [실행버튼 클릭시 위와같이 선택사항 표시] -> [C++(GDB/LLDB) 선택]]


클릭하면 launch.json파일이 생성됩니다.


기본 상태는 아래와 같습니다.



전편에서 tasks.json 파일을 수정해보셨기 때문에 대충 감이오실거에요.


설명은 중략하고 아래와같이 launch.json파일을 수정합니다.



{ // IntelliSense를 사용하여 가능한 특성에 대해 알아보세요. // 기존 특성에 대한 설명을 보려면 가리킵니다. // 자세한 내용을 보려면 https://go.microsoft.com/fwlink/?linkid=830387을(를) 방문하세요. "version": "0.2.0", "configurations": [ { "name": "(lldb) Launch", "type": "cppdbg", "request": "launch", "program": "${fileDirname}/${fileBasenameNoExtension}.out", "args": [], "stopAtEntry": false, "cwd": "${workspaceFolder}", "environment": [], "externalConsole": false, "MIMode": "lldb", "osx": { "MIDebuggerPath": "/Applications/Xcode.app/Contents/Developer/usr/bin/lldb-mi" } } ] }


대략적으로 보면, 전편에서 build한 파일 [파일명.out]이라는 녀석을 디버깅 할 것이라는 거고, 디버깅에 사용할 디버거는 lldb입니다.


다만, 별도로 설치하지 않고, xcode를 설치하면서 따라온 녀석을 사용합니다.


마지막줄에 MIDebuggerPath 부분이 디버거의 위치를 지정하는 부분인데, 저같은 경우에는 저 경로에 디버거가 존재했습니다.


다들 비슷하겠지만, 혹시 저대로 설정하고 실행했을 때, 디버거를 발견하지 못했다는 애러가 발생하면, 확인해보시기바랍니다.



2018/12/29 - [IDE/VScode] - [MAC] VSCode로 C/C++ 사용하기 (1/3)

2018/12/29 - [IDE/VScode] - [MAC] VSCode로 C/C++ 사용하기 (2/3)



반응형

'IDE > VScode' 카테고리의 다른 글

task.json 파일  (0) 2019.07.01
[MAC] VSCode로 C/C++ 사용하기 (2/3)  (8) 2018.12.29
[MAC] VSCode로 C/C++ 사용하기 (1/3)  (0) 2018.12.29
반응형

MAC에서 VSCode를 사용하여 C언어와 C++을 사용하는 방법

전편에 이어서 작성된 글입니다. 본편에서는 프로그래밍과 build까지를 다룹니다.


1. 파일생성 및 프로그래밍

화살표순서로 따라가주세요.



[왼쪽위 탐색기 클릭] -> [폴더 열기] -> [새로움 폴더] -> [생성된 폴더로 이동해서 열기클릭]


그럼 위와같이 새로운 작업영역이 생성됩니다.


그럼 먼저 hello.c hi.cpp 이라는 두개의 파일을 생성해보겠습니다. 그리고 두개의 파일을 담고있는 tutorial이라는 폴더를 생성하겠습니다.




위 사진에서 왼쪽 상단에보면 + 표시가 붙은 두 녀석을 볼 수 있습니다. 둘 중 왼쪽은 파일을, 오른쪽은 폴더를 생성하는 아이콘입니다.


오른쪽 폴더생성을 눌러서 tutorial을 생성하고 이 후 왼쪽 파일생성을 클릭해서 hello.c와 hi.cpp을 만들어주시면됩니다.


완료되면 위와같이 c파일은 C라는 표시가 cpp파일은 C++표시가 자동으로 생성됩니다.


< C언어 >


< C++ 언어 >



위와같이 C와 C++로 작성된 두개의 프로그램을 작성했습니다.


그럼 이제 실행할수있는 파일로 만들어야합니다.


우리 맥 유저는 리눅스의 친구 gcc와 g++을 이용하도록 하겠습니다.


명령어 : Command + Shift + b


클릭하시면 '실행할 빌드 작업을 찾을 수 없습니다~ '라고 나옵니다. 그녀석을 클릭해주시고, '템플릿에서 tasks.json파일 만들기' 클릭, 'Others' 클릭



여기까지 잘 따라왔다고 생각합니다~


이놈을 클릭하게되면 왼쪽에 tasks.json파일이 생성됩니다. 클릭해서 들어가보시면 아래와 같이 되어있습니다.



맞이시죠?


우리는 요놈을 아래와 같이 수정합니다.


{ // See https://go.microsoft.com/fwlink/?LinkId=733558 // for the documentation about the tasks.json format "version": "2.0.0", "tasks": [ { "label": "build_gcc", "type": "shell", "command": "gcc", "args": [ "-g", "-o", "${fileDirname}/${fileBasenameNoExtension}.out", "${file}" ], "group": { "kind": "build", "isDefault": true } }, { "label": "build_g++", "type": "shell", "command": "g++", "args": [ "-g", "-o", "${fileDirname}/${fileBasenameNoExtension}.out", "${file}" ], "group": { "kind": "build", "isDefault": true } } ] }

위에서부터 tasks.json파일을 천천히 한번 보겠습니다.

 4번 줄) "tasks" :  -> 뒤에 오는내용이 수행할 작업에 대한 내용입니다.

 6번 줄) "label" :  -> 중괄호로 묶여있는 부분의 이름입니다. 이 후 Command + Shift + b 를 눌렀을 때 표시되는 내용이기도 합니다.

 7번 줄) "type" :  -> 작업이 수행되는 공간입니다.

 8번 줄) "command" :  -> 작업공간에서 수행할 명령입니다.

 9번 줄) "args" :  -> 위에 command에 적어준 명령의 파라미터를 넣어줍니다.

 10번 줄) "-g"  -> 디버깅을 위한 옵션입니다.

 11번 줄) "-o"  -> 출력파일의 이름을 정의해줄때 사용합니다.

 12번 줄) "${fileDirname}/${fileBasenameNoExtension}.out"  -> 파일의 현재 디렉토리에 파일명.out 파일을 생성합니다.

 13번 줄) "${file}"  -> 현재 파일을 의미합니다. 해당 파일이 여기서는 gcc의 입력이 됩니다.


14번째 줄 부터는 현재와는 상관없는 부분이며, 아래의 C++을 위한 g++설정은 gcc와 동일합니다.


이렇게 tasks.json파일을 완성하고 저장하신 후 다시 hello.c파일로 돌아와 Command + Shift + b 명령을 클릭해보세요.




짠~! 방금 설정한 두 task가 보이게됩니다.


작업에 따라 C언어로 작성된 녀석은 gcc로, C++로 작성된 녀석은 g++로 build해주시면 됩니다~!


build 작업이 끝나면 좌측에 다음과 같이 두개의 파일이 새로 생긴것을 확인 할 수 있습니다.




그럼 마지막으로 실행은 어떻게할까?


간단합니다. tasks.json파일을 다시 조금 손봐주시면 됩니다.


아래와 같이 말이죠.



{ { // See https://go.microsoft.com/fwlink/?LinkId=733558 // for the documentation about the tasks.json format "version": "2.0.0", "tasks": [ { "label": "build_gcc", "type": "shell", "command": "gcc", "args": [ "-g", "-o", "${fileDirname}/${fileBasenameNoExtension}.out", "${file}" ], "group": { "kind": "build", "isDefault": true } }, { "label": "build_g++", "type": "shell", "command": "g++", "args": [ "-g", "-o", "${fileDirname}/${fileBasenameNoExtension}.out", "${file}" ], "group": { "kind": "build", "isDefault": true } }, { "label": "exec", "type": "shell", "command": "${fileDirname}/${fileBasenameNoExtension}.out", "group": { "kind": "build", "isDefault": true } } ] }


큰 차이는 없습니다.


마지막에 exec라는 녀석을 추가했을 뿐이니까요.


이렇게 해준 후 다시 Command + Shift + b를 클릭해주시면 exec라는 녀석이 등장합니다. 그리고 실행~!




그럼 하단 터미널에 C언어로 작성된 프로그램이 실행된 결과를 알 수 있게됩니다~!!!!


후~ 그럼 다음 포스팅에서는 디버깅 설정에대해 말씀드리겠습니다.


2018/12/29 - [IDE/VScode] - [MAC] VSCode로 C/C++ 사용하기 (1/3)


반응형

'IDE > VScode' 카테고리의 다른 글

task.json 파일  (0) 2019.07.01
[MAC] VSCode로 C/C++ 사용하기 (3/3)  (2) 2019.01.02
[MAC] VSCode로 C/C++ 사용하기 (1/3)  (0) 2018.12.29

+ Recent posts