페이지

2015년 11월 12일 목요일

웹 크롤링

1. 기본적인 개발환경 패키지 설치 

sudo apt-get update 
$ sudo apt-get install build-essential 

2. Python 개발환경 

2-1. pip 패키지 매니저 설치 

$ sudo apt-get install python-pip 

2-2. Python 가상 환경 설치 

virtualenv virtualenvwrapper설치 

$ sudo pip install virtualenv virtualenvwrapper 

.bashrc 파일에 다음을 추가 

export WORKON_HOME=$HOME/.virtualenvs 
source /usr/local/bin/virtualenvwrapper.sh 

가상 환경 생성 

$ mkvirtualenv oneq 

(oneq)onecue@onecue-VirtualBox:~$  

가상 환경 주요 명령어  

가상 환경 생성 : mkvirtualenv env_name 
특정 python 버전으로 가상환경 생성 : mkvirtualenv --python=python3.4 env_name 
가상 환경 제거 : rmvirtualenv env_name 
가상 환경 실행 : workon  env_name 
가상 환경 종료 : deactivate 


3. Beautiful Soup 설치 

3-1. lxml 라이브러리 설치 

lxml defendency 설치 

sudo apt-get install libxml2-dev libxslt-dev python-dev zlib1g-dev 

sudo apt-get install python-lxml    # for Python 2.7 
sudo apt-get install python3-lxml  # for Python 3.x 

$ pip install lxml 


3-2. Beautiful Soup4 설치 

pip install beautifulsoup4 


4. Scrapy 설치 

4.1 Defendency 설치 

$ sudo apt-get install libffi-dev libssl-dev 

4.2 Scrapy 설치 

pip install Scrapy