[Python] Job Scrapper

 * 노마드코더 Python으로 웹 스크래퍼 만들기 강의를 통해 학습하실 수 있습니다.

 

필요한 모듈
모듈명 사이트 설명
requests https://requests.readthedocs.io/en/master/ Python을 위한 간단한 HTTP 라이브러리
BeautifulSoup https://www.crummy.com/software/BeautifulSoup/bs4/doc/ HTML 및 XML 파일에서 데이터를 꺼내기 위한 Python 라이브러리
csv
https://docs.python.org/3.8/library/csv.html  

 

개발 순서
 1. requests를 이용한 URL 호출 (indeed, statck_of_flow)
 2. 검색 키워드, 페이지 파라미터 찾기
 3. URL 호출로 HTML 전문 가져오기
 4. BeautifulSoup을 이용하여 필요한 데이터의 태그 검색하기
 5. 데이터 리스트 만들기
 6. CSV로 내려 받기

 

1 ~ 2. Request
LIMIT = 50
INDEED_URL = f"https://kr.indeed.com/jobs?limit={LIMIT}"
get_request = requests.get(f"{INDEED_URL}&q={keyword}")

 

3. HTML 전문 가져오기
html_parse = bs(get_request.text, 'html.parser')

 

4 ~ 5. 필요한 데이터 태그 검색하기

 - 페이지

 

 

 - job 관련 데이터

 

 

6. CSV 파일로 내려 받기

 

 

Flask를 이용한 Job List Data Crawling

 * 간단한 데이터는 Flask를 이용해 CSV파일로 만들고, 보다 큰 데이터는 Django를 이용해 프로젝트 작성 할 것

'Edu > Nomad Coders' 카테고리의 다른 글

[AWS - Django] 배포하기  (0) 2020.04.09
[Airbnb] 정리  (0) 2020.03.14

 * AWS 공식 홈페이지 기반으로 작성하는 Django 배포하기

EB CLI 설치
1. pipenv 환경에 AWS EB CLI 설치 (Link)
 - EB 명령어 (Link)
 - EB 오류관련 (Link)

 * pipenv install awsebcli --dev
 * pathspec 버전 오류가 발생 할 수 있으나 그냥 진행
AWS Elastic Beanstalk Django 배포
1. AWS Elastic Beanstalk 개념 (Link}
2. Elastic Beanstalk 사용 시작하기 (Link)
3. Elastic Beanstalk 파이썬 플랫폼 사용하기 (Link)
4. Django 어플리케이션을 Elastic Beanstalk에 배포하기 (Link)
 - Elastic Beanstalk에 대한 Django 애플리케이션 구성
 * pip freeze > requirements.txt
  > 애플리케이션의 모듈을 로드할 수 있도록 환경 변수를 설정
 * .ebextensions/django.config
  > 어플리케이션 실행 Elastic Beanstalk가 애플리케이션을 시작하는 데 사용하는 WSGI 스크립트의 위치를 지정

 - IAM User 생성
 # access_id, access_secret

 - EB CLI를 사용하여 사이트 배포
 * eb init (Link)
  > 프로젝트 디렉터리 및 EB CLI를 구성할 준비
 * eb create app_name
  > eb create로 해당 환경에 애플리케이션을 배포
 * eb deploy
  > EB CLI가 프로젝트 디렉터리의 콘텐츠를 번들링한 후 이를 환경에 배포

5. Elastic Beanstalk에 첫 Django 애플리케이션을 배포

 

'Edu > Nomad Coders' 카테고리의 다른 글

[Python] Data Crawling  (0) 2020.04.19
[Airbnb] 정리  (0) 2020.03.14
이 글은 노마드코더[풀스택] 에어비엔비 클론 코딩 학습한 뒤 정리중인 내용입니다.
 * 이 글은 강의 핵심 내용외에 참고하기 위한 일부분입니다. 

 

Contents
1. Airbnb ERD
2. Django Project Structure
3. Login Process
4. Host Process
5. Guest Process
6. Reservation Process
7. URL Management
8. AWS Architecture

 

Airbnb ERD
# Airbnb_ERD

 

Django Project Structure
 - URL Mapping
URL Mapping
Login Process

 1. Email Login

 

 2. Github Login

 

 3. Kakao Login

OAuth - Kakao

 

Host Process

 

Guest Process

 

Reservation Process

 

AWS Architecture

 1. EB CLI 설치

 2. EB 구성하기

 3. eb init

 4. Django framework에 Elastic BeanStalk 설정

 5. EB에 Django 설치

 6. Postgresql 설정

 7. Sentry 설치

 8. statics files 업로드를 위한 S3 설정

Graduating From [풀스택] 에어비앤비 클론 코딩

'Edu > Nomad Coders' 카테고리의 다른 글

[Python] Data Crawling  (0) 2020.04.19
[AWS - Django] 배포하기  (0) 2020.04.09

+ Recent posts