coding/Python 7

셀레니움

셀레니움 웹페이지의 필요한 정보나 선택자를 선택하여 정보를 스크랩 하는 것을 크롤링 또는 스크래핑이라고 한다. 웹 크롤링이란 웹상의 정보들을 탐색하고 수집하는 작업을 의미 웹 스크래핑은 특정 웹 사이트나 페이지에서 필요한 데이터를 자동으로 추출해 내는 것을 의미 크롤링과 스크래핑은 ‘원하는 데이터를 모을 수 있다’는 점이 비슷 웹 크롤링은 웹 페이지의 링크를 타고 계속해서 탐색을 이어나가지만, 웹 스크래핑은 데이터 추출을 원하는 대상이 명확하여 특정 웹 사이트만을 추적한다는 차이가 있다. 고로 내가 지금까지 해온 크롤링은 사실 스크래핑이었다. 여러사이트나 페이지를 타고타고 들어가서 정보를 수지하는 것이 아닌 내가 지정한 페이지 안에서 필요한 정보들만 긁어 왔으니까 beatifulsoup4 와 seleni..

coding/Python 2022.07.20

python flask 시작

2022.04.29 로컬환경에서 서버를 만들고 구현 하려면 flask 패키지를 이용 하면 편하다 Django 보다 가볍고, 쉽기 때문에 더 크고 복잡한 서버를 만드는게 아니라면 flask 를 이용하면 좋다 통상 서버 파일은 app.py로 만들어서 사용함 패키지 이므로 flask 를 설치해주고 임포트 하여 사용한다 시작 코드 from flask import Flask app = Flask(__name__) @app.route('/') def home(): return 'This is Home!' if __name__ == '__main__': app.run('0.0.0.0',port=5000,debug=True) 시작하면 localhost:5000 으로 들어가서 볼수 있다 / 내생각 : @app.route..

coding/Python 2022.04.29

python bs4 하위태그 지우기(원하는 태그만 스크랩핑)

2022.04.29 크롤링을 하다 보면 내가 원하는 텍스트 뒤로 하위 태그들이 달려 있어 필요하지 않는 태그들도 같이 크롤링 되는 것을 볼 수 있다. 예를 들면 # import 생략 soup = BeautifulSoup(data.text, 'html.parser') rows = soup.select("#body-content > div.newest-list > div > table > tbody > tr") for row in rows: rank = row.select_one("td.number") print(rank) 내가 원하는건 number 클래스 td 뒤 text만 필요하지만 뒤에 span태그 들이 같이 딸려온다 이때 span 태그는 안나오게 하는법이 있다 soup = BeautifulSoup(d..

coding/Python 2022.04.29

python pymongo 사용법

2022.04.29 pymongo는 패키지 이므로 설치를 하고 임포트 하여 사용 일단 몽고디비는 눈에 보이지 않게 db를 저장하고 사용하기 때문에 가시적으로 볼수 있게 로보3T와 함께 사용 한다(로보3T가 몽고디비를 시각화 시켜주오 db를 볼수 있다) pymongo 기본 코드 from pymongo import MongoClient client = MongoClient('localhost', 27017) # client = MongoClient('mongodb://localhost:27017/') db = client.dbsparta # db = client['dbsparta'] # 코딩 시작 client = MongoClient('localhost', 27017) 는 기본 호스트와 포트에 연결 합니다...

coding/Python 2022.04.29

python bs4

2022.04.28 크롤링이란 브라우저에서 내가 원하는 데이터를 requests로 가져오고 bs4으로 원하는 데이터를 솎아내는 것을 의미 근데 지금 내가하는건 크로링 보다는 스크롤링에 가깝다고 보면 됨 패키지니까 requests처럼 설치후 임포트 하여 사용 import requests from bs4 import BeautifulSoup # 타겟 URL을 읽어서 HTML를 받아오고, headers = {'User-Agent' : 'Mozilla/5.0 (Windows NT 10.0; Win64; x64)AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36'} data = requests.get('https://movie.nave..

coding/Python 2022.04.28

python requests 사용법

2022.04.28 requests를 사용하려면 먼저 패키지를 설치해야 한다. 설치 후 import 하여 패키지를 불러오고 코드를 입력하여 사용함 import requests # requests 라이브러리 설치 필요 r = requests.get('http://openapi.seoul.go.kr:8088/6d4d776b466c656533356a4b4b5872/json/RealtimeCityAir/1/99') rjson = r.json() print(rjson['RealtimeCityAir']['row'][0]['NO2']) requests.get("APIurl") 하여 url의 데이터를 r 변수에 담고 r.json()은 .json() 함수를 통해 url정보가 json형태로 출력할 수 있도록 변형 하여 r..

coding/Python 2022.04.28

파이썬 패키지 설치

2022.04.28 Python 에서 패키지는 모듈(일종의 기능들 묶음)을 모아 놓은 단위. 이런 패키지 의 묶음을 라이브러리 라고 볼 수 있습니다. 지금 여기서는 외부 라이브러리를 사용하기 위해서 패키지를 설치합니다. 즉, 여기서는 패키지 설치 = 외부 라이브러리 설치! 파이썬 처음 실행 맨위 location : 파일 저장 위치 2번째 location : \venv 가 붙었는지 확인 (가상환경 venv 설치를 해야 패키지를 효율적으로 설치 가능함) 맨아래 create 체크 해제 가상 환경(virtual environment) 이란? - 프로젝트별로 패키지들을 담을 공구함 가상환경(virtual environment)은 같은 시스템에서 실행되는 다른 파이썬 응용 프로그램들의 동작에 영향을 주지 않기 위해..

coding/Python 2022.04.28