[웹 크롤링] cloudflare 차단 우회
개요 정보 수집이나 파일 다운로드 자동화를 위해 크롤링을 사용한다. 주로 파이썬의 requests 모듈을 이용하여 수집했는데, 대상 사이트에서 응답코드 403(Forbidden)을 반환하면서 데이터를 가져올 수 없었다. 문제를 발견하고 해결하는 과정이다. 문제 식별 cloudflare에서 차단 정책을 도입하여 봇의 접근을 차단하고 있었다. 영문으로는 'Cloudflare challenge page'로 언급하는데 자동화된 접근이나 스크래핑 봇을 차단하기 위해 사용한다. 작동 방식은 브라우저에서만 실행할 수 있는 자바스크립트 구문을 사이트 본문에 삽입하여 실행 여부를 검사하는 방식을 포함하여 사용자의 상호작용이 필요한 버튼을 추가(캡차 등)하는 다양한 방법이 존재한다. 대상 페이지의 경우 명령..