본문 바로가기
용어와 개념들

스크래핑이란? 크롤링과 비교

by 미스터케이티취미 2024. 1. 3.
반응형

 

 

 

스크래핑 개념 바로 알기

스크래핑(Scraping) 뜻과 개념에 대해서는 먼저 아래 버튼을 통해서 내용을 확인해보세요.

 

 

 

 

 

 

스크래핑이란

 

 

 

스크래핑 개념 세부 내용

스크래핑 개념
스크래핑 개념

 

 

 

스크래핑의 개념에 대해서 알아보아요.

 

스크래핑(Scraping)은 웹사이트나 앱 플랫폼에서 특정 화면에서 보여지는 데이터를 자동으로 추출해서 수집할 수 있는 기술입니다.

 

스크래핑은 API와 같은 공식적인 합의된 데이터 교환 프로토콜이나 크롤링과 같은 허용된 정보를 수집하는 것이 아니라 데이터를 수집하고자 하는 주체가 원하는 데이터를 강제적으로 수집할 수 있는 데이터 추출 및 수집 기술입니다.

 

따라서 상대방이 합의하지 않은 상태에서 프로그램을 통해 데이터를 자동으로 수집할 수 있습니다. 이에 따라 과도한 스크래핑에 따라 대상이 되는 시스템에 과부하를 줄 수 있고 데이터 항목 중 개인정보가 포함되면 개인정보 침해 이슈도 발생할 수 있습니다.

 

 

스크래핑(Scraping) 뜻과 개념에 대해서 자세히 보러 가기 >

 

 

스크래핑은 스크래퍼라고 하는 봇이 데이터를 수집하는 형태입니다. 웹사이트와 앱의 특정 페이지의 정보를 자동으로 추출할 수 있고 지속적으로 대상이 되는 시스템에서 데이터를 가지고 와서 갱신도 가능합니다.

 

 

 

 

스크래핑의 경우 API 기반의 금융 분야 마이데이터 체계가 구축되기 전에 핀테크 기업들이 고객의 동의하에 고객의 흩어져 있는 금융정보를 한 곳에서 통합해서 보여주기 위해서 사용했던 기술입니다. 고객이 공동인증서를 통해서 동의하였을 경우 고객이 각 금융기관에 가입되어 있는 금융정보들을 스크래핑 기술을 이용하여 데이터를 한 곳으로 수집하여 해당 데이터를 앱(App)을 통해서 보여주고 서비스를 제공하는 형태입니다.

 

스크래핑은 데이터 스크래핑이라고도 부르는데 스크래핑은 스크린 스크래핑과 웹 스크래핑으로 분류됩니다.

 

웹 스크래핑은 크롤링과 비교되는 개념인데 웹 스크래핑은 robot.txt 파일에 기재되어 있는 허용 범위와 상관 없이 데이터를 수집하지만 크롤링의 경우 robot.txt 파일 상 기대되어 있는 내용에 따라 수집 범위가 결정됩니다.

 

웹 스크래핑은 웹 사이트에서 데이터를 추출하는 과정을 말합니다. 이는 웹 페이지의 HTML 구조를 분석하고 원하는 정보를 추출하는 것을 포함하는 개념입니다.

 

 

스크래핑 개념
스크래핑 개념

 

 

 


 

 

웹 스크래핑은 주로 다음과 같은 단계로 이루어집니다.

 

1. URL 결정: 스크래핑을 시작할 대상이 되는 웹사이트도메인 주소나 웹 페이지의 URL주소를 결정합니다.

 

2. HTTP 요청: 대상으로 결정된 URL에 대해 HTTP 요청을 보냅니다. 이는 웹 서버에게 해당 웹 페이지의 데이터를 가져오기 위한 요청입니다.

 

3. HTML 다운로드: 서버(Server)로부터 받은 응답은 주로 HTML 문서 형태로 제공됩니다. 이 HTML 문서에는 웹 페이지의 구조와 내용이 포함되어 있습니다.

 

4. HTML 파싱: 다운로드한 HTML 문서를 해석하고 분석합니다. 일반적으로는 파이썬의 BeautifulSoup과 같은 라이브러리를 사용하여 이 작업을 수행합니다. HTML 문서를 트리 구조로 파싱하면 각 요소에 접근이 쉬워집니다.

 

5. 데이터 추출: 파싱(Parsing)된 HTML 문서에서 필요한 데이터를 추출합니다. 데이터를 추출할 때 특정 태그, 클래스, ID 등을 사용하여 원하는 정보에 접근하고 가져오는 과정입니다.

 

6. 데이터 가공 및 저장: 추출된 데이터는 종종 가공이 필요할 수 있습니다. 이후에는 이 데이터를 저장하거나 다른 형식으로 변환하여 활용합니다.

 

 

 

 


 

 

 

웹 스크래핑에는 몇 가지 윤리적인 이슈와 고려사항이 있습니다.

 

스크래핑을 통해서 데이터를 가져오려고 하는 주체는 항상 대상이 되는 웹 사이트의 이용 약관을 확인하는 것이 좋고 robots.txt에 기재되어 있는 내용을 준수하는 것이 좋습니다.

 

스크래핑을 통해서 대상이 되는 시스템에 과도한 요청을 보내는 것은 대상이 되는 시스템의 웹 서버에 과부하를 줄 수 있으므로 이를 감안하고 주의를 기울이는 것이 필요합니다. 이를 준수하면서 웹 스크래핑을 사용하게면 보다 건전하게 데이터를 수집하고 활용할 수 있습니다.

 

 

스크래핑 개념
스크래핑 개념

 

 

 


 

 

웹 스크래핑(Web Scraping)과 크롤링(Crawling)은 둘 다 웹에서 데이터를 수집하는 행위에서는 비슷하지만 각각 목적과 방법에 있어서는 차이가 있습니다.

 

 

크롤링(Crawling) 뜻과 개념에 대해서 자세히 보러 가기 >

 

 

웹 크롤링 (Web Crawling)은 인터넷을 자동으로 탐색하고 웹 페이지의 링크를 따라가며 정보를 수집하는 프로세스로 진행됩니다. 웹 크롤링은 주로 검색 엔진이나 웹 사이트의 색인 구축에 사용됩니다. 크롤링의 경우 크롤러 또는 스파이더라고 불리는 프로그램이 웹 사이트를 돌아다니며 링크를 추출하고 해당 링크로 이동하여 새로운 페이지를 수집합니다.

 

 

 

 

웹 스크래핑 (Web Scraping)은 대상이 되는 특정 웹 페이지에서 데이터를 추출하는 과정입니다. 주로 웹 페이지의 특정 정보나 구조를 분석하여 필요한 데이터를 추출하고 수집하는 데 사용됩니다. 웹 스크래핑은 해당 웹 페이지의 HTML을 다운로드하고, 그 HTML 문서를 분석하여 원하는 정보를 추출합니다.

 

스크래핑은 주로 특정 웹 페이지에 대한 명확한 목적이 있을 때 사용됩니다.

 

크롤링은 웹을 자동으로 돌아다니며 링크를 추출하고 새로운 페이지를 찾는 것에 중점을 두며, 스크래핑은 특정 웹 페이지에서 필요한 데이터를 추출하는 데 중점을 둡니다.

 

 

 

스크래핑 개념
스크래핑 개념

반응형