스크래핑 개념 바로 알기
스크래핑(Scraping) 뜻과 개념에 대해서는 먼저 아래 버튼을 통해서 내용을 확인해보세요.
스크래핑 개념 세부 내용
스크래핑의 개념에 대해서 알아보아요.
스크래핑(Scraping)은 웹사이트나 앱 플랫폼에서 특정 화면에서 보여지는 데이터를 자동으로 추출해서 수집할 수 있는 기술입니다.
스크래핑은 API와 같은 공식적인 합의된 데이터 교환 프로토콜이나 크롤링과 같은 허용된 정보를 수집하는 것이 아니라 데이터를 수집하고자 하는 주체가 원하는 데이터를 강제적으로 수집할 수 있는 데이터 추출 및 수집 기술입니다.
따라서 상대방이 합의하지 않은 상태에서 프로그램을 통해 데이터를 자동으로 수집할 수 있습니다. 이에 따라 과도한 스크래핑에 따라 대상이 되는 시스템에 과부하를 줄 수 있고 데이터 항목 중 개인정보가 포함되면 개인정보 침해 이슈도 발생할 수 있습니다.
스크래핑(Scraping) 뜻과 개념에 대해서 자세히 보러 가기 >
스크래핑은 스크래퍼라고 하는 봇이 데이터를 수집하는 형태입니다. 웹사이트와 앱의 특정 페이지의 정보를 자동으로 추출할 수 있고 지속적으로 대상이 되는 시스템에서 데이터를 가지고 와서 갱신도 가능합니다.
스크래핑의 경우 API 기반의 금융 분야 마이데이터 체계가 구축되기 전에 핀테크 기업들이 고객의 동의하에 고객의 흩어져 있는 금융정보를 한 곳에서 통합해서 보여주기 위해서 사용했던 기술입니다. 고객이 공동인증서를 통해서 동의하였을 경우 고객이 각 금융기관에 가입되어 있는 금융정보들을 스크래핑 기술을 이용하여 데이터를 한 곳으로 수집하여 해당 데이터를 앱(App)을 통해서 보여주고 서비스를 제공하는 형태입니다.
스크래핑은 데이터 스크래핑이라고도 부르는데 스크래핑은 스크린 스크래핑과 웹 스크래핑으로 분류됩니다.
웹 스크래핑은 크롤링과 비교되는 개념인데 웹 스크래핑은 robot.txt 파일에 기재되어 있는 허용 범위와 상관 없이 데이터를 수집하지만 크롤링의 경우 robot.txt 파일 상 기대되어 있는 내용에 따라 수집 범위가 결정됩니다.
웹 스크래핑은 웹 사이트에서 데이터를 추출하는 과정을 말합니다. 이는 웹 페이지의 HTML 구조를 분석하고 원하는 정보를 추출하는 것을 포함하는 개념입니다.
웹 스크래핑은 주로 다음과 같은 단계로 이루어집니다.
1. URL 결정: 스크래핑을 시작할 대상이 되는 웹사이트의 도메인 주소나 웹 페이지의 URL주소를 결정합니다.
2. HTTP 요청: 대상으로 결정된 URL에 대해 HTTP 요청을 보냅니다. 이는 웹 서버에게 해당 웹 페이지의 데이터를 가져오기 위한 요청입니다.
3. HTML 다운로드: 서버(Server)로부터 받은 응답은 주로 HTML 문서 형태로 제공됩니다. 이 HTML 문서에는 웹 페이지의 구조와 내용이 포함되어 있습니다.
4. HTML 파싱: 다운로드한 HTML 문서를 해석하고 분석합니다. 일반적으로는 파이썬의 BeautifulSoup과 같은 라이브러리를 사용하여 이 작업을 수행합니다. HTML 문서를 트리 구조로 파싱하면 각 요소에 접근이 쉬워집니다.
5. 데이터 추출: 파싱(Parsing)된 HTML 문서에서 필요한 데이터를 추출합니다. 데이터를 추출할 때 특정 태그, 클래스, ID 등을 사용하여 원하는 정보에 접근하고 가져오는 과정입니다.
6. 데이터 가공 및 저장: 추출된 데이터는 종종 가공이 필요할 수 있습니다. 이후에는 이 데이터를 저장하거나 다른 형식으로 변환하여 활용합니다.
웹 스크래핑에는 몇 가지 윤리적인 이슈와 고려사항이 있습니다.
스크래핑을 통해서 데이터를 가져오려고 하는 주체는 항상 대상이 되는 웹 사이트의 이용 약관을 확인하는 것이 좋고 robots.txt에 기재되어 있는 내용을 준수하는 것이 좋습니다.
스크래핑을 통해서 대상이 되는 시스템에 과도한 요청을 보내는 것은 대상이 되는 시스템의 웹 서버에 과부하를 줄 수 있으므로 이를 감안하고 주의를 기울이는 것이 필요합니다. 이를 준수하면서 웹 스크래핑을 사용하게면 보다 건전하게 데이터를 수집하고 활용할 수 있습니다.
웹 스크래핑(Web Scraping)과 크롤링(Crawling)은 둘 다 웹에서 데이터를 수집하는 행위에서는 비슷하지만 각각 목적과 방법에 있어서는 차이가 있습니다.
크롤링(Crawling) 뜻과 개념에 대해서 자세히 보러 가기 >
웹 크롤링 (Web Crawling)은 인터넷을 자동으로 탐색하고 웹 페이지의 링크를 따라가며 정보를 수집하는 프로세스로 진행됩니다. 웹 크롤링은 주로 검색 엔진이나 웹 사이트의 색인 구축에 사용됩니다. 크롤링의 경우 크롤러 또는 스파이더라고 불리는 프로그램이 웹 사이트를 돌아다니며 링크를 추출하고 해당 링크로 이동하여 새로운 페이지를 수집합니다.
웹 스크래핑 (Web Scraping)은 대상이 되는 특정 웹 페이지에서 데이터를 추출하는 과정입니다. 주로 웹 페이지의 특정 정보나 구조를 분석하여 필요한 데이터를 추출하고 수집하는 데 사용됩니다. 웹 스크래핑은 해당 웹 페이지의 HTML을 다운로드하고, 그 HTML 문서를 분석하여 원하는 정보를 추출합니다.
스크래핑은 주로 특정 웹 페이지에 대한 명확한 목적이 있을 때 사용됩니다.
크롤링은 웹을 자동으로 돌아다니며 링크를 추출하고 새로운 페이지를 찾는 것에 중점을 두며, 스크래핑은 특정 웹 페이지에서 필요한 데이터를 추출하는 데 중점을 둡니다.