ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • 구글 크롤링
    정보 2023. 11. 24. 21:26

    구글 웹크롤링

     

    "크롤링"은 웹사이트에서 정보를 수집하는 과정을 가리키는 용어입니다. 크롤링은 일반적으로 웹 크롤러 또는 웹 스크래퍼라 불리는 프로그램을 사용하여 웹페이지를 순회하고 원하는 정보를 추출하는 작업을 의미합니다.

    크롤링의 주요 단계는 다음과 같습니다:

    URL 수집 (Crawling): 크롤러가 시작하는 웹페이지 주소(또는 여러 웹페이지 주소)를 수집합니다. 이를 통해 크롤러는 웹페이지를 방문하고 내용을 가져올 대상을 결정합니다.

    웹페이지 다운로드: 수집한 URL에 대해 웹 크롤러가 해당 웹페이지의 HTML 코드를 다운로드합니다.

    정보 추출 (Parsing): 다운로드한 HTML 코드에서 필요한 정보를 추출합니다. 이는 일반적으로 웹페이지의 구조를 이해하고, 필요한 데이터가 어디에 위치해 있는지를 파악하여 수행됩니다.

    데이터 저장: 추출한 정보를 적절한 형식으로 저장하거나 처리합니다. 이 단계에서는 데이터베이스에 저장하거나 파일로 내보낼 수 있습니다.

    웹 크롤링은 여러 목적으로 사용될 수 있습니다. 예를 들어, 검색 엔진은 크롤러를 사용하여 웹상의 정보를 수집하여 인덱싱하고 검색 결과를 생성합니다. 또한, 비즈니스 인텔리전스, 가격 모니터링, 소셜 미디어 분석 등 다양한 분야에서 크롤링이 활용됩니다.

    웹 크롤링을 수행할 때는 해당 웹사이트의 이용 약관을 준수하고, 법률적인 제한 사항을 확인하는 것이 중요합니다. 일부 웹사이트는 자동화된 접근을 제한하거나 금지할 수 있습니다.

     

     

     

    웹 크롤링은 웹사이트에서 데이터를 수집하는 프로세스를 의미합니다. 여기에는 다양한 단계와 기술이 포함됩니다. 아래는 기본적인 웹 크롤링 프로세스입니다:

    URL 수집 (Crawling): 크롤링의 시작점으로 사용될 웹페이지의 URL을 수집합니다. 이것은 특정 웹사이트의 특정 페이지 또는 여러 페이지를 포함할 수 있습니다.

    HTML 다운로드: 수집한 URL에 대해 웹 크롤러는 해당 웹페이지의 HTML 코드를 다운로드합니다. 이 코드는 웹페이지의 구조와 내용을 포함합니다.

    데이터 추출 (Parsing): 다운로드한 HTML 코드에서 필요한 정보를 추출합니다. 이 단계에서는 정규 표현식이나 HTML 파서를 사용하여 특정 요소를 식별하고 추출합니다.

    데이터 처리: 추출한 데이터를 필요한 형식으로 처리합니다. 이는 데이터 정제, 변환, 형식 변환 등을 포함할 수 있습니다.

    데이터 저장: 처리된 데이터를 적절한 형식으로 저장합니다. 일반적으로는 데이터베이스에 저장하거나 파일로 내보내는 방식이 사용됩니다.

    자동화 및 스케줄링: 크롤러를 자동으로 실행하고 주기적으로 업데이트된 데이터를 수집하기 위해 자동화 및 스케줄링 메커니즘을 설정할 수 있습니다.

    웹 크롤링은 다양한 목적으로 사용됩니다. 예를 들어, 가격 비교, 뉴스 기사 추출, 검색 엔진 최적화 등이 그 예시입니다. 그러나 웹 크롤링을 할 때는 몇 가지 주의사항이 있습니다:

    로봇 배제 표준 (robots.txt): 웹사이트의 robots.txt 파일을 확인하여 크롤링이 허용되는지 제한되는지 확인합니다.

    저작권 및 이용 약관: 웹사이트의 이용 약관을 준수하고, 크롤링이나 데이터 수집이 웹사이트의 저작권에 위배되지 않도록 주의합니다.

    서버 부하: 과도한 요청으로 서버에 부하를 주지 않도록 주의합니다. 일정한 간격으로 요청을 보내거나, 서버 부하를 최소화하기 위해 캐싱 정책을 이해하고 적용합니다.

    웹 크롤링은 강력한 도구이지만 책임감 있게 사용해야 합니다. 불법적이거나 윤리적인 문제가 있는 크롤링은 피해야 하며, 항상 관련 법률과 이용 약관을 준수해야 합니다.

     

     

    https://namu.wiki/w/%ED%81%AC%EB%A1%A4%EB%A7%81

     

    크롤링 - 나무위키

    이 저작물은 CC BY-NC-SA 2.0 KR에 따라 이용할 수 있습니다. (단, 라이선스가 명시된 일부 문서 및 삽화 제외) 기여하신 문서의 저작권은 각 기여자에게 있으며, 각 기여자는 기여하신 부분의 저작권

    namu.wiki

     

    크롤링(crawling) 은 웹 페이지를 그대로 가져와서 거기서 데이터를 추출해 내는 행위다. 크롤링하는 소프트웨어는 크롤러(crawler)라고 부른다.

    스크래핑과 햇갈릴 수 있는데, 크롤링은 동적으로 웹페이지를 돌아다니면서 수집하는 것을 말할다. 물론 실생활에서는 구분 없이 쓰는 경우가 많다.

    나무위키도 리그베다 위키를 크롤링해서 시작된 위키며, 나무위키 미러 등은 나무위키를 크롤링한 곳이다.

    검색 엔진에서도 유사한 것을 필수적으로 사용하는데, 웹 상의 다양한 정보를 자동으로 검색하고 색인하기 위해 사용한다. 이때는 스파이더(spider), 봇(bot), 지능 에이전트라고도 한다. 사람들이 일일이 해당 사이트의 정보를 검색하는 것이 아니라 컴퓨터 프로그램의 미리 입력된 방식에 따라 끊임없이 새로운 웹 페이지를 찾아 종합하고, 찾은 결과를 이용해 또 새로운 정보를 찾아 색인을 추가하는 작업을 반복 수행한다. 방대한 자료를 검색하는 특징은 있으나 로봇의 검색 기능을 역이용하여 순위를 조작하거나 검색을 피할 수 있는 단점도 있다. 네이버, 구글 등도 이런 봇을 이용해 운영된다.

    728x90
GoogleSearch Info site.