news-collector

News-Collector

뉴스 사이트에서 기사를 자동으로 수집하여 Excel 파일로 다운로드하는 브라우저 기반 도구입니다.

빠른 시작

Quick-est Start

브라우저 개발자 도구(F12) → 콘솔(Console) 탭에서 아래 스크립트를 복사&붙여넣기 후 실행:

/** 라이브러리 로딩 및 실행 */
await (async ()=>{
    const host = 'https://nc.provbe.com';
    const im = (src)=>new Promise((rs,rj)=>{
        const ss = document.createElement('script');
        ss.src = src;
        ss.async = true;
        ss.addEventListener('load',()=>{
            rs(src);
        });
        document.head.appendChild(ss);
    });
    await im(`${host}/utils.js`);
    const dn = /(?<top>[^\.]+\.(\w{2}\.\w{2}|\w{3,}))$/.exec(location.hostname)?.groups?.top;
    await im(`${host}/${dn}.js`);
    return window._prv;
})();

/** 바로 실행 */
_prv.go({});

고급 사용법

Advanced Option

라이브러리만 로드한 후 옵션을 설정하여 실행:

// 라이브러리 로드 (위 스크립트의 첫 번째 부분만 실행)
// 그 다음 옵션과 함께 실행:
_prv.go({/* 여기서 옵션 설정 */});

지원 사이트 및 옵션 (9/(14 - 2))

✅ 벤처스퀘어 venturesquare.net

_prv.go({
  overwrite: false
});

✅ 크런치베이스 crunchbase.com

_prv.go({
  n: 10,
  overwrite: false,
});

✅ venturebeat.com

_prv.go({
    n: 15,
    overwrite: false
});

✅ 플래텀 platum.kr

_prv.go({
  n: 10,
  slugs: [
    '/news/', 
    '/video-search/'
  ],
  overwrite: false
});

✅ 지디넷 코리아 zdnet.co.kr

!주의. 수집 중 일정 시간 후 자동 새로고침 블럭 새로고침 후 지속 실행으로 우회 가능

_prv.go({
    overwrite: false  // 캐시 덮어쓰기 여부 (기본값: false)
    n: 10
    n0: 1
});

✅ IT조선 it.chosun.com

_prv.go({
    overwrite: false  // 캐시 덮어쓰기 여부 (기본값: false)
    n:10
});

✅ 매일경제 mk.co.kr

_prv.go({
    overwrite: false  // 캐시 덮어쓰기 여부 (기본값: false)
    before: YYYY-mm-dd // (기본값: 오늘)
    after: YYYY-mm-dd // (기본값: 오늘 - 7 days)
});

✅ 이투데이 etoday.co.kr

_prv.go({
    overwrite: false  // 캐시 덮어쓰기 여부 (기본값: false)
    before: YYYY-mm-dd // (기본값: 오늘)
    after: YYYY-mm-dd // (기본값: 오늘 - 7 days)
});

✅ 이티뉴스 etnews.com

_prv.go({
    before: 'yyyy-mm-dd' // 오늘
    after: 'yyyy-mm-dd' // 15일 전
    overwrite: false  // 캐시 덮어쓰기 여부 (기본값: false)
});

✅ 테크인아시아 TechInAsia

_prv.go({
    overwrite: false  // 캐시 덮어쓰기 여부 (기본값: false)
});

✅ 파이낸셜타임즈 ft.com

_prv.go({
    overwrite: false  // 캐시 덮어쓰기 여부 (기본값: false)
});

✅ 월스트리트저널 wsj.com

_prv.go({
    overwrite: false  // 캐시 덮어쓰기 여부 (기본값: false)
});

✅ S&P Global spglobal.com

_prv.go({
    overwrite: false,
    n: 20,
    q: '',
    sort: 'es_unified_dt desc'
});

✅ Reuters

(현재까지는 유료 결제 불필요 예상 / 텍스트 한정)

_prv.go({
    overwrite: false,
    n: 20,
    q: '',
    sort: 'es_unified_dt desc'
});

포브스 forbes.com

! 보류 (React/IFRAME 충돌)

_prv.go({
    overwrite: false  // 캐시 덮어쓰기 여부 (기본값: false)
});

수집 방식: News Sitemap XML (/news_sitemap.xml, /video_sitemap.xml)
주의: Forbes는 anti-scraping 정책으로 인해 한 번에 최대 20개 기사만 수집됩니다.

테크크런치 techcrunch.com

!보류 (다운로드 권한 문제) 브라우저 확장 packing 후 연기

_prv.go({
    n: 5,             // 수집할 페이지 수 (기본값: 3)
    overwrite: false  // 캐시 덮어쓰기 여부 (기본값: false)
});

주요 기능

자동 캐싱

수집 우선순위

  1. Sitemap XML: robots.txt에서 sitemap 자동 감지
  2. RSS 피드: 최신 기사 효율적 수집
  3. HTML 파싱: 대체 수집 방법

Excel 다운로드

수집된 데이터는 자동으로 Excel 파일로 변환되어 다운로드됩니다.

포함 정보:

개발 예정 사이트