네이버 블로그가 2008.10.16일 외부 검색엔진에 크롤링을 허용했다.

네이버블로그 공지
http://section.blog.naver.com/NoticeList.nhn?mode=r&nid=1123


2008.10.20 일 현재 robots.txt 파일이다.
http://blog.naver.com/robots.txt
User-agent: *
Crawl-Delay: 5
Disallow: /PostList.nhn
Disallow: /PostPrint.nhn
Disallow: /NBlogPostPreview.nhn
Disallow: /NBlogHidden.nhn
Disallow: /BlogInfo.nhn
Disallow: /PostExportDoc.nhn
Disallow: /PostPreview.nhn
Disallow: /NTag4Ajax.nhn
Disallow: /NWeather4Ajax.nhn
Disallow: /buddy/
Disallow: /export/
Disallow: /common/
Disallow: /post/
Disallow: /npost/
Disallow: /main/

robots.txt 내용을 보면
Disallow: /PostList.nhn <-- 글펼쳐보기, 글목록 페이지는 막았다.
/PostView.nhn : 글보기 페이지를 열어놓았다.

글하나를 크롤링 하려면

1. http://blog.naver.com/smpoem/54110396 > 퍼머링크를 타고와서
2. iframe안의 > /NBlogMain.nhn 블로그 메인으로 접근
3. 다시 iframe 안의 > /PostList.nhn 글보기 페이지 도착
4. <meta name="robots" content="noindex,nofollow"/>
   meta 태그를 확인하자.
   사용자가 해당글의 검색을 허용하지 않는 경우 meta 태그를 설정해 놓았다.
5. 여기까지 왔다면 크롤링~

iframe의 iframe을 뚫고 첫 글 크롤링 성공.

타 검색엔진에서 네이버블로그의 글이 어느정도 나올지 기다려보자.

이렇게 되면 외부검색엔진(구글,다음,야후 ...)에서 네이버로 블로그로의 트래픽이
어느 정도 증가할지가 관심사다.

이전 1 ... 10 11 12 13 14 15 16 17 18 ... 43 다음