웹로그를 이용한 페이지 연관분석

 

웹로그를 이용한 페이지 연관분석

0. 개요
웹로그의 referer 정보를 이용하여 페이지간의 연결구조를 파악하면,
레이지 링크를 따라움직이지 않고 직접 URL에 접근 또는 임시 페이지 및 취약한 페이지를 찾을수 있다 는 가설을 세우고 접근

1. 웹로그
대상 referer 가 존재하는 웹로그

2. map reduce
웹로그에서 필요한 정보만 출력
– 정적인 페이지 제외(.gif, .jpg, .png, .swf, .css, .js, .dwr, .htc, .flv, .xml)
– 외부 referer 는 제외
– output 은 아래와 같은 format
referer|requesturi^status cnt

input weblog

output

3. python
map reduce의 결과 output을 d3에서 사용할수 있는 json 으로 변환해주는 프로그램

4. d3
시각화 도구로 d3를 선택했다. http://d3js.org/
https://github.com/mbostock/d3/wiki/Gallery 여기에 가면 많은 d3 예제가 있는데,
나는 특별히 Fisheye Distortion (http://bost.ocks.org/mike/fisheye/) 를 사용했다.
여기서 연결 구조만 사용하고 실제 샘플의 Fisheye Distortion 기능은 사용하지 않았다.

Fisheye Distortion 예제를 기초로 수정한 소스

데이터의 포맷..

결과는 아래와 같은 형태로 나온다.

웹로그를 이용한 페이지 연관분석1

웹로그를 이용한 페이지 연관분석2

웹로그를 이용한 페이지 연관분석3

웹로그를 이용한 페이지 연관분석4

 

This entry was posted in Bigdata/Hadoop, Javascript/Html, Python/Ruby/Perl and tagged , , , , , . Bookmark the permalink.

댓글 남기기