일단 PageRank 대해서 알고 싶은 사람은 아래 글을 참조하자.
이명헌 경영스쿨: [텍스트마이닝] 구글 검색 엔진의 해부학
이명헌 경영스쿨: [텍스트마이닝] 구글 페이지랭크(PageRank) 알고리듬
좀더 공부 하고 싶다면 Recent Papers Written by Googlers 를 참조 하도록 하자.
물론, 나는 논문을 자세히 보지 않아서 정확한 것이라던가 최근의 것에 대해서 잘 모른다.
다만 여기에 소개된 PageRank의 개념은 지금은 수정이 되어서 완전히 일치하지 않는다고 한다.
-----------
최근 웹의 판도가 구글 중심으로 흘러가면서(특히, 미국) PageRank가 사이트를 평가하는 중요한 팩터 중에 하나로 자리잡게 되었다. PageRank의 명칭은 구글 창업자인 래리 페이지의 이름에서 따왔다고 하는데 세르게이 브린은 섭섭하지 않을지 모르겠다. 아무튼 PageRank가 발표된 이후에 수많은 검색 사이트 들이 이를 기반으로 한 ExpertRank(IAC)라던지 SnowRank(한국) 라던지 하는 검색 알고리즘을 적용하기 시작했고 PageRank는 이 사이트가 검색에 얼마나 잘 노출이 되는지를 결정할 수 있는 중요한 팩터가 되었다.
PageRank 알고리즘을 간략히 정리하면 아래와 같다.
이 단순 해보이는 식과 설명에서 알 수 있는 것은 우리가 d는 컨트롤 할 수 없다는 것과
자신의 PageRank를 높이기 위해서는 최대한 다른 사이트에서 자신의 사이트를 많이 링크 시켜야 한다는 것인데 자신의 사이트를 링크하는 사이트가 다음과 같은 특징을 가지면 좋다.
1. PageRank가 높다.
2. 다른 사이트로의 링크가 적다.
------------------
그리고, 마지막으로 PageRank 감각을 익힐 수 있도록 PageRank별 사이트 리스트를 마련했다.
노사모 3/10
개인 블로그 3/10
이올린 4/10
유명 블로그 4~5/10
서울메트로 5/10
올블로그 5/10
egloos 6/10
Nate.com 6/10
Naver 7/10
Daum 7/10
Wikipedia 8/10
SourceForge 8/10
MySpace.Com 8/10
NYTimes 9/10
CNN 9/10
W3C 10/10
이명헌 경영스쿨: [텍스트마이닝] 구글 검색 엔진의 해부학
이명헌 경영스쿨: [텍스트마이닝] 구글 페이지랭크(PageRank) 알고리듬
좀더 공부 하고 싶다면 Recent Papers Written by Googlers 를 참조 하도록 하자.
물론, 나는 논문을 자세히 보지 않아서 정확한 것이라던가 최근의 것에 대해서 잘 모른다.
다만 여기에 소개된 PageRank의 개념은 지금은 수정이 되어서 완전히 일치하지 않는다고 한다.
-----------
최근 웹의 판도가 구글 중심으로 흘러가면서(특히, 미국) PageRank가 사이트를 평가하는 중요한 팩터 중에 하나로 자리잡게 되었다. PageRank의 명칭은 구글 창업자인 래리 페이지의 이름에서 따왔다고 하는데 세르게이 브린은 섭섭하지 않을지 모르겠다. 아무튼 PageRank가 발표된 이후에 수많은 검색 사이트 들이 이를 기반으로 한 ExpertRank(IAC)라던지 SnowRank(한국) 라던지 하는 검색 알고리즘을 적용하기 시작했고 PageRank는 이 사이트가 검색에 얼마나 잘 노출이 되는지를 결정할 수 있는 중요한 팩터가 되었다.
PageRank 알고리즘을 간략히 정리하면 아래와 같다.
페이지 A를 가리키는 다른 페이지들이 T1, T2, ... Tn 까지 있다고 하자. ( = T1,...Tn은 페이지 A를 인용한 페이지들) 퍼래미터 d는 damping factor로 0에서 1 사이의 값을 갖는다. 우리는 보통 d = 0.85로 했다. d값에 관해서는 다음 섹션에서 다룬다. C(A)는 페이지 A에서 밖으로 나가는 링크의 갯수다.
페이지랭크는 사용자 행동을 모델링한 것으로 생각해볼 수 있다. "랜덤 써퍼"가 한 명 있다고 하자. 이 사람은 무작위로 선택한 어떤 웹 페이지에서 출발해서 백버튼을 누르지 않고 계속 링크를 따라 클릭해 나간다. 그러다가 지루해지면 또 다른 무작위로 선택된 페이지에서 써핑을 시작할 것이다. 랜덤 써퍼가 특정 페이지를 방문할 확률이 바로 그 페이지의 페이지랭크다. 그리고 d damping factor는 랜덤 써퍼가 어떤 페이지를 읽다가 지루해져서 또 다른 랜덤 페이지를 찾게될 확률을 뜻한다. 페이지랭크의 변형된 형태 중에서 중요한 것 중 하나가 댐핑 팩터(damping factor) d를 특정 페이지 하나 또는 일군의 페이지에만 선택적으로 적용하는 것이다. 이렇게 함으로써 사용자화(personalization)가 가능하며 랭킹을 올리기 위해 교묘하게 조작하는 것을 사실상 불가능하게 만들 수 있다.
이 단순 해보이는 식과 설명에서 알 수 있는 것은 우리가 d는 컨트롤 할 수 없다는 것과
자신의 PageRank를 높이기 위해서는 최대한 다른 사이트에서 자신의 사이트를 많이 링크 시켜야 한다는 것인데 자신의 사이트를 링크하는 사이트가 다음과 같은 특징을 가지면 좋다.
1. PageRank가 높다.
2. 다른 사이트로의 링크가 적다.
------------------
그리고, 마지막으로 PageRank 감각을 익힐 수 있도록 PageRank별 사이트 리스트를 마련했다.
노사모 3/10
개인 블로그 3/10
이올린 4/10
유명 블로그 4~5/10
서울메트로 5/10
올블로그 5/10
egloos 6/10
Nate.com 6/10
Naver 7/10
Daum 7/10
Wikipedia 8/10
SourceForge 8/10
MySpace.Com 8/10
NYTimes 9/10
CNN 9/10
W3C 10/10
'정보 공유터' 카테고리의 다른 글
| [펌] Google 나이트(Google Night) 개최 (1) | 2007/02/22 |
|---|---|
| 2007 Winter Scripting Games (0) | 2007/02/19 |
| 티스토리 툴바 없애기(안보이게 하기) (3) | 2007/02/19 |
| PageRank 알고리즘(Algorithm) 감각 익히기. (1) | 2007/02/15 |
| Loading Spin, 로딩중 이미지 (1) | 2007/02/12 |
| 구글의 ActiveX 들.. (2) | 2007/02/08 |
| 네이버/다음, 매쉬업 경진대회 개최 (0) | 2007/02/05 |
