월간 <네트워커> - 정보화에 대한 다른 시각
25호 최현용의
천하무적 로보트, 누구를 위하여 싸우나?

최현용  
조회수: 3017 / 추천: 79
웬 로봇? 하는 분들이 많으실 듯. 물론 로보트 태권브이를 말하려는 건 아니다. 그런 로봇이 현실에서 존재할 수 없다는 건 이미 딴지일보가 널리 알리지 않았는가 말이다. 지금 말하고자 하는 로봇은 웹봇, 거미(spider), 벌레(worms), 웹크롤러, 웹개미(webants)처럼 다양한 이름으로 불리는 그것이다. 여기서는 웹봇이라고 부르자.
간단하게 말해서 웹봇은 웹을 돌아다니면서 정보를 긁어 모으는 자동화된 프로그램이다. 혼자 돌아다닌다고 로봇으로 불리지만, 물론 저 혼자 돌아다니는게 아니다. 다 주인인 검색엔진 회사가 시켜서 돌아다닌다. 이유는 간단하다. 검색엔진이 뭔가 보여주려면, 어디에 뭐가 있는지 알아야 하지 않겠는가. 그래서 혼자서 뻘뻘거리며 돌아 다니는 로봇을 웹상에 뿌려놓는 것이다. 그래서 웹봇이다. 그리고 웹봇이 긁어온 내용을 정리(Indexing 또는 색인)해서는 서버에 잘 저장해 두었다가 누군가 뭐가 어디있냐고 물으면, 그걸 화면에 쫘악 뿌려주는 게 검색엔진 서비스다.
(<네트워커> 제9호 [이동영의 떼끼 참조] / http://networker.jinbo.net/nw-news/show.php?docnbr=526)

그런데 요즘 검색엔진 또는 검색서비스를 둘러싼 논쟁이 한창이다. 요컨대 논쟁은 이렇다. 최근 엠파스가 “열린검색”이란 미명하에 메타검색 서비스를 출범시켰다. 메타검색이란 여러 검색서비스의 결과를 모아서 보여주는 검색서비스이다. 대표적으로 아마존닷컴이 제공하는 A9(http://www.a9.com/)가 있다.
일반적인 메타검색이라면 별 문제가 없겠지만, “열린검색”이 사실상 경쟁포털사인 네이버측의 지식인(http://kin.naver.com/) 콘텐츠에 대한 검색을 중요한 축으로 하고 있다는 데에서 문제가 커졌다. 졸지에 엠파스 검색 서비스의 도우미가 되어버린 네이버측에서 발끈해 버린 것이다. 네이버측에서 힘들여 쌓아놓은 자신의 콘텐츠를 말도 없이 가져가 자기 것인양 보여 주냐고 비난하는 정도라면 그냥 넘어 갔을 수도 있었겠지만. 천만에. 상상을 뛰어 넘는 대응을 해버렸다. 아예 지식인 사이트의 웹주소를 변경시켜 버린 것이다. 여기까지가 현재까지의 진행이다.

그런데 대체로 네티즌들은 엠파스쪽에 더많은 감정적 지지를 보내는 분위기이다. “엠파스의 열린검색”(http://allblog.net/Subject/SubjectView.aspx?idx=118)이라는 올블로그넷(http://allblog.net/)의 주제토론을 보면 쉽게 분위기 파악이 된다. 대체로 인터넷의 기본 정신이 공유이며, 그 공유가 링크로부터 시작된다는 점을 감안한다면 메타검색이 문제가 될 이유는 없다는 게 첫번째 이유. 두번째는 지식인 콘텐츠는 질문과 답을 올린 이들의 것이지, 네이버의 재산이 아니라는 점에서 네이버가 과연 엠파스를 상대로 니꺼내꺼 구분하자는 비난을 하는 것은 부당하다는 점. 물론 엠파스에 대해서는 지식인 콘텐츠가 사실상 “열린검색”의 주요한 서비스 포인트라는 점에서 상도의에 어긋난다는 비난이 쏟아지고 있다. 엠파스에 대한 비판 중 주요한 또다른 한가지가 바로 웹봇을 마구 내돌리고 있다는 것이다.

웹봇이 그냥 막무가내로 웹을 헤매는 것은 아니다. 웹봇이 돌아다닐 때 지켜야 하는 표준이 있다. 웹봇의 제작표준이라고 할 수 있을텐데, 대표적으로 “로봇배제규칙”(Robots Exclusion Standard)이란 게 있다. 웹에 올려놓은 자료들 중에는 순전히 개인적인 용도로 사용되는 것이나 혹은 특정한 검색엔진에는 노출되고 되고 싶지 않은 자료들에 대해서 특정한 규칙대로 표시(robots.txt)하면 가져가지 말아야 한다는 게 로봇배제규칙(http://www.robotstxt.org)이다.

로봇배제규칙은 간단하다. ‘robots.txt’라는 텍스트문서나 혹은 해당 HTML 문서 내에 메타태그를 통해 특정사이트, 특정디렉토리, 특정문서에 대해서는 웹봇이 긁어가지 말라고 하는 문구를 넣어 놓는 것이다. 그러면 웹봇이 왔다가는 그냥 가버린다. 아무 일도 없었다는 듯이. 그래서 각 검색엔진에서는 이 부분에 대한 공지가 있다. 검색되고 싶지 않다면 로봇배제규칙을 자신의 문서와 사이트에 적용하라고 말이다. 이런 로봇배제규칙은
구글(http://www.google.co.kr/intl/ko/remove.html),
야후(http://kr.blog.yahoo.com/ysearch_helper/540392.html?p=1&pm=l),
네이버(http://searchc.naver.com/help/index.naver?major=3&minor=7),
그리고 엠파스(http://help.empas.com/view_faq.html?csn=4&dsn=19&fsn=742) 등에서 찾아볼 수 있다. 문제는 지식인사이트에 로봇배제규칙이 적용되어 있다는 점이다. ‘http://kin.naver.com/robots.txt’를 보면 “User-agent: *; Disallow: /;”이라고 쓰여있다. 내용인 즉은 지식인 사이트 전체에 대해서 모든 웹봇을 거부한다는 얘기다.

자 그럼 이제까지의 당연한 논리 전개로 엠파스가 지식인을 검색해서 보여주는 것은 로봇배제규칙을 어긴 것이다. 강제력이 있는 것은 아니지만, 표준규칙을 무시하고 메타검색을 실시하는 것은 대단히 무례한 행동이다. 더구나 네이버 지식인처럼 방대한 사이트를 웹봇이 돌아다닐 경우, 네이버 서버 측에서 받는 트래픽은 상상을 초월한다. 더구나 그 트래픽은 온전히 네이버가 부담해야 하는 비용이 된다. 엠파스가 비판이 아닌 비난을 들어도 할 말이 없는 지점이다.

하지만 네이버라고 해서 큰소리칠만한 입장은 아니다. 네이버는 지식인내의 콘텐츠를 자사의 검색서비스에 노출시켜왔다. 즉 자기 자신도 로봇배제규칙을 지키지 않았던 것이다. 지식인내의 콘텐츠는 자신의 것이기에 그런 일이 가능하다고 인정해 주기에는 어딘가 어색하다. 그렇다. 지식인 약관에는 상업적인 이용에는 사용하지 않는다고 되어 있다. 아무리 물러서서 약관에 사용이 가능하다고 되어 있다고 하더라도, 자신만 쓰겠다는 심보는 너무 고약하다. 결국은 네티즌들의 땀이 어린 우리 모두의 자산이 아닌가 말이다.

자 그럼, 결국은 피장파장인 셈이다. 네이버나 엠파스나 자기 좋은 쪽으로만 해석하고 자기 좋은 쪽으로만 행동하고 있는 것이다. 물론 그것이 자본이다. 자신의 이윤을 위해서라면 무엇이든 할 수 있는 것이 바로 자본이기 때문이다. 그래서 자본을 뒤엎자고 말하는 것은 아니지만, 적어도 구글처럼 “Do No Evil”을 말하면서도, 철저하게 로봇배제규칙을 지키면서도, 그래서 지식인콘텐츠가 포함되지 않더라도 훌륭한 검색 결과물을 보여줄 수 있다는 사실 정도는 지적하고 싶다.
궁금하다면 젊은거장님(http://showbox.egloos.com/
1255104)과 김중태님(http://www.dal.co.kr/blog/archives/
001047.html) VS. 연우님(http://planica.egloos.com/)의 글을 보라. 누군가 ‘황우석 교수처럼’이라 빗대면서 토종개발자와 토종기술업체를 키우기 위해 엠파스가 상도덕을 무시하고 있다는 점을 비난하기 보다는 말이다.
웹상의 모든 것을 긁어모으는 천하무적 로봇, 일개 회사를 위해서가 아니라 네티즌 모두를 위해서 움직일 수 있기를 바란다.
추천하기