[책속의 지식] 자동가입 방지 문자열, 알고보니 古문서 해독용?
[책속의 지식] 자동가입 방지 문자열, 알고보니 古문서 해독용?
  • 박세리 기자
  • 승인 2017.03.06 13:32
  • 댓글 0
이 기사를 공유합니다

<시작된 미래 e> EBS <코딩, 소프트웨어 시대>, EBS 미디어 (기획) 지음 | 가나출판사
▲ 리캡차 (사진=EBS 화면캡처)

[화이트페이퍼=박세리 기자] 인터넷 가입시 '자동가입방지를 위해 아래 문자를 입력하세요' 라는 요구에 해당 문자열을 입력했다면, 자신도 모르게 연간 250만 권의 책을 복원하는 대규모 프로젝트에 동참했을지도 모른다. 리캡차 이야기다.

리캡차를 이해하려면 먼저, 컴퓨터 자동 가입 방지 프로그램 캡차를 알아야 한다. 캡차는 사람과 컴퓨터를 판별하는 보안 기술로 인터넷 사이트 가입시 왜곡되고 찌그러진 문자를 입력하는 프로그램이다. 리캡차는 여기에 문자열 하나를 더 추가한 것을 뜻한다.

리캡차는 사용자가 한 번 캡차를 입력할 때 드는 시간 10초를 활용한 사례다. <시작된 미래 e>(가나출판사.2017)에 따르면 캡차 출시 몇 년 후 매일 2억 개에 이르는 캡차 문자열이 입력되는데 이는 매일 50만 시간, 연수로 약 57년에 이르는 엄청난 시간이다. 그런데 이 시간은 그대로 낭비된다. 이에 카네기멜로대학교 연구팀이 이 시간을 고문서를 복원하는데 활용하자는 아이디어를 내며 탄생한 시스템이 리캡차다.

종이로 된 고문서의 경우 스캔이 잘 안 되어 사람이 일일이 파악해야 하는데 방대한 양인만큼 인력과 돈, 시간이 소요된다. 이에 캡차 아래에 OCR(사람이 쓰거나 기계로 인쇄한 문자 영상을 이미지 스캐너로 스캔해 기계가 읽을 수 있는 문자로 변환한 방식)로 인식하지 못한 문자열을 제시해 지구촌 수많은 사람에게 문제를 풀도록 한 것.

2개의 문자열을 입력했다면, 맞고 틀리고를 떠나 고문서를 복원하는데 일조한 셈이다. 리캡차 시스템은 통계적으로 다수가 입력한 문자를 답으로 인정해 고문서 디지털화 작업에 적용하기 때문이다.

관련 연구팀 통계에 의하면 2011년 기준 리캡차 도입 웹사이트는 약 35만 개에 이르고, 여기서 매일 약 1억 개의 단어가 디지털화된다. 이 단어를 모으면 연간 250만 권의 책이 나오는 분량이다. 10초의 가치가 이토록 크다니, 귀찮음과 짜증을 유발하더라도 참아야지 싶은 대목이다.

화이트페이퍼, WHITEPAPER


댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.