본문 바로가기
번역이야기

매치레이트와 TM: 번역가를 위한 필수 도구 이해하기

by 너의세가지소원 2024. 10. 1.
반응형

캣툴(CAT Tool)은 Computer Assisted Translation Tool의 줄인말입니다. 컴퓨터를 활용하여 번역을 한다는 의미입니다. 캣툴이 없던 시절에 우리 선배님들은 어떻게 번역을 해왔을까요? 가장 먼저 생각나는 건 종이에 써 있는 내용을 읽어보고 다른 종이에 번역하면서 옮겨 적는 필사(筆寫) 형태의 번역일 것 같습니다. 수백 년을 이어오던 이 방식은 타자기가 나오면서 조금 달라졌겠네요. 필사로 진행하는 번역보다 속도 면에서는 큰 발전을 이루었을 거라 짐작이 됩니다. 이로부터 수십년 후에 탄생한 워드 프로세서는 타자기보다 더 빠른 속도로 글을 쓸 수 있으며 잘못 쓴 글은 아무런 흔적도 남기지 않고 지울 수 있는 마법같은 성능을 보여주었습니다.

 

 

글씨를 쓰는 방식이 많이 개선되었으니 이제 번역만 잘하면 될 것 같네요. 하지만 얼마 되지 않아 또 문제가 생겼습니다. 여러 관공서에서 필요한 서류에 대한 번역과 도서 번역이 주를 이뤘던 번역 시장에 조금씩 변화가 생기기 시작한 거죠. 단순 서류 뿐만 아니라 여러 전문 분야에 대한 기술 문서, 주로 미국 등 서양에서 개발된 소프트웨어 등이 전 세계에 보급되면서 해당 분야에 대한 번역 수요가 급격하게 늘어난 것입니다. 할 수 있는 일이 늘어났지만 번역가들은 별로 기쁘지 않았습니다. 기술 문서는 방대한 양에 비해 그것을 번역하는 데 사용할 수 있는 시간이 무척이나 짧았습니다. 그 시간 안에 번역하려면 혼자서는 도저히 감당할 수 없을 정도로 많은 양이었고, 어쩔 수 없이 여러 명의 번역가가 동일한 문서를 서로 나누어서 번역하게 됩니다.

 

이것으로 문제가 어느 정도 해결될 것으로 보였지만 가장 큰 문제는 여러 명이 함께 작업한 결과물 속에 있었습니다. 분명히 하나의 문서임에도 불구하고 여러 사람이 나누어서 작업하다 보니 누가 번역했느냐에 따라 어투나 용어의 쓰임이 모두 달랐던 것입니다. 이걸 발견한 번역 담당자는 머리를 싸매고 고민에 빠졌지만 별 뾰족한 방법이 없었습니다. 기껏해야 워드 프로세서에서 같은 용어가 다른 말로 번역된 것을 찾아서 고치는 정도였는데, 그마저도 그리 쉬운 일은 아니었습니다. 기술 문서의 용어라는 것이 워낙 자주 반복되기 때문에 하나의 프로젝트에서 용어 몇 개만 수정한다고 해도 하루는 족히 걸릴 만큼의 시간이 필요했습니다. 거기에다 이미 제멋대로(?) 번역한 내용에서 해당 용어가 맞는지 확인하는 과정은 너무나 험난했죠. 원문에서 용어를 검색한 다음, 그 용어가 등장하는 번역문으로 이동하여 어떤 단어가 원문의 이 용어로 번역된 것인지를 직접 찾아내서 수정했습니다.

 

그래도 여기까지는 그럭저럭 해볼만 했습니다. 하지만 소프트웨어 번역에서는 정말 이걸 어찌해야 할지 난감해지는 상황이 펼쳐졌습니다. 소프트웨어의 특성상 새로운 버전이 나오더라도 기존 제품의 대부분의 기능이 작동하는 상태에서 새로운 기능이 일부 추가되거나 필요 없는 기능을 삭제하는 경우가 많습니다. 그러니 번역도 여기에 따라 새로운 기능의 내용은 번역을 하겠지만 기존 기능에 해당하는 내용은 이미 번역해 놓은 것을 그대로 사용해도 될 것입니다. 하지만 그럴 방법이 없습니다. 사람의 눈으로 한 문장씩 모두 대조하여 확인하기 전에는 이전 번역과 일치하는 내용을 찾을 수 없으니까요. 찾았다고 하더라도 만약 소프트웨어 제작자가 가독성 개선이나 기타 이유로 인해 문장을 조금 수정했다면 겨우 찾아낸 번역문을 그대로 쓸 수는 없게 됩니다. 그에 맞게 번역도 수정을 해야 하는 거죠. 지금 이대로라면 이미 번역해 놓은 내용을 활용하는 것보다 새로 번역하는 것이 더 빠를 것 같습니다. 물론 번역한 만큼 돈을 버는 번역가에게는 이 상황이 더 좋을 수 있습니다. 내가 이미 번역했던 내용이지만 다시 번역하면서 돈을 벌 수 있으니까요. 하지만 산업 전체의 관점에서 본다면 이보다 비효율적인 일은 없을 겁니다. 이미 번역한 내용을 다시 번역하면서 시간과 돈을 낭비하는 꼴이 될테니까요.

 

선배님들의 이런 고민이 많이 쌓이고 있을 시점에 등장한 것이 바로 캣툴입니다. 캣툴의 등장과 함께 기술 문서 및 소프트웨어 번역 분야의 모든 일들이 효율적으로 진행될 수 있는 길이 열리기 시작했습니다. 가장 먼저 바뀐 것은 앞서 말씀드린 소프트웨어 번역 분야였습니다. 캣툴 보급과 함께 모든 번역문을 언어쌍(language pair)으로 보관하고 필요할 때마다 그것을 가져다 쓸 수 있게 되었습니다. 기존 번역과 동일한 부분이 어디인지 확인하고 해당 부분은 캣툴을 통해 기존 번역 내용을 그대로 가져와 대체하는 것이 가능해진 거죠. 그동안 번역 담당자가 눈이 빠지도록 찾아봐야 했던 용어 불일치 문제도 캣툴이 자동으로 검색해서 보여주는 내용을 수정만 하면 되었기 때문에 시간을 많이 단축할 수 있게 되었습니다. 번역 업계에서 보자면 캣툴은 정말 혁명적인 도구라 말할 수 있습니다.

 

앞서 말씀드린 내용은 캣툴이 보급되기 이전까지 우리 업계의 선배님들이 거쳤을 것이라 생각되는 업무 과정을 상상하여 작성한 것입니다. 힘든 과정이지만 잘 견뎌내시어 업계가 지속 성장할 수 있도록 도움주신 여러 선배님들께 경의를 표하며 지금부터 번역의 혁신이라고 불렸던 캣툴의 기본적인 기능에 대해 함께 살펴보겠습니다.

 

 

캣툴의 구성

캣툴은 여러 회사에서 다양한 종류의 제품이 나와 있습니다. 당연히 제품에 따라 조금씩 다른 기능을 갖고 있고 어떤 내용을 번역하느냐에 따라 다른 캣툴을 사용하는 게 좋을 수도 있습니다. 하지만 모든 제품이 번역을 좀 더 편하게 만들려고 제작되었기 때문에 기본적인 작동 원리와 구성은 동일하다고 말씀드릴 수 있습니다. 이 글에서는 되도록 캣툴이라면 모두 지니고 있는 공통 기능을 중심으로 설명하겠습니다.

 

Translation Memory(번역 메모리)

줄여서 TM이라고 부릅니다. TM은 번역한 내용을 저장해 두는 창고 같은 역할을 합니다. 사용자는 자신이 번역한 내용을 원문(source language)과 번역문(target language)이 함께 있는 언어쌍으로 묶어 TM에 저장할 수 있습니다. 저장하는 기준은 원문의 문장(sentence) 또는 문단(paragraph)이며 이렇게 저장된 문장(또는 문단)을 세그먼트(Segment)라고 부릅니다.

 

TM의 작동 원리는 이렇습니다. 번역가가 번역을 시작하면 TM은 지금 번역가가 번역하고 있는 세그먼트를 자신이 갖고 있는 세그먼트들과 대조합니다. 이 과정에서 75%(이 비율은 조정 가능) 이상 일치하는 세그먼트가 있다면 해당 세그먼트를 번역가에게 보여줍니다. 번역가는 TM이 보여주는 기존 번역을 참고하여 새로운 번역문을 작성합니다. 다음 세그먼트를 번역하기 전에 작성을 마친 번역문을 TM에 세그먼트로 저장합니다. 저장된 세그먼트는 이후 진행되는 모든 번역 과정에서 필요에 따라 불러와서 사용할 수 있습니다.

 

Termbase(용어집)

용어(term)가 있는 기지(base)로 이해하시면 좀 더 외우기 편할 것 같군요. 텀베이스(Termbase)는 현재 진행하고 있는 번역 프로젝트에서 자주 등장하거나 반드시 지켜져야 할 용어를 선별하여 저장해 두는 공간입니다. 저장하고 불러오는 방식은 TM과 동일하며 대부분의 캣툴에서 TM과 함께 지정된 용어를 보여주어 번역가의 번역을 돕습니다.

 

번역 화면

번역할 내용과 TM, 텀베이스가 창 형태로 연결되어 있습니다. 번역가는 세그먼트 하나하나를 번역할 때마다 TM 및 텀베이스의 내용을 참고하면서 번역할 수 있습니다. 번역한 내용은 실시간으로 TM에 저장합니다.

 

TM의 기본 작동 원리

TM은 단순히 보면 번역한 내용을 소스 언어와 그에 대응하는 타겟 언어의 쌍으로 묶어서 차곡차곡 저장해 놓는 데이터베이스입니다. [I am a boy.]라는 문장을 [나는 소년입니다.]라고 번역한 다음 이 두 개의 문장을 하나로 묶어서 컴퓨터의 어딘가에 저장해 두는 것이죠. 물론 데이터베이스의 형식을 띄고 있기 때문에 사용자가 필요할 때 해당 내용을 불러와서(검색) 활용할 수 있습니다. 따라서 TM은 번역한 내용을 쌓아두고, 필요할 때마다 꺼내어 쓰는 창고 같은 역할을 합니다. 창고에서 내용을 꺼내오는 방식은 프로그램의 판단에 따라 가장 유사한 것을 우선합니다.

 

예시
“I am a boy.”라는 문장을 “나는 소년입니다.”라고 번역한 다음 TM에 저장하고 나서 다음과 같은 문장이 나타나면 그 경우에 따라 TM은 해당 내용을 자동 번역하거나 번역해야 할 문장과 유사한 문장의 번역을 추천해 줍니다.

I am a boy.  >> [나는 소년입니다.]로 자동 번역 처리(1회 반복)

I am a boy.  >> [나는 소년입니다.]로 자동 번역 처리(2회 반복)

I am a handsome boy. >> 저장된 번역문 중 가장 유사한 [나는 소년입니다.]라는 문장을 추천하면서 해당 번역에 [handsome]이라는 단어의 의미가 누락되어 있음을 표시

 

위 예시에서처럼 TM은 저장되어 있는 내용을 분석하여 가장 유사한 문장을(75% 이상 일치할 경우) 추천하여 새로운 번역의 수고를 덜어주기도 하고, 이를 통해 기존 번역과의 일관성도 지켜줍니다. 완전히 일치하는 문장(100% 일치)이라면 아예 타이핑하는 수고까지 덜어줍니다.

 

Match Rate(유사율, 매치레이트)

퍼지 매치(Fuzzy Match)라고도 부릅니다. 번역하려는 세그먼트 내용을 TM에 저장된 세그먼트와 비교하여 비슷한 정도를 백분율(%)로 표현하는 값입니다. 매치레이트(Match Rate)가 높을수록 현재 번역하고자 하는 내용이 기존 번역과의 일치도가 높다는 의미이기 때문에 번역에 필요한 시간을 절약할 수 있습니다. 매치레이트는 대부분의 캣툴에서 자동으로 계산해줍니다. 하지만 캣툴 별로 계산하는 방식이 조금씩 다르므로 동일한 프로젝트 진행 중에는 항상 같은 캣툴을 사용하는 것이 좋습니다.

 

매치레이트의 구분 및 넷워드(Net Word: 순 단어 수) 계산 방법

매치레이트는 세그먼트의 일치 정도에 따라 구간을 설정하고, 설정된 각 구간에 따라 비용을 다르게 적용하는 것입니다. 일치도가 높을수록 시간을 절약할 수 있으므로 시간을 절약한 정도에 따라 비용을 적게 적용하는 방식이라고 이해해 주시면 됩니다. 매치레이트 및 넷워드 계산 방법은 기본 프로세스의 [로그 분석 방법]에서 자세히 다루고 있으므로 해당 내용을 참고해 주십시오.



반응형

댓글