아크로뱃 프로(Acrobat Pro)로 텍스트 추출하기(OCR) : PDF를 검색 가능한 텍스트로 변환하는 방법

반응형

문서나 자료를 PDF로 스캔하여 여러 장소에 저장해두는 일이 많습니다. PDF로 스캔하여 저장해두면, 아이패드같은 테블릿PC나 아이폰같은 스마트폰, 그리고 PC에서도 쉽게 찾아서 열람할 수 있습니다. 또한 PDF는 기본적으로 확대할 수 있는 플랫폼이므로, 확대하여도 텍스트의 가독성이 높으면서 대부분의 디지털기기에서 읽을 수 있을 정도로 호환성이 좋은 파일 시스템입니다.
그러나 단순히 스캔한 문서는 경우에 따라 다르지만, 대체적으로 검색이 되지 않는 ‘이미지 파일’형태로 PDF화 됩니다. 즉, 사람 눈으로 보기에는 문서지만, 실제로는 문서를 촬영한 사진처럼 이미지화되어 있는 것인데요. 그렇기 때문에 PDF 문서를 보시면, 텍스트가 검색 가능한게 있고, 검색이 안되는 문서가 있습니다.

일반적으로 나오는 모든 ebook은 이미지가 아닌 텍스트형태의 PDF입니다. 따라서 검색이 용이하고, 특정 프로그램에서 제공하는 기능들(가령, 밑줄긋기, 형광펜 효과 등)을 사용할 수 있습니다. 텍스트 검색이 왜 필요한지는 문서나 자료가 많아지면 많아질수록 절실하게 느낄 수 있는 부분입니다. 특정 자료를 찾기 위해 처음부터 끝까지 다시 훑어봐야한다면 낭비되는 시간이 장난이 아닐테니까요.

예를들어, 어떤 문서에서 예전에 보았던 문장을 찾아 인용하고 싶은데, 어떤 책에서 봤는지는 얼핏 기억이 나는데 몇 페이지였는지 자세히 기억이 안나거나, 문장 자체가 기억나지 않을 경우가 있습니다. 이럴때야말로 검색이 가장 필요한데요.

상용 소프트웨어인 아크로뱃 프로(Acrobat Pro)를 이용하면 이미지화 된 문서를 텍스트 검색이 가능하도록 만들 수 있습니다. 바로 Acrobat에 있는 기능 OCR을 활용하면 됩니다. OCR(Optical Character Recognition)은 말 그대로 광학문자인식 기능입니다.



포스팅을 위해 Excel 2010 메뉴얼 1부를 스캔하였습니다.



해당 문서는 PDF로 스캔하였기 때문에 현재 PDF 파일입나다만, 보시는것처럼 텍스트는 검색이 가능하지 않고, 이미지로 저장이 되어 있기 때문에 특정 부분을 블럭 설정할 수도 없습니다.



실제로 검색을 해봐도 검색은 되지 않습니다. PDF에서 텍스트는 현재 존재하지 않기 때문입니다.




▶ OCR 적용하기


먼저, 아크로뱃 프로로 PDF 파일을 오픈합니다.



Document - OCR Text Recognition 에서 OCR을 실행할 수 있습니다. (아크로뱃 프로 9 버전)

2개의 메뉴가 나타납니다.
1) Recognize Text Using OCR… : 현재 열려있는 파일에 OCR 기능을 수행
2) Recognize Text in Multiple Files Using OCR… : 한번에 여러개의 파일에 대해 OCR 기능을 수행. OCR 하고자하는 PDF 문서가 많을 경우 상당히 유용하며, 작업 시간을 줄여줄 수 있음.

현재 열려있는 파일에 대해 OCR을 적용해봅니다.



메뉴를 선택하면 위와같은 메시지 창이 나타납니다. 예시로 하는 엑셀 메뉴얼은 1페이지짜리 PDF이기 때문에 ‘All pages’와 ‘From page’가 비활성화 되어 있는 모습입니다. 만약 여러개의 페이지를 가진 PDF라면 활성화 될 것입니다. 모든 페이지(PDF 전체)에 대해 OCR을 적용할 수도 있으며, 특정 페이지에만 OCR을 적용할 수도 있고, 편리하게 지정하는 부분에 대해서만(예를들어 1페이지부터 10페이지까지만) OCR을 적용할 수도 있습니다.

두번째로, Settings 를 보면 3가지의 옵션 항목이 있습니다.
우측 하단에 있는 ‘Edit’을 눌러 설정을 변경해줍니다.



언어 설정을 한국어로 바꿔줍니다. 한국어로 바꾸어도 왠만한 영어는 알아서 OCR이 적용됩니다. 하지만 최상의 인식율을 원한다면, 각각에 맞는 언어설정을 해 줄 필요가 있습니다. 직접 테스트를 해 본 결과, 한글은 영문에 비해 인식율이 약간 떨어지는 경향이 있습니다.




언어설정과 dpi 설정을 해주고 OK를 누릅니다.




변화이 되고 진행되고 있습니다. 1페이지 짜리라 그런지 금방 적용됩니다.




OCR이 적용되었기 때문에, 이제는 텍스트 일부를 블럭설정할 수 있습니다. 즉, 복사/붙여넣기 등이 가능해졌다는 의미입니다.



가장 중요한 검색을 해봅니다.
영어로, 한글로 검색을 해도 완벽하진 않지만 나름 괜찮은 인식율을 보여줍니다.
적용이 잘 되면, 이제 저장을 하고 PDF를 멋지게 자료로서 활용해주면 됩니다!


그리고 필요할 때, 생각날 때마다 검색을 통해 자료를 빠르게 확인하고 작업을 수월하게 진행하시면 되겠습니다.


OCR 기능은 다른 쉐어웨어 등을 통해 따로 추출을 할 수 있다고 합니다. 그러나 PDF로 자제로 변환하는것이 아니라, PDF에 있는 텍스트를 추출만 하기 때문에 추출한 텍스트를 다시금 PDF화 하여야 되는 번거로움이 있으니, 유의하시기 바랍니다. 단순히 텍스트를 추출만 하는것이라면 관계없으나 PDF를 유지하면서 그 PDF 파일에 텍스트를 뽑아내고 싶다면 아크로뱃에 있는 OCR 기능이 현재까진 가장 정답에 가깝다고 생각됩니다.

이 기능 자체만으로도 아크로뱃 프로의 가격이 아깝지 않다는 생각이 듭니다.
PDF 파일포맷은 앞으로도, 아니 앞으로 더 많이 사용이 될 파일 시스템이기 때문입니다.

생산성을 위해 적절한 기능들을 익혀둔다면, 좀 더 빨리 일을 마칠 수 있고, 좀 더 많은 업무를 단시간에 할 수 있으며, 개인적인 시간을 확보할 수 있을지 모릅니다. 생산성은 그만큼 중요하다고 생각합니다.

시간이 갈수록 개인적인 데이터베이스 구축 및 자료 보관에 관심이 가네요.
PDF를 OCR하는 기능을 통해, 자신만의 멋진 DB를 구축하여, 모두에게 도움이 되는 작업을 할 수 있길 기대합니다.



반응형

댓글

Designed by JB FACTORY