pdf 문자 인식(OCR)

3월 15, 2014

acrobat을 이용하면 대부분 pdf문서의 문자들을 인식하여(OCR기능), 한글, 워드 및 엑셀에서 유용하게 사용할 수 있다.

그러나, 종종 렌더링(rendering)문제가 생겨 문자를 인식하지 못하는 경우가 있다. 이때, 해결방법은 두 가지가 같다.

첫째,
1) pdf문서 인쇄 시 프린터를 microsoft XPS document writer로 인쇄해서 xps문서 만들기
2) xps문서를 pdf로 전환
3) 전환된 pdf문서에서 OCR 기능 실행하면 ~~ 끝!!

둘째,
1) pdf문서를 다른 이름으로 저장할 때, 그 형식으로 tif 혹은 tiff로 저장
2) 페이지별로 생성된 그림파일들을 pdf문서로 결합
3)결합된 pdf문서에서 OCR 기능 실행하면 ~~끝!!
(다른 그림 파일들은 안됨!! 사실, 해보지는 않았음 ~ㅋ)

bandiplus오후 2:25
PDF OCR 기능도 있긴 한데, 인식율 면에서는 조금 불편한 점이 없지 않아 있더라구요. 특히 다중언어를 동시에 인식하는 경우에는 ;; 그래서 저는 유료프로그램이긴 하지만 ABBYY 사 제품을 쓰고 있습니다. 사용자 인터페이스면이나 인식율 면에서도 만족할만 하더라구요.
답글삭제
답글

댓글 추가

이 블로그 검색

ResiDuaL Story

pdf 문자 인식(OCR)

댓글

댓글 쓰기

이 블로그의 인기 게시물

그래프 그리기 05:= EU-15 국가들의 GDP 대비 사회지출 비중과 사회지출 대비 사회보장기여금의 비중:= 4사분면 만들기

그래프 그리기 04:= 특정 시기에 음영 넣기:= OECD 국가들의 총조세와 사회지출이 GDP에서 차지하는 비중(1980~2012)