기본 콘텐츠로 건너뛰기

파일 리더기 만들기 - pdf를 html로 변환, docx를 pdf로 변환

파일 리더기를 만들고 있다.
우선 rtf와 docx 직접적으로 처리를 하려고 했으나 매우 거지 같아서 pdf로 변환을 거친 후 처리를 하기로 했다.

이번에는 pdf 파일을 html 파일로 바꿔주는 방법, docx파일을 pdf파일로 바꿔주는 방법에 대해서 다뤄보고자 합니다.
우선 pdftohtmljs라는 모듈을 사용할 것인데.해당 모듈을 사용하기 전에 pdf2htmlex라는 모듈이 설치가 되어야 한다.
$ sudo apt-get install pdf2htmlex
ubuntu의 경우 위와같이 설치를 해줍니다.
$ brew install pdf2htmlex
mac의 경우는 brew를 이용하여 설치를 해줍니다.
간혹 맥에서 위처럼 설치중에 아래와 같은 문구가 나타나면서 설치가 진행이 되지 않을 수있습니다.
Error: You must `brew link python` before pdf2htmlex can be installed
이럴경우는 아래와 같이 해결이 가능합니다.
$ brew link --overwrite python
위 명령어를 통해 python을 링크를 걸어줍니다. 이게 해당 모듈을 설치를 할 때 python을 사용해서 무엇인가를 하기 위해 link를 걸어주는 것 같습니다. 이제 다시 pdf2htmlex를 설치 해줍니다.
$ brew install pdf2htmlex
이제 pdf를 html로 변환해주는 pdftohtmljs를 설치를 해보겠습니다.
$ npm install pdftohtmljs
var pdftohtml = require('pdftohtmljs'); var converter = new pdftohtml('test.pdf', "sample.html"); converter.convert('ipad').then(function() { console.log("Success"); }).catch(function(err) { console.error("Conversion error: " + err); });
pdftohtmljs를 불러온 후 위 처럼 작성을 하면 test.pdf를 sample.html로 컨버팅이 가능해집니다.

이제 docx파일을 pdf로 바꿔보도록 하겠습니다. docx-pdf라는 모듈을 사용을 해줄 겁니다.
$ npm install docx-pdf
모듈을 설치를 해줍니다.
docxConverter('test.docx', './output.pdf',function(err,result){ if(err){ console.log(err); } console.log('result'+result); });
test.docx를 output.pdf로 바꾸어 줍니다.

댓글

이 블로그의 인기 게시물

[node.js] 파일 리더기 만들기 - 사용 모듈 정리, pdf 구조, hwp 구조

pdf -> html 변환 가장 무난하다. 기본적으로 pdf는 htm와 비슷한 형태의 구조를 가지고 있다. 크게 header , body , xref table , trailer 의 구조로 되어있다. pdf는 환경에 상관없이 표현을 하기 위한 목적을 가지고 있는 파일이다. 이런 이유 때문에 무난히 진행이 된 것 같다. pdf2htmlex와 pdftohtmljs라는 모듈을 이용을 했다. var pdftohtml = require ( 'pdftohtmljs' ) ; var converter = new pdftohtml ( 'test.pdf' , "sample.html" ) ; converter . convert ( 'ipad' ) . then ( function ( ) { console . log ( "Success" ) ; } ) . catch ( function ( err ) { console . error ( "Conversion error: " + err ) ; } ) ; 이미지나, text같은 것들이 거의 100%로 변환이 된다. docx -> html 변환 docx파일을 html파일로 변환을 할 때는 style 적용과 한글이 깨지는 문제가 있다. 텍스트들을 전부 잘 읽기는 하는데 스타일 정보를 제대로 가져오지 못하기 때문에 좀 애매하다 - Headings. - Lists. - Customisable mapping from your own docx styles to HTML. For instance, you could convert WarningHeading to h1.warning by providing an appropriate style ...

[css] css로 프린트 방지하기

웹에서 프린트 제어가 불가능 한 줄 알았는데 프린트 클릭 시  스크립트로 해당 이벤트를 받아올 수 있다. 하지만 스크립트를 사용하는 방법은 브라우저마다 작동을 하지 않을 수 있다. 좀 더 찾아보니 css로 인쇄되는 영역을 제어를 해줄 수 있다.  @media print 를 이용하면 된다. < html > < head > < title > print test page < / title > < style > @media print { . np { display : none ; } } < / style > < / head > < body > < div class = "np" > test < / div > < div > test1 < / div > < div > test1 < / div > < div > test1 < / div > < / body > < / html > 위 코드를 보면 np 클래스를 @media print에 넣어주었다. @media print는 인쇄됐을 때의 스타일을 지정을 해주는 것이다.  위에서는 해당 페이지를 인쇄할 때 p를 display : none으로 가려주었다. @media print를 이용하면 좀 더 멋진 인쇄물을 만들 수 ...

[알고리즘] snake게임 알고리즘

막무가네로 알고리즘을 공부하면 재미가 없으니 게임을 접목하여 다루어 보도록 하겠습니다. 게임의 대상은 스네이크 게임입니다. 많은 사람들은 어릴 때 뱀게임을 많이 해봤을 것 입니다. 이번에 다뤄볼 주제는 뱀이 움직임을 어떻게 구현을 할지 알아보겠습니다. 뱀은 크게 3가지의 경우가 있습니다 1. 가장 중요한 뱀을 움직이기 2. 음식먹기 이때 뱀은 크기가 늘어나야 합니다. 3. 뱀이 움직이는 정책   - 뱀이 움직이지 못하는 경우는 : 우측방향에서 좌측 방향으로 OR 위에 아래 방향고 같이 180도 반전되는 움직임은 막겠습니다. 순수한 알고리즘을 만드는 과정이기 때문에 음식을 먹었는지 안먹었는지 판단하는 부분은 랜덤으로 판단을 하도록 하겠습니다. def is_eat(): return random.choice([1, 0]) 랜덤으로 1, 0을 반환을 해줍니다. 실제로 게임을 만든다면 해당 함수는 뱀의 머리가 음식의 좌표와 같은지 검사를 해주면 되겠습니다. key_position_map = { 'w': [-1, 0], # up 's': [1, 0], # down 'a': [0, -1], # left 'd': [0, 1] # right } direction = key_position_map.get('d') 다음으로는 키맵핑을 한 오브젝트 입니다. direction은 현재 뱀의 방향을 나타냅니다. snake_body = [[2, 3], [1, 3],[1, 2], [1, 1]] 주인공이 되는 뱀의 좌표들 입니다. while True: key = input() new_direction = key_position_map.get(key) if new_direction and direction_check(direction, new_direction): directi...