pdf -> html 변환               가장 무난하다. 기본적으로 pdf는 htm와 비슷한 형태의 구조를 가지고 있다. 크게 header , body , xref  table , trailer 의 구조로 되어있다. pdf는 환경에 상관없이 표현을 하기 위한 목적을 가지고 있는 파일이다. 이런 이유 때문에 무난히 진행이 된 것 같다.               pdf2htmlex와 pdftohtmljs라는 모듈을 이용을 했다.               var  pdftohtml =  require ( 'pdftohtmljs' ) ;  var  converter =  new  pdftohtml ( 'test.pdf' ,  "sample.html" ) ;   converter . convert ( 'ipad' ) . then ( function ( )  {      console . log ( "Success" ) ;  } ) . catch ( function ( err )  {      console . error ( "Conversion error: "  +  err ) ;  } ) ;               이미지나, text같은 것들이 거의 100%로 변환이 된다.               docx -> html 변환               docx파일을 html파일로 변환을 할 때는 style 적용과 한글이 깨지는 문제가 있다. 텍스트들을 전부 잘 읽기는 하는데 스타일 정보를 제대로 가져오지 못하기 때문에 좀 애매하다 - Headings. - Lists. - Customisable mapping from your own docx styles to HTML. For instance, you could convert WarningHeading to h1.warning by providing an appropriate style ...

 
 
댓글
댓글 쓰기