The upper case letters are sometimes converted to lower case. The bug occurs both in the case of conversion to html as well as to xml. The conversion to txt using pdftotext produces proper results. The attached example pdf file. The first paragragph of convertion results to xml (wrong) and to text (right by pdftotext) is shown below: ============================================================================= XML: ============================================================================= <text top="67" left="85" width="333" height="21" font="1">wybrałem się więc z całą rodziną do jednego z tych </text> <text top="85" left="68" width="350" height="21" font="1">sklepów z prezentami-duperelami, gdzie zapach różnych </text> <text top="103" left="68" width="347" height="21" font="1">suszonych pachnidełek jest tak intensywny, że przypra-</text> <text top="122" left="68" width="350" height="21" font="1">wia o zeza. nie bacząc na to, że dzieci leżały na podłodze </text> <text top="140" left="68" width="347" height="21" font="1">dusząc się, spędzałem w sklepie kolejne godziny wybie-</text> <text top="159" left="68" width="350" height="21" font="1">rając sobie stołek za mały lub w złym kolorze, tak, żebym </text> <text top="177" left="68" width="350" height="21" font="1">mógł stracić jeszcze trochę czasu na jego zwrot do </text> <text top="196" left="68" width="43" height="21" font="1">sklepu.</text> ============================================================================= TEXT: ============================================================================= Wybrałem się więc z całą rodziną do jednego z tych sklepów z prezentami-duperelami, gdzie zapach różnych suszonych pachnidełek jest tak intensywny, że przypra- wia o zeza. Nie bacząc na to, że dzieci leżały na podłodze dusząc się, spędzałem w sklepie kolejne godziny wybie- rając sobie stołek za mały lub w złym kolorze, tak, żebym mógł stracić jeszcze trochę czasu na jego zwrot do sklepu.
Created attachment 50815 [details] The fragment of pdf file which converts bugly capital letters to lowercase
I can also confirm that this bug exists in pdftohtml version 0.21.0 for linux (using static build). This is quite an annoyance as I'm converting 100+ page PDFs and I have to manually check and fix Capitalization. While I can't provide samples of the PDFs, I can tell you that some fonts produce this effect more than others, but things aren't consistent. Sometimes things are capitalized and sometimes not.
-- GitLab Migration Automatic Message -- This bug has been migrated to freedesktop.org's GitLab instance and has been closed from further activity. You can subscribe and participate further through the new bug through this link to our GitLab instance: https://gitlab.freedesktop.org/poppler/poppler/issues/22.
Use of freedesktop.org services, including Bugzilla, is subject to our Code of Conduct. How we collect and use information is described in our Privacy Policy.