Warum das Digitalisieren der »Bunte Bilder« ewig dauerte

Warum das Digitalisieren der »Bunte Bilder« ewig
dauerte
Andreas Romeyke <art1@andreas.romeyke.de>
21.3.2015
.
.
.
.
.
.
. . . .
. . . .
Andreas Romeyke <art1@andreas.romeyke.de> Warum das Digitalisieren der »Bunte Bilder« ewig dauerte
. . . .
. . . .
. . .
. . .
.
.
.
.
.
.
.
.
.
.
.
21.3.2015
1 / 32
.
Worum geht es?
Wie scannen?
Wie OCR?
Wie nachkorrigieren?
.
.
.
.
.
.
. . . .
. . . .
Andreas Romeyke <art1@andreas.romeyke.de> Warum das Digitalisieren der »Bunte Bilder« ewig dauerte
. . . .
. . . .
. . .
. . .
.
.
.
.
.
.
.
.
.
.
.
21.3.2015
2 / 32
.
hilfreiche Kenntnisse
Scriptsprache der Wahl
Grundwissen reguläre Ausdrücke
Von imagemagick schon was gehört haben
XML, HTML oder LaTeX
.
.
.
.
.
.
. . . .
. . . .
Andreas Romeyke <art1@andreas.romeyke.de> Warum das Digitalisieren der »Bunte Bilder« ewig dauerte
. . . .
. . . .
. . .
. . .
.
.
.
.
.
.
.
.
.
.
.
21.3.2015
3 / 32
.
So lange?
.
.
.
.
.
.
. . . .
. . . .
Andreas Romeyke <art1@andreas.romeyke.de> Warum das Digitalisieren der »Bunte Bilder« ewig dauerte
. . . .
. . . .
. . .
. . .
.
.
.
.
.
.
.
.
.
.
.
21.3.2015
4 / 32
.
bevor es losgeht
Nutzt Versionsverwaltungen!
.
.
.
.
.
.
. . . .
. . . .
Andreas Romeyke <art1@andreas.romeyke.de> Warum das Digitalisieren der »Bunte Bilder« ewig dauerte
. . . .
. . . .
. . .
. . .
.
.
.
.
.
.
.
.
.
.
.
21.3.2015
5 / 32
.
bevor es losgeht
Nutzt Versionsverwaltungen!
Welches Ziel soll verfolgt werden?
.
.
.
.
.
.
. . . .
. . . .
Andreas Romeyke <art1@andreas.romeyke.de> Warum das Digitalisieren der »Bunte Bilder« ewig dauerte
. . . .
. . . .
. . .
. . .
.
.
.
.
.
.
.
.
.
.
.
21.3.2015
5 / 32
.
bevor es losgeht
Nutzt Versionsverwaltungen!
Welches Ziel soll verfolgt werden?
Rechte
.
.
.
.
.
.
. . . .
. . . .
Andreas Romeyke <art1@andreas.romeyke.de> Warum das Digitalisieren der »Bunte Bilder« ewig dauerte
. . . .
. . . .
. . .
. . .
.
.
.
.
.
.
.
.
.
.
.
21.3.2015
5 / 32
.
bevor es losgeht
Nutzt Versionsverwaltungen!
Welches Ziel soll verfolgt werden?
Rechte
Speicher
.
.
.
.
.
.
. . . .
. . . .
Andreas Romeyke <art1@andreas.romeyke.de> Warum das Digitalisieren der »Bunte Bilder« ewig dauerte
. . . .
. . . .
. . .
. . .
.
.
.
.
.
.
.
.
.
.
.
21.3.2015
5 / 32
.
Scanauflösung
300dpi?
.
.
.
.
.
.
. . . .
. . . .
Andreas Romeyke <art1@andreas.romeyke.de> Warum das Digitalisieren der »Bunte Bilder« ewig dauerte
. . . .
. . . .
. . .
. . .
.
.
.
.
.
.
.
.
.
.
.
21.3.2015
6 / 32
.
Scanauflösung
300dpi?
kommt auf Buch an
.
.
.
.
.
.
. . . .
. . . .
Andreas Romeyke <art1@andreas.romeyke.de> Warum das Digitalisieren der »Bunte Bilder« ewig dauerte
. . . .
. . . .
. . .
. . .
.
.
.
.
.
.
.
.
.
.
.
21.3.2015
6 / 32
.
Scanauflösung
300dpi?
kommt auf Buch an
durchschnittliche Schrift
.
.
.
.
.
.
. . . .
. . . .
Andreas Romeyke <art1@andreas.romeyke.de> Warum das Digitalisieren der »Bunte Bilder« ewig dauerte
. . . .
. . . .
. . .
. . .
.
.
.
.
.
.
.
.
.
.
.
21.3.2015
6 / 32
.
Scanauflösung
300dpi?
kommt auf Buch an
durchschnittliche Schrift
Fraktur empfindlicher, da kaum
unterscheidbare Zeichen
.
.
.
.
.
.
. . . .
. . . .
Andreas Romeyke <art1@andreas.romeyke.de> Warum das Digitalisieren der »Bunte Bilder« ewig dauerte
. . . .
. . . .
. . .
. . .
.
.
.
.
.
.
.
.
.
.
.
21.3.2015
6 / 32
.
Scanqualität = OCR-Qualität
Liegt Buch auf Scanner plan?!
Sind Seiten ordentlich ausgerichtet?!
.
.
.
.
.
.
. . . .
. . . .
Andreas Romeyke <art1@andreas.romeyke.de> Warum das Digitalisieren der »Bunte Bilder« ewig dauerte
. . . .
. . . .
. . .
. . .
.
.
.
.
.
.
.
.
.
.
.
21.3.2015
7 / 32
.
Monochrome oder?
Monochrome spart Platz, aber:
.
.
.
.
.
.
. . . .
. . . .
Andreas Romeyke <art1@andreas.romeyke.de> Warum das Digitalisieren der »Bunte Bilder« ewig dauerte
. . . .
. . . .
. . .
. . .
.
.
.
.
.
.
.
.
.
.
.
21.3.2015
8 / 32
.
Monochrome oder?
Monochrome spart Platz, aber:
lieber Graustufen
.
.
.
.
.
.
. . . .
. . . .
Andreas Romeyke <art1@andreas.romeyke.de> Warum das Digitalisieren der »Bunte Bilder« ewig dauerte
. . . .
. . . .
. . .
. . .
.
.
.
.
.
.
.
.
.
.
.
21.3.2015
8 / 32
.
Monochrome oder?
Monochrome spart Platz, aber:
lieber Graustufen
Farbe manchmal
.
.
.
.
.
.
. . . .
. . . .
Andreas Romeyke <art1@andreas.romeyke.de> Warum das Digitalisieren der »Bunte Bilder« ewig dauerte
. . . .
. . . .
. . .
. . .
.
.
.
.
.
.
.
.
.
.
.
21.3.2015
8 / 32
.
Scans speichern als…
nicht JPEG!
PNG oder TIFF okay
.
.
.
.
.
.
. . . .
. . . .
Andreas Romeyke <art1@andreas.romeyke.de> Warum das Digitalisieren der »Bunte Bilder« ewig dauerte
. . . .
. . . .
. . .
. . .
.
.
.
.
.
.
.
.
.
.
.
21.3.2015
9 / 32
.
Entdrehen, entwellen, beschneiden!
Preprocessing…
ist aufwändig!
spart Ärger
.
.
.
.
.
.
. . . .
. . . .
Andreas Romeyke <art1@andreas.romeyke.de> Warum das Digitalisieren der »Bunte Bilder« ewig dauerte
. . . .
. . . .
. . .
. . .
.
.
.
.
.
.
.
.
.
.
.
21.3.2015
10 / 32
.
Entdrehen, entwellen, beschneiden!
Preprocessing…
ist aufwändig!
spart Ärger
ABER: nichts schlägt sauberes Scannen!
.
.
.
.
.
.
. . . .
. . . .
Andreas Romeyke <art1@andreas.romeyke.de> Warum das Digitalisieren der »Bunte Bilder« ewig dauerte
. . . .
. . . .
. . .
. . .
.
.
.
.
.
.
.
.
.
.
.
21.3.2015
10 / 32
.
Entdrehen, entwellen, beschneiden!
Werkzeuge sind…
unpaper
scantailor http://scantailor.org/
.
.
.
.
.
.
. . . .
. . . .
Andreas Romeyke <art1@andreas.romeyke.de> Warum das Digitalisieren der »Bunte Bilder« ewig dauerte
. . . .
. . . .
. . .
. . .
.
.
.
.
.
.
.
.
.
.
.
21.3.2015
11 / 32
.
Binarisierung
Empfehlenswert: Sauvola1
Original Scan
1
http://art1pirat.blogspot.de/2013/06/binarisierung.html
.
.
.
.
.
.
. . . .
. . . .
Andreas Romeyke <art1@andreas.romeyke.de> Warum das Digitalisieren der »Bunte Bilder« ewig dauerte
. . . .
. . . .
. . .
. . .
.
.
.
.
.
.
.
.
.
.
.
21.3.2015
12 / 32
.
Binarisierung
Empfehlenswert: Sauvola1
Sauvola global
1
http://art1pirat.blogspot.de/2013/06/binarisierung.html
.
.
.
.
.
.
. . . .
. . . .
Andreas Romeyke <art1@andreas.romeyke.de> Warum das Digitalisieren der »Bunte Bilder« ewig dauerte
. . . .
. . . .
. . .
. . .
.
.
.
.
.
.
.
.
.
.
.
21.3.2015
12 / 32
.
Binarisierung
Empfehlenswert: Sauvola1
Sauvola local
1
http://art1pirat.blogspot.de/2013/06/binarisierung.html
.
.
.
.
.
.
. . . .
. . . .
Andreas Romeyke <art1@andreas.romeyke.de> Warum das Digitalisieren der »Bunte Bilder« ewig dauerte
. . . .
. . . .
. . .
. . .
.
.
.
.
.
.
.
.
.
.
.
21.3.2015
12 / 32
.
OCR von Text
Welche Software?
tesseract
.
.
.
.
.
.
. . . .
. . . .
Andreas Romeyke <art1@andreas.romeyke.de> Warum das Digitalisieren der »Bunte Bilder« ewig dauerte
. . . .
. . . .
. . .
. . .
.
.
.
.
.
.
.
.
.
.
.
21.3.2015
13 / 32
.
OCR von Text
Welche Software?
tesseract
unbrauchbar: gocr, ocropus
.
.
.
.
.
.
. . . .
. . . .
Andreas Romeyke <art1@andreas.romeyke.de> Warum das Digitalisieren der »Bunte Bilder« ewig dauerte
. . . .
. . . .
. . .
. . .
.
.
.
.
.
.
.
.
.
.
.
21.3.2015
13 / 32
.
OCR von Text
Welche Software?
tesseract
unbrauchbar: gocr, ocropus
im Notfall: cuneiform oder kommerzielle
.
.
.
.
.
.
. . . .
. . . .
Andreas Romeyke <art1@andreas.romeyke.de> Warum das Digitalisieren der »Bunte Bilder« ewig dauerte
. . . .
. . . .
. . .
. . .
.
.
.
.
.
.
.
.
.
.
.
21.3.2015
13 / 32
.
OCR von Text
Welche Software?
tesseract
OCR mit Tesseract
#!/bin/bash
# calls tesseract foreach PNG-image
# and writes into txt/$file.txt
for file in *.png; do
txt=$(basename $file ".png")
tesseract $file txt/$txt -l deu-frak
done
.
.
.
.
.
.
. . . .
. . . .
Andreas Romeyke <art1@andreas.romeyke.de> Warum das Digitalisieren der »Bunte Bilder« ewig dauerte
. . . .
. . . .
. . .
. . .
.
.
.
.
.
.
.
.
.
.
.
21.3.2015
13 / 32
.
OCR-Fehler finden (1)
DPCustomMono22
Distributed Proofreader’s Project3
2
3
http://www.pgdp.net/c/faq/DPCustomMono2.ttf
.
. . .
http://www.pgdp.net/c/
. .
.
. .
Andreas Romeyke <art1@andreas.romeyke.de> Warum das Digitalisieren der »Bunte Bilder« ewig dauerte
. . .
. .
. . . .
. . . .
. . .
. . .
.
.
.
.
.
.
.
.
.
.
.
21.3.2015
14 / 32
.
OCR-Fehler finden (2)
Scan - Dreierhop
eine Seite OCRen
.
.
.
.
.
.
. . . .
. . . .
Andreas Romeyke <art1@andreas.romeyke.de> Warum das Digitalisieren der »Bunte Bilder« ewig dauerte
. . . .
. . . .
. . .
. . .
.
.
.
.
.
.
.
.
.
.
.
21.3.2015
15 / 32
.
OCR-Fehler finden (2)
Scan - Dreierhop
eine Seite OCRen
diese Seite korrigieren
.
.
.
.
.
.
. . . .
. . . .
Andreas Romeyke <art1@andreas.romeyke.de> Warum das Digitalisieren der »Bunte Bilder« ewig dauerte
. . . .
. . . .
. . .
. . .
.
.
.
.
.
.
.
.
.
.
.
21.3.2015
15 / 32
.
OCR-Fehler finden (2)
Auszug Wörterbuch
…
Brotbänken
Scan - Dreierhop
eine Seite OCRen
Brote
Broten
Brotlaib
brotloſen
diese Seite korrigieren
eigenes Wörterbuch ergänzen
Brotrechnung
Brotſack
Brotſchnitte
Brotſchätzer
Broſchen
bruch
…
.
.
.
.
.
.
. . . .
. . . .
Andreas Romeyke <art1@andreas.romeyke.de> Warum das Digitalisieren der »Bunte Bilder« ewig dauerte
. . . .
. . . .
. . .
. . .
.
.
.
.
.
.
.
.
.
.
.
21.3.2015
15 / 32
.
OCR-Fehler finden (3)
Script mit RegEx für eigene Fehlerarten, zB.:
#!/bin/bash
# call it with "script filename"
# found wrong word-hyphens at EOL
grep "[a-zſß][–—]$" $1 && \
echo -e "#### found '–' as '-' in $1\n"
.
.
.
.
.
.
. . . .
. . . .
Andreas Romeyke <art1@andreas.romeyke.de> Warum das Digitalisieren der »Bunte Bilder« ewig dauerte
. . . .
. . . .
. . .
. . .
.
.
.
.
.
.
.
.
.
.
.
21.3.2015
16 / 32
.
OCR-Fehler finden (3)
Script mit RegEx für eigene Fehlerarten, zB.:
#!/bin/bash
# call it with "script filename"
# found wrong word-hyphens at EOL
grep "[a-zſß][–—]$" $1 && \
echo -e "#### found '–' as '-' in $1\n"
Wörterbuch Trennmusterprojekt nutzen
http://projekte.dante.de/Trennmuster
.
.
.
.
.
.
. . . .
. . . .
Andreas Romeyke <art1@andreas.romeyke.de> Warum das Digitalisieren der »Bunte Bilder« ewig dauerte
. . . .
. . . .
. . .
. . .
.
.
.
.
.
.
.
.
.
.
.
21.3.2015
16 / 32
.
OCR Ergebnisse verbessern
Seite komplett korrigieren, mit verschiedenen Parametern OCRen,
vergleichen!
.
.
.
.
.
.
. . . .
. . . .
Andreas Romeyke <art1@andreas.romeyke.de> Warum das Digitalisieren der »Bunte Bilder« ewig dauerte
. . . .
. . . .
. . .
. . .
.
.
.
.
.
.
.
.
.
.
.
21.3.2015
17 / 32
.
OCR Ergebnisse verbessern
Seite komplett korrigieren, mit verschiedenen Parametern OCRen,
vergleichen!
Debug-Ausgaben nutzen! https://code.google.com/p/
tesseract-ocr/wiki/ViewerDebugging
.
.
.
.
.
.
. . . .
. . . .
Andreas Romeyke <art1@andreas.romeyke.de> Warum das Digitalisieren der »Bunte Bilder« ewig dauerte
. . . .
. . . .
. . .
. . .
.
.
.
.
.
.
.
.
.
.
.
21.3.2015
17 / 32
.
OCR Ergebnisse verbessern
Seite komplett korrigieren, mit verschiedenen Parametern OCRen,
vergleichen!
Debug-Ausgaben nutzen! https://code.google.com/p/
tesseract-ocr/wiki/ViewerDebugging
Wortlisten bereitstellen
.
.
.
.
.
.
. . . .
. . . .
Andreas Romeyke <art1@andreas.romeyke.de> Warum das Digitalisieren der »Bunte Bilder« ewig dauerte
. . . .
. . . .
. . .
. . .
.
.
.
.
.
.
.
.
.
.
.
21.3.2015
17 / 32
.
OCR Ergebnisse verbessern
Seite komplett korrigieren, mit verschiedenen Parametern OCRen,
vergleichen!
Debug-Ausgaben nutzen! https://code.google.com/p/
tesseract-ocr/wiki/ViewerDebugging
Wortlisten bereitstellen
Checkliste
Gerade gescannt?
Auflösung korrekt?
verlustfrei gespeichert?
Bilder?
Ligaturen erkannt?
.
.
.
.
.
.
. . . .
. . . .
Andreas Romeyke <art1@andreas.romeyke.de> Warum das Digitalisieren der »Bunte Bilder« ewig dauerte
. . . .
. . . .
. . .
. . .
.
.
.
.
.
.
.
.
.
.
.
21.3.2015
17 / 32
.
eigene Fonts trainieren (1)
ca. 5-10 Seiten als TIFF scannen
4
http:
.
. . . . . . . . . . . . .
//sourceforge.net/projects/vietocr/files/jTessBoxEditor/
. .
.
. . . . . . . . . . . .
Andreas Romeyke <art1@andreas.romeyke.de> Warum das Digitalisieren der »Bunte Bilder« ewig dauerte
.
.
.
.
.
.
.
.
.
.
21.3.2015
18 / 32
.
eigene Fonts trainieren (1)
ca. 5-10 Seiten als TIFF scannen
#!/bin/bash
TESSDATA_PREFIX=./
tesseract -psm 6 -l deu-frak deu-frak.frak2.exp0.tif \
deu-frak.frak2.exp0 batch.nochop makebox
4
http:
.
. . . . . . . . . . . . .
//sourceforge.net/projects/vietocr/files/jTessBoxEditor/
. .
.
. . . . . . . . . . . .
Andreas Romeyke <art1@andreas.romeyke.de> Warum das Digitalisieren der »Bunte Bilder« ewig dauerte
.
.
.
.
.
.
.
.
.
.
21.3.2015
18 / 32
.
eigene Fonts trainieren (1)
ca. 5-10 Seiten als TIFF scannen
#!/bin/bash
TESSDATA_PREFIX=./
tesseract -psm 6 -l deu-frak deu-frak.frak2.exp0.tif \
deu-frak.frak2.exp0 batch.nochop makebox
mit JTessBoxEditor4 Boxen Zeichen zuweisen
4
http:
.
. . . . . . . . . . . . .
//sourceforge.net/projects/vietocr/files/jTessBoxEditor/
. .
.
. . . . . . . . . . . .
Andreas Romeyke <art1@andreas.romeyke.de> Warum das Digitalisieren der »Bunte Bilder« ewig dauerte
.
.
.
.
.
.
.
.
.
.
21.3.2015
18 / 32
.
eigene Fonts trainieren (2)
#!/bin/bash
TRAINCONFIG=box.train
rm -f *.tr *.txt deu-frak.inttemp deu-frak.normproto deu-frak.pffmtable \
deu-frak.shapetable deu-frak.traineddata deu-frak.unicharset pffmtable unicharset
for i in $(seq 0 14); do # train standard font
tesseract deu-frak.frak2.exp$i.tif deu-frak.frak2.exp$i deu-frak.config $TRAINCONFIG
done
for i in $(seq 0 0); do # train bold font
tesseract deu-frak.frak2bold.exp$i.tif deu-frak.frak2bold.exp$i deu-frak.config $TRAINCONFIG
done
for i in $(seq 0 0); do # train latin font
tesseract deu-frak.frak2latin.exp$i.tif deu-frak.frak2latin.exp$i deu-frak.config $TRAINCONFIG
done
unicharset_extractor deu-frak.frak2.exp*.box deu-frak.frak2bold.exp*.box \
deu-frak.frak2latin.exp*.box
cat unicharset | sed -e "s/^\([æøåäöüâêàèéçßſ][a-z]*\) 0/\1 3/" \
-e "s/^\([ÆØÅÄÖÜÂÊÀÈÉÇ][a-z]*\) 0/\1 5/" \
-e "s/^\([“„„“·§—�]\) 0/\1 10/" -e "s/^� 3 /� 10 /" -e "s/^½ 0/½ 8/" | \
sed -e "s/^\([æøåäöüâêàèéçßa-zÆØÅÄÖÜÂÊÀÈÉÇA-Zſ].*\) NULL /\1 Latin /" \
-e "s/^\([“„„“·§—�–[:punct:][:digit:]].*\) NULL /\1 Common /" \
-e "s/^\(&c .*\) Common /\1 Latin /" > unicharset.edited
echo MFTRAINING
mftraining -F font_properties -U unicharset.edited -X xheight -O deu-frak.unicharset \
deu-frak.frak2.exp*.tr deu-frak.frak2bold.exp*.tr deu-frak.frak2latin.exp*.tr
echo CNTRAINING
cntraining deu-frak.frak2.exp*.tr deu-frak.frak2bold.exp*.tr deu-frak.frak2latin.exp*.tr
wordlist2dawg ogerman deu-frak.word-dawg deu-frak.unicharset
wordlist2dawg ogerman_freqs deu-frak.freq-dawg deu-frak.unicharset
wordlist2dawg number deu-frak.number-dawg deu-frak.unicharset
wordlist2dawg punc deu-frak.punc-dawg deu-frak.unicharset
wordlist2dawg ogerman_bigrams deu-frak.bigram-dawg deu-frak.unicharset
mv inttemp deu-frak.inttemp; mv normproto deu-frak.normproto
mv shapetable deu-frak.shapetable; mv pffmtable deu-frak.pffmtable
combine_tessdata deu-frak.
.
.
.
.
.
.
. . . .
. . . .
Andreas Romeyke <art1@andreas.romeyke.de> Warum das Digitalisieren der »Bunte Bilder« ewig dauerte
. . . .
. . . .
. . .
. . .
.
.
.
.
.
.
.
.
.
.
.
21.3.2015
19 / 32
.
eigene Fonts nutzen
#!/bin/bash
# Pfad zu eigenen Trainingsdaten
# calls tesseract foreach PPM-image
# and writes into txt/$file.txt
export TESSDATA_PREFIX=/tmp/Bunte_Bilder_aus_dem_Sachsenlande/
for file in *.png; do
txt=$(basename $file ".png")
tesseract $file txt/$txt -l deu-frak
done
Ausführliche Infos zum Training
http://art1pirat.blogspot.de/2012/11/selbstversuch-ebook-befreiung-am_22.html
http://art1pirat.blogspot.de/2012/12/selbstversuch-ebook-befreiung-am.html
http://art1pirat.blogspot.de/2012/12/selbstversuch-ebook-befreiung-am_13.html
.
.
.
.
.
.
. . . .
. . . .
Andreas Romeyke <art1@andreas.romeyke.de> Warum das Digitalisieren der »Bunte Bilder« ewig dauerte
. . . .
. . . .
. . .
. . .
.
.
.
.
.
.
.
.
.
.
.
21.3.2015
20 / 32
.
semantische Auszeichnung (1)
Verschiedene Möglichkeiten:
direkte Strukturierung
als Ebook in Calibre oder Sigil
für Druck als LaTeX
für Online als HTML
.
.
.
.
.
.
. . . .
. . . .
Andreas Romeyke <art1@andreas.romeyke.de> Warum das Digitalisieren der »Bunte Bilder« ewig dauerte
. . . .
. . . .
. . .
. . .
.
.
.
.
.
.
.
.
.
.
.
21.3.2015
21 / 32
.
semantische Auszeichnung (1)
Verschiedene Möglichkeiten:
direkte Strukturierung
als Ebook in Calibre oder Sigil
für Druck als LaTeX
für Online als HTML
oder über Zwischenformat
asciidoc
docbook XML
.
.
.
.
.
.
. . . .
. . . .
Andreas Romeyke <art1@andreas.romeyke.de> Warum das Digitalisieren der »Bunte Bilder« ewig dauerte
. . . .
. . . .
. . .
. . .
.
.
.
.
.
.
.
.
.
.
.
21.3.2015
21 / 32
.
semantische Auszeichnung (2)
bei Verwendung von Zwischenformaten
Basis bleibt korrigierter Volltext
.
.
.
.
.
.
. . . .
. . . .
Andreas Romeyke <art1@andreas.romeyke.de> Warum das Digitalisieren der »Bunte Bilder« ewig dauerte
. . . .
. . . .
. . .
. . .
.
.
.
.
.
.
.
.
.
.
.
21.3.2015
22 / 32
.
semantische Auszeichnung (2)
bei Verwendung von Zwischenformaten
Basis bleibt korrigierter Volltext
Automatisierung der Erstellung von Ebook, HTML und PDF
.
.
.
.
.
.
. . . .
. . . .
Andreas Romeyke <art1@andreas.romeyke.de> Warum das Digitalisieren der »Bunte Bilder« ewig dauerte
. . . .
. . . .
. . .
. . .
.
.
.
.
.
.
.
.
.
.
.
21.3.2015
22 / 32
.
semantische Auszeichnung (2)
bei Verwendung von Zwischenformaten
Basis bleibt korrigierter Volltext
Automatisierung der Erstellung von Ebook, HTML und PDF
Hinterlegung von Rezepten, die bestimmte Teile automatisch
auszeichnen
.
.
.
.
.
.
. . . .
. . . .
Andreas Romeyke <art1@andreas.romeyke.de> Warum das Digitalisieren der »Bunte Bilder« ewig dauerte
. . . .
. . . .
. . .
. . .
.
.
.
.
.
.
.
.
.
.
.
21.3.2015
22 / 32
.
Zusatznutzen Automation
Erstellung von Wortlisten
.
.
.
.
.
.
. . . .
. . . .
Andreas Romeyke <art1@andreas.romeyke.de> Warum das Digitalisieren der »Bunte Bilder« ewig dauerte
. . . .
. . . .
. . .
. . .
.
.
.
.
.
.
.
.
.
.
.
21.3.2015
23 / 32
.
Zusatznutzen Automation
Erstellung von Wortlisten
Silbentrennung für Ebooks ( Shy“ über Unicode U+00AD)
”
.
.
.
.
.
.
. . . .
. . . .
Andreas Romeyke <art1@andreas.romeyke.de> Warum das Digitalisieren der »Bunte Bilder« ewig dauerte
. . . .
. . . .
. . .
. . .
.
.
.
.
.
.
.
.
.
.
.
21.3.2015
23 / 32
.
Zusatznutzen Automation
Erstellung von Wortlisten
Silbentrennung für Ebooks ( Shy“ über Unicode U+00AD)
”
Statistiken
.
.
.
.
.
.
. . . .
. . . .
Andreas Romeyke <art1@andreas.romeyke.de> Warum das Digitalisieren der »Bunte Bilder« ewig dauerte
. . . .
. . . .
. . .
. . .
.
.
.
.
.
.
.
.
.
.
.
21.3.2015
23 / 32
.
Zusatznutzen Automation
Erstellung von Wortlisten
Silbentrennung für Ebooks ( Shy“ über Unicode U+00AD)
”
Statistiken
Volltextsuche
.
.
.
.
.
.
. . . .
. . . .
Andreas Romeyke <art1@andreas.romeyke.de> Warum das Digitalisieren der »Bunte Bilder« ewig dauerte
. . . .
. . . .
. . .
. . .
.
.
.
.
.
.
.
.
.
.
.
21.3.2015
23 / 32
.
Zusatznutzen Automation
Erstellung von Wortlisten
Silbentrennung für Ebooks ( Shy“ über Unicode U+00AD)
”
Statistiken
Volltextsuche
Rezepte wiederverwendbar
.
.
.
.
.
.
. . . .
. . . .
Andreas Romeyke <art1@andreas.romeyke.de> Warum das Digitalisieren der »Bunte Bilder« ewig dauerte
. . . .
. . . .
. . .
. . .
.
.
.
.
.
.
.
.
.
.
.
21.3.2015
23 / 32
.
Umgang mit Bildern
Bilder explizit sauber nachscannen
wenn nötig nachbearbeiten (Gimp)
als PNG speichern, ggf. vektorisieren
.
.
.
.
.
.
. . . .
. . . .
Andreas Romeyke <art1@andreas.romeyke.de> Warum das Digitalisieren der »Bunte Bilder« ewig dauerte
. . . .
. . . .
. . .
. . .
.
.
.
.
.
.
.
.
.
.
.
21.3.2015
24 / 32
.
Bilder vektorisieren?
Idee klang gut, aber:
sehr große Dateien
Ebook-Reader kommen oft nicht zurecht
.
.
.
.
.
.
. . . .
. . . .
Andreas Romeyke <art1@andreas.romeyke.de> Warum das Digitalisieren der »Bunte Bilder« ewig dauerte
. . . .
. . . .
. . .
. . .
.
.
.
.
.
.
.
.
.
.
.
21.3.2015
25 / 32
.
Bilder vektorisieren?
Bild säubern
potrace http://potrace.sourceforge.net/ ist gute Wahl (via
EPS)
mit inkscape https://inkscape.org/de/ nach SVG 1.1
konvertieren
mit SVG-Cleaner
https://github.com/RazrFalcon/SVGCleaner verkleinern
.
.
.
.
.
.
. . . .
. . . .
Andreas Romeyke <art1@andreas.romeyke.de> Warum das Digitalisieren der »Bunte Bilder« ewig dauerte
. . . .
. . . .
. . .
. . .
.
.
.
.
.
.
.
.
.
.
.
21.3.2015
25 / 32
.
Was ich gelernt habe…
historische Texte sind mit freier Software digitalisierbar
.
.
.
.
.
.
. . . .
. . . .
Andreas Romeyke <art1@andreas.romeyke.de> Warum das Digitalisieren der »Bunte Bilder« ewig dauerte
. . . .
. . . .
. . .
. . .
.
.
.
.
.
.
.
.
.
.
.
21.3.2015
26 / 32
.
Was ich gelernt habe…
historische Texte sind mit freier Software digitalisierbar
der größte Zeitaufwand ist es OCR-Fehler zu finden
der zweitgrößte Strukturen auszuzeichnen
.
.
.
.
.
.
. . . .
. . . .
Andreas Romeyke <art1@andreas.romeyke.de> Warum das Digitalisieren der »Bunte Bilder« ewig dauerte
. . . .
. . . .
. . .
. . .
.
.
.
.
.
.
.
.
.
.
.
21.3.2015
26 / 32
.
Was ich gelernt habe…
historische Texte sind mit freier Software digitalisierbar
der größte Zeitaufwand ist es OCR-Fehler zu finden
der zweitgrößte Strukturen auszuzeichnen
mit Tesseract kann man arbeiten
.
.
.
.
.
.
. . . .
. . . .
Andreas Romeyke <art1@andreas.romeyke.de> Warum das Digitalisieren der »Bunte Bilder« ewig dauerte
. . . .
. . . .
. . .
. . .
.
.
.
.
.
.
.
.
.
.
.
21.3.2015
26 / 32
.
Was ich gelernt habe…
historische Texte sind mit freier Software digitalisierbar
der größte Zeitaufwand ist es OCR-Fehler zu finden
der zweitgrößte Strukturen auszuzeichnen
mit Tesseract kann man arbeiten
es gibt keinen guten und freien XML-Editor
.
.
.
.
.
.
. . . .
. . . .
Andreas Romeyke <art1@andreas.romeyke.de> Warum das Digitalisieren der »Bunte Bilder« ewig dauerte
. . . .
. . . .
. . .
. . .
.
.
.
.
.
.
.
.
.
.
.
21.3.2015
26 / 32
.
Was ich gelernt habe…
historische Texte sind mit freier Software digitalisierbar
der größte Zeitaufwand ist es OCR-Fehler zu finden
der zweitgrößte Strukturen auszuzeichnen
mit Tesseract kann man arbeiten
es gibt keinen guten und freien XML-Editor
Ocropus war vielversprechend, aber eine Enttäuschung
.
.
.
.
.
.
. . . .
. . . .
Andreas Romeyke <art1@andreas.romeyke.de> Warum das Digitalisieren der »Bunte Bilder« ewig dauerte
. . . .
. . . .
. . .
. . .
.
.
.
.
.
.
.
.
.
.
.
21.3.2015
26 / 32
.
Was ich gelernt habe…
historische Texte sind mit freier Software digitalisierbar
der größte Zeitaufwand ist es OCR-Fehler zu finden
der zweitgrößte Strukturen auszuzeichnen
mit Tesseract kann man arbeiten
es gibt keinen guten und freien XML-Editor
Ocropus war vielversprechend, aber eine Enttäuschung
EBook-Reader sind beschränkt
.
.
.
.
.
.
. . . .
. . . .
Andreas Romeyke <art1@andreas.romeyke.de> Warum das Digitalisieren der »Bunte Bilder« ewig dauerte
. . . .
. . . .
. . .
. . .
.
.
.
.
.
.
.
.
.
.
.
21.3.2015
26 / 32
.
Was ich gelernt habe…
historische Texte sind mit freier Software digitalisierbar
der größte Zeitaufwand ist es OCR-Fehler zu finden
der zweitgrößte Strukturen auszuzeichnen
mit Tesseract kann man arbeiten
es gibt keinen guten und freien XML-Editor
Ocropus war vielversprechend, aber eine Enttäuschung
EBook-Reader sind beschränkt
Vektorizer nicht optimiert für Kupferstiche
.
.
.
.
.
.
. . . .
. . . .
Andreas Romeyke <art1@andreas.romeyke.de> Warum das Digitalisieren der »Bunte Bilder« ewig dauerte
. . . .
. . . .
. . .
. . .
.
.
.
.
.
.
.
.
.
.
.
21.3.2015
26 / 32
.
Wie sieht es denn nun aus?
EBook
.
.
.
.
.
.
. . . .
. . . .
Andreas Romeyke <art1@andreas.romeyke.de> Warum das Digitalisieren der »Bunte Bilder« ewig dauerte
. . . .
. . . .
. . .
. . .
.
.
.
.
.
.
.
.
.
.
.
21.3.2015
27 / 32
.
Wie sieht es denn nun aus?
EBook
PDF
.
.
.
.
.
.
. . . .
. . . .
Andreas Romeyke <art1@andreas.romeyke.de> Warum das Digitalisieren der »Bunte Bilder« ewig dauerte
. . . .
. . . .
. . .
. . .
.
.
.
.
.
.
.
.
.
.
.
21.3.2015
27 / 32
.
Weitere Infos
Meine Erfahrungen
http://art1pirat.blogspot.de
http://andreas-romeyke.de
https://github.com/art1pirat
Tesseract https://code.google.com/p/tesseract-ocr
[noch auf Google]
.
.
.
.
.
.
. . . .
. . . .
Andreas Romeyke <art1@andreas.romeyke.de> Warum das Digitalisieren der »Bunte Bilder« ewig dauerte
. . . .
. . . .
. . .
. . .
.
.
.
.
.
.
.
.
.
.
.
21.3.2015
28 / 32
.
Weitere Infos
Meine Erfahrungen
http://art1pirat.blogspot.de
http://andreas-romeyke.de
https://github.com/art1pirat
Tesseract https://code.google.com/p/tesseract-ocr
[noch auf Google]
Impact OCR http://www.impact-project.eu/
.
.
.
.
.
.
. . . .
. . . .
Andreas Romeyke <art1@andreas.romeyke.de> Warum das Digitalisieren der »Bunte Bilder« ewig dauerte
. . . .
. . . .
. . .
. . .
.
.
.
.
.
.
.
.
.
.
.
21.3.2015
28 / 32
.
Weitere Infos
Meine Erfahrungen
http://art1pirat.blogspot.de
http://andreas-romeyke.de
https://github.com/art1pirat
Tesseract https://code.google.com/p/tesseract-ocr
[noch auf Google]
Impact OCR http://www.impact-project.eu/
Gutenberg-Project http://www.gutenberg.org/
.
.
.
.
.
.
. . . .
. . . .
Andreas Romeyke <art1@andreas.romeyke.de> Warum das Digitalisieren der »Bunte Bilder« ewig dauerte
. . . .
. . . .
. . .
. . .
.
.
.
.
.
.
.
.
.
.
.
21.3.2015
28 / 32
.
Weitere Infos
Meine Erfahrungen
http://art1pirat.blogspot.de
http://andreas-romeyke.de
https://github.com/art1pirat
Tesseract https://code.google.com/p/tesseract-ocr
[noch auf Google]
Impact OCR http://www.impact-project.eu/
Gutenberg-Project http://www.gutenberg.org/
Distributed Proofreader’s Project http://www.pgdp.net/c/
.
.
.
.
.
.
. . . .
. . . .
Andreas Romeyke <art1@andreas.romeyke.de> Warum das Digitalisieren der »Bunte Bilder« ewig dauerte
. . . .
. . . .
. . .
. . .
.
.
.
.
.
.
.
.
.
.
.
21.3.2015
28 / 32
.
Weitere Infos
Meine Erfahrungen
http://art1pirat.blogspot.de
http://andreas-romeyke.de
https://github.com/art1pirat
Tesseract https://code.google.com/p/tesseract-ocr
[noch auf Google]
Impact OCR http://www.impact-project.eu/
Gutenberg-Project http://www.gutenberg.org/
Distributed Proofreader’s Project http://www.pgdp.net/c/
Tesseract als REST-Service
https://github.com/tleyden/open-ocr
.
.
.
.
.
.
. . . .
. . . .
Andreas Romeyke <art1@andreas.romeyke.de> Warum das Digitalisieren der »Bunte Bilder« ewig dauerte
. . . .
. . . .
. . .
. . .
.
.
.
.
.
.
.
.
.
.
.
21.3.2015
28 / 32
.
Zusatz: Verwendete Software
SimpleScan https://launchpad.net/simple-scan
.
.
.
.
.
.
. . . .
. . . .
Andreas Romeyke <art1@andreas.romeyke.de> Warum das Digitalisieren der »Bunte Bilder« ewig dauerte
. . . .
. . . .
. . .
. . .
.
.
.
.
.
.
.
.
.
.
.
21.3.2015
29 / 32
.
Zusatz: Verwendete Software
SimpleScan https://launchpad.net/simple-scan
scantailor http://scantailor.org/
.
.
.
.
.
.
. . . .
. . . .
Andreas Romeyke <art1@andreas.romeyke.de> Warum das Digitalisieren der »Bunte Bilder« ewig dauerte
. . . .
. . . .
. . .
. . .
.
.
.
.
.
.
.
.
.
.
.
21.3.2015
29 / 32
.
Zusatz: Verwendete Software
SimpleScan https://launchpad.net/simple-scan
scantailor http://scantailor.org/
unpaper https://www.flameeyes.eu/projects/unpaper
.
.
.
.
.
.
. . . .
. . . .
Andreas Romeyke <art1@andreas.romeyke.de> Warum das Digitalisieren der »Bunte Bilder« ewig dauerte
. . . .
. . . .
. . .
. . .
.
.
.
.
.
.
.
.
.
.
.
21.3.2015
29 / 32
.
Zusatz: Verwendete Software
SimpleScan https://launchpad.net/simple-scan
scantailor http://scantailor.org/
unpaper https://www.flameeyes.eu/projects/unpaper
GIMP und ImageMagick
.
.
.
.
.
.
. . . .
. . . .
Andreas Romeyke <art1@andreas.romeyke.de> Warum das Digitalisieren der »Bunte Bilder« ewig dauerte
. . . .
. . . .
. . .
. . .
.
.
.
.
.
.
.
.
.
.
.
21.3.2015
29 / 32
.
Zusatz: Verwendete Software
SimpleScan https://launchpad.net/simple-scan
scantailor http://scantailor.org/
unpaper https://www.flameeyes.eu/projects/unpaper
GIMP und ImageMagick
Gedit/Gvim mit DPCustomMono2 font http://www.pgdp.net/c/faq/DPCustomMono2.ttf
.
.
.
.
.
.
. . . .
. . . .
Andreas Romeyke <art1@andreas.romeyke.de> Warum das Digitalisieren der »Bunte Bilder« ewig dauerte
. . . .
. . . .
. . .
. . .
.
.
.
.
.
.
.
.
.
.
.
21.3.2015
29 / 32
.
Zusatz: Verwendete Software
SimpleScan https://launchpad.net/simple-scan
scantailor http://scantailor.org/
unpaper https://www.flameeyes.eu/projects/unpaper
GIMP und ImageMagick
Gedit/Gvim mit DPCustomMono2 font http://www.pgdp.net/c/faq/DPCustomMono2.ttf
Tesseract https://code.google.com/p/tesseract-ocr
.
.
.
.
.
.
. . . .
. . . .
Andreas Romeyke <art1@andreas.romeyke.de> Warum das Digitalisieren der »Bunte Bilder« ewig dauerte
. . . .
. . . .
. . .
. . .
.
.
.
.
.
.
.
.
.
.
.
21.3.2015
29 / 32
.
Zusatz: Verwendete Software
SimpleScan https://launchpad.net/simple-scan
scantailor http://scantailor.org/
unpaper https://www.flameeyes.eu/projects/unpaper
GIMP und ImageMagick
Gedit/Gvim mit DPCustomMono2 font http://www.pgdp.net/c/faq/DPCustomMono2.ttf
Tesseract https://code.google.com/p/tesseract-ocr
Perl, Bash, Grep, Sed, …
.
.
.
.
.
.
. . . .
. . . .
Andreas Romeyke <art1@andreas.romeyke.de> Warum das Digitalisieren der »Bunte Bilder« ewig dauerte
. . . .
. . . .
. . .
. . .
.
.
.
.
.
.
.
.
.
.
.
21.3.2015
29 / 32
.
Zusatz: Verwendete Software
SimpleScan https://launchpad.net/simple-scan
scantailor http://scantailor.org/
unpaper https://www.flameeyes.eu/projects/unpaper
GIMP und ImageMagick
Gedit/Gvim mit DPCustomMono2 font http://www.pgdp.net/c/faq/DPCustomMono2.ttf
Tesseract https://code.google.com/p/tesseract-ocr
Perl, Bash, Grep, Sed, …
SVN / GIT
.
.
.
.
.
.
. . . .
. . . .
Andreas Romeyke <art1@andreas.romeyke.de> Warum das Digitalisieren der »Bunte Bilder« ewig dauerte
. . . .
. . . .
. . .
. . .
.
.
.
.
.
.
.
.
.
.
.
21.3.2015
29 / 32
.
Zusatz: Verwendete Software
SimpleScan https://launchpad.net/simple-scan
scantailor http://scantailor.org/
unpaper https://www.flameeyes.eu/projects/unpaper
GIMP und ImageMagick
Gedit/Gvim mit DPCustomMono2 font http://www.pgdp.net/c/faq/DPCustomMono2.ttf
Tesseract https://code.google.com/p/tesseract-ocr
Perl, Bash, Grep, Sed, …
SVN / GIT
JTessBoxEditor http://sourceforge.net/projects/vietocr/files/jTessBoxEditor/
.
.
.
.
.
.
. . . .
. . . .
Andreas Romeyke <art1@andreas.romeyke.de> Warum das Digitalisieren der »Bunte Bilder« ewig dauerte
. . . .
. . . .
. . .
. . .
.
.
.
.
.
.
.
.
.
.
.
21.3.2015
29 / 32
.
Zusatz: Verwendete Software
SimpleScan https://launchpad.net/simple-scan
scantailor http://scantailor.org/
unpaper https://www.flameeyes.eu/projects/unpaper
GIMP und ImageMagick
Gedit/Gvim mit DPCustomMono2 font http://www.pgdp.net/c/faq/DPCustomMono2.ttf
Tesseract https://code.google.com/p/tesseract-ocr
Perl, Bash, Grep, Sed, …
SVN / GIT
JTessBoxEditor http://sourceforge.net/projects/vietocr/files/jTessBoxEditor/
potrace http://potrace.sourceforge.net/
.
.
.
.
.
.
. . . .
. . . .
Andreas Romeyke <art1@andreas.romeyke.de> Warum das Digitalisieren der »Bunte Bilder« ewig dauerte
. . . .
. . . .
. . .
. . .
.
.
.
.
.
.
.
.
.
.
.
21.3.2015
29 / 32
.
Zusatz: Verwendete Software
SimpleScan https://launchpad.net/simple-scan
scantailor http://scantailor.org/
unpaper https://www.flameeyes.eu/projects/unpaper
GIMP und ImageMagick
Gedit/Gvim mit DPCustomMono2 font http://www.pgdp.net/c/faq/DPCustomMono2.ttf
Tesseract https://code.google.com/p/tesseract-ocr
Perl, Bash, Grep, Sed, …
SVN / GIT
JTessBoxEditor http://sourceforge.net/projects/vietocr/files/jTessBoxEditor/
potrace http://potrace.sourceforge.net/
inkscape https://inkscape.org/de/
.
.
.
.
.
.
. . . .
. . . .
Andreas Romeyke <art1@andreas.romeyke.de> Warum das Digitalisieren der »Bunte Bilder« ewig dauerte
. . . .
. . . .
. . .
. . .
.
.
.
.
.
.
.
.
.
.
.
21.3.2015
29 / 32
.
Zusatz: Verwendete Software
SimpleScan https://launchpad.net/simple-scan
scantailor http://scantailor.org/
unpaper https://www.flameeyes.eu/projects/unpaper
GIMP und ImageMagick
Gedit/Gvim mit DPCustomMono2 font http://www.pgdp.net/c/faq/DPCustomMono2.ttf
Tesseract https://code.google.com/p/tesseract-ocr
Perl, Bash, Grep, Sed, …
SVN / GIT
JTessBoxEditor http://sourceforge.net/projects/vietocr/files/jTessBoxEditor/
potrace http://potrace.sourceforge.net/
inkscape https://inkscape.org/de/
Asciidoc http://www.methods.co.nz/asciidoc/
.
.
.
.
.
.
. . . .
. . . .
Andreas Romeyke <art1@andreas.romeyke.de> Warum das Digitalisieren der »Bunte Bilder« ewig dauerte
. . . .
. . . .
. . .
. . .
.
.
.
.
.
.
.
.
.
.
.
21.3.2015
29 / 32
.
Zusatz: Verwendete Software
SimpleScan https://launchpad.net/simple-scan
scantailor http://scantailor.org/
unpaper https://www.flameeyes.eu/projects/unpaper
GIMP und ImageMagick
Gedit/Gvim mit DPCustomMono2 font http://www.pgdp.net/c/faq/DPCustomMono2.ttf
Tesseract https://code.google.com/p/tesseract-ocr
Perl, Bash, Grep, Sed, …
SVN / GIT
JTessBoxEditor http://sourceforge.net/projects/vietocr/files/jTessBoxEditor/
potrace http://potrace.sourceforge.net/
inkscape https://inkscape.org/de/
Asciidoc http://www.methods.co.nz/asciidoc/
DocBook http://www.docbook.org/
.
.
.
.
.
.
. . . .
. . . .
Andreas Romeyke <art1@andreas.romeyke.de> Warum das Digitalisieren der »Bunte Bilder« ewig dauerte
. . . .
. . . .
. . .
. . .
.
.
.
.
.
.
.
.
.
.
.
21.3.2015
29 / 32
.
Zusatz: Verwendete Software
SimpleScan https://launchpad.net/simple-scan
scantailor http://scantailor.org/
unpaper https://www.flameeyes.eu/projects/unpaper
GIMP und ImageMagick
Gedit/Gvim mit DPCustomMono2 font http://www.pgdp.net/c/faq/DPCustomMono2.ttf
Tesseract https://code.google.com/p/tesseract-ocr
Perl, Bash, Grep, Sed, …
SVN / GIT
JTessBoxEditor http://sourceforge.net/projects/vietocr/files/jTessBoxEditor/
potrace http://potrace.sourceforge.net/
inkscape https://inkscape.org/de/
Asciidoc http://www.methods.co.nz/asciidoc/
DocBook http://www.docbook.org/
LATEXvia TEXlive https://www.tug.org/texlive/
.
.
.
.
.
.
. . . .
. . . .
Andreas Romeyke <art1@andreas.romeyke.de> Warum das Digitalisieren der »Bunte Bilder« ewig dauerte
. . . .
. . . .
. . .
. . .
.
.
.
.
.
.
.
.
.
.
.
21.3.2015
29 / 32
.
Zusatz: Verwendete Software
SimpleScan https://launchpad.net/simple-scan
scantailor http://scantailor.org/
unpaper https://www.flameeyes.eu/projects/unpaper
GIMP und ImageMagick
Gedit/Gvim mit DPCustomMono2 font http://www.pgdp.net/c/faq/DPCustomMono2.ttf
Tesseract https://code.google.com/p/tesseract-ocr
Perl, Bash, Grep, Sed, …
SVN / GIT
JTessBoxEditor http://sourceforge.net/projects/vietocr/files/jTessBoxEditor/
potrace http://potrace.sourceforge.net/
inkscape https://inkscape.org/de/
Asciidoc http://www.methods.co.nz/asciidoc/
DocBook http://www.docbook.org/
LATEXvia TEXlive https://www.tug.org/texlive/
epubcheck https://github.com/idpf/epubcheck
.
.
.
.
.
.
. . . .
. . . .
Andreas Romeyke <art1@andreas.romeyke.de> Warum das Digitalisieren der »Bunte Bilder« ewig dauerte
. . . .
. . . .
. . .
. . .
.
.
.
.
.
.
.
.
.
.
.
21.3.2015
29 / 32
.
Zusatz: Verwendete Software
SimpleScan https://launchpad.net/simple-scan
scantailor http://scantailor.org/
unpaper https://www.flameeyes.eu/projects/unpaper
GIMP und ImageMagick
Gedit/Gvim mit DPCustomMono2 font http://www.pgdp.net/c/faq/DPCustomMono2.ttf
Tesseract https://code.google.com/p/tesseract-ocr
Perl, Bash, Grep, Sed, …
SVN / GIT
JTessBoxEditor http://sourceforge.net/projects/vietocr/files/jTessBoxEditor/
potrace http://potrace.sourceforge.net/
inkscape https://inkscape.org/de/
Asciidoc http://www.methods.co.nz/asciidoc/
DocBook http://www.docbook.org/
LATEXvia TEXlive https://www.tug.org/texlive/
epubcheck https://github.com/idpf/epubcheck
calibre http://calibre-ebook.com/
.
.
.
.
.
.
. . . .
. . . .
Andreas Romeyke <art1@andreas.romeyke.de> Warum das Digitalisieren der »Bunte Bilder« ewig dauerte
. . . .
. . . .
. . .
. . .
.
.
.
.
.
.
.
.
.
.
.
21.3.2015
29 / 32
.
Zusatz: RegEx für römische Ziffern
#!/bin/perl -w
# find roman numbers
# ex: "Konrad I.", "Hadrian IV." "Johann Georgs III."
# a roman number only if follows a string and a space, and is followed
# not by a string
# my $roman_regex="(?<=[a-zſ] )((I{1,3})|(I{0,2}[VX]I{0,3}))(?![A-Za-zäöÜÄÖÜßſ])";
my $rstring = reverse $_;
# 'foobar' =~ /(?<!fo+)bar/
# 'raboof' =~ /rab(?!o+f)/
# thanks to http://oylenshpeegul.typepad.com/blog/2011/12/
# variable-length-look-behind-in-regular-expressions.html
my $roman_revregex=qr{
(?<![IVXa-zſßäöü])(
#lookbehind
(I{1,3})|
# I ... III
(I{1,3}V)|
# VI ... VIII
(VI{0,1})|
# IV ... V
(XI{0,1})|
# IX .. X
(I{1,3}X)|
# XI .. XIII
(VI{0,1}X)|
# XIV ... XV
(I{1,3}VX)|
# XVI ... XVIII
(XX)
# XX
)(?=\ )(?![^\[\]]*\[) # lookahead
}x;
$rstring=~s#$roman_revregex#\]$1\[rebmun::namor#mgx;
$_ = reverse $rstring;
.
.
.
.
.
.
. . . .
. . . .
Andreas Romeyke <art1@andreas.romeyke.de> Warum das Digitalisieren der »Bunte Bilder« ewig dauerte
. . . .
. . . .
. . .
. . .
.
.
.
.
.
.
.
.
.
.
.
21.3.2015
30 / 32
.
Zusatz: unpaper zum Auftrennen Doppelseiten
#!/bin/bash
unpaper --layout double -op 2 -mw 30,30 -dn left,right,top,bottom \
-dr 5 ppm/img%03d.ppm ppm_single/img%03d.ppm
.
.
.
.
.
.
. . . .
. . . .
Andreas Romeyke <art1@andreas.romeyke.de> Warum das Digitalisieren der »Bunte Bilder« ewig dauerte
. . . .
. . . .
. . .
. . .
.
.
.
.
.
.
.
.
.
.
.
21.3.2015
31 / 32
.
Zusatz: Bilder vektorisieren
#!/bin/sh
cd img
for i in *.png; do
out=$(basename $i ".png").svg;
echo $i;
~/projects/monochrome_filter_for_copper_engraving/copper_filter $i test.png
nice convert test.png -monochrome test.bmp
nice potrace -o test.eps -b eps -r 600 -t 0 --progress test.bmp
nice inkscape -z -l=test.svg test.eps
nice ~/Downloads/svg-cleaner/bin/svgcleaner-cli test.svg $out
rm -f test.bmp;
rm -f test.png;
rm -f test.eps;
rm -f test.svg
gzip -9 $out;
done
cd ..
.
.
.
.
.
.
. . . .
. . . .
Andreas Romeyke <art1@andreas.romeyke.de> Warum das Digitalisieren der »Bunte Bilder« ewig dauerte
. . . .
. . . .
. . .
. . .
.
.
.
.
.
.
.
.
.
.
.
21.3.2015
32 / 32
.