tovotu

26. März 2015, 22:44 Uhr
Buchkanten-Scanner für die private Buchdigitalisierung

Als Student hat man nicht viel Platz. Den braucht aber, wer sich gewissenhaft durch den täglich wachsenden Berg an empfohlener Fachliteratur wühlen will. Als Besitzer eines (großen) Ebook-Readers[1] bin ich oft mit digitalen Versionen der benötigten Bücher zufrieden. Und tatsächlich erhält man über die Universitätsbibliotheken seit ein paar Jahren großzügigen Zugang zum digitalen Angebot vieler Verlage. Einige Bücher existieren aber weiterhin nur in gedruckter Form und dann kommt man schon mal auf die Idee, diese einfach zu digitalisieren (und die Originalbücher anschließend irgendwo im Keller oder bei den Eltern zu stationieren).

Buchdigitalisierung könnte so einfach sein...

Ein Buch zu digitalisieren kann so einfach sein: Der ScanRobot 2.0 MDS des österreichischen Unternehmens Treventus scannt vollautomatisch 2500 Buchseiten pro Stunde und muss das Buch dafür nur in einem lächerlichen Winkel von 60 Grad öffnen. Die Tatsache, dass der Preis für dieses Wundergerät ein Geheimnis zu sein scheint, macht aber wenig Hoffnung, dass dieses Schätzchen für einen Privatnutzer erschwinglich wäre. Tatsächlich besitzt die Universitätsbibliothek zu Köln einen vergleichbaren Scanroboter.[2] Ein Scan-Roboter digitalisiert vollautomatisch bis zu 2500 Buchseiten pro Stunde.Der scheint aber mit universitätsinternen Angelegenheiten so beschäftigt, dass er für Außenstehende unter allen realistischen Umständen unzugänglich bleibt.

Die Universitätsbibliotheken halten oft dennoch ein attraktives Alternativangebot für ihre Nutzer bereit. In der Bonner Universitätsbibliothek steht Nutzern zum Beispiel der Buchscanner Zeutschel Zeta zur freien Verfügung. Wer es wagt, davon Gebrauch zu machen, muss aber die heilige Bibliotheksstille empfindlich stören. Und es dürfen damit, streng genommen (gemäß Nutzungsbedingungen), keine kompletten Bücher eingescannt werden.

... und dann hat man doch wieder die Qual der Wahl

Als die Zeitschrift c't (heise) im Mai 2012 dem Thema Buchdigitalisierung einen Artikel widmete, geriet sie über den Zeutschel Zeta regelrecht ins Schwärmen. Ein aufgeschlagen daliegendes Buch kontaktlos von oben abzulichten hat aber einige prinzipielle Nachteile, die die c't-Redaktion damals verschwieg: Taschenbücher klappen einfach wieder zu und können oft selbst mit beiden Händen nur extrem mühsam in Position gehalten werden. Und selbst bei gebundenen Büchern wölben sich die Buchseiten ungünstig und sorgen für ein verzerrtes Schriftbild. Zeutschel behauptet zwar, dieses Problem im Griff zu haben, aber mit einem Klick auf die Buchseite rechts beweise ich das Gegenteil: Diese Buchseite wurde mit dem Zeutschel Zeta gescannt (und das ist für mich kein akzeptables Ergebnis).[3]

Verführerisch wirkt die Möglichkeit, sein Buch aufgeschlagen auf einen herkömmlichen Flachbettscanner zu pressen. Je nach Buch wird eine unverzerrte Erfassung der Bereiche nahe der Buchmitte allerdings nicht ganz zerstörungsfrei möglich sein. Wer so ungeniert mit seinen Büchern umzugehen bereit ist, kann im Prinzip direkt den Buchrücken entfernen und die losen Seiten durch einen Einzug jagen. Das bringt allerdings wiederum seine eigenen technischen Schwierigkeiten mit sich[4] und ich persönlich bringe das Zerschneiden bei den meisten Büchern sowieso nicht übers Herz.

Die digitalkamerabasierten Lösungen, die in der Community von diybookscanner.org diskutiert werden, sind entweder mit hohem zeitlichen oder finanziellen Aufwand verbunden oder kranken an den gleichen Stellen wie der Zeutschel Zeta.

Flachbettscanner mit Buchkante

Über den oben zitierten c't-Artikel lernte ich eine weitere Methode der Buchdigitalisierung kennen: Flachbettscanner mit Buchkante. Das sind Flachbettscanner, deren Glasoberflächen an einer Gerätekante bündig abschließen. Ein zu scannendes Buch wird aufgeschlagen mit der Buchmitte auf dieser Kante platziert. Dazu muss das Buch nur um etwas mehr als 90 Grad aufgeschlagen werden und die auf der Glasoberfläche aufliegende Buchseite kann bis auf wenige Millimeter von der Buchmitte völlig verzerrungsfrei erfasst werden.

Freilich hat auch diese Methode ihre Nachteile:

  • Es können nicht zwei Seiten auf einmal gescannt werden.
  • Wenn wirklich mal eine Grafik oder Abbildung über beide Seiten gehen sollte, verliert man die wenigen Millimeter nahe der Buchmitte. Da hilft nur ein doppelseitiger Scan (mit der entsprechenden Verzerrung nahe der Buchmitte). Wie der Treventus ScanRobot in diesem Fall abschneidet, würde mich brennend interessieren.
  • Eine gewisse Beanspruchung erfährt das Buch natürlich auch bei dieser Methode - die Seiten sind schließlich nicht im 90-Grad-Winkel angeleimt, sondern parallel. Einen Winkel mit Gewalt in die Buchmitte zu pressen, wird einem also jedes Buch übelnehmen, auch wenn der Winkel eher klein ist.
  • Während man nach Flachbettscannern für 80 Euro nicht lange suchen muss, ist kein Buchkantenscanner für unter 200 Euro zu bekommen. Man sollte eher 300 oder 400 Euro einplanen.

Trotzdem halte ich die Buchkanten-Methode für die vielversprechendste im Privatbereich. Darum habe ich mir das Modell FB2280E von Avision in den letzten Tagen mal genauer angesehen. Die anderen auf dem Markt befindlichen Geräte (ebenfalls in dem oben zitierten c't-Artikel erwähnt) sind leider überhaupt nicht mit Linux kompatibel.[5][6] Der Vollständigkeit halber seien sie trotzdem hier aufgeführt: Von Plustek gibt es das Opticbook 3800 (bzw. den großen Bruder Opticbook 4800) und von Microtek den XT3300 sowie dessen großen Bruder XT3500. (Außerdem gibt es von Avision noch das größere Modell FB6280E, das sich aber in einem ganz anderen Preisbereich bewegt. Noch teurer ist Kodaks i2900.) Einen einigermaßen ausführlichen Vergleich dieser Geräte findet man in einer Kundenrezension auf Amazon.de.

Leider muss man momentan auch für den Betrieb des Avision-Modells unter Linux tricksen.[7] Aber es lohnt sich: Mit dem kleinen Bash-Script, das ich mir für die Verwendung des FB2280E[8] unter Linux geschrieben habe, erreicht man gut und gerne zwischen 400 und 600 Seiten pro Stunde. Das Skript startet automatisch einen Scanauftrag nach dem anderen und lässt dazwischen jeweils einige Sekunden Zeit zum Umblättern. Mit ./scan_batch.sh scannt man die geraden (linken) Seiten, mit ./scan_batch.sh 1 anschließend die ungeraden (rechten). Das Buch muss so also zweimal komplett durchgeblättert werden.

Das Umblättern ist fehleranfällig (man erwischt oft zwei Seiten auf einmal), beansprucht das Buch und verlangsamt den ganzen Prozess. Deswegen ist es eine Überlegung wert, das Buch direkt nach jeder geraden Seite um 180 Grad zu drehen und die gegenüberliegende Seite zu scannen, bevor man umblättert (und wieder um 180 Grad dreht). So halbiert sich die Anzahl der Blättervorgänge. Das Script könnte man leicht entsprechend anpassen und dabei für das Wenden des Buches kleinere Pausen als für das Umblättern einplanen. Allerdings sollte man nicht die zusätzliche Komplexität unterschätzen, die eine solche Drehung in diese Akkordarbeit einbringen würde.

Fazit: Nur Kompromisse, wohin das Auge sieht

Zuletzt entschied ich mich übrigens doch gegen einen Scanner mit Buchkante. Die Investition von fast 300 Euro war schwer mit meinem Studentengewissen vereinbar. Und dann sind die Geräte (vor allem der FB2280E von Avision) ganz schön klobig - will ich sowas wirklich in meinen 15 Quadratmetern unterbringen? Vielleicht bleibe ich doch beim Zeta. Eventuell kann ich ja mit einer Glasplatte auf dem Buch der Wölbung beikommen?

  1. tovotu.de/blog/515-...annt-digital-Schmkern
  2. ub.uni-koeln.de/bib...tepark/index_ger.html
  3. Dass Zeutschel zu viel verspricht, sieht man in deren eigenem Video, wo die rechte Buchseite schief und die linke im oberen Bereich verzerrt bleibt: youtu.be/zHj2QznDDC4?t=106
  4. Ein Problem ist, dass Buchseiten oft sehr dünn sind und von Einzügen 'gefressen' werden können.
  5. Keine Linux-Unterstützung für Microtek XT-3300: linuxmintusers.de/i...dex.php?topic=13037.0
  6. Keine Linux-Unterstützung für Opticbook-Modelle: gjaeger.de/scanner/plustek.html
  7. alioth.debian.org/t..._id=30186&atid=410366
  8. Das Script ließe sich natürlich auch mit anderen Buchkanten-Scannern benutzen, wenn es denn welche gäbe, die mit Linux kompatibel wären.

Kommentare

Jossi 27. Mai 2017, 21:10 Uhr

Ich habe auch lange mit der Anschaffung eines Buchkantenscanners geliebäugelt, mich aber inzwischen für eine andere Lösung entschieden: Ich scanne Bücher jetzt nur noch mit dem Smartphone. Man braucht eine Kamera mit mindestens 8 MP (bei mir ein iPhone 6 plus, aber es gibt ja inzwischen jede Menge anderer Modelle, die Kameras mit 8-13 MP haben). Für iOS gibt es für wenig Geld die App ProCam, in der man (neben vielem anderen) eine automatische Aufnahmefrequenz zwischen 1 und 60 Sekunden einstellen kann; für Android wird es Ähnliches geben. Dann brauche ich nur noch zwei kräftige Gummibänder. In der Bibliothek suche ich mir ein ruhiges Eckchen mit guter und vor allem gleichmäßiger Beleuchtung (am besten vor einem Fenster ohne direkte Sonneneinstrahlung). Dann baue ich mir aus den reichlich vorhandenen dicken Büchern einen Turm von etwa 25 cm Höhe; aus dieser Höhe erfasst die iPhone-Kamera ungefähr eine ganze Buchseite. Die genaue Einstellung hängt natürlich vom Buchformat ab, aber das kann man mit dickeren oder dünneren Büchern schnell sehr fein einstellen. Obenauf kommt als letztes ein großformatiges Buch, das ein Stück übersteht, darauf wird das iPhone gelegt und mit den Gummibändern (möglichst weit unten) fixiert. Das zu scannende Buch wird daruntergelegt, im 90-Grad-Winkel aufgeschlagen (also sehr buchschonend und auch für alte Hündchen geeignet, die nicht auf den Kopierer gelegt werden dürfen), ProCam gestartet, und dann wird durchgeblättert. Ich komme mit einer Einstellung von 3-4 Sekunden sehr gut zurecht und schaffe so netto in einer Stunde ca. 400 Seiten. Wichtig ist, nicht nach jeder Seite das Buch umzudrehen, sondern erst alle ungeraden und dann alle geraden Seiten zu fotografieren; das geht viel schneller und das Buch bleibt in derselben Position liegen und muss nicht jedesmal neu ausgerichtet werden. Geht etwas schief, lässt man einfach die Seite aufgeschlagen und fotografiert sie nochmal. Die Bilder haben je nach Buchformat bei 8 MP eine Auflösung von 300-350 dpi, das ist für OCR optimal.
Zuhause drehe ich die Bilder im Batch mit einem Grafikprogramm, blättere sie durch und schmeiße die fehlerhaften raus. Mit einem Programm, das Dateien im Batch umbenennen und dabei Sequenznummern erzeugen kann, gebe ich den Bildern Namen, die die Seitenzahl enthalten, und bringe sie so in die richtige Reihenfolge. Dann Nachbearbeitung mit ScanTailor, OCR mit ABBYY Finereader (wie du siehst, arbeite ich mit Windows, aber Tesseract OCR soll ja auch sehr gut sein) und bekomme ein erstklassiges durchsuchbares PDF als Ergebnis.

Administrator 19. Mai 2016, 23:26 Uhr

Die Zugriffsprobleme könnten möglicherweise dadurch behoben werden, dass du deinen Benutzer zu den Gruppen 'scanner' und 'lp' hinzufügst (und neu startest oder dich aus- und wieder einloggst).

Ich habe den Scanner nicht mehr und eine Fernwartung ist entsprechend mühselig. Ich würde dich bitten, bei weiteren Fragen in einem der einschlägigen Linux-Foren aufzuschlagen.

Hondo 19. Mai 2016, 09:08 Uhr

Ist es eigentlich gefährlich xsane als sudo auszuführen? Ich werde davor gewarnt, mache ich das allerdings als nicht sudo, erkennt der meinen Sacnner gar nicht erst.

Hondo 19. Mai 2016, 09:06 Uhr

So hat jetzt geklappt. Ich wusste nicht, dass ich Dein Skript als sudo ausführen muss. Kann es sein, dass die Vendor und product-ID auch noch in die /etc/sane.d/avision.conf eingetragen werden muss? Also sowas wie
usb 0x0638 0x2a1f
Wenn ich Dein Skript anwende, bekomme ich allerdings keine DinA4 Seite, sondern irgend ein kleineres Format und das Ergebnis ist recht hell bei mir, nicht zu dunkel.
Wenn ich sudo scanimage > ~/test.pnm ausführe ist das Ergebnis deutlich besser, wenngleich die Farben noch ein wenig balss sind.
Danke nochmal für die Unterstützung !

LG

Hondo

P.S.: Falls ich noch Fragen habe, wäre es toll, wenn ich Dich nochmal ansprechen dürfte ☺

Hondo 19. Mai 2016, 07:35 Uhr

"sudo scanimage -L" sagt
device `avision:libusb:008:006' is a Avision FB2280E flatbed scanner

Starte ich Dein Skript mit:
./avision.sh

kommt
Batch scanning started.
Place page number 0 on the scanner glass...
scanimage: open of device avision failed: Invalid argument
convert.im6: no decode delegate for this image format `/tmp/magick-5kD71x9g' @ error/constitute.c/ReadImage/544.
convert.im6: no images defined `out-0.jpg' @ error/convert.c/ConvertImageCommand/3044 .

Gebe ich "scanimage" ein kommt:
scanimage: no SANE devices found

Ist doch merkwürdig, der Scanner wird erkannkt, gescannt wird aber nicht

LG

Hondo
1 2 3 4 »
Neue Kommentare zu diesem Artikel bitte per Mail an kommentare-546(at)tovotu.de!