Kopier- / Scanfehler in verschiedenen Kommentaren und anderen eingescannten Werken

Holger Hönle
Holger Hönle Member Posts: 2

Hallo miteinander,

habe mir das Paket 'Logos 9 - Einsteiger' vor kurzem gekauft. Noch habe ich längst nicht alle Funktionen begriffen und / oder entdeckt. [:D]
Was mir aber bald aufgefallen ist, sind recht viele 'Rechtschreibfehler' in Kommentaren und anderen eingescannten Werken. Ich hatte Kontakt mit dem deutschsprachigen Support und darauf angesprochen, erfuhr ich, dass solche Werke eingescannt und so digitalisiert wurden, um in der Logos-Software eingebunden zu werden.

Noch etwas Hintergrundwissen zu mir:
Ich nutze ein Linux-Betriebssystem (openSUSE Tumbleweed) und kann Logos nur online, oder aber mittels einem Windows-'Emulator' mit Namen 'Wine'[https://www.winehq.org/] nutzen, der Windows-Programmdateien vorspielt und so (manche, nicht alle) Windows-Programme auch unter Linux laufen lässt.

Nun hatte ich vor ca. einem Jahr dieses Video von David Kriesel gesehen:
[https://invidious.namazso.eu/watch?v=7FeqF1-Z1g0] (oder auf YouTube nach 'David Kriesel+Scan' suchen ...
Wie hier in Wikipedia kurz beschrieben - unten zitiere ich den wichtigen Teil des Artikels - gab es schon mal einen ziemlichen Skandal, weil die in den USA fast ausschließlich genutzen Xerox-Kopierer / Scanner Dokumente fehlerhaft digitalisierten (also Daten wurden falsch 'kopiert' und damit falsch abgespeichert.

Zitat aus Wikipediaartikel[https://de.wikipedia.org/wiki/Xerox]:
"Im Jahr 2013 wurde durch den deutschen Informatiker David Kriesel ein schwerwiegender Softwarefehler in Scankopierern der Firma Xerox bekannt gemacht, bei dem bei Scanvorgängen durch den verwendeten Kompressionsalgorithmus JBIG2 einzelne Buchstaben und Zahlen falsch abgebildet wurden. Hierdurch konnten eingescannte Dokumente erheblich verfälscht werden, was der Benutzer jedoch nicht unmittelbar erkennen konnte, da die falschen Ziffern fehlerfrei aussahen. Im Verlaufe der Auseinandersetzung wies Kriesel weiter nach, dass das Problem alle auswählbaren Modi beim PDF-Scan betraf, einschließlich der Fabrikeinstellung.[3][4] Xerox lieferte hierzu mittlerweile einen Patch aus, der das JBIG2 deaktivierte."

Das Problem ist wohl seit ca. 2015 durch einen Patch behoben.
Dennoch habe ich in Werken von Logos 9 innerhalb weniger Tage wohl ca. fünf Fehler ('zufällig', ohne Suchen, nur beim Lesen) gefunden, die auf Digitalisierungsfehler hindeuten (kleine 'i' werden als kleine 'l' übertragen, kleine 'u' als 'n' und solche Dinge).

Bevor ich mich jetzt noch einmal an den Support wende, dachte ich, ich frage erst mal im Forum, ob es noch mehr Beispiele für solche Fehler gibt (bitte mit Stelle und Werk melden) und ob vielleicht mehr dazu bekannt ist; zum Beispiel, wie / wer / wann die in Logos enthaltenen Werke digitalisiert wurden.

Parallel werde ich es heute Abend auch mal in meinem Linux-Verein[https://lug-vs.org/] ansprechen.

Übrigens gibt es in Logos ja auch die Möglichkeit, Fehler direkt zu melden, was ich super finde! So geht es (nur in der Desktopversion, aber auch mittels 'Wine' unter Linux-Betriebssystemen):

Rechter Mausklick auf das Wort und dann im Kontextmenü ganz unten auf 'Tippfehler melden' klicken (Bild unten).

Danach öffnet sich ein Feld, in das man die Korrektur eintragen kann.
Im Feld 'Auswahl' steht das als falsch erkannte Wort (oder der falsch / fehlend hinterlegte Link); im Feld 'sollte sein' wird die Korrektur eingetragen.
Ein Feld 'Notiz' ist vorrangig dazu gedacht, Klarheit zu schaffen; wenn zum Beispiel ein Wort oder eine Bibelstelle korrekt wiedergegeben ist, aber der Link dazu ins Leere läuft ... (siehe Bild)

Bin gespannt, ob es weitere Erkenntnisse gibt, um die Werke künftig fehlerfrei einscannen zu können.

Nachtrag vom 12.08.2022, 22:48 Uhr:
Heute im Stammtisch des von mir besuchten Linux-Vereins haben wir obiges Thema kurz angesprochen. Solche Scanfehler sind wohl (leider) recht häufig und es wurde vermutet, dass das auf eine schlechte OCR-(Scan-)Software zurückzuführen ist.



Vielen Dank!

Holger

Comments

  • Ben Misja (Logos)
    Ben Misja (Logos) Member, Community Manager, Logos Employee Posts: 2,184

    Hallo Holger, 

    willkommen im Forum, und vielen Dank für die Nachfrage! 

    Um es kurz zu machen: Es besteht meines Erachtens kein Zusammenhang zwischen Digitalisierungsfehlern in Logos-Ressourcen und dem Xerox-Problem. Wir benutzen allerdings tatsächlich Scans und ich kann nicht ausschließen, dass diese in einzelnen Fällen vor 2015 und mit Xerox-Geräten angefertigt worden sind. Daher ist es eine plausibel Annahme, dass unsere Texte an einzelnen Stellen davon betroffen sein können. Da wir in 90 % der Fälle bei der Retrodigitalisierung mit vorhandenen Scans arbeiten, können wir solche Fehler allerdings genauso wenig erkennen und beheben wie andere Digitalisierungsdienstleister, etwa Google Books oder die staatlich geförderten Retrodigitalisierungszentren in Deutschland. 

    Wie die von dir gefundenen Fehler entstanden sind

    Du kannst mir gerne genauer schreiben, in welchen Werken du die Fehler gefunden hast. In deinen Screenshots zeigst du das Calwer Bibellexikon. Das haben wir von einem Dienstleister anhand von Scans digitalisieren lassen. Allerdings handelt es sich hier nicht um OCR-Fehler, sondern um die Tatsache, dass dieser Dienstleister einfach nicht gut mit Fraktur umgehen kann. Die Druckqualität ist leider oft nicht besonders gut, und die Schriftzeichen so unklar, dass man sehr gute Deutschkenntnisse benötigt, um Fehler zu erkennen und sich für die richtigen Schreibungen zu entscheiden. Beispielsweise sind die Wörter "Art" und "Axt" in Fraktur in vielen Fällen eigentlich nur aus dem Kontext zu unterscheiden. Der Dienstleister sitzt allerdings in Asien und verfügt nicht über deutsche Muttersprachler. 

    Das Calwer Bibellexikon war für uns in der Hinsicht ein Testballon, und das ist einer der Gründe, warum wir das Bibellexikon kostenlos verfügbar gemacht haben. Leider bedeutet das eben auch, dass besonders viele Nutzer dieses Bibellexikon verwenden. Weil die Qualität unseren Ansprüchen nicht genügte, haben wir im Wesentlichen davon Abstand genommen, Frakturtexte auf diese Weise zu digitalisieren. Bei der Auslieferung war uns das Ausmaß des Problems allerdings selbst noch nicht klar. Übrigens haben wir beim Calwer Bibellexikon bereits mit Hilfe der Community hunderte Schreibfehler identifiziert und behoben. 

    Gearbeitet wird da übrigens nicht mit OCR, sondern mit der genaueren Double-Keying-Technik. Das bedeutet, dass zwei Personen den Text unabhängig voneinander abtippen. Anschließend werden nur noch Abweichungen (d.h. Fehler) korrigiert. Das ist erwiesenermaßen genauer als OCR, aber es beugt bei Frakturtexten leider auch nicht dem grundsätzlichen Problem vor, das ich oben beschrieben habe. 

    Resümee: Wir haben neben dem Calwer Bibellexikon noch einige wenige weitere Texte, die aus Fraktur digitalisiert wurden und in denen es daher qualitative Probleme gibt. Der weitaus größte Teil unserer Bücher stammt allerdings aus Antiqua-Werken. Antiqua-Text lässt sich mit unseren Verfahren in äußerst hochwertiger Qualität retrodigitalisieren. 

    Das möchte ich übrigens grundsätzlich betonen: Wir retrodigitalisieren jedes Jahr hunderte Bücher in vermutlich an die zehn verschiedenen Sprachen. Unser Dienstleister ist in dieser Disziplin ein weltweiter Marktführer und liefert i.d.R. digitale Texte von herausragender Qualität. Man muss nur einmal in unsere komplett retrodigitalisierten Ausgaben von Strack-Billerbeck oder ThWNT schauen, um zu sehen, wie sorgfältig darin hebräischer, syrischer, griechischer oder arabischer Text mit allen ihren Akzenten sowie Fußnoten wiedergegeben werden.

    Das Double-Keying-Verfahren ist deutlich aufwändiger als OCR und führt auch zu entsprechenden Premium-Kosten, aber es ist zur zuverlässigen Reproduktion wissenschaftlich genutzter Texte alternativlos, und deshalb ist es uns diese Investition wert. Meines Wissens verfügt im deutschen christlichen Kontext niemand über annähernd vergleichbare Möglichkeiten, deshalb hat vor uns auch noch niemand ThWNT, Strack-Billerbeck, Keil-Delitzsch, die Wuppertaler Studienbibel oder Herders theologischen Kommentar zum Neuen Testament in einen hochwertigen digitalen Fließtext übertragen. 

    Und warum besteht kein Zusammenhang zum Xerox-Problem? 

    Der Xerox-Fehler hat Zahlen vertauscht, und zwar beim Einscannen. (Ich kenne das Video auch und war erstaunt!) Digitalisierungsfehler bei Texten sind davon dagegen meines Wissens nicht bekannt. Sollte es Xerox-Fehler in unseren Texten geben, wäre also zu erwarten, dass es sich um falsch eingescannte Zahlen handelt. Dass wir in einigen deutschen Logos-Texten Schreibfehler haben, hat dagegen mit unserem Digitalisierungsverfahren zu tun. Das sind zwei verschiedene Probleme mit unterschiedlichen Symptomen. 

    Nun ist es durchaus möglich, dass einzelne Scans, die wir zugrunde legen, vor 2015 und mit Xerox-Geräten entstanden sind. Das kann ich nicht ausschließen, und leider können wir hier auch keinerlei Rückverfolgung oder Nachkorrektur vornehmen.

    Allerdings sind vermutlich weniger als 20 deutsche Werke vor 2015 produziert worden. Bei solchen, die wir nach 2015 produziert haben, ist es jedoch durchaus möglich und sogar wahrscheinlich, dass ältere Scans aus dem Internet dazu verwendet wurden. Dazu gehört womöglich auch unsere Quelle für das gemeinfreie Calwer Bibellexikon. 

    Wie ihr Fehler meldet

    Die Qualität der Texte ist für uns selbstredend von höchster Bedeutung. Deswegen sammeln und beheben wir Fehler unter teils immensen Zusatzkosten. Bei dem Ausmaß und der Komplexität der von uns erstellten digitalen Ausgaben lassen sich Fehler leider nicht komplett vermeiden, und leider ist es auch nicht möglich, jeden gemeldeten Fehler sofort oder zeitnah zu beheben. Wer Fehler findet, meldet diese am besten auf die oben von Holger beschriebene Weise. Das trifft auch auf fehlerhafte Verlinkungen zu. Fehler in Datensätzen meldet ihr bitte an deutsch@faithlife.com. Sollte jemand handfeste Beweise dafür finden, dass ein Logos-Text Xerox-Fehler aufweist, freuen wir uns ebenfalls über eine E-Mail. Vielen Dank! 

    Senior Manager, New Languages

  • Holger Hönle
    Holger Hönle Member Posts: 2

    Hallo Ben,

    vielen Dank für Deine schnelle und sehr ausführliche Antwort!

    Wir haben gestern im Linux-Treffen auch noch kurz darüber geredet und auch einfach nur eine schlechte Scan-Technologie vermutet. [:)]

    Hut ab vor dem Einsatz der Community. Das ist natürlich sehr viel Arbeit. Ich will nicht wissen, wieviele tausend Seiten hier kontrolliert werden mussten (oder noch müssen??) ...

    Da ich inwzischen - nach meinem ersten Kontakt per Mail mit Simon Rühl - zwei weitere Fehler (nicht den aus dem Screenshot) gefunden und über die Meldefunktion korrigiert habe, würde mich interessieren, ob die auch angekommen sind; ich nutze ja die Software unter Wine und es könnte sein, das auch das nicht funktioniert ...
    Dumm nur, dass ich mir nicht gemerkt habe, was ich gemeldet habe.
    Sollte ich einen weiteren Fehler finden, schreibe ich mir den auf UND melde ihn. Dann kann ich ja mal nachfragen, ob es mit der Übermittlung geklappt hat. Du hast ja schon erwähnt, dass die Korrektur Zeit in Anspruch nehmen kann (denn die zwei Fehler, an die ich mich erinnern kann, sind noch nicht korrigiert), aber das ist verständlich!
    Schön wäre es noch, wenn ein Wort, für das es (noch unbearbeitete) Fehlerkorrektur gibt, irgendwie markiert werden könnte. Aber da wäre es vermutlich einfacher (mit viel Manpower und Kosten verbunden), den Fehler gleich zu korrigieren ... [;)]

    Übrigens wollte ich die Scanfehler nicht auf das Xerox-Problem festnageln; es hat mich halt nur daran erinnert und ist ja für wenige Dokumente aus der Zeit vor 2015 immerhin möglich. Klar aber auch, dass diese Dokumente jetzt nicht noch einmal neu eingescannt werden!

    Vielen Dank! Von meiner Seite aus ist dieser Thread nun 'gelöst'.

    Kann man das auch selbst auf 'gelöst' umstellen?

    Liebe Grüße und Gottes Segen!