Kâğıttan HTML 'e dönüşüm için bir araç zinciri

ArticleCategory: [Choisissez une categorie pour votre article dans la liste ci-dessous dans les catégories disponibles]

Applications

AuthorImage:[Nous avons besoin ici d'une petite image de vous]

[Photo of the Author]

TranslationInfo:[Mettez votre page personnelle ou votre adresse e-mail ici]

original in en Iznogood 

en to fr Iznogood

en to tr ONUR YILMAZ

AboutTheAuthor:[Une brève biographie de l'auteur]

Bir süreliğine GNU/Linux ile ilgilendim ve şu anda Debian sistemi kullanıyorum. Elektronik çalışmalara rağmen; çoğunlukla, GNU/Linux topluluğu için, bir Fransızca çeviri çalışması yapıyorum.

Abstract:[Ecrivez ici un résumé]

Burada, bir geleneksel kâğıt dergiyi HTML 'e çevirmek için kullanılan bir araç zinciri anlatılmaktadır. Taramadan html biçimine kadar olan süreci açıklayacağım.

ArticleIllustration:[Ceci précise l'illustration qui apparaît au début de votre article]

[Illustration]

ArticleBody:[Le Corps de l'Article]

Giriş

Bazı US üniversitelerinin Google 'a, kütüphanelerini dijitalleştirmek (sayısal ortama aktarmak) için, yardım edeceğini veya izin vereceğini okudum. Ben Google değilim ve bir üniversite kütüphanem yok; fakat elektronik hakkında bazı eski kâğıt dergilerim var. Ve kâğıt kalitesi iyi değil: Sayfalar işe yaramaz hale gelmeye başladı, grileşti...
Daha sonra dijitalleştirmeye karar verdim; çünkü konular yaklaşık olarak 10 yıl önce kapanmasına rağmen, bazı makaleler daima güncel!

Donanım

Başlamak için, veriyi bilgisayara aktarmak gerekli. Bir tarayıcı bana bunu yapmama izin verir: bazı uyumluluk denetimlerinden sonra bir tarayıcı aldım, kullanılmış fakat ucuz ScanJet 4300C. Ve biraz internet gezintisiyle, onu yapılandırmak için gerekli ayarları buldum.
Debian 'da, sane, xsane, gocr ve gtk-ocr 'ı olağan şekliyle kurdum:

apt-get install sane xsane gocr gtk-ocr
root iken.

Sane ve xsane benim HP tarayıcımın çalışması için gerekli olan tarayıcı araçlarıdır.
Gocr ve gtk-ocr metine dönüşmüş bir görüntü yapan araçlardır.

Tarayıcı bir USB tarayıcı:
sane-find-scanner
sonra bazı dosyaları düzenlemek için /etc/sane.d/ 'e gittim:
dll.conf içinde, şunları
hp
niash
ve diğer her şeyi yorum konumundan çıkarttım (satır başlarındaki # 'leri kaldırarak).

hp.conf ve niash.conf içine, şunları yazdım:
/dev/usb/scanner0
option connect-device
ve diğer her şeyi yorum konumundan çıkarttım.

Aygıt dosyasının /dev/usb/scanner gurup sahipliğini şununla değiştirdim
chgrp scanner scanner0
ve tarayıcıyı root olmadan kullanabilmek için kullanıcı olarak iznogood 'u ekledim:
adduser iznogood scanner
Bir yeniden başlatma ve tamamlandı!

Görüntüleri depolamak için, DVD yazıcılar iş yapmaya yeterince ucuz, örneğin bir NEC 3520. Eski bir çekirdeğim var (2.4.18) bu yüzden, IDE yakıcı SCSI arabirimini kullanır:
modconf ile, ide-scsi 'yi yüklettim

ve /etc/lilo.conf 'a şunu ekledim:
append="hdb=ide-scsi ignore hdb"
sonra
 lilo
işleme sokulması amacıyla.
/etc/fstab içine, şunu ekledim:
/dev/sdc0    /dvdrom     iso9660    user, noauto     0  0
Sonra scd0 gurubunu cdrom 'a değiştirdim
chgrp cdrom scd0
Oldukça kolay.

Yazılım

İşleme devam etmek için, bazı yazılımlara gereksinimim vardı:
sane, xsane, gimp, gocr, gtk-ocr, bir metin editörü, bir html editörü ve biraz disk alanı.

Sane tarayıcı arka ucu (arka plan işlerini yapan program veya program parçası) ve xsane grafiksel ön uç (kullanıcı arabiriminden sorumlu olan program veya program parçası).
Amacım çözünürlüğü maksimum tutmak ve her sayfa için 50 MB bir dosya elde etmek, üzerinde çalışmak için bir sabitdiskte depolamak ve tamamlandığı zaman, bir DVD-ROM üzerine saklamaktı.
Çözünürlüğü 600 dpi 'a getirdim, biraz daha parlaklık verdim ve dönüştürmeye başladım. Çok eski bir bilgisayar olduğundan (bir PII 350 MHz), biraz zaman aldı fakat iyi ve doğru bir görüntüye sahip oldum. Onu png biçiminde sakladım.
Neden böyle bir çözünürlük ve 50 MB dosya? Arşiv ve ilerideki sayısal işleme için çözünürlüğü maksimum tutmak istedim.
Gimp kullanarak sayfayı grafiksel görüntülere ve sadece taranmış metin içeren görüntülere kestim.
Grafikler, html sayfasına uyacak şekilde küçültülmüş boyutlarla, png olarak saklandı ve metin görüntüleri küçültülmedi, ama renkliden gri ve tonlarına dönüştürüldü (Tools, Colors Tools, Threshold ve Ok) ve optik tanıma yazılımıyla işlemek için .pcx uzantısıyla saklandı.



Taranmış görüntünün tamamını sağ üstte ve kesik parçaları solda görebilirsiniz.
Resmi keserken, başlıkları kaldırabilirsiniz; çünkü fazla alan işgal ediyorlar ve gocr tarafından tanınmayacaklar.
Görüntüler için bir ima alt dizini yaratırım ve .pcx dosyalarından ayırırım.

Şimdi gtk-ocr zamanı, gocr ön ucu. gocr bir optik karakter tanıma yazılımıdır. Kullanması çok kolay: Sadece dosyaları seçmem gerekir ve gtk-ocr her şeyi yönetir. Bana her işlenmiş .pcx dosyası için bir .txt dosyası verdi.




Kolaylıkla
 cat *.txt > test.txt
bir test.txt 'te sahip oldum ve bir metin editörüyle bazı ayarlamalar yapmam gerekti. (fransızca olmayan karakterler kaldırıldı, sözcükler düzeltildi...).

Html editörüne bir Kopyala/Yapıştır, benim için Mozilla Composer, ve html kompozisyonuna başladım (resimleri eklediğiniz zaman sadece ilişkili bağlantılara (links) sahip olduğunuza dikkat edin).


Bash betikleme

Gençliğimde bana bu atasözünü söyleyen, bir matematik öğretmenini daima hatırlarım:

"Tembel olmak için, zeki olman gerekir".

Tamam, tembel olmaya başladım !!!! ;-)
Kolaylıkla otomatikleştirilmeyen bazı el yordamı gerektiren bölümler var (dizin yaratılması, tarama, gimp 'te kesme biçme ve dosya yaratılması). Geri kalanını otomatikleştirebilirsiniz.
Bash betikleme hakkında inanılmaz bir İngilizce öğretici var, ABS (Advanced Bash Scripting Guide) (İleri Bash Betikleme Kılavuzu), ve bir Fransızca çevirisini buldum.
İngilizce versiyonunu www.tldp.org 'da bulabilirsiniz.
Bu kılavuz küçük bir program yazmama izin verdi. İşte betik:


#!/bin/bash

REPERTOIRE=$(pwd)
cd $REPERTOIRE
mkdir ../ima
mv *.png ../ima/
for i in `ls *`
do
 gocr -f UTF8 -i $i -o $i.txt
done
cd ..
mv ima/ $REPERTOIRE
cd $REPERTOIRE
cat *.txt | sed -e 's/_//g'  -e 's/(PICTURE)//g' -e 's/ì/i/g' \
-e 's/í/i/g' -e 's/F/r/g' -e 's/î/i/g' > test.txt

Dosya çalıştırılabilir olarak değiştirildi ve /usr/local/bin 'e root olarak ocr-rp ismiyle kopyalandı.

Çalışması için, işlenecek dizinde olmamız gerekir.Bunu çalıştırın:
ocr-rp
pwd betiğe dizin yolunu verecek, sonra dizinin dışına ima yaratılır ve tüm .png dosyaları içine taşınır. Tüm .txt dosyaları sonra listelenir, gocr ile işlemden geçirilir, test.txt 'de birleştirilir ve Fransızca karakterleri uydurmak için bazı değişiklikler yapılır.

Ve aynı işleme önceden olduğu gibi devam ederiz: Mozilla Composer 'a kopyala/yapıştır .
En tembelce çözüm, betiğin bazı sayfa başlıklarını ve altlıklarını metin dosyasına eklemesini, bunu saklamasını ve Mozilla Composer 'ı doğrudan açmasını sağlamak olurdu fakat fazla tembelim. Bunu yarın yapacağım!!!! ;-)

Sonuç

Bu, dijitalleştirme araçları hakkında sadece bir gözden geçirmeydi ve açıkçası, bunu yapmak için birden fazla ve daha iyi yollar vardır. Fakat GNU/Linux dünyasında bir gerçek vardır: donanım araçları her yıl daha iyi desteklenir ve kullanımı kolaylaştırılır.
Örneğin, benim 50 MB görüntüleri tutmak için bir DVD yazıcı kullandım. Kurulumu 10 dakikamı aldı ve k3b ile sıkıntı olmadan çalıştı (Sadece yaptığım: apt-get install dvdrtools dvd+rwtools).
Fakat eski bir PII 350, 192MB RAM, ucuz bir tarayıcı, DVD yazıcı, biraz sabitdisk alanı ile, elektronikle ilgili eski bir kâğıt dergiye "ölümsüzlük" vermek için yeterince iyi bir dijitalleştirme aracına sahipsiniz. Dijitalleştirme yapmak için kullandığım araçların ana sayfaları: