Mageia Forum
Uživatelské aplikace => Kancelářské aplikace => Téma založeno: LUTEC Října 17, 2012, 21:29:24
-
Mam ofocenou prirucku a potreboval bych nektere odstavce prekopirovat jako text. Je to mozne nejak uskutecnit? Nemate s tim nekdo zkusenost?
-
Mělo by to jít nějakou OCR čtečkou. Otázka ale je, jestli nějaká taková v linuxu existuje. Když sem ještě používal win, tak na to byl supr program Abbyy Fine Reader. Umí dekódovat text i grafiku v podstatě z čehokoliv i když je spíše zaměřen pro práci s PDF.
-
Mělo by to jít nějakou OCR čtečkou. Otázka ale je, jestli nějaká taková v linuxu existuje.
V repozitáři Mageii jsem našel gocr a ocrfeeder.
O ocrfeeder je článek na stránce http://www.linuxexpres.cz/software/ocrfeeder-uzitecny-rozpoznavac-textu-ktery-vsak-neumi-cesky
Snad ti to nějak pomůže.
-
Jo diky, ale ocrfeeder jsem nainstaloval a nejde mi spustit.
-
Jo diky, ale ocrfeeder jsem nainstaloval a nejde mi spustit.
Nefunguje mi auto. Neco jsem vymenil. A nefunguje to dal... Myslis, ze vis, co s tim je?
prelozim ti to: jak jsi to nainstaloval, co to pise pri spusteni, neboli JAK to nefunguje? Co vypis z terminalu?
-
Pro LUTECa a jemu podobnym: http://wiki.mageia.cz/wiki:jak_se_ptat_na_foru
-
Nefunguje mi auto. Neco jsem vymenil. A nefunguje to dal... Myslis, ze vis, co s tim je?
prelozim ti to: jak jsi to nainstaloval, co to pise pri spusteni, neboli JAK to nefunguje? Co vypis z terminalu?
Pokud budes mit nekdy opravdu problem s autem, tak ti rad pomohu. Ohledne meho problemu:
Nainstaloval jsem OCRFEEDER z repozitaru a pri spusteni z grafiky mi tam chvili skace ozubene kolecko a nic jineho se nedeje a i to po chvili zmizi a z terminalu mi vyskoci nasledujici hlaska.
-
Ano, potvrzuji také, že z oficiálních zdrojů Mageii 2 se program ocrfeeder-0.7.7-1.mga2.noarch nespustí, výpis z konzole:
[yullaw@localhost ~]$ ocrfeeder
** (process:9219): WARNING **: Trying to register gtype 'GMountMountFlags' as enum when in fact it is of type 'GFlags'
** (process:9219): WARNING **: Trying to register gtype 'GDriveStartFlags' as enum when in fact it is of type 'GFlags'
** (process:9219): WARNING **: Trying to register gtype 'GSocketMsgFlags' as enum when in fact it is of type 'GFlags'
Traceback (most recent call last):
File "/usr/bin/ocrfeeder", line 31, in <module>
from ocrfeeder.studio.studioBuilder import Studio
File "/usr/lib/python2.7/site-packages/ocrfeeder/studio/studioBuilder.py", line 26, in <module>
import widgetPresenter
File "/usr/lib/python2.7/site-packages/ocrfeeder/studio/widgetPresenter.py", line 28, in <module>
from enchant.checker import SpellChecker
ImportError: No module named enchant.checker
[yullaw@localhost ~]$
Řešení je v doinstalováním balíčku python-enchant (pro jistotu zkontrolovat i nainstalovaný balíček python-gtkspell). Po spuštění programu příkazem ocrfeeder již naběhne okno, kde můžete pracovat s dokumenty.
- podpora češtiny pro rozpoznání textu ale bohužel ihned není. To se napraví tak, že musíte stáhnout archiv ces.traineddata.gz (http://code.google.com/p/tesseract-ocr/downloads/detail?name=ces.traineddata.gz&can=2&q=), ze kterého soubor ces.traineddata přesunete do adresáře /usr/share/tessdata/. Přejdete do programu → Nástroje → Výkonové programy OCR → Výkonový program je zvolen Tesseract → v Argumenty výkonového programu bude:
$IMAGE $FILE -l ces; cat $FILE.txt; rm $FILEpak je již podpora češtiny. Co jsem zkoušel, rozpoznání textu není na 100%.
- kontrola pravopisu je provedena automaticky, opravy uděláte tak, že kliknete pravým tlačítkem na slovo označené červenými vlnkami → nahoře v kontextovém menu máte na výběr slovo podobné
Rád bych ještě zde doplnil informaci o dalším programu YAGF (http://symmetrica.net/cuneiform-linux/yagf-en.html), ten ale není v oficiálních repozitářích (ale vím kde :D ).
EDIT: - doplnění odkazu potřebného archivu ces.traineddata.gz; překlep
-
Rád bych ještě zde doplnil informaci o dalším programu YAGF (http://symmetrica.net/cuneiform-linux/yagf-en.html), ten ale není v oficiálních repozitářích (ale vím kde :D ).
Kde?
-
Kde?
Hledej šmudlo: blogDrake
-
Dekuji za navod uz funguju, ohledne toho programu YAGF, prijde ti lepsi presnejsi?
-
YAGF, prijde ti lepsi presnejsi?
yagf a ocrfeedeer mohou použít výkonový program tesseract či guneiform (ten v repozitářích není dostupný).
Co jsem postřehl při testech (s použitím tesseract):
YAGF (http://symmetrica.net/cuneiform-linux/yagf-en.html): - - program není v češtině
- - při skenování ze scanneru otevírá další program xsane
- - nemožnost úpravy rozeznaného textu
- + lépe rozeznal text
- + již podporuje češtinu po instalaci
ocrfeeder (https://live.gnome.org/OCRFeeder):- + program je v češtině
- + skenování ze scanneru je integrované (neotevírá další okna xsane)
- + možnost opravy textu
- - pro rozeznání češtiny je potřeba doinstalovat (manuálně) soubor ces.traineddata
Suma sumárum: z mého hlediska je program ocrfeeder vítězem...
Recenze obou programů najdete v openMagazínu 2012-04 (http://www.openmagazin.cz/pdf/2012/openMagazin-2012-04.pdf) na straně 4 (ocrfeeder) a straně 20 (yagf).
-
Ja za sebe mohu rict, ze s OCRFEEDER jsem zatim spokojen, pouzivam ho na text z naskenovane knihy, ktera neni v prilis dobre kvalite a slova sklada tak s 90% presnosti.
-
ocrfeeder (https://live.gnome.org/OCRFeeder):- - pro rozeznání češtiny je potřeba doinstalovat (manuálně) soubor ces.traineddata
Pro Mageiu 3 jsou jiz pripraveny balicky tesseractu s cestinou i slovenstinou (a mnoho dalsich jazyku), takze manualni presouvani souboru odpada a vse bude automaticke vyberem ;)
-
Nainštaloval som OCRFeeder bohužial nešiel spustiť.
dalo mi to tento výpis:
[miro@localhost ~]$ ocrfeeder
Gtk-Message: Failed to load module "canberra-gtk-module"
Traceback (most recent call last):
File "/usr/bin/ocrfeeder", line 31, in <module>
from ocrfeeder.studio.studioBuilder import Studio
File "/usr/lib/python2.7/site-packages/ocrfeeder/studio/studioBuilder.py", line 21, in <module>
from ocrfeeder.util import lib
File "/usr/lib/python2.7/site-packages/ocrfeeder/util/lib.py", line 31, in <module>
from lxml import etree
ImportError: No module named lxml
[miro@localhost ~]$
vôbec neviem čo s tým :(
-
Nainstaluj balík canberra-gtk.
Viz chybová zpráva programu:
Gtk-Message: Failed to load module "canberra-gtk-module"
Balík jsem hledal pomocí příkazu:
urpmq -y canberra
-
nepomohlo výpis rovnaký
-
Co presne jsi udelal? Dej do terminalu:
rpm -qa | grep -i canberra
-
[root@localhost miro]# rpm -qa | grep -i canberra
lib64canberra-gtk3_0-0.30-2.mga3
canberra-common-0.30-2.mga3
lib64canberra0-0.30-2.mga3
canberra-gtk-0.30-2.mga3
[root@localhost miro]#
-
Já mám ještě jeden nainstalovaný balík nejspíš jako závislost pro jiný program: lib64canberra-gtk0
Tento balík není uvedený v závislostech pro canberra-gtk.
OCRFeeder jsem nyní nainstaloval a jde spustit.
-
Doinštaloval som aj ten lib64canberra-gtk0 ale nepomohlo nejde spustiť. Tu je výpis
[root@localhost miro]# rpm -qa | grep -i canberra
lib64canberra-gtk3_0-0.30-2.mga3
canberra-common-0.30-2.mga3
lib64canberra-gtk0-0.30-2.mga3
lib64canberra0-0.30-2.mga3
canberra-gtk-0.30-2.mga3
[root@localhost miro]#
-
A píše stále stejnou chybu?
-
ano