Autor Téma: jak dostat text z fotky  (Přečteno 8282 krát)

LUTEC

  • Full Member
  • ***
  • Příspěvků: 145
  • Karma: +1/-1
  • MGA 6; plasma
    • Zobrazit profil
jak dostat text z fotky
« kdy: Říjen 17, 2012, 21:29:24 »
Mam ofocenou prirucku a potreboval bych nektere odstavce prekopirovat jako text. Je to mozne nejak uskutecnit? Nemate s tim nekdo zkusenost?
Mageia 6 (64bit), plasma
NTB HP pavilion dm3,
CPU:‎AMD Athlon(tm) Neo X2 Dual Core Processor L335
GK: ‎RV710/M92 [Mobility Radeon HD 4330/4350/4550]
       ‎RS780M [Mobility Radeon HD 3200]

Rellik

  • Sr. Member
  • ****
  • Příspěvků: 263
  • Karma: +1/-2
  • Kubuntu/64bit
    • Zobrazit profil
    • dv-foto.cz
Re:jak dostat text z fotky
« Odpověď #1 kdy: Říjen 17, 2012, 21:37:46 »
Mělo by to jít nějakou OCR čtečkou. Otázka ale je, jestli nějaká taková v linuxu existuje. Když sem ještě používal win, tak na to byl supr program Abbyy Fine Reader. Umí dekódovat text i grafiku v podstatě z čehokoliv i když je spíše zaměřen pro práci s PDF.
Kubuntu/64bit / Intel Core i3 @3,5GHz, 16Gb ram, intel HD Graphics 4600, HDD 1Tb (data) + 128Gb SSD (system)

antkrc

  • Newbie
  • *
  • Příspěvků: 24
  • Karma: +0/-0
    • Zobrazit profil
Re:jak dostat text z fotky
« Odpověď #2 kdy: Říjen 18, 2012, 19:00:53 »
Citace
Mělo by to jít nějakou OCR čtečkou. Otázka ale je, jestli nějaká taková v linuxu existuje.
V repozitáři Mageii jsem našel gocr a ocrfeeder.

O ocrfeeder je článek na stránce http://www.linuxexpres.cz/software/ocrfeeder-uzitecny-rozpoznavac-textu-ktery-vsak-neumi-cesky
Snad ti to nějak pomůže.

LUTEC

  • Full Member
  • ***
  • Příspěvků: 145
  • Karma: +1/-1
  • MGA 6; plasma
    • Zobrazit profil
Re:jak dostat text z fotky
« Odpověď #3 kdy: Říjen 23, 2012, 22:02:25 »
Jo diky, ale ocrfeeder jsem nainstaloval a nejde mi spustit.
Mageia 6 (64bit), plasma
NTB HP pavilion dm3,
CPU:‎AMD Athlon(tm) Neo X2 Dual Core Processor L335
GK: ‎RV710/M92 [Mobility Radeon HD 4330/4350/4550]
       ‎RS780M [Mobility Radeon HD 3200]

Peťoš

  • Administrator
  • Hero Member
  • *****
  • Příspěvků: 916
  • Karma: +16/-1
    • Zobrazit profil
    • Peťošův blog
Re:jak dostat text z fotky
« Odpověď #4 kdy: Říjen 23, 2012, 22:06:13 »
Jo diky, ale ocrfeeder jsem nainstaloval a nejde mi spustit.
Nefunguje mi auto. Neco jsem vymenil. A nefunguje to dal... Myslis, ze vis, co s tim je?
prelozim ti to: jak jsi to nainstaloval, co to pise pri spusteni, neboli JAK to nefunguje? Co vypis z terminalu?
Do it or do not. There is no "try".
Nutné čtení pro všehny! Jak se ptát na fóru: http://wiki.mageia.cz/wiki:jak_se_ptat_na_foru


Peťošův repozitář je na adrese: http://petos.cz/rpms
Fotoblog: http://vzducholode.blogspot.com a http://petos.cz/category/fotky

Peťoš

  • Administrator
  • Hero Member
  • *****
  • Příspěvků: 916
  • Karma: +16/-1
    • Zobrazit profil
    • Peťošův blog
Re:jak dostat text z fotky
« Odpověď #5 kdy: Říjen 25, 2012, 11:51:37 »
Do it or do not. There is no "try".
Nutné čtení pro všehny! Jak se ptát na fóru: http://wiki.mageia.cz/wiki:jak_se_ptat_na_foru


Peťošův repozitář je na adrese: http://petos.cz/rpms
Fotoblog: http://vzducholode.blogspot.com a http://petos.cz/category/fotky

LUTEC

  • Full Member
  • ***
  • Příspěvků: 145
  • Karma: +1/-1
  • MGA 6; plasma
    • Zobrazit profil
Re:jak dostat text z fotky
« Odpověď #6 kdy: Říjen 26, 2012, 22:41:04 »
Nefunguje mi auto. Neco jsem vymenil. A nefunguje to dal... Myslis, ze vis, co s tim je?
prelozim ti to: jak jsi to nainstaloval, co to pise pri spusteni, neboli JAK to nefunguje? Co vypis z terminalu?

Pokud budes mit nekdy opravdu problem s autem, tak ti rad pomohu. Ohledne meho problemu:

Nainstaloval jsem OCRFEEDER z repozitaru a pri spusteni z grafiky mi tam chvili skace ozubene kolecko a nic jineho se nedeje a i to po chvili zmizi a z terminalu mi vyskoci nasledujici hlaska.
Mageia 6 (64bit), plasma
NTB HP pavilion dm3,
CPU:‎AMD Athlon(tm) Neo X2 Dual Core Processor L335
GK: ‎RV710/M92 [Mobility Radeon HD 4330/4350/4550]
       ‎RS780M [Mobility Radeon HD 3200]

Yullaw

  • Global Moderator
  • Hero Member
  • *****
  • Příspěvků: 726
  • Karma: +50/-0
    • Zobrazit profil
Re:jak dostat text z fotky
« Odpověď #7 kdy: Říjen 27, 2012, 11:25:24 »
Ano, potvrzuji také, že z oficiálních zdrojů Mageii 2 se program ocrfeeder-0.7.7-1.mga2.noarch nespustí, výpis z konzole:

Kód: [Vybrat]
[yullaw@localhost ~]$ ocrfeeder

** (process:9219): WARNING **: Trying to register gtype 'GMountMountFlags' as enum when in fact it is of type 'GFlags'

** (process:9219): WARNING **: Trying to register gtype 'GDriveStartFlags' as enum when in fact it is of type 'GFlags'

** (process:9219): WARNING **: Trying to register gtype 'GSocketMsgFlags' as enum when in fact it is of type 'GFlags'
Traceback (most recent call last):
  File "/usr/bin/ocrfeeder", line 31, in <module>
    from ocrfeeder.studio.studioBuilder import Studio
  File "/usr/lib/python2.7/site-packages/ocrfeeder/studio/studioBuilder.py", line 26, in <module>
    import widgetPresenter
  File "/usr/lib/python2.7/site-packages/ocrfeeder/studio/widgetPresenter.py", line 28, in <module>
    from enchant.checker import SpellChecker
ImportError: No module named enchant.checker
[yullaw@localhost ~]$

Řešení je v doinstalováním balíčku python-enchant (pro jistotu zkontrolovat i nainstalovaný balíček python-gtkspell). Po spuštění programu příkazem ocrfeeder již naběhne okno, kde můžete pracovat s dokumenty.

  • podpora češtiny pro rozpoznání textu ale bohužel ihned není. To se napraví tak, že musíte stáhnout archiv ces.traineddata.gz, ze kterého soubor ces.traineddata přesunete do adresáře /usr/share/tessdata/. Přejdete do programu → NástrojeVýkonové programy OCRVýkonový program je zvolen Tesseract → v Argumenty výkonového programu bude:
Kód: [Vybrat]
$IMAGE $FILE -l ces; cat $FILE.txt; rm $FILE
    pak je již podpora češtiny. Co jsem zkoušel, rozpoznání textu není na 100%.
  • kontrola pravopisu je provedena automaticky, opravy uděláte tak, že kliknete pravým tlačítkem na slovo označené červenými vlnkami → nahoře v kontextovém menu máte na výběr slovo podobné


Rád bych ještě zde doplnil informaci o dalším programu YAGF, ten ale není v oficiálních repozitářích (ale vím kde :D ).


EDIT: - doplnění odkazu potřebného archivu ces.traineddata.gz; překlep
« Poslední změna: Říjen 29, 2012, 12:06:43 od Yullaw »

Mageia 6 (64bit), KDE Plasma 5.8.7, Kernel 4.9.56-desktop-1.mga6
Notebook Acer Aspire E1-571G
CPU:Intel® Core i5-3230M 2.6GHz, GPU:Intel+nVidia Optimus GeForce 710M

Ivko

  • Sr. Member
  • ****
  • Příspěvků: 267
  • Karma: +2/-1
    • Zobrazit profil
Re:jak dostat text z fotky
« Odpověď #8 kdy: Říjen 27, 2012, 11:33:48 »
Rád bych ještě zde doplnil informaci o dalším programu YAGF, ten ale není v oficiálních repozitářích (ale vím kde :D ).

Kde?
Mageia 6/64 bit
Plasma5

Yullaw

  • Global Moderator
  • Hero Member
  • *****
  • Příspěvků: 726
  • Karma: +50/-0
    • Zobrazit profil
Re:jak dostat text z fotky
« Odpověď #9 kdy: Říjen 27, 2012, 11:47:06 »
Kde?

Hledej šmudlo: blogDrake

Mageia 6 (64bit), KDE Plasma 5.8.7, Kernel 4.9.56-desktop-1.mga6
Notebook Acer Aspire E1-571G
CPU:Intel® Core i5-3230M 2.6GHz, GPU:Intel+nVidia Optimus GeForce 710M

LUTEC

  • Full Member
  • ***
  • Příspěvků: 145
  • Karma: +1/-1
  • MGA 6; plasma
    • Zobrazit profil
Re:jak dostat text z fotky
« Odpověď #10 kdy: Říjen 29, 2012, 09:10:31 »
Dekuji za navod uz funguju, ohledne toho programu YAGF, prijde ti lepsi presnejsi?
Mageia 6 (64bit), plasma
NTB HP pavilion dm3,
CPU:‎AMD Athlon(tm) Neo X2 Dual Core Processor L335
GK: ‎RV710/M92 [Mobility Radeon HD 4330/4350/4550]
       ‎RS780M [Mobility Radeon HD 3200]

Yullaw

  • Global Moderator
  • Hero Member
  • *****
  • Příspěvků: 726
  • Karma: +50/-0
    • Zobrazit profil
Re:jak dostat text z fotky
« Odpověď #11 kdy: Říjen 29, 2012, 16:54:10 »
YAGF, prijde ti lepsi presnejsi?

yagf a ocrfeedeer mohou použít výkonový program tesseract či guneiform (ten v repozitářích není dostupný).

Co jsem postřehl při testech (s použitím tesseract):
YAGF:
  • - program není v češtině
  • - při skenování ze scanneru otevírá další program xsane
  • - nemožnost úpravy rozeznaného textu
  • + lépe rozeznal text
  • + již podporuje češtinu po instalaci
ocrfeeder:
  • + program je v češtině
  • + skenování ze scanneru je integrované (neotevírá další okna xsane)
  • + možnost opravy textu
  • - pro rozeznání češtiny je potřeba doinstalovat (manuálně) soubor ces.traineddata

Suma sumárum: z mého hlediska je program ocrfeeder vítězem...

Recenze obou programů najdete v openMagazínu 2012-04 na straně 4 (ocrfeeder) a straně 20 (yagf).

Mageia 6 (64bit), KDE Plasma 5.8.7, Kernel 4.9.56-desktop-1.mga6
Notebook Acer Aspire E1-571G
CPU:Intel® Core i5-3230M 2.6GHz, GPU:Intel+nVidia Optimus GeForce 710M

LUTEC

  • Full Member
  • ***
  • Příspěvků: 145
  • Karma: +1/-1
  • MGA 6; plasma
    • Zobrazit profil
Re:jak dostat text z fotky
« Odpověď #12 kdy: Říjen 30, 2012, 00:21:55 »
Ja za sebe mohu rict, ze s OCRFEEDER jsem zatim spokojen, pouzivam ho na text z naskenovane knihy, ktera neni v prilis dobre kvalite a slova sklada tak s 90% presnosti.
Mageia 6 (64bit), plasma
NTB HP pavilion dm3,
CPU:‎AMD Athlon(tm) Neo X2 Dual Core Processor L335
GK: ‎RV710/M92 [Mobility Radeon HD 4330/4350/4550]
       ‎RS780M [Mobility Radeon HD 3200]

Yullaw

  • Global Moderator
  • Hero Member
  • *****
  • Příspěvků: 726
  • Karma: +50/-0
    • Zobrazit profil
Re:jak dostat text z fotky
« Odpověď #13 kdy: Říjen 30, 2012, 06:38:12 »
ocrfeeder:
  • - pro rozeznání češtiny je potřeba doinstalovat (manuálně) soubor ces.traineddata

Pro Mageiu 3 jsou jiz pripraveny balicky tesseractu s cestinou i slovenstinou (a mnoho dalsich jazyku), takze manualni presouvani souboru odpada a vse bude automaticke vyberem ;)

Mageia 6 (64bit), KDE Plasma 5.8.7, Kernel 4.9.56-desktop-1.mga6
Notebook Acer Aspire E1-571G
CPU:Intel® Core i5-3230M 2.6GHz, GPU:Intel+nVidia Optimus GeForce 710M

starsi

  • Full Member
  • ***
  • Příspěvků: 124
  • Karma: +0/-7
    • Zobrazit profil
Re:jak dostat text z fotky
« Odpověď #14 kdy: Červenec 23, 2013, 16:59:16 »
Nainštaloval som OCRFeeder bohužial nešiel spustiť.
dalo mi to tento výpis:

[miro@localhost ~]$ ocrfeeder
Gtk-Message: Failed to load module "canberra-gtk-module"
Traceback (most recent call last):
  File "/usr/bin/ocrfeeder", line 31, in <module>
    from ocrfeeder.studio.studioBuilder import Studio
  File "/usr/lib/python2.7/site-packages/ocrfeeder/studio/studioBuilder.py", line 21, in <module>
    from ocrfeeder.util import lib
  File "/usr/lib/python2.7/site-packages/ocrfeeder/util/lib.py", line 31, in <module>
    from lxml import etree
ImportError: No module named lxml
[miro@localhost ~]$

vôbec neviem čo s tým  :(
Mageia 3 x86_64, KDE, Intel Celeron Dual Core 2GHz, vyrovnávacia pamäť 512 KB, Ram DDR 2GB, matičná doska ASUS PP5B-VM (Green), grafická karta Intel 810 later (82G965 Integrated Graphis Controler), zvukovka integrovaná na karte Intel 82801H (ICH8 Family) HD Audio Controler, HD