× Aktuálně z oboru

Programátoři po celém světě dnes slaví Den programátorů [ clanek/2018091300-programatori-po-celem-svete-dnes-slavi-den-programatoru/ ]
Celá zprávička [ clanek/2018091300-programatori-po-celem-svete-dnes-slavi-den-programatoru/ ]

IConv a hromadná změna kódování u souborů

[ http://programujte.com/profil/12241-zdenek-moravec/ ]Google [ ?rel=author ]       [ http://programujte.com/profil/14523-martin-simecek/ ]Google [ ?rel=author ]       12. 5. 2009       22 768×

Stručný návod, jak rychle změnit kódování souborů pomocí nástroje IConv.

Když jsem přebíral jeden rozsáhlejší web, byl jsem nucen ho celý překódovat z UTF-8. Jednalo se o několik tisíc souborů, takže ruční změna byla vyloučena. Naštěstí to jde udělat velice snadno pomocí shellu a prográmku IConv. Stačí si vytvořit několikařádkový shell skript a celý převod je potom otázkou několika sekund.

IConv

IConv je velmi jednoduchý program. Přesný popis použití získáte pomocí známého příkazu man iconv. Na začátku je důležité zjistit, jestli program zná potřebné kódování. K tomu slouží parametr -l. Jelikož je často v systému zavedeno velké množství znakových sad, je vhodné tento výpis stránkovat:

iconv -l | more

Poslední dva parametry, které nás budou nyní zajímat, určují vstupní a výstupní kódování. Vstupní kódování zadáme pomocí parametru -f (from) a výstupní pomocí parametru -t (to). Na konci příkazu musíme samozřejmě uvést jméno souboru, který chceme převádět:

iconv -f windows-1250 -t UTF-8 test.txt

IConv posílá výstup na standardní výstup systému, proto je užitečné ho přesměrovat do nového souboru:

iconv -f windows-1250 -t UTF-8 test.txt > test-conv.txt

Vlastní převod

Konverze velkého množství souborů se dá realizovat jednoduchým shellovým skriptem:

for F in $(find $1 -iname "*.html")
do
        if [ -f $F ]; then
                iconv -f windows-1250 -t utf-8 $F > ${F}1
                mv ${F}1 $F
        fi
done

První řádek je inicializace cyklu, který rekurzivně projde zadaný adresář (proměnná $1) a jeho podadresáře a postupně vybírá soubory s koncovkou html (samozřejmě lze zvolit jakoukoliv jinou). Uvnitř cyklu nejprve ověříme, že se jedná skutečně o soubor a ne o adresář, a provedeme konverzi. Konvertovaný soubor uložíme do dočasného souboru, kterým v dalším kroku přepíšeme původní soubor. Zde jsem pro jednoduchost nazval dočasný soubor stejně jako původní, pouze jsem na konec přidal znak 1. V reálu je lepší použít nějaký složitější řetězec, aby se vyloučilo přepsání jiného souboru, příp. ukládat nové soubory do jiného adresáře.


Článek stažen z webu Programujte.com [ http://programujte.com/clanek/2009050900-iconv-a-hromadna-zmena-kodovani-u-souboru/ ].