Extrahovani zvolenych udaju z .txt souboru

Fórum › Python

~ Anonymní uživatel
~ 4 příspěvky

20. 8. 2007 #1

Zdravim, pujdu hned na vec, mam .txt soubor s obsahem napr:
-------------------------------------------------------------------------
---bladsasda text: ahoj obsah: cau.cau pripona: txt blasdadsbla ---
---blaasdasdla bla text: ahoj1 obsah: cau.cau1 pripona: txt blaasdasdbla ---
---blasdasd bla bla text: ahoj2 obsah: cau.cau2 pripona: txt bla asdasda ---
-------------------------------------------------------------------------

a chtel bych vytvorit do druheho souboru toto:
ahoj,cau.cau,txt
ahoj1,cau.cau1,txt
ahoj2,cau.cau2,txt

proste aby se vzala jen hodnota za "text: ", "obsah: " a "pripona: "

diky moc...

Nahlásit jako SPAM

IP: ...–

Blog.Glor.cz - blog nejenom o cestování

Blujacker

~ Moderátor

Grafoman

Kultivátor příspěvků ve starém fóru – 0.9 % z celku

20. 8. 2007 #2

Nejjednodušší řešení bude použití modulu re: http://www.py.cz/RegularniVyrazy, http://docs.python.org/lib/module-re.html

Nahlásit jako SPAM

IP: ...–

Navštivte server Matematika pro každého
Najdete zde články zabývající se matematikou základních a středních škol a databázi hlavolamů.
Pro vyzkoušení Vaš

DeaLer+2

Hero

Kultivátor příspěvků ve starém fóru – 2.01 % z celku

20. 8. 2007 #3

Mě by jen zajímalo, k čemu to bude dobrý ... pokud je to jen nějaká maličkost, tak budou reguláry stačit, ale pokud bude množství dat hodně velký, tak by bylo vhodný napsat parser (pravděpodobně máš pevně danou strukturu souboru), protože by jinak mohlo docházet ke ztrátě výkonu.

Nahlásit jako SPAM

IP: ...–

Dušan Janošík | web: djanosik.cz, @djanosik

geon 0

Grafoman

21. 8. 2007 #4

# -*- coding: cp1250 -*- 



# jasné

import re



# dá se jistě načíst i ze souboru

text="""---bladsasda text: ahoj  obsah: cau.cau  pripona: txt blasdadsbla          ---

---blaasdasdla bla text: ahoj1  obsah: cau.cau1  pripona: txt blaasdasdbla ---

---blasdasd bla bla text: ahoj2  obsah: cau.cau2  pripona: txt bla asdasda ---"""



# "text:" - hledá slovo "text" následované dvojtečkou

# "*" - předchozí znak se může libovolněkrát opakovat

# " *" - mezera se může libovolněkrát oprakovat

# \w - jedno písmeno, jakékoliv

# \w+ - písmeno se může libovolněkrát opakovat, nejméně však jednou - jinými slovy je to "slovo"

# (\w+) - bude zahrnuto do výsledku hledání jako např. skupina 1  = vyskyt.group(1)

# "obsah: *" - dále musí následovat slovo "obsah", pak dvojtečka a  následovaný libovolným počtem mezer

# (\w+\.\w+) - dve slovo oddělená tečkou, ve výsledích to bude skupina 2

# atd. atd.   

vzor="text: *(\w+) *obsah: *(\w+\.\w+) *pripona: *(\w+)"



# finditer postupně nalézá všechny výskyty v textu - v tomto případě po řádcích

for vyskyt in re.finditer(vzor, text):

    

    # vytiskne skupinu 1 (to co je ve vzoru v první závorce), skupinu 2 i 3

    print vyskyt.group(1)+","+ vyskyt.group(2)+","+ vyskyt.group(3)





# zápis do souboru snad zvládneš

Comments: obdivuju machry z abclinux.cz, kterí regulární výrazy, daleko složitější, smaží z hlavy. Mě to vždy trochu času zabere, už jsem to zase nějaký ten měsíc nedělal.

Komentáře do textu přidávám pro ty, kdo by snad chtěli víc než jen copy & paste. At slouží.

P.S. tady je to hezky barevně: http://www.pastebin.cz/show/1840

EDIT: opraveny poznámky, jen zde, na pastebin.cz původní verze.

Nahlásit jako SPAM

IP: ...–

geon. volume doprava.

geon 0

Grafoman

26. 8. 2007 #5

To JohnyD: pomohlo?

Nahlásit jako SPAM

IP: ...–

geon. volume doprava.

← Zpět na seznam vláken ← Zpět do Fóra