Rozparsovat? – Python – Fórum – Programujte.com
 x   TIP: Přetáhni ikonu na hlavní panel pro připnutí webu

Rozparsovat? – Python – Fórum – Programujte.comRozparsovat? – Python – Fórum – Programujte.com

 

filippop0
Návštěvník
16. 4. 2010   #1
-
0
-

Ahoj, snad nebudu příliš OT, protože nemám žádný konkrétní nefungující kus kódu, jen bych chtěl vědět, jak se to vlastně dělá a jak je nejlepší to dělat. Nyní se učím Python 3.1 a přecházím na něj z AWKu.
Jsem ve fázi, kdy mám ve jedné variable načtena nějaká data ve formátu HTML (nebo třeba XML, ono je to dosti podobné) a potřebuji je rozděllit mezi další, variable. Například VAR_TITLE aby obsahoval to co je uzavřeno mezi tagy <title> ... </title>.

V AWKu jsem o řešil tak, že jsem si ty data rozdělil pomocí funkce split(), pokud se vyskytovaly vícekráte a pak už jsem každou z nich zpracoval v loopu pomocí RegExp, kdy jsem jednoduše odmazal všechno před ".*<title>" a za "<\/title>.*" tagy.

V Pythonu bych to mohl udělat spejně, ale nezdá se mi to jako nejelegantnější způsob. Mám se začít zajímat o rozparsování pomocí parserů? Pro Python jich existuje mnoho, jaký je nejvhodnější? Vyhnu se tím "čištění" pomocí RegExpů?

Díky za popostrčení vhodným směrem.

Nahlásit jako SPAM
IP: 85.71.117.–
Blujacker
~ Moderátor
0
Grafoman
Nahlásit jako SPAM
IP: 84.42.166.–
Navštivte server Matematika pro každého
Najdete zde články zabývající se matematikou základních a středních škol a databázi hlavolamů.
Pro vyzkoušení Vaš
filippop0
Návštěvník
24. 4. 2010   #3
-
0
-

Trochu opoždění děkuji za popostrčení /.-)
Ale od "polívky" mě odrazuje že je v porovnání s ostatními pomalá (což není až takoý problém), ale hlavně to, že už se nevyvýjí a její provoz v Pythonu 3.1 je trošku problematická, viz.:http://www.crummy.com/software/BeautifulSoup/3.1-problems.html

Takže teď se rozmýšlím (porovnávám náročnost na učení) mezi html5lib http://code.google.com/p/html5lib/ a lmxl http://codespeak.net/lxml/, popřípadě to nechat jen na standardních knihovnách Pythonu?

Nahlásit jako SPAM
IP: 77.78.86.–
Zjistit počet nových příspěvků

Přidej příspěvek

Toto téma je starší jak čtvrt roku – přidej svůj příspěvek jen tehdy, máš-li k tématu opravdu co říct!

Ano, opravdu chci reagovat → zobrazí formulář pro přidání příspěvku

×Vložení zdrojáku

×Vložení obrázku

Vložit URL obrázku Vybrat obrázek na disku
Vlož URL adresu obrázku:
Klikni a vyber obrázek z počítače:

×Vložení videa

Aktuálně jsou podporována videa ze serverů YouTube, Vimeo a Dailymotion.
×
 
Podporujeme Gravatara.
Zadej URL adresu Avatara (40 x 40 px) nebo emailovou adresu pro použití Gravatara.
Email nikam neukládáme, po získání Gravatara je zahozen.
-
Pravidla pro psaní příspěvků, používej diakritiku. ENTER pro nový odstavec, SHIFT + ENTER pro nový řádek.
Sledovat nové příspěvky (pouze pro přihlášené)
Sleduj vlákno a v případě přidání nového příspěvku o tom budeš vědět mezi prvními.
Reaguješ na příspěvek:

Uživatelé prohlížející si toto vlákno

Uživatelé on-line: 0 registrovaných, 4 hosté

 

Hostujeme u Českého hostingu       ISSN 1801-1586       ⇡ Nahoru Webtea.cz logo © 20032024 Programujte.com
Zasadilo a pěstuje Webtea.cz, šéfredaktor Lukáš Churý