Ahoj, snad nebudu příliš OT, protože nemám žádný konkrétní nefungující kus kódu, jen bych chtěl vědět, jak se to vlastně dělá a jak je nejlepší to dělat. Nyní se učím Python 3.1 a přecházím na něj z AWKu.
Jsem ve fázi, kdy mám ve jedné variable načtena nějaká data ve formátu HTML (nebo třeba XML, ono je to dosti podobné) a potřebuji je rozděllit mezi další, variable. Například VAR_TITLE aby obsahoval to co je uzavřeno mezi tagy <title> ... </title>.
V AWKu jsem o řešil tak, že jsem si ty data rozdělil pomocí funkce split(), pokud se vyskytovaly vícekráte a pak už jsem každou z nich zpracoval v loopu pomocí RegExp, kdy jsem jednoduše odmazal všechno před ".*<title>" a za "<\/title>.*" tagy.
V Pythonu bych to mohl udělat spejně, ale nezdá se mi to jako nejelegantnější způsob. Mám se začít zajímat o rozparsování pomocí parserů? Pro Python jich existuje mnoho, jaký je nejvhodnější? Vyhnu se tím "čištění" pomocí RegExpů?
Díky za popostrčení vhodným směrem.
Fórum › Python
Rozparsovat?
To filippop :
zkusil bych: http://programujte.com/?akce=clanek&cl=1970010133-python-nacteni-www-stranky
Navštivte server Matematika pro každého
Najdete zde články zabývající se matematikou základních a středních škol a databázi hlavolamů.
Pro vyzkoušení Vaš
Najdete zde články zabývající se matematikou základních a středních škol a databázi hlavolamů.
Pro vyzkoušení Vaš
Trochu opoždění děkuji za popostrčení /.-)
Ale od "polívky" mě odrazuje že je v porovnání s ostatními pomalá (což není až takoý problém), ale hlavně to, že už se nevyvýjí a její provoz v Pythonu 3.1 je trošku problematická, viz.:http://www.crummy.com/software/BeautifulSoup/3.1-problems.html
Takže teď se rozmýšlím (porovnávám náročnost na učení) mezi html5lib http://code.google.com/p/html5lib/ a lmxl http://codespeak.net/lxml/, popřípadě to nechat jen na standardních knihovnách Pythonu?
Zjistit počet nových příspěvků
Přidej příspěvek
Toto téma je starší jak čtvrt roku – přidej svůj příspěvek jen tehdy, máš-li k tématu opravdu co říct!
Ano, opravdu chci reagovat → zobrazí formulář pro přidání příspěvku
×Vložení zdrojáku
×Vložení obrázku
×Vložení videa
Aktuálně jsou podporována videa ze serverů YouTube, Vimeo a Dailymotion.
×
Uživatelé prohlížející si toto vlákno
Uživatelé on-line: 0 registrovaných, 6 hostů
Moderátoři diskuze