Regularni vyraz – Python – Fórum – Programujte.com
 x   TIP: Přetáhni ikonu na hlavní panel pro připnutí webu

Regularni vyraz – Python – Fórum – Programujte.comRegularni vyraz – Python – Fórum – Programujte.com

 

don_Dominique0
Super člen
24. 10. 2007   #1
-
0
-

Zdravim opět mam problem s regularnima vyrazama
Potřebuji v obsahu stránky najít všechny <a href='odkaz.cz' a dostat z toho ten odkaz dělam to takhle :

patern="(<a href=\'+)([a-zA-Z0-9_.:/]+)"

m=re.findall(patern,content)
for i in range(len(m)):
textik=m[i]
text=textik[1]
print(text)

Ale funguje mi to jenom když tam mam odkazy v tvaru <a href='odkaz.xxx'>Tudy</a>
Nepomohl by mi někdo s regularnim vyrazem aby mi to našlo i když to bude v jinym tvaru ?
Nebo jestli máte někdo lepší způsob jak to řešit ? ( Sem pythonamatér !!! )
Děkuju mockrát.

Nahlásit jako SPAM
IP: 84.42.148.–
pawlik0
Grafoman
24. 10. 2007   #2
-
0
-

Někde na programujte (Snad Python:Serial python:Otevření www) je návod na BeautifulSoap, je to jednodušší.

Nahlásit jako SPAM
IP: 84.42.152.–
Sa Nata A Na. Howgh
pawlik0
Grafoman
24. 10. 2007   #3
-
0
-

Joo, našel jsem http://www.py.cz/BeautifulSoup, snad by to mohlo pomoct.
PS: pochopil jsem správně, že chceš z TAGu A zjistit URL, na které link odkazuje?

Nahlásit jako SPAM
IP: 84.42.152.–
Sa Nata A Na. Howgh
geon0
Grafoman
25. 10. 2007   #4
-
0
-

import urllib, re

fp = urllib.urlopen('http://www.seznam.cz')
data = fp.read()
fp.close()

for i in re.findall(r'href="(.*?)"',data):
print i


. značí jakýkoliv jeden znak
.* značí, že se může libovolněkrát opakovat
.*? značí, že se může libovlněkrář opakovat, ale co nejméně (tedy k nejbližšímu ")
(.*?) značí, že mě zajímá jen to, co je v závorce, tedy nezájem o výpis href, apod.

Je spousta dalších možností, jak to upravit...

Nahlásit jako SPAM
IP: 83.69.40.–
geon. volume doprava.
don_Dominique0
Super člen
26. 10. 2007   #5
-
0
-

To pawlik : jj pochopil.
To geon : Díky mockrát. Moc mi to pomohlo.

Nahlásit jako SPAM
IP: 62.112.37.–
Zjistit počet nových příspěvků

Přidej příspěvek

Toto téma je starší jak čtvrt roku – přidej svůj příspěvek jen tehdy, máš-li k tématu opravdu co říct!

Ano, opravdu chci reagovat → zobrazí formulář pro přidání příspěvku

×Vložení zdrojáku

×Vložení obrázku

Vložit URL obrázku Vybrat obrázek na disku
Vlož URL adresu obrázku:
Klikni a vyber obrázek z počítače:

×Vložení videa

Aktuálně jsou podporována videa ze serverů YouTube, Vimeo a Dailymotion.
×
 
Podporujeme Gravatara.
Zadej URL adresu Avatara (40 x 40 px) nebo emailovou adresu pro použití Gravatara.
Email nikam neukládáme, po získání Gravatara je zahozen.
-
Pravidla pro psaní příspěvků, používej diakritiku. ENTER pro nový odstavec, SHIFT + ENTER pro nový řádek.
Sledovat nové příspěvky (pouze pro přihlášené)
Sleduj vlákno a v případě přidání nového příspěvku o tom budeš vědět mezi prvními.
Reaguješ na příspěvek:

Uživatelé prohlížející si toto vlákno

Uživatelé on-line: 0 registrovaných, 4 hosté

Podobná vlákna

Regulární výraz — založil Pilot

Regulární výraz — založil Fanda36

Regulární výraz — založil HoHo

Regulární výraz — založil Anonymní uživatel

Regulární výraz. — založil Paja2

 

Hostujeme u Českého hostingu       ISSN 1801-1586       ⇡ Nahoru Webtea.cz logo © 20032024 Programujte.com
Zasadilo a pěstuje Webtea.cz, šéfredaktor Lukáš Churý