Regulární výrazy v Pythonu - 2. část
 x   TIP: Přetáhni ikonu na hlavní panel pro připnutí webu
Reklama
Reklama

Regulární výrazy v Pythonu - 2. částRegulární výrazy v Pythonu - 2. část

 

Regulární výrazy v Pythonu - 2. část

Google       Google       26. 11. 2007       19 152×

Další pokračování regulérních výrazů. Dnes se naučíme získávat z textu údaje.

Reklama
Reklama

re.compile

Tato funkce zkompiluje regulární výraz do řeči regulárních výrazů:

>>> r=re.compile(r"\d+")
>>> r
<_sre.SRE_Pattern object at 0x00BBEA70>
>>> dir(r)
['__copy__', '__deepcopy__', 'findall', 'finditer', 'match', 'scanner', 'search', 'split', 'sub', 'subn']

Jak vidíte, tento objekt má více metod. Některé jsou pro nás známe, jako třeba findall, ale ten zbytek si budeme muset vysvětlit. Avšak než se tak stane, vysvětlíme si metaznak (...). Pomocí tohoto metaznaku můžete definovat skupiny znaků, ke kterým budete moci později přistupovat číselnými indexy podle pořadí závorek v textu. Více snad pochopíte z příkladu:

r=re.compile(r"(\d+) (\w+)")
#Pokud necháme "55 aa" procházet tímto regulárním výrazem, tak na indexu 1 budou čísla (55) a na indexu 2 písmena (aa)

My začneme metodou search. Tato metoda, podobně jako re.compile, vrací objekt re.

>>> r=re.compile(r"(\d+) (\w+)")
>>> hledani=r.search("55 aa")
>>> hledani
<_sre.SRE_Match object at 0x01E3D9F8>
>>> dir(hledani)
['__copy__', '__deepcopy__', 'end', 'expand', 'group', 'groupdict', 'groups', 'span', 'start']

My jako první použijeme metodu group. Ta přijímá jako parametr index (my umíme používat zatím pouze číselné indexy) a vrací shodný objekt z regulárního výrazu:

>>> hledani.group(1)
'55'
>>> hledani.group(2)
'aa'

Metaznak (?P<jmeno>...)

Pomocí tohoto metaznaku můžeme definovat skupiny znaků jinak než nám již známým číselným indexem. Pokud tedy budeme chtít přistoupit k výrazu vráceném metodou search zavoláme metodu group("jmeno"):

>>> r=re.compile(r"(?P<slovo_a>\W?[aA]\w+)")#Definujeme skupinu "slovo_a"

re.finditer

Tato metoda přijímá jako parametry regulární výraz a prohledávaný řetězec. My ji použijeme pro získání dat z řetězce.

>>> r=re.compile(r"(?P<slovo_a>\W?[aA]\w+)")
>>> re.finditer(r,"auto")
<callable-iterator object at 0x00C9AC90>

Vrací iterátor, tudíž můžeme prohnat výstup cyklem for:

>>> r=re.compile(r"(?P<slovo_a>\W?[aA]\w+)")
>>> for prvek in re.finditer(r,"auto"):
	print prvek.group("slovo_a")

auto

Proměnná prvek poskytuje mimo jiné i metodu groupdict. Ta vrací slovník všech definovaných skupin:

>>> for prvek in re.finditer(r,"auto"):
	print prvek.groupdict()

	
{'slovo_a': 'auto'}

Další metaznaky

Pro jednodušší práci s regulárními výrazy by to chtělo trochu rozšířit naši znalost metaznaků:

  • . – reprezentuje jakýkoliv znak kromě nového řádku.
  • \ &dnash; tento znak známe jako označení speciální posloupnosti, ale to není jeho jediná funkce. Pomocí toho znaku můžeme vyhledávat znaky, které jsou za normálních okolností metaznaky: 5\*2. Tento výraz odpovídá "5*2".
  • * – regulární výraz před * se může opakovat libovolněkrát (0×,1×,100×…)

Praktické příklady

Na závěr si ukážeme pár praktických příkladů:

Najdi všechny odkazy v textu

Máme zdrojový kód nějaké stránky a chceme z něj získat všechny odkazy.

# -*- coding: cp1250 -*-
import re
import urllib  
fp = urllib.urlopen('http://www.programujte.com')#Načteme nějakou stránku
data = fp.read()#Získáme zdrojový kód stránky
fp.close()  
for prvek in re.findall(r'href="(.*?)"',data):
    print prvek

Najdi všechny e-mailové adresy:

# -*- coding: cp1250 -*-
import re
r=re.compile(r"(?P<email>[\w\d]*@[\w\d]*\.[\w\d]*)",re.U)
#Nejprve definujeme skupinu 'email'
#[\w\d]* - v názvu e-mailu mohou být čísla a písmena
#@ - potom následuje zavináč
#[\w\d]* - číslice nebo písmena se mohou vícekrát opakovat
#\. - tyto dva znaky reprezentují tečku
#[\w\d]* - číslice nebo písmena se mohou vícekrát opakovat
data="jakub_vojacek@programujte.com, curo@programujte.com"
for prvek in r.finditer(data):
    print prvek.group("email")

×Odeslání článku na tvůj Kindle

Zadej svůj Kindle e-mail a my ti pošleme článek na tvůj Kindle.
Musíš mít povolený příjem obsahu do svého Kindle z naší e-mailové adresy kindle@programujte.com.

E-mailová adresa (např. novak@kindle.com):

TIP: Pokud chceš dostávat naše články každé ráno do svého Kindle, koukni do sekce Články do Kindle.

1 názor  —  1 nový  
Hlasování bylo ukončeno    
0 hlasů
Google
Autor studuje na FIT ČVUT a je šéfredaktorem portálu Matematika pro každého.
Web    

Nové články

Obrázek ke článku NEWTON Media prohledá 200  milionů mediálních zpráv během sekund díky Cisco UCS

NEWTON Media prohledá 200 milionů mediálních zpráv během sekund díky Cisco UCS

Česká společnost NEWTON Media provozuje největší archiv mediálních zpráv ve střední a východní Evropě. Mezi její zákazníky patří například ministerstva, evropské instituce nebo komerční firmy z nejrůznějších oborů. NEWTON Media rozesílá svým zákazníkům každý den monitoring médií podle nastavených klíčových slov a nabízí online službu, kde lze vyhledat mediální výstupy v plném znění od roku 1996.

Reklama
Reklama
Obrázek ke článku Delphi 10.1.2 (Berlin Update 2) – na co se můžeme těšit

Delphi 10.1.2 (Berlin Update 2) – na co se můžeme těšit

Touto roční dobou, kdy je zem pokrytá barevným listím a prsty křehnou v mrazivých ránech, se obvykle těšíme na zbrusu novou verzi RAD Studia. Letos si však ale budeme muset počkat na Godzillu a Linux až do jara. Vezměme tedy za vděk alespoň updatem 2 a jelikož dle vyjádření pánů z Embarcadero se budou nové věci objevovat průběžně, pojďme se na to tedy podívat.

Obrázek ke článku Konference: Moderní datová centra pro byznys dneška se koná už 24. 11.

Konference: Moderní datová centra pro byznys dneška se koná už 24. 11.

Stále rostoucí zájem o cloudové služby i maximální důraz na pružnost, spolehlivost a bezpečnost IT vedou k výrazným inovacím v datových centrech. V infrastruktuře datových center hraje stále významnější roli software a stále častěji se lze setkat s hybridními přístupy k jejich budování i provozu.

Obrázek ke článku Konference: Mobilní technologie mají velký potenciál pro byznys

Konference: Mobilní technologie mají velký potenciál pro byznys

Firmy by se podle analytiků společnosti Gartner měly  rychle přizpůsobit skutečnosti, že mobilní technologie už zdaleka nejsou horkou novinkou, ale standardní součástí byznysu. I přesto - nebo možná právě proto - tu nabízejí velký potenciál. Kde tedy jsou ty největší příležitosti? I tomu se bude věnovat již čtvrtý ročník úspěšné konference Mobilní řešení pro business.

loadingtransparent (function() { var po = document.createElement('script'); po.type = 'text/javascript'; po.async = true; po.src = 'https://apis.google.com/js/plusone.js'; var s = document.getElementsByTagName('script')[0]; s.parentNode.insertBefore(po, s); })();
Hostujeme u Českého hostingu       ISSN 1801-1586       ⇡ Nahoru Webtea.cz logo © 20032016 Programujte.com
Zasadilo a pěstuje Webtea.cz, šéfredaktor Lukáš Churý