Regulární výrazy v Pythonu - 1. část
 x   TIP: Přetáhni ikonu na hlavní panel pro připnutí webu
Reklama
Reklama

Regulární výrazy v Pythonu - 1. částRegulární výrazy v Pythonu - 1. část

 

Regulární výrazy v Pythonu - 1. část

Google       Google       4. 11. 2007       25 915×

Představíme si základy práce s regulárními výrazy, speciální posloupnosti a metaznaky.

Reklama
Reklama

Regulární výrazy. Pomocí nich můžeme v Pythonu provádět analýzu textu nebo z něj získávat data. Co si ale pod tímto pojmem představit? Regulární výraz je způsob, jakým se na základě vzoru rozpoznávají nebo získávají data. Regulární řetězec může obsahovat metaznaky a speciální posloupnosti

Neupravené řetězce

Vždy, když budeme pracovat s regulárními výrazy, budeme používat tzv. neupravené řetězce. Standardně Python upravuje některé znaky v  řetězci. Vyzkoušejte si:

>>> print "\tady"
	ady

Takovýto výstup dostame, protože Python upraví \t jako tabulátor. Tato záměna by se dala vyřešit napsáním dvou lomítek:

>>> print "\\tady"
\tady

Ale takovéto řešení je matoucí, proto Python nabízí neupravené řetezce. Tyto řetězce se uvozují znakem r před první uvozovkou:

>>> retezec=r"\Neupravený řetězec\\\\"
>>> print retezec
\Neupravený řetězec\\\\

Proto pokud pracujete s regulárními výrazy, používejte vždy neupravené řetězce.

re.search

Jak už název funkce napovídá, budeme pomocí ní vyhledávat v textu. Tato funkce přijímá standardně dva parametry: hledaný výraz a text:

>>> re.search("Programujte","Programujte je informační portál")
<_sre.SRE_Match object at 0x00BF7758>

Jak vidíte, tato funkce nevrací rovnou index, kde se hledaný výraz nachází, ale objekt re. Pokud bychom chtěli zjistit, kde se hledaný výraz nachází, musíme použít funkci start:

>>> index=re.search("Programujte","Programujte je informační portál")
>>> index.start()
0

Toto vše byste ale zvládli i bez regulárních výrazů. Než si budeme moci vysvětlit více, musíme si ukázat tabulku speciálních posloupností:

Sekvence Význam
\t tabulátor
\n nový řádek
\b začátek nebo konec slova
\B místo, které není na začátku ani na konci slova
\d číslice
\D libovolný znak, který není číslicí
\w libovolné písmeno, číslice včetně podtržítka
\W libovolný znak, který není písmeno, číslice včetně podtržítka
\\ zpětné lomítko
\s neviditelný znak (tabulátor, nový řádek…)
\S znak, který není neviditelný znak

Tyto speciální posloupnosti můžete použít v regulárním výrazu, tedy zastoupit pomocí nich větší počet znaků. Nyní již bychom mohli zvládnout najít první číslici v textu:

>>> re.search(r"\d","Číslice je na indexu 21").start()
21

re.findall

Další zajímavou funkcí je re.findall. Ta vrátí seznam (list) všech nalezených možností. Aby nám fungovala čeština, musíme připojit re.U.

>>> re.findall("a","Najdi všechna 'a'",re.U)
['a', 'a', 'a']
>>> re.findall("\d","Najdi všechna čísla: 123 456",re.U)
['1', '2', '3', '4', '5', '6']

K čemu nám ale je najít všechna čísla v textu, když se nakonec rozdělí na samostatná čísla, místo aby reprezentovala nějakou skupinu? K dosažení správného efektu slouží metaznaky. Těchto metaznaků je větší množství, ale my si jich ukážeme zatím jenom několik. Jako první metaznak bych uvedl +. Tento znak říká, že se může předchozí regulární výraz jednou či vícekrát opakovat. Více snad pochopíte z ukázky:

>>> #Najdi skupiny čísel
>>> re.findall("\d+","123 456 789",re.U)
['123', '456', '789']

Nyní bychom mohli zkusit najít všechna slova začínající na a,A:

>>> re.findall("\Wa\w+","Slovo auto autobus Admin",re.U)
[' auto', ' autobus']
  • \W – Tento metaznak reprezentuje znak, který není číslo, písmeno nebo znak podtržení. V našem případě ho používáme proto, že před slovem musí být mezera nebo nějaká interpunkce. Pokud bychom tento metaznak vynechali, hledal by program každé a.
  • a – Reprezentuje písmeno.
  • \w+ – Za písmenem a musí následovat nenulový počet písmen nebo číslic.

Jak vidíte, jako výsledek jsme dostali pouze slova, ktará začínala na a. My jsme ale chtěli najít i slova začínající na A. Mohli bychom nechat text dvakrát prohledávat pro každou variantu, ale lepší bude použít metaznak [ ]. Tento metaznak reprezentuje výčet prvků:

[aA] – pokud je znak "a,A"

Nyní již zvládneme upravit regulární výraz tak, aby správně našel slova začínající na a,A:

>>> re.findall("\W[aA]\w+","Slovo auto autobus Admin",re.U)
[' auto', ' autobus', ' Admin']

Tento regulární výraz se tváří, jako že je hotový, ale musíme ještě ošetřit jednu věc. Vyzkoušejte kód:

>>> re.findall("\W[aA]\w+","Auto")
[]

Nic nebylo nalezeno? Toto je způsobeno tím, že v regulárním výrazu uvádíme, že před písmenem a,A bude \W, tedy znak, který není písmeno, číslice ani podtržítko. Jenomže v našem případě není před písmenem a,A žádný znak. Na tomto místě si proto představíme metaznak ?. S jeho pomocí můžete určit, že regulární výraz, který se před metaznakem nachází, nemusí být splněn.

>>> re.findall("\W?[aA]\w+","Auto")
['Auto']

Tímto bych dnešní díl ukončil. V příštím díle si ukážeme, jak získávat pomocí regulárních výrazů údaje z textu.

×Odeslání článku na tvůj Kindle

Zadej svůj Kindle e-mail a my ti pošleme článek na tvůj Kindle.
Musíš mít povolený příjem obsahu do svého Kindle z naší e-mailové adresy kindle@programujte.com.

E-mailová adresa (např. novak@kindle.com):

TIP: Pokud chceš dostávat naše články každé ráno do svého Kindle, koukni do sekce Články do Kindle.

Hlasování bylo ukončeno    
0 hlasů
Google
Autor studuje na FIT ČVUT a je šéfredaktorem portálu Matematika pro každého.
Web    

Nové články

Obrázek ke článku Nový IT hráč na českém trhu

Nový IT hráč na českém trhu

V roce 2015 otevřela v Praze na Pankráci v budově City Tower své kanceláře společnost EPAM Systems (NYSE:EPAM), jejíž centrála se nachází v USA. Společnost byla založená v roce 1993 a od té doby prošla velkým vývojem a stále roste.

Reklama
Reklama
Obrázek ke článku České Radiokomunikace opět hledají nejlepší nápady pro internet věcí

České Radiokomunikace opět hledají nejlepší nápady pro internet věcí

České Radiokomunikace (CRA) pořádají druhý ročník CRA IoT Hackathonů. Zájemci z řad vývojářů a fanoušků moderních technologií mohou změřit své síly a během jediného dne sestrojit co nejzajímavější funkční prototyp zařízení, které bude komunikovat prostřednictvím sítě LoRa. CRA IoT Hackathony se letos uskuteční ve dvou fázích, na jaře a na podzim, v různých městech České republiky. Jarní běh se odstartuje 31. března v Brně a 7. dubna v Praze.

Obrázek ke článku Cloud computing je využíván stále intenzivněji

Cloud computing je využíván stále intenzivněji

Využívání cloud computingu nabývá na intenzitě. Jen v letošním roce vzroste podle analytiků trh se službami veřejného cloudu o 18 %, přičemž o téměř 37 % vzrostou služby typu IaaS. Růst o více než pětinu pak čeká služby poskytování softwaru formou služby, tedy SaaS. Aktuálním trendům v oblasti využívání cloudu se bude věnovat konference Cloud computing v praxi, která se koná 23. března. 2017 v pražském Kongresovém centru Vavruška na Karlově náměstí 5.

loadingtransparent (function() { var po = document.createElement('script'); po.type = 'text/javascript'; po.async = true; po.src = 'https://apis.google.com/js/plusone.js'; var s = document.getElementsByTagName('script')[0]; s.parentNode.insertBefore(po, s); })();
Hostujeme u Českého hostingu       ISSN 1801-1586       ⇡ Nahoru Webtea.cz logo © 20032017 Programujte.com
Zasadilo a pěstuje Webtea.cz, šéfredaktor Lukáš Churý