Regulární výrazy v Pythonu - 1. část
 x   TIP: Přetáhni ikonu na hlavní panel pro připnutí webu

Regulární výrazy v Pythonu - 1. částRegulární výrazy v Pythonu - 1. část

 
Hledat
Vybavení pro Laser Game
Spuštěn Filmový magazín
Laser Game Brno
Laser Game Ostrava

Regulární výrazy v Pythonu - 1. část

Google       Google       4. 11. 2007       32 591×

Představíme si základy práce s regulárními výrazy, speciální posloupnosti a metaznaky.

Reklama
Reklama

Regulární výrazy. Pomocí nich můžeme v Pythonu provádět analýzu textu nebo z něj získávat data. Co si ale pod tímto pojmem představit? Regulární výraz je způsob, jakým se na základě vzoru rozpoznávají nebo získávají data. Regulární řetězec může obsahovat metaznaky a speciální posloupnosti

Neupravené řetězce

Vždy, když budeme pracovat s regulárními výrazy, budeme používat tzv. neupravené řetězce. Standardně Python upravuje některé znaky v  řetězci. Vyzkoušejte si:

>>> print "\tady"
	ady

Takovýto výstup dostame, protože Python upraví \t jako tabulátor. Tato záměna by se dala vyřešit napsáním dvou lomítek:

>>> print "\\tady"
\tady

Ale takovéto řešení je matoucí, proto Python nabízí neupravené řetezce. Tyto řetězce se uvozují znakem r před první uvozovkou:

>>> retezec=r"\Neupravený řetězec\\\\"
>>> print retezec
\Neupravený řetězec\\\\

Proto pokud pracujete s regulárními výrazy, používejte vždy neupravené řetězce.

re.search

Jak už název funkce napovídá, budeme pomocí ní vyhledávat v textu. Tato funkce přijímá standardně dva parametry: hledaný výraz a text:

>>> re.search("Programujte","Programujte je informační portál")
<_sre.SRE_Match object at 0x00BF7758>

Jak vidíte, tato funkce nevrací rovnou index, kde se hledaný výraz nachází, ale objekt re. Pokud bychom chtěli zjistit, kde se hledaný výraz nachází, musíme použít funkci start:

>>> index=re.search("Programujte","Programujte je informační portál")
>>> index.start()
0

Toto vše byste ale zvládli i bez regulárních výrazů. Než si budeme moci vysvětlit více, musíme si ukázat tabulku speciálních posloupností:

Sekvence Význam
\t tabulátor
\n nový řádek
\b začátek nebo konec slova
\B místo, které není na začátku ani na konci slova
\d číslice
\D libovolný znak, který není číslicí
\w libovolné písmeno, číslice včetně podtržítka
\W libovolný znak, který není písmeno, číslice včetně podtržítka
\\ zpětné lomítko
\s neviditelný znak (tabulátor, nový řádek…)
\S znak, který není neviditelný znak

Tyto speciální posloupnosti můžete použít v regulárním výrazu, tedy zastoupit pomocí nich větší počet znaků. Nyní již bychom mohli zvládnout najít první číslici v textu:

>>> re.search(r"\d","Číslice je na indexu 21").start()
21

re.findall

Další zajímavou funkcí je re.findall. Ta vrátí seznam (list) všech nalezených možností. Aby nám fungovala čeština, musíme připojit re.U.

>>> re.findall("a","Najdi všechna 'a'",re.U)
['a', 'a', 'a']
>>> re.findall("\d","Najdi všechna čísla: 123 456",re.U)
['1', '2', '3', '4', '5', '6']

K čemu nám ale je najít všechna čísla v textu, když se nakonec rozdělí na samostatná čísla, místo aby reprezentovala nějakou skupinu? K dosažení správného efektu slouží metaznaky. Těchto metaznaků je větší množství, ale my si jich ukážeme zatím jenom několik. Jako první metaznak bych uvedl +. Tento znak říká, že se může předchozí regulární výraz jednou či vícekrát opakovat. Více snad pochopíte z ukázky:

>>> #Najdi skupiny čísel
>>> re.findall("\d+","123 456 789",re.U)
['123', '456', '789']

Nyní bychom mohli zkusit najít všechna slova začínající na a,A:

>>> re.findall("\Wa\w+","Slovo auto autobus Admin",re.U)
[' auto', ' autobus']
  • \W – Tento metaznak reprezentuje znak, který není číslo, písmeno nebo znak podtržení. V našem případě ho používáme proto, že před slovem musí být mezera nebo nějaká interpunkce. Pokud bychom tento metaznak vynechali, hledal by program každé a.
  • a – Reprezentuje písmeno.
  • \w+ – Za písmenem a musí následovat nenulový počet písmen nebo číslic.

Jak vidíte, jako výsledek jsme dostali pouze slova, ktará začínala na a. My jsme ale chtěli najít i slova začínající na A. Mohli bychom nechat text dvakrát prohledávat pro každou variantu, ale lepší bude použít metaznak [ ]. Tento metaznak reprezentuje výčet prvků:

[aA] – pokud je znak "a,A"

Nyní již zvládneme upravit regulární výraz tak, aby správně našel slova začínající na a,A:

>>> re.findall("\W[aA]\w+","Slovo auto autobus Admin",re.U)
[' auto', ' autobus', ' Admin']

Tento regulární výraz se tváří, jako že je hotový, ale musíme ještě ošetřit jednu věc. Vyzkoušejte kód:

>>> re.findall("\W[aA]\w+","Auto")
[]

Nic nebylo nalezeno? Toto je způsobeno tím, že v regulárním výrazu uvádíme, že před písmenem a,A bude \W, tedy znak, který není písmeno, číslice ani podtržítko. Jenomže v našem případě není před písmenem a,A žádný znak. Na tomto místě si proto představíme metaznak ?. S jeho pomocí můžete určit, že regulární výraz, který se před metaznakem nachází, nemusí být splněn.

>>> re.findall("\W?[aA]\w+","Auto")
['Auto']

Tímto bych dnešní díl ukončil. V příštím díle si ukážeme, jak získávat pomocí regulárních výrazů údaje z textu.

×Odeslání článku na tvůj Kindle

Zadej svůj Kindle e-mail a my ti pošleme článek na tvůj Kindle.
Musíš mít povolený příjem obsahu do svého Kindle z naší e-mailové adresy kindle@programujte.com.

E-mailová adresa (např. novak@kindle.com):

TIP: Pokud chceš dostávat naše články každé ráno do svého Kindle, koukni do sekce Články do Kindle.

Hlasování bylo ukončeno    
0 hlasů
Google
Autor studuje na FIT ČVUT a je šéfredaktorem portálu Matematika pro každého.
Web    

Nové články

Obrázek ke článku Konference: Moderní informační systémy podporují automatizaci

Konference: Moderní informační systémy podporují automatizaci

Současná situace v šíření onemocnění Covid-19 klade na řadu firem nové nároky a mnohé z nich jsou nyní více než kdy jindy závislé na nejmodernějších informačních technologiích. Proto i v oblasti podnikových informačních systémů vidíme rostoucí důraz na automatizaci nebo na důslednou integraci. Také o těchto trendech se bude mluvit na konferenci Firemní informační systémy, která se koná 24.9.2020 v pražském Kongresovém centru Vavruška na Karlově náměstí.

Reklama
Reklama
Obrázek ke článku Nebezpečí ukrytá v USB: z nuly na škvarek za pět sekund

Nebezpečí ukrytá v USB: z nuly na škvarek za pět sekund

Za cenu šesti dolarů lze celkem bez obtíží koupit nový, líbivě vyhlížející flash disk. Přidaná hodnota, které se vám spolu s ním dostane, už tak moc líbivá není. To, co se před pár sekundami tvářilo jako externí disk, se po připojení k počítači změní v důmyslné elektrické křeslo, které vaše zařízení v onen příslovečný škvarek promění za pár sekund. Cílovou skupinou pro koupi takových zařízení by mohli být záškodníci, kteří by tímto způsobem osnovali pomstu třeba vůči záletnému partnerovi. 

Obrázek ke článku Znalosti, dovednosti i prestižní titul MBA: Jde to i moderně a online

Znalosti, dovednosti i prestižní titul MBA: Jde to i moderně a online

Snad nikdy není špatná příležitost na investici do hodnotného vzdělání. Obzvlášť v případě, že absolvent dovede teoretické poznatky přetavit v praktické dovednosti, využitelné při řešení problémů i v komunikaci. Právě na to se specializuje studijní program MBA Řízení informačních technologií, vyučovaný na Business Institutu.

Obrázek ke článku Coding Bootcamp Praha: Obor IT krize nepoznamenala, žádaní jsou weboví vývojáři

Coding Bootcamp Praha: Obor IT krize nepoznamenala, žádaní jsou weboví vývojáři

Pandemie Covid-19 otřásla trhem práce v základech. Dopady krize pocítilo celkově až 45 % zaměstnanců. Není divu, že čím dál větší jistotu přináší obor IT. Ten zůstal krizí téměř nepoznamenán a při nutnosti začít dělat věci na dálku se ještě více ukázalo, jak moc mnohé firmy kvalitní IT potřebují. Do IT nyní přicházejí začátečníci, kteří v něm vidí lukrativní budoucnost a jistotu, ale i freelanceři a zaměstnanci z oborů zasažených krizí

Hostujeme u Českého hostingu       ISSN 1801-1586       ⇡ Nahoru Webtea.cz logo © 20032020 Programujte.com
Zasadilo a pěstuje Webtea.cz, šéfredaktor Lukáš Churý