Python - načtení www stránky
 x   TIP: Přetáhni ikonu na hlavní panel pro připnutí webu

Python - načtení www stránkyPython - načtení www stránky

 
Hledat
Moderní platforma pro vytvoření vašeho nového webu – Wix.com.
Nyní už můžete mít web zdarma.
Vybavení pro Laser Game
Spuštěn Filmový magazín
Laser Game Brno
Laser Game Ostrava

Python - načtení www stránky

Google       Google       8. 9. 2005       17 106×

Z nejrůznějších důvodů někdy potřebujeme načíst www stránku nejen v prohlížeči, ale i programově. Třeba ji chceme uložit nebo programově zjišťovat, jestli tam je nějaký tag, nebo stahovat všechny odkazy z té stránky. Většinu z toho si ukážeme.

Reklama
Reklama

Jak načíst a zpracovat obsah www stránky?

Z nejrůznějších důvodů někdy potřebujeme načíst www stránku nejen v prohlížeči, ale i programově. Třeba ji chceme uložit nebo programově zjišťovat, jestli tam je nějaký tag, nebo stahovat všechny odkazy z té stránky. Většinu z toho si ukážeme.

Stažení je snadné

Python obsahuje spousty báječných modulů přímo ve standardní distribuci. Ten, který se nám hodí pro stahování se jmenuje urllib.


# -*- coding: cp1250 -*- 
import urllib
fp = urllib.urlopen('http://www.py.cz/PythonZaciname')
data = fp.read()
fp.close()

Stránku máme v řetězci

V proměnné data máme uloženou celou webovou stránku. A můžeme si s ní hrát. Proměnná data je obyčejný řetězec, takže jako s takovým s ním můžeme zacházet.

Můžeme ji třeba uložit

s=file('StazenaStranka.html','w')
s.write(data)
s.close()

Z hlavičky HTML stránky jsem si přečetl, že : < meta http-equiv="Content-Type" content="text/html;charset=utf-8" />. Přetransformujeme tedy obyčejný řetězec v kodování utf-8 na unicode řetězec a pracujeme nadále s ním.


data=unicode(data,'utf-8')  

print data
print '-'*80
print len(data)  # kolik ma znaku
print data[100]  # pismeno na 99. miste
print len(data.splitlines())  # kolik ma radku
print data.count('program')  # kolik je tam slov 'program'

# pokud máme vše v unicode, nedělá čeština problémy
print data.count(u'začít') 

Výpis všech odkazů

Pokud bychom ale chtěli vypsat všechny tagy <a>, tak s dosavadním přístupem by to bylo obtížnější. Určitě to jde, ale to si můžeme schovat na jindy. Tento problém jistě řešilo spousty lidí před námi a nám tu po nich zbyly moduly, které to řeší. Tak mě napadá, abychom my nezapomínali na ty, co přijdou po nás ;-).

Ten vestavěný modul se jmenuje HTMLParser. Parser proto, že právě to rozebírání, rozkouskování kódu na jednotlivé elementy, tagy, .. tomu se říká parsování. My ale pouzijeme jiný, jednodušší.


BeautifulSoup

Beautiful Soup je nadstandarní, velmi pythonýrské zpracování HTML stránky. Stáhněte si ho a nakopírujte si ho nejlépe do složky, kam se ukládají všechny slušné moduly - do Python24/Lib/site-packages.

BeautifulSoup neumí zatím moc s unicode pracovat, takže pokud dostanete chybovou hlášku UnicodeEncodeError, doporučuji nepřevádět data na unicode, jak jsem naznačoval výše. Vyzkoušejte následující příklad:

import BeautifulSoup, re

soup=BeautifulSoup.BeautifulSoup(data)

print '-'*80
print soup('a')  # všechny tagy, které jsou odkazy v seznamu
atribut href
print len(soup('a'))  # kolik jich tam je
print '-'*80
print soup('h1')  # všechny nadpisy h1 v seznamu
print '-'*80        

titleTag = soup.html.head.title
print titleTag
print titleTag.string
print '-'*80        

Za použití mocného ale složitého modulu re můžeme vyhledávat třebas všechny odkazy s atributem href, které začínají na "http".


href= soup('a',  {'href' : re.compile('http.*')})
for odkaz in href:
    print odkaz['href']

S těmito rozparsovanými řetězci se pak pracuje již daleko pohodlněji než s 'data', kde to máme všechno na jedné hromadě. Daleko více ke všem možným funkcím BeautifulSoup hledejte na jeho HomePage :-). Umí toho opravdu hodně.

×Odeslání článku na tvůj Kindle

Zadej svůj Kindle e-mail a my ti pošleme článek na tvůj Kindle.
Musíš mít povolený příjem obsahu do svého Kindle z naší e-mailové adresy kindle@programujte.com.

E-mailová adresa (např. novak@kindle.com):

TIP: Pokud chceš dostávat naše články každé ráno do svého Kindle, koukni do sekce Články do Kindle.

3 názory  —  3 nové  
Hlasování bylo ukončeno    
0 hlasů
Google
(fotka) Pavel KosinaAutor programuje v Pythonu.
Web    

Nové články

Obrázek ke článku Ericsson ConsumerLab Report: rozšířená realita je další úrovní gamingu

Ericsson ConsumerLab Report: rozšířená realita je další úrovní gamingu

Celkem 66 % uživatelů zajímá rozšířená realita v oblasti gamingu. Mezi nimi je i 35 % těch, kteří jinak hry nehrají.
Pro téměř 50 % respondentů by bylo zajímavé zapojení virtuální objektů do reálného světa. Objekty by zůstaly tam, kde je při hře „umístili“.
Až 43 % uživatelů láká využití rozšířené reality ve sportu

Reklama
Reklama
Obrázek ke článku Instalace nejnovější verze Apache 2.4, PHP 7.3, MariaDB 10.3 a Memcached na Windows 10

Instalace nejnovější verze Apache 2.4, PHP 7.3, MariaDB 10.3 a Memcached na Windows 10

Buďte při vývoji efektivní! Pomocí tohoto návodu během chvíle vytvoříte ze svého počítače lokální webový server. Vyzbrojíte jej vším, co budete při práci potřebovat: Apache 2.4, PHP 7.3, MariaDB 10.3 a Memcached. Je to plná polní pro webové vývojáře s Windows 10. Navíc poradíme, jak mít na localhostu více projektů pomocí VirtualHost.

Obrázek ke článku Do poskytovatele managed hostingových služeb vshosting~ vstupují zahraniční investoři

Do poskytovatele managed hostingových služeb vshosting~ vstupují zahraniční investoři

Po více než roce jednání do vshosting~ vstoupili 3 investiční skupiny z Německa: Pecunalta, BrainWeb Investment a Quines Capital. Jde o investiční skupiny, které mají účast na projektech jako PlusServer (největší managed provider v Německu a jeden z největších v Evropě), PLESK, cPanel, CloudLinux, GoDaddy (největší světový hostingový poskytovatel z USA), či Acronis, pomohou vshosting~ v jeho plánované mezinárodní expanzi na další zahraniční trhy. Ve vshosting~ nyní drží 75% podíl, zbylých 25 % zůstává zakladatelům vshosting~, kterými jsou Damir Špoljarič (CEO) a Jan Martinů (CTO).

Obrázek ke článku Posuňte své znalosti IT na výrazně vyšší úroveň

Posuňte své znalosti IT na výrazně vyšší úroveň

Zájem o IT odborníky je v současnosti v tuzemsku i v zahraničí enormní a vedení firem si moc dobře uvědomuje, jak těžké je získat ty správné. I přesto, že je odborníků na trhu dlouhodobý nedostatek, stále platí, že část z nich je - a bude - placena výrazně lépe než ti ostatní. Proč tedy nebýt mezi nimi?

Hostujeme u Českého hostingu       ISSN 1801-1586       ⇡ Nahoru Webtea.cz logo © 20032019 Programujte.com
Zasadilo a pěstuje Webtea.cz, šéfredaktor Lukáš Churý