Automatická aktualizace dat

~ Anonymní uživatel
~ 38 příspěvků

28. 9. 2015 #1

Lze pomocí PHP naprogramovat, aby se data na webu automaticky měnily na základě jiného webu? Konkrétně například výsledky zápasů.

Nahlásit jako SPAM

IP: 77.92.206.–

z_moravec

~ Redaktor

Posthunter

Kultivátor příspěvků ve starém fóru – 9.65 % z celku

28. 9. 2015 #2

#1 Shark
Jde, ale bez bližších informací asi bližší info nedostaneš. Mimo PHP budeš potřebovat ještě cron nebo něco podobného.

Nahlásit jako SPAM

IP: 46.39.183.–

Spát lze čtyři hodiny denně, spát déle je nemístný přepych.
Thomas Alva Edison

Kit+15

Guru

28. 9. 2015 #3

#1 Shark
Jde to celkem snadno i bez cronu, když místo hodin použiješ aktivitu uživatele a trochu ji omezíš, aby ses druhého serveru neptal častěji než třeba 1× za minutu. Výsledky si uložíš do nějaké cache a pokud se někdo dotáže dřív, pošleš mu data z té cache.

Pokud to však chceš jen pro sebe, cache i omezování můžeš klidně vypustit a udělat si z toho jednoduchou proxy. Přesně tak sleduji tohle (a nejen tohle) fórum. Skript si natáhne stránku z webu, vybere z ní jen to, co mě zajímá a to zobrazí.

Nahlásit jako SPAM

IP: 2a00:1028:83a0:37a6:207:e...–

Komentáře označují místa, kde programátor udělal chybu nebo něco nedodělal.

Shark

~ Anonymní uživatel
~ 38 příspěvků

28. 9. 2015 #4

Díky moc! Zatím PHP neumím, ale předtím než s ním začnu, jsem chtěl vědět, jestli tohle půjde udělat.

Nahlásit jako SPAM

IP: 77.92.206.–

JacobCZ0

Newbie

29. 9. 2015 #5

Jen tak pro zajímavost, máš v plánu data tahat z webu s API nebo použít nějaký HTML crawler? (Nevíš-li na co se tě ptám, nevěš hlavu, jednou na to příjdeš! Případně se zeptej, rád vysvětlím)

Nahlásit jako SPAM

IP: 37.188.139.–

Shark

~ Anonymní uživatel
~ 38 příspěvků

29. 9. 2015 #6

#5 JacobCZ
Jak jsem psal na PHP se teprve chystám vrhnout, takže nevím o co se jedná. Za vysvětlení bych byl moc rád. :)

Nahlásit jako SPAM

IP: 77.92.206.–

JacobCZ0

Newbie

29. 9. 2015 #7

#6 Shark
Pokud chceš získávat data z nějakého webu, máš vpodstatě dvě možnosti jak to udělat:

1) Pomocí tzv. API, neboli Aplikačního Rozhraní. To funguje tak, že se webu zeptáš na informace které potřebuješ a web ti to více čí méně ochotně sdělí. Bohužel né všechny weby API mají. Pro více info o API se podívej například na Wikipedii, myslím, že je to tam vysvětlené docela pěkně, i když dost odborně.

2) Pomocí WebCrawleru/HTMLCrawleru. To je knihovna (existuje jich spousta pro různé jazyky včetně PHP), která dokáže pomocí bežných CSS selektorů (class, ID, tag apod.) najít specifický element ve stránce (případně seznam několika stejných) a vypsat je. To se používá v případě, že web ze kterého potřebuješ tahat data API nemá.

Nahlásit jako SPAM

IP: 37.188.139.–

Shark

~ Anonymní uživatel
~ 38 příspěvků

30. 9. 2015 #8

#7 JacobCZ
A dá se nějak lehce zjistit, který web API má a který ne?

Nahlásit jako SPAM

IP: 46.135.72.–

JacobCZ0

Newbie

30. 9. 2015 #9

#8 Shark
Pokud API má, tak to bude mít někde napsané (příklad), pokud to nikde napsané není, tak API pravděpodobně nemá vůbec, nebo je jen interní a zvenčí nepřístupné, tedy pro tebe jakoby neexistující.

Nahlásit jako SPAM

IP: 81.19.4.–

peter

~ Anonymní uživatel
~ 4035 příspěvků

30. 9. 2015 #10

Zajímavé

Zobrazit udělené karmy příspěvku od uživatelů

▲

Kit +

Jde to pomerne jednoduse. Resi se tak kurzovni listek nebo vysledky fotbaloveho zapasu, pocasi, treba. Nepritel poskytuje txt soubor a ty si jej stahnes a prepises na html pomoci php. Soubor ulozis a kontrolujes si jeho stari. Kdyz je moc stary, vygenerujes novy. Netahas to online, protoze bys zatezoval jejich server, coz se jim libit urcite nebude.

Nahlásit jako SPAM

IP: 2001:718:2601:258:d1a:222...–

JacobCZ0

Newbie

30. 9. 2015 #11

-1

Mimo téma

▲

Kit -

#10 peter
"Nepřítel"???

Proč přepisovat na HTML? Stačí soubor například jednou za hodinu stáhnout a v původním TXT formátu si ho uložit k sobě (případně převést do JSONu). Potom si buď nastavit CRON, aby každou např. hodinu kontroloval, jestli je soubor stále aktuální (např. pomocí MD5 checksumu) a případně ho aktualizoval. Místo cronu se to dá invokovat i aktivitou uživatele a omezit akci tak, aby ji se spustila max. 1x za hodinu, vždy na popud uživatele.

Nahlásit jako SPAM

IP: 81.19.4.–

Kit+15

Guru

30. 9. 2015 #12

#11 JacobCZ
Jak chceš získat MD5 bez stažení celého souboru?

Nahlásit jako SPAM

IP: 2a00:1028:83a0:37a6:207:e...–

Komentáře označují místa, kde programátor udělal chybu nebo něco nedodělal.

JacobCZ0

Newbie

30. 9. 2015 #13

Zajímavé

▲

Kit +

#12 Kit
To mě nenapadlo... Ale vzhledem k velikosti takového souboru, co bude až na výjimky v řádech kilobajtů by neměl být problém takový soubor prostě jednou za hodinu stáhnout a checksum ani nekontrolovat...

Nahlásit jako SPAM

IP: 81.19.4.–

peter

~ Anonymní uživatel
~ 4035 příspěvků

30. 9. 2015 #14

Ten kurzovni listek zobrazujes jako html. Tudiz logicky je lepsi to hned preformatovat.. Samozrejme to zalezi na konkretni aplikaci, ktera cesta bude vyhodnejsi.
Kontrolovat cronem kazdou hodinu od 22 do 6 rano, kdy neni na strance temer nikdo, no nevim :) Mozna vyhledavace tam slidi.

Nahlásit jako SPAM

IP: 2001:718:2601:258:d1a:222...–

JacobCZ0

Newbie

30. 9. 2015 #15

#14 peter
Formátovat to rovnou do HTML je s prominutím stupidní. Co když budeš potřebovat vytáhnout jen jeden údaj? Nebo třeba něco spočítat. Budeš to potom lovit v tom HTMLku? A co je špatného na tom, stahovat data i když uživatel není aktivní? Vadí to snad něčemu?

Nahlásit jako SPAM

IP: 37.188.225.–

Kit+15

Guru

30. 9. 2015 #16

#15 JacobCZ
Ono je stupidní i to ukládání do textového souboru. Je lepší to rovnou rozparsovat a uložit do databáze.

Kurzovní lístky se stejně mění jen kolem 14:30, ale Shark se ptal za výsledky zápasů. Takový výsledek se aktualizuje jen jednou...

Nahlásit jako SPAM

IP: 2a00:1028:83a0:37a6:207:e...–

Komentáře označují místa, kde programátor udělal chybu nebo něco nedodělal.

JacobCZ0

Newbie

30. 9. 2015 #17

#16 Kit
O databázi zatím nepadlo ani slovo, tak jsem se toho držel, ale je jasné, že databáze je nejlepší variantou, už jen kvůli historii apod.

Nahlásit jako SPAM

IP: 37.188.225.–

peter

~ Anonymní uživatel
~ 4035 příspěvků

1. 10. 2015 #18

#16 Kit
Vysledky zapasu se aktualizuji, kdyz je nekdo aktualizuje :) Cili, treba prvni den se hraji 3 zapasy, druhy 0, protoze prselo, treti 5. A ted zalezi, ve kterem case to kdo aktualizuje.
V pripade skolniho turnaje se to zmakne vsechno behem dne a aktualizuje se to vetsinou hned po zapase.
Takze ten interval je tez podle okolnosti.

#15 JacobCZ
Ale obvykle se nehraje po tme, takze po 22 to nema obvykle zmysl, pokud nejde o olympiadu nebo cizi zeme s posunem casu.

Nahlásit jako SPAM

IP: 2001:718:2601:258:503e:b0...–

Kit+15

Guru

1. 10. 2015 #19

Zajímavé

▲

JacobCZ +

#18 peter
Řekněme, že při prvním pokusu nejsou žádná data. Každý dotaz je přeposlán na server. Aktualizace se však stále nekoná, protože není co aktualizovat. Zápas je dohrán, jsou zveřejněny výsledky. Některý klient si obnoví stránku, data jsou zjištěna jako nová a uložena do cache řekněme s platností 10 minut. Všichni ostatní klienti dostanou tuto informaci. Po deseti minutách však už není platná a proto je znovu odeslán požadavek na server.

Nahlásit jako SPAM

IP: 2a00:1028:83a0:37a6:207:e...–

Komentáře označují místa, kde programátor udělal chybu nebo něco nedodělal.

Shark

~ Anonymní uživatel
~ 38 příspěvků

1. 10. 2015 #20

Zajímavé

▲

JacobCZ +

Díky moc za všechny názory! Až PHP nějak zmáknu, pustím se na to :).

Nahlásit jako SPAM

IP: 77.92.206.–

Shark

~ Anonymní uživatel
~ 38 příspěvků

31. 10. 2015 #21

Ahoj. Tak něco jsem si zjistil z PHP apod. a vrátil jsem se k tomuto problému. Chtěl bych se prosím ještě na něco zeptat.

Pomocí file_get_contects získám obsah stránky, ale teď jsem se zasekl na tom získat pouze potřebné data. Ať hledám jak hledám, bohužel na to pořád nemůžu přijít, tak abych to nějak rozumně chápal. Mohl by mě prosím někdo trochu nasměrovat? Díky :)

Nahlásit jako SPAM

IP: 77.92.206.–

JacobCZ0

Newbie

31. 10. 2015 #22

#21 Shark
Jak už zde bylo zmíněno, záleží, v jakém formátu data získáváš... Můžeš sem dát odkaz na stránku, odkud se je snažíš stáhnout?

Nahlásit jako SPAM

IP: 94.112.33.–

Kit+15

Guru

31. 10. 2015 #23

#21 Shark
Zřejmě jsi stáhl HTML a chceš z něj vyzobnout jen některá data. Používají se na to různé parsery od regulárních výrazů až po DOM nebo SAX. Záleží na tobě, který si vybereš.

Nahlásit jako SPAM

IP: 2a00:1028:83a0:37a6:207:e...–

Komentáře označují místa, kde programátor udělal chybu nebo něco nedodělal.

JacobCZ0

Newbie

31. 10. 2015 #24

#23 Kit
Hmm, nemyslíš, že je na něj tohle až moc odborný? Třeba to někde našel v XML nebo JSONu... Počkejme než pošle odkaz...

Nahlásit jako SPAM

IP: 94.112.33.–

Shark

~ Anonymní uživatel
~ 38 příspěvků

31. 10. 2015 #25

Upřímně, ještě nevím z kama to budu tahat, zatím jsem pouze hledal na netu způsob jak to vyřešit. Ale dejme tomu, že to budu tahat výsledky NHL z nějaké stránky s výsledkama, např. onlajny, nebo něco podobného.

Nahlásit jako SPAM

IP: 77.92.206.–

Shark

~ Anonymní uživatel
~ 38 příspěvků

31. 10. 2015 #26

Ale v podstatě to vystihl Kit. Stáhnu html do proměnné, popřípadě z něj udělám .txt, ale jak z něj vybrat to hlavní už bohužel nevím.

Nahlásit jako SPAM

IP: 77.92.206.–

JacobCZ0

Newbie

31. 10. 2015 #27

#26 Shark
Tak v tom případě si vygoogli něco ve stylu "PHP DOM Crawler" a nauč se s tím. DOM Crawler je vpodstatě nástroj, pomocí kterého můžeš procházet strukturu stránky pomocí DOM selektorů (jako v CSS nebo JS: element.třída.další-třída#id) a následně z takto vybraných elementů tahat data jako text apod...

Nahlásit jako SPAM

IP: 94.112.33.–

Kit+15

Guru

31. 10. 2015 #28

#26 Shark
Fajn. Teď si přečti i tu druhou větu, kterou jsem napsal.

Nahlásit jako SPAM

IP: 2a00:1028:83a0:37a6:207:e...–

Komentáře označují místa, kde programátor udělal chybu nebo něco nedodělal.

JacobCZ0

Newbie

31. 10. 2015 #29

-1

Mimo téma

▲

ondrej39 -

#28 Kit
Vysvětloval jsem, co je to DOM Crawler... Baví tě to?

Nahlásit jako SPAM

IP: 94.112.33.–

Shark

~ Anonymní uživatel
~ 38 příspěvků

31. 10. 2015 #30

Díky moc ! :)

Nahlásit jako SPAM

IP: 77.92.206.–

Kit+15

Guru

31. 10. 2015 #31

#29 JacobCZ
Popravdě neznám žádný "DOM Crawler", proto tohle slovní spojení nepoužívám.

Nahlásit jako SPAM

IP: 2a00:1028:83a0:37a6:207:e...–

Komentáře označují místa, kde programátor udělal chybu nebo něco nedodělal.

JacobCZ0

Newbie

31. 10. 2015 #32

#31 Kit
Tak tady jeden máš... https://github.com/symfony/dom-crawler

Nahlásit jako SPAM

IP: 94.112.33.–

Kit+15

Guru

31. 10. 2015 #33

Nerozhodně

▲

JacobCZ -

ondrej39 +

#32 JacobCZ
5000 řádek kvůli prkotině, která je v čistém PHP na 5 řádek? To se zase někdo urval z řetězu.

Nahlásit jako SPAM

IP: 2a00:1028:83a0:37a6:207:e...–

Komentáře označují místa, kde programátor udělal chybu nebo něco nedodělal.

chita 0

Newbie

1. 11. 2015 #34

Zajímavé

▲

Kit +

JacobCZ +

Já používám třídu Simple HTML DOM Parser http://simplehtmldom.sourceforge.net. Naprostá spokojenost.

Nahlásit jako SPAM

IP: 77.104.198.–

Shark

~ Anonymní uživatel
~ 38 příspěvků

1. 11. 2015 #35

#34 chita

Na ten jsem se díval a přišel mi také nejlepší. Jen bych se chtěl zeptat, to mám stažené soubory dát do složky a po té už mohu používat?

Nahlásit jako SPAM

IP: 46.135.41.–

Shark

~ Anonymní uživatel
~ 38 příspěvků

1. 11. 2015 #36

#34 chita

Na ten jsem se díval a přišel mi také nejlepší. Jen bych se chtěl zeptat, to mám stažené soubory dát do složky a po té už mohu používat?

Nahlásit jako SPAM

IP: 46.135.41.–

JacobCZ0

Newbie

1. 11. 2015 #37

#36 Shark
Ano, stáhneš, vhodně naicluduješ a můžeš používat...

Nahlásit jako SPAM

IP: 94.112.33.–

Kit+15

Guru

1. 11. 2015 #38

#37 JacobCZ
To s tím includováním stažených souborů nemyslíš doufám vážně že?

Nahlásit jako SPAM

IP: 2a00:1028:83a0:37a6:207:e...–

Komentáře označují místa, kde programátor udělal chybu nebo něco nedodělal.

JacobCZ0

Newbie

1. 11. 2015 #39

#38 Kit
Co ty máš proboha zase za problém?

Nahlásit jako SPAM

IP: 94.112.33.–

Kit+15

Guru

1. 11. 2015 #40

#39 JacobCZ
Nemůžeš přece cizí stažené soubory jen tak includovat. Mohl by v nich být ukrytý nějaký PHP skript.

Nahlásit jako SPAM

IP: 2a00:1028:83a0:37a6:207:e...–

Komentáře označují místa, kde programátor udělal chybu nebo něco nedodělal.

JacobCZ0

Newbie

1. 11. 2015 #41

#40 Kit
Mluvím pochopitelně o souborech toho DOM Parseru...

Nahlásit jako SPAM

IP: 94.112.33.–

Kit+15

Guru

1. 11. 2015 #42

#41 JacobCZ
Je to dost podivná knihovna. Používá globální konstanty, nedodržuje konvence, nepoužívá standardní parser - PHP má několik rychlých parserů napsaných v C. Delší soubory bych v tom tedy parsovat nechtěl - stejně je to omezeno jen do 600 kB.

Nahlásit jako SPAM

IP: 2a00:1028:83a0:37a6:207:e...–

Komentáře označují místa, kde programátor udělal chybu nebo něco nedodělal.

JacobCZ0

Newbie

1. 11. 2015 #43

#42 Kit
Well, já ji nenavrhoval... Jen jsem reagoval na dotaz, jak ji použít...

Nahlásit jako SPAM

IP: 94.112.33.–

Kit+15

Guru

1. 11. 2015 #44

Zajímavé

▲

JacobCZ +

#43 JacobCZ
Zde je ukázka, jak si mohu z této stránky vytáhnout pouze tvoji odpověď pomocí standardních nástrojů PHP:

<?php
$url = "http://programujte.com/forum/vlakno/29963-automaticka-aktualizace-dat/";
$content = file_get_contents($url);
$dom = new \DOMDocument('1.0');
@$dom->loadHTML($content);
$hodnoceni = $dom->getElementById('hodnoceni_popis_206080');
echo $hodnoceni->textContent;

Žádná externí knihovna není potřebná.

Nahlásit jako SPAM

IP: 2a00:1028:83a0:37a6:207:e...–

Komentáře označují místa, kde programátor udělal chybu nebo něco nedodělal.

JacobCZ0

Newbie

1. 11. 2015 #45

#44 Kit
Wait, PHP má vlastní DOM parser? Tak to jsem netušil...

Nahlásit jako SPAM

IP: 94.112.33.–

Kit+15

Guru

1. 11. 2015 #46

#45 JacobCZ
PHP má několik DOM parserů, ale pro parsování HTML se mi osvědčil DomDocument. Má své mouchy, například má problém se zpracováním stránky, na které chybí definice charset. Taková stránka se mu pak musí trochu "předžvýkat". Pro většinu stránek však funguje bezvadně.

Nahlásit jako SPAM

IP: 2a00:1028:83a0:37a6:207:e...–

Komentáře označují místa, kde programátor udělal chybu nebo něco nedodělal.

peter

~ Anonymní uživatel
~ 4035 příspěvků

2. 11. 2015 #47

Tak, ono se to da orezat i pres strpos, kdyz je kod duveryhodny. To delam tady
http://www.slu.cz/fpf/cz/veda - vpravo Nase publikace, vede na stranku http://nora.fpf.slu.cz/…rame-fpf.php, ktera kopiruje vzhled z predchozi :) Je to sice trochu na houby, ale aspon to klonuje realnou stranku a nemusim to porad opravovat.

Nahlásit jako SPAM

IP: 2001:718:2601:26c:94f2:37...–

peter

~ Anonymní uživatel
~ 4035 příspěvků

2. 11. 2015 #48

	$data = file_get_contents('http://www.slu.cz/fpf/cz/veda');

	$pos = strpos($data,'<div class="main_content">') + 26;
	$pos = strpos($data,'</div>',$pos) + 6;
	$pos = strpos($data,'</div>',$pos) + 6;	// h1buttons
	$pos = strpos($data,'</div>',$pos) + 6;	// main_navpathbar
	$pos = strpos($data,'<div',$pos) + 4;	// div body
	$pos = strpos($data,'>',$pos) + 1;	// body start
	$posstart = $pos;
	$pos = strpos($data,'</div><!-- //main_content -->',$pos);	// body near end
	$posend = $pos;

	$data = substr_replace($data, $insert_code . "\n".'</div>',$posstart,$posend-$posstart);

Nahlásit jako SPAM

IP: 2001:718:2601:26c:94f2:37...–

← Zpět na seznam vláken ← Zpět do Fóra