Analýza a optimalizace procesů 2
 x   TIP: Přetáhni ikonu na hlavní panel pro připnutí webu
Reklama
Reklama

Analýza a optimalizace procesů 2Analýza a optimalizace procesů 2

 

Analýza a optimalizace procesů 2

Google       Google       17. 11. 2014       5 003×

V minulém díle jste se seznámili s přínosy a základními postupy analýzy a následné optimalizace procesů. V tomto díle se seznámíte s první fází popsaného postupu - předzpracováním dat. Ukážeme si také rozdíl mezi předzpracováním dat statistickými metodami a předzpracováním dat inteligentním systémem.

Reklama
Reklama

Úprava dat před zpracováním

Předpokladem pro úspěšnou analýzu procesu je dostatečně velký a kvalitní soubor dat o procesu. V průmyslovém prostředí však nemusí být jednoduché takový soubor získat, data mohou být zatížena náhodnými chybami, mohou být neúplná nebo naopak obsahovat údaje, které nemají na sledovaný výsledek žádný vliv. Výhodou inteligentního systému je, že si zpravidla dokáže poradit i s takovými daty, předběžné statistické předzpracování však může kvalitu analýzy výrazně zlepšit.

Neúplná data

Pokud některá data chybí, máme několik možností:

  • Vyloučit vzory (řádky) s chybějícími hodnotami ze zpracování. Nevýhodou je, že čím je soubor menší, tím méně přesná může být analýza.
  • Vyloučit proměnné (sloupce) s velkým procentem chybějících hodnot ze zpracování. Nesmíme ovšem vyloučit proměnnou, která má podstatný vliv na výsledek
  • Některé veličiny je možné definovat pomocí pravidel. Například kvalita se nemusí zapisovat ručně ale podmínit splněním určitých požadavků, dodavatelsko-odběratelských vztahů a pod. Tuto funkci probereme v některém z příštích dílů.

Demo verze systému ELTAV společnosti VÍTKOVICE IT SOLUTIONS a.s., popsaný v minulém díle, vyloučí neúplné vzory (řádky) automaticky při čtení souboru. Aby nedocházelo ke zhoršení výsledků analýzy vlivem malého počtu vzorů, poskytuje následující možnost:

Ve funkci Data Kontrola se vám po potvrzení zprávy o kvalitě souboru zobrazí dialog, ve kterém vidíte úplnost dat v procentech. V případě, že některé veličiny nemají potřebný počet údajů, můžete zrušit jejich označení myší nebo zadat požadované procento do okénka dole a tlačítkem Vybrat veličiny označit automaticky. Tlačítkem Čti sloupce pak přečtete pouze zvolené sloupce a tlačítkem Ulož nový soubor uložíte pod jiným jménem. Tím se počet vzorů může zvýšit za cenu menšího počtu sledovaných veličin.

Nadbytečná data

Vstupní veličiny, na kterých závisí výsledek, můžete vybrat pomocí vlastního uvážení ve funkci Data Vstupy. Systém ELTAV si však dokáže bez problémů s nevýznamnými daty poradit, pokud ovšem je soubor dostatečně rozsáhlý. Pro dobrou analýzu však žádná významná veličina v datovém souboru nesmí chybět.

Funkční hodnota

Za funkční hodnotu se v ELTAV považuje poslední hodnota, neurčíte-li jinou proměnnou pomocí funkce Data Výstup.

Příklad 1

V příkladu v adresáři sigm_sum jsou data obsahující logickou závislost neekvivalence, která je pravdivá, pokud logická hodnota x není rovna logické hodnotě y. Tuto funkci budeme používat často, protože je na ní možno ukázat výhody inteligentních metod proti klasickým. Funkci popisuje tabulka:

x y ~(x ≡ y)
0 0 0
0 1 1
1 0 1
1 1 0

Abychom předvedli výše popsané okolnosti, obsahují data v adresáři dále nevýznamnou náhodnou proměnnou rnd.

Při ověření postupujte podle následujícího postupu.

  1. Start ELTAV
  2. Parametry, Otevři, adresář sigm_sum, ctrl.txt
  3. Data, Soubor, data.txt, OK
  4. Data, Vstupy, zrušte rnd, Potvrzení
  5. Zpracování, Učení, - učení proběhlo v pořádku, rnd není relevantní proměnná - OK, OK
  6. Data, Vstupy, vraťte rnd a zrušte y, Potvrzení
  7. Zpracování, Učení - výsledky učení jsou chybné, y je významná veličina a nelze ji odstranit - OK, OK
  8. Parametry, Konec

Statistické předzpracování dat

Statistika není v systému ELTAV primární, přesto některé statistické metody budeme pro úpravu dat před vlastním učením potřebovat.

Základní statistické charakteristiky

Základní statistické informace o souboru získáte v demo verzi ELTAV pomocí funkce Analýza, Přehled. Systém uloží do zvoleného základní statistické charakteristiky každé proměnné.

Příklad 2

  1. Start ELTAV
  2. Data, Soubor, adresář data_sig2, data.txt, Otevřít, OK
  3. Analýza, Přehled, stat.txt, Uložit OK
  4. Parametry, Konec
  5. Zobrazte v poznámkovém bloku stat.txt v adresáři data_sig2.

Význam statistických charakteristik

Uvedené hodnoty charakterizují základní charakteristické vlastnosti vstupních dat a popisují statistické závislosti mezi položkami.

  • výběrový průměr – průměrná hodnota položky v celém souboru
  • výběrová směrodatná odchylka – charakterizuje, jak daleko jsou hodnoty rozloženy kolem průměrné hodnoty, závisí na měřítku veličiny
  • výběrový variační koeficient – velikost odchylky vzhledem k průměrné hodnotě, nezávisí na měřítku
  • výběrový korelační koeficient – určuje těsnost závislosti mezi dvěma veličinami, nezávisí na měřítku
  • výběrový regresní koeficient – určuje skutečnou závislost mezi veličinami, závisí na měřítku

Výběrové statistické charakteristiky závisí na počtu vzorů, čím větší je počet měření, tím vyšší je pravděpodobnost, že získáme přesnější údaje. Podrobnější popis a způsob výpočtu najdete např. v publikaci Rektorys, K. a spolupracovníci.: Přehled užité matematiky.
Údaje v popsaném souboru poskytují pouze rámcové hodnocení testovacích dat a já tuto funkci používám velmi zřídka. Zde ji uvádím pro pochopení dvou následujících funkcí, které naopak mají při přípravě dat pro analýzu nezastupitelnou roli.

Korelace

Korelační koeficient nám říká, jak těsná je závislost mezi proměnnými – blízký 1 znamená přímou úměrnost, blízký -1 znamená nepřímou úměrnost, blízký 0 znamená, že mezi proměnnými není lineární závislost (ale může být nelineární).

Pro správnou interpretaci analýzy je žádoucí, aby analyzovaný soubor neobsahoval žádné dvě veličiny, mezi nimiž je těsná závislost. Například by nebylo vhodné, aby se ve vstupních datech vyskytovala jak naměřená váha v kilogramech, tak stejná veličina v tunách apod. Systém by se přesto naučil z předloženého souboru závislosti, ale vliv vzájemně závislých proměnných by mezi tyto proměnné náhodně rozdělil. To by sice matematicky bylo správné ale pro uživatele matoucí.

Korelaci zjistíme ve funkci Analýza, Korelace. Objeví se dialog, v horní části si můžeme vybrat veličiny, které nás zajímají, a dole minimální hodnotu korelace, která nás zajímá. Po stisknutí tlačítka Potvrzení se zobrazí přehled korelačních koeficientů nebo hlášení Proměnná je nezávislá (tj. korelační koeficient je menší než zadaná hodnota).

Příklad 3:

Vyzkoušejte na předchozích datech a přesvědčte se, že datový soubor v adresáři data_sig2 neobsahuje korelace větší než 0.50 a můžete jej použít pro analýzu.

Odlehlá data

Při velkém počtu měření je možné očekávat, že se 99,7 % hodnot bude pohybovat v rozmezí ± 3  směrodatné odchylky od průměru (podrobnější informace naleznete např. při vyhledání řetězce 3 sigma v Google). Pokud některý údaj tyto hodnoty přesahuje, je nutno ověřit, zda se nejedná o chybu měření. Nelze to však udělat mechanicky, někdy takový nestandardní jev může analýzu naopak zhodnotit.

V systému ELTAV se dají nalézt a vyřadit odlehlá data ve funkci Analýza Odchylky (ukázka v příkladu 5). Vzhledem k potenciálním chybám měření se může zadat i jiný koeficient než 3, pokud je to nezbytně nutné.

Závěrečné příklady

Příklad 4 - nalezení relevantních dat

V adresáři velky_sum jsou připravena data, která ukazují schopnost neuronové sítě najít si samostatně významná data a ignorovat nevýznamná.

V daném případě jsem vstupní hodnoty pro neekvivalenci zatížil 8 dalšími náhodnými proměnnými od -100 do 100. Systém se přesto závislost naučí a dokáže indikovat významné proměnné x a y a 8 nevýznamných náhodných proměnných.

Přesvědčte se podle následujícího postupu:

  1. Start ELTAV
  2. Parametry, Otevři, adresář velky_sum, ctrl.txt, Otevřít
  3. Data, Soubor, Data.txt, Otevřít, OK
  4. Zpracování, Učení - zobrazí se informace, ze souboru se naučil přesně závislost - OK, výpočet je s přesností na tisícíny - OK
  5. Analýza, Zavislosti, Reálná data, Potvrzení, - systém našel významné veličiny x a y, šum je nevýznamný - Návrat
  6. Parametry, Konec

 Příklad 5 - Odlehlá data

V adresáři redukce jsou opět data s logickou funkcí neekvivalence, avšak pro ilustraci obsahují 4 odlehlá data a 4 chyby logické. Ukážeme, že statistickou metodou nalezneme jen odlehlá data ale pomocí inteligentní analýzy také logické chyby.

Postupujte podle následujících bodů:

  1. Start ELTAV
  2. Parametry, Otevři, adresář redukce, ctrl.txt, Otevřít
  3. Data, Soubor, Data.txt, Otevřít, OK
  4. Analýza, Odchylky, Potvrzení - zobrazí se 4 nevyhovující položky - OK
  5. V seznamu vidíme příčinu - pro ekvivalenci mohou být jen logické hodnoty 0, 1. Hodnota 10 je evidentně mimo předpokládané hranice.
  6. Návrat, OK - chybné hodnoty jsou odstraněny, ale zbývají logické chyby, které nebyly nalezeny
  7. Zpracování, Učení - učení odhalilo 4 problémy - OK, OK
  8. Analýza, Nekonzistence, Potvrzení, OK - zobrazí výsledky
  9. Dvojklik myší např. na první řádek - vidíme logickou chybu, neekvivalence má být nepravdivá, viz tabulka výše
  10. OK, Vyber vše (tlačítko dole), Návrat, OK - logické chyby odstraněny
  11. Zpracování, Učení - učení přesné - OK, OK
  12. Parametry, Konec

Cvičení

  1. Zkopírujte si datový soubor v adresáři data_sig2 pod jiným jménem, načtěte do Excelu, zkopírujte sloupec y za něj pod názvem y1 (před neekv) a uložte zpět jako datový soubor oddělený tabulátory. Nalezněte koleraci mezi y a y1.Vyzkoušejte učení a analýzu a přesvědčte se, že výsledky jsou matoucí. (Při čtení dat se objeví informace, že vybrané položky neodpovídají datovému souboru, potvrďte OK.)
  2. Zkopírujte si datový soubor v adresáři redukce pod jiným jménem, přepište si v Excelu nebo poznámkovém bloku některé údaje chybně a chyby nalezněte podle výše uvedeného postupu.

Závěr

V dnešním článku jsme si ukázali, jak připravit datový soubor pro učení vztahů mezi jednotlivými veličinami procesu. Zároveň jsme již ukázali některé výhody inteligentního systému. Příště již budeme využívat připravené soubory k počítačovému učení.

Literatura

Rektorys. K. a spolupracovníci.(1973) Přehled užité matematiky, Praha, ISBN 80-7196-180-9

×Odeslání článku na tvůj Kindle

Zadej svůj Kindle e-mail a my ti pošleme článek na tvůj Kindle.
Musíš mít povolený příjem obsahu do svého Kindle z naší e-mailové adresy kindle@programujte.com.

E-mailová adresa (např. novak@kindle.com):

TIP: Pokud chceš dostávat naše články každé ráno do svého Kindle, koukni do sekce Články do Kindle.

Hlasování bylo ukončeno    
3 hlasy
Google
(fotka) Jaroslav TedaAutor se zabývá vývojem inteligentních softwarových systémů ve firmě OPTI Intelligent s.r.o. Publikoval na seminářích včetně mezinárodních i zahraničních a v časopise Automatizace.
Web    

Nové články

Obrázek ke článku NEWTON Media prohledá 200  milionů mediálních zpráv během sekund díky Cisco UCS

NEWTON Media prohledá 200 milionů mediálních zpráv během sekund díky Cisco UCS

Česká společnost NEWTON Media provozuje největší archiv mediálních zpráv ve střední a východní Evropě. Mezi její zákazníky patří například ministerstva, evropské instituce nebo komerční firmy z nejrůznějších oborů. NEWTON Media rozesílá svým zákazníkům každý den monitoring médií podle nastavených klíčových slov a nabízí online službu, kde lze vyhledat mediální výstupy v plném znění od roku 1996.

Reklama
Reklama
Obrázek ke článku Delphi 10.1.2 (Berlin Update 2) – na co se můžeme těšit

Delphi 10.1.2 (Berlin Update 2) – na co se můžeme těšit

Touto roční dobou, kdy je zem pokrytá barevným listím a prsty křehnou v mrazivých ránech, se obvykle těšíme na zbrusu novou verzi RAD Studia. Letos si však ale budeme muset počkat na Godzillu a Linux až do jara. Vezměme tedy za vděk alespoň updatem 2 a jelikož dle vyjádření pánů z Embarcadero se budou nové věci objevovat průběžně, pojďme se na to tedy podívat.

Obrázek ke článku Konference: Moderní datová centra pro byznys dneška se koná už 24. 11.

Konference: Moderní datová centra pro byznys dneška se koná už 24. 11.

Stále rostoucí zájem o cloudové služby i maximální důraz na pružnost, spolehlivost a bezpečnost IT vedou k výrazným inovacím v datových centrech. V infrastruktuře datových center hraje stále významnější roli software a stále častěji se lze setkat s hybridními přístupy k jejich budování i provozu.

Obrázek ke článku Konference: Mobilní technologie mají velký potenciál pro byznys

Konference: Mobilní technologie mají velký potenciál pro byznys

Firmy by se podle analytiků společnosti Gartner měly  rychle přizpůsobit skutečnosti, že mobilní technologie už zdaleka nejsou horkou novinkou, ale standardní součástí byznysu. I přesto - nebo možná právě proto - tu nabízejí velký potenciál. Kde tedy jsou ty největší příležitosti? I tomu se bude věnovat již čtvrtý ročník úspěšné konference Mobilní řešení pro business.

loadingtransparent (function() { var po = document.createElement('script'); po.type = 'text/javascript'; po.async = true; po.src = 'https://apis.google.com/js/plusone.js'; var s = document.getElementsByTagName('script')[0]; s.parentNode.insertBefore(po, s); })();
Hostujeme u Českého hostingu       ISSN 1801-1586       ⇡ Nahoru Webtea.cz logo © 20032016 Programujte.com
Zasadilo a pěstuje Webtea.cz, šéfredaktor Lukáš Churý