Analýza a optimalizace procesů 2
 x   TIP: Přetáhni ikonu na hlavní panel pro připnutí webu
Reklama

Analýza a optimalizace procesů 2Analýza a optimalizace procesů 2

 

Analýza a optimalizace procesů 2

Google       Google       17. 11. 2014       5 931×

V minulém díle jste se seznámili s přínosy a základními postupy analýzy a následné optimalizace procesů. V tomto díle se seznámíte s první fází popsaného postupu - předzpracováním dat. Ukážeme si také rozdíl mezi předzpracováním dat statistickými metodami a předzpracováním dat inteligentním systémem.

Reklama
Reklama

Úprava dat před zpracováním

Předpokladem pro úspěšnou analýzu procesu je dostatečně velký a kvalitní soubor dat o procesu. V průmyslovém prostředí však nemusí být jednoduché takový soubor získat, data mohou být zatížena náhodnými chybami, mohou být neúplná nebo naopak obsahovat údaje, které nemají na sledovaný výsledek žádný vliv. Výhodou inteligentního systému je, že si zpravidla dokáže poradit i s takovými daty, předběžné statistické předzpracování však může kvalitu analýzy výrazně zlepšit.

Neúplná data

Pokud některá data chybí, máme několik možností:

  • Vyloučit vzory (řádky) s chybějícími hodnotami ze zpracování. Nevýhodou je, že čím je soubor menší, tím méně přesná může být analýza.
  • Vyloučit proměnné (sloupce) s velkým procentem chybějících hodnot ze zpracování. Nesmíme ovšem vyloučit proměnnou, která má podstatný vliv na výsledek
  • Některé veličiny je možné definovat pomocí pravidel. Například kvalita se nemusí zapisovat ručně ale podmínit splněním určitých požadavků, dodavatelsko-odběratelských vztahů a pod. Tuto funkci probereme v některém z příštích dílů.

Demo verze systému ELTAV společnosti VÍTKOVICE IT SOLUTIONS a.s., popsaný v minulém díle, vyloučí neúplné vzory (řádky) automaticky při čtení souboru. Aby nedocházelo ke zhoršení výsledků analýzy vlivem malého počtu vzorů, poskytuje následující možnost:

Ve funkci Data Kontrola se vám po potvrzení zprávy o kvalitě souboru zobrazí dialog, ve kterém vidíte úplnost dat v procentech. V případě, že některé veličiny nemají potřebný počet údajů, můžete zrušit jejich označení myší nebo zadat požadované procento do okénka dole a tlačítkem Vybrat veličiny označit automaticky. Tlačítkem Čti sloupce pak přečtete pouze zvolené sloupce a tlačítkem Ulož nový soubor uložíte pod jiným jménem. Tím se počet vzorů může zvýšit za cenu menšího počtu sledovaných veličin.

Nadbytečná data

Vstupní veličiny, na kterých závisí výsledek, můžete vybrat pomocí vlastního uvážení ve funkci Data Vstupy. Systém ELTAV si však dokáže bez problémů s nevýznamnými daty poradit, pokud ovšem je soubor dostatečně rozsáhlý. Pro dobrou analýzu však žádná významná veličina v datovém souboru nesmí chybět.

Funkční hodnota

Za funkční hodnotu se v ELTAV považuje poslední hodnota, neurčíte-li jinou proměnnou pomocí funkce Data Výstup.

Příklad 1

V příkladu v adresáři sigm_sum jsou data obsahující logickou závislost neekvivalence, která je pravdivá, pokud logická hodnota x není rovna logické hodnotě y. Tuto funkci budeme používat často, protože je na ní možno ukázat výhody inteligentních metod proti klasickým. Funkci popisuje tabulka:

x y ~(x ≡ y)
0 0 0
0 1 1
1 0 1
1 1 0

Abychom předvedli výše popsané okolnosti, obsahují data v adresáři dále nevýznamnou náhodnou proměnnou rnd.

Při ověření postupujte podle následujícího postupu.

  1. Start ELTAV
  2. Parametry, Otevři, adresář sigm_sum, ctrl.txt
  3. Data, Soubor, data.txt, OK
  4. Data, Vstupy, zrušte rnd, Potvrzení
  5. Zpracování, Učení, - učení proběhlo v pořádku, rnd není relevantní proměnná - OK, OK
  6. Data, Vstupy, vraťte rnd a zrušte y, Potvrzení
  7. Zpracování, Učení - výsledky učení jsou chybné, y je významná veličina a nelze ji odstranit - OK, OK
  8. Parametry, Konec

Statistické předzpracování dat

Statistika není v systému ELTAV primární, přesto některé statistické metody budeme pro úpravu dat před vlastním učením potřebovat.

Základní statistické charakteristiky

Základní statistické informace o souboru získáte v demo verzi ELTAV pomocí funkce Analýza, Přehled. Systém uloží do zvoleného základní statistické charakteristiky každé proměnné.

Příklad 2

  1. Start ELTAV
  2. Data, Soubor, adresář data_sig2, data.txt, Otevřít, OK
  3. Analýza, Přehled, stat.txt, Uložit OK
  4. Parametry, Konec
  5. Zobrazte v poznámkovém bloku stat.txt v adresáři data_sig2.

Význam statistických charakteristik

Uvedené hodnoty charakterizují základní charakteristické vlastnosti vstupních dat a popisují statistické závislosti mezi položkami.

  • výběrový průměr – průměrná hodnota položky v celém souboru
  • výběrová směrodatná odchylka – charakterizuje, jak daleko jsou hodnoty rozloženy kolem průměrné hodnoty, závisí na měřítku veličiny
  • výběrový variační koeficient – velikost odchylky vzhledem k průměrné hodnotě, nezávisí na měřítku
  • výběrový korelační koeficient – určuje těsnost závislosti mezi dvěma veličinami, nezávisí na měřítku
  • výběrový regresní koeficient – určuje skutečnou závislost mezi veličinami, závisí na měřítku

Výběrové statistické charakteristiky závisí na počtu vzorů, čím větší je počet měření, tím vyšší je pravděpodobnost, že získáme přesnější údaje. Podrobnější popis a způsob výpočtu najdete např. v publikaci Rektorys, K. a spolupracovníci.: Přehled užité matematiky.
Údaje v popsaném souboru poskytují pouze rámcové hodnocení testovacích dat a já tuto funkci používám velmi zřídka. Zde ji uvádím pro pochopení dvou následujících funkcí, které naopak mají při přípravě dat pro analýzu nezastupitelnou roli.

Korelace

Korelační koeficient nám říká, jak těsná je závislost mezi proměnnými – blízký 1 znamená přímou úměrnost, blízký -1 znamená nepřímou úměrnost, blízký 0 znamená, že mezi proměnnými není lineární závislost (ale může být nelineární).

Pro správnou interpretaci analýzy je žádoucí, aby analyzovaný soubor neobsahoval žádné dvě veličiny, mezi nimiž je těsná závislost. Například by nebylo vhodné, aby se ve vstupních datech vyskytovala jak naměřená váha v kilogramech, tak stejná veličina v tunách apod. Systém by se přesto naučil z předloženého souboru závislosti, ale vliv vzájemně závislých proměnných by mezi tyto proměnné náhodně rozdělil. To by sice matematicky bylo správné ale pro uživatele matoucí.

Korelaci zjistíme ve funkci Analýza, Korelace. Objeví se dialog, v horní části si můžeme vybrat veličiny, které nás zajímají, a dole minimální hodnotu korelace, která nás zajímá. Po stisknutí tlačítka Potvrzení se zobrazí přehled korelačních koeficientů nebo hlášení Proměnná je nezávislá (tj. korelační koeficient je menší než zadaná hodnota).

Příklad 3:

Vyzkoušejte na předchozích datech a přesvědčte se, že datový soubor v adresáři data_sig2 neobsahuje korelace větší než 0.50 a můžete jej použít pro analýzu.

Odlehlá data

Při velkém počtu měření je možné očekávat, že se 99,7 % hodnot bude pohybovat v rozmezí ± 3  směrodatné odchylky od průměru (podrobnější informace naleznete např. při vyhledání řetězce 3 sigma v Google). Pokud některý údaj tyto hodnoty přesahuje, je nutno ověřit, zda se nejedná o chybu měření. Nelze to však udělat mechanicky, někdy takový nestandardní jev může analýzu naopak zhodnotit.

V systému ELTAV se dají nalézt a vyřadit odlehlá data ve funkci Analýza Odchylky (ukázka v příkladu 5). Vzhledem k potenciálním chybám měření se může zadat i jiný koeficient než 3, pokud je to nezbytně nutné.

Závěrečné příklady

Příklad 4 - nalezení relevantních dat

V adresáři velky_sum jsou připravena data, která ukazují schopnost neuronové sítě najít si samostatně významná data a ignorovat nevýznamná.

V daném případě jsem vstupní hodnoty pro neekvivalenci zatížil 8 dalšími náhodnými proměnnými od -100 do 100. Systém se přesto závislost naučí a dokáže indikovat významné proměnné x a y a 8 nevýznamných náhodných proměnných.

Přesvědčte se podle následujícího postupu:

  1. Start ELTAV
  2. Parametry, Otevři, adresář velky_sum, ctrl.txt, Otevřít
  3. Data, Soubor, Data.txt, Otevřít, OK
  4. Zpracování, Učení - zobrazí se informace, ze souboru se naučil přesně závislost - OK, výpočet je s přesností na tisícíny - OK
  5. Analýza, Zavislosti, Reálná data, Potvrzení, - systém našel významné veličiny x a y, šum je nevýznamný - Návrat
  6. Parametry, Konec

 Příklad 5 - Odlehlá data

V adresáři redukce jsou opět data s logickou funkcí neekvivalence, avšak pro ilustraci obsahují 4 odlehlá data a 4 chyby logické. Ukážeme, že statistickou metodou nalezneme jen odlehlá data ale pomocí inteligentní analýzy také logické chyby.

Postupujte podle následujících bodů:

  1. Start ELTAV
  2. Parametry, Otevři, adresář redukce, ctrl.txt, Otevřít
  3. Data, Soubor, Data.txt, Otevřít, OK
  4. Analýza, Odchylky, Potvrzení - zobrazí se 4 nevyhovující položky - OK
  5. V seznamu vidíme příčinu - pro ekvivalenci mohou být jen logické hodnoty 0, 1. Hodnota 10 je evidentně mimo předpokládané hranice.
  6. Návrat, OK - chybné hodnoty jsou odstraněny, ale zbývají logické chyby, které nebyly nalezeny
  7. Zpracování, Učení - učení odhalilo 4 problémy - OK, OK
  8. Analýza, Nekonzistence, Potvrzení, OK - zobrazí výsledky
  9. Dvojklik myší např. na první řádek - vidíme logickou chybu, neekvivalence má být nepravdivá, viz tabulka výše
  10. OK, Vyber vše (tlačítko dole), Návrat, OK - logické chyby odstraněny
  11. Zpracování, Učení - učení přesné - OK, OK
  12. Parametry, Konec

Cvičení

  1. Zkopírujte si datový soubor v adresáři data_sig2 pod jiným jménem, načtěte do Excelu, zkopírujte sloupec y za něj pod názvem y1 (před neekv) a uložte zpět jako datový soubor oddělený tabulátory. Nalezněte koleraci mezi y a y1.Vyzkoušejte učení a analýzu a přesvědčte se, že výsledky jsou matoucí. (Při čtení dat se objeví informace, že vybrané položky neodpovídají datovému souboru, potvrďte OK.)
  2. Zkopírujte si datový soubor v adresáři redukce pod jiným jménem, přepište si v Excelu nebo poznámkovém bloku některé údaje chybně a chyby nalezněte podle výše uvedeného postupu.

Závěr

V dnešním článku jsme si ukázali, jak připravit datový soubor pro učení vztahů mezi jednotlivými veličinami procesu. Zároveň jsme již ukázali některé výhody inteligentního systému. Příště již budeme využívat připravené soubory k počítačovému učení.

Literatura

Rektorys. K. a spolupracovníci.(1973) Přehled užité matematiky, Praha, ISBN 80-7196-180-9

×Odeslání článku na tvůj Kindle

Zadej svůj Kindle e-mail a my ti pošleme článek na tvůj Kindle.
Musíš mít povolený příjem obsahu do svého Kindle z naší e-mailové adresy kindle@programujte.com.

E-mailová adresa (např. novak@kindle.com):

TIP: Pokud chceš dostávat naše články každé ráno do svého Kindle, koukni do sekce Články do Kindle.

Hlasování bylo ukončeno    
3 hlasy
Google
(fotka) Jaroslav TedaAutor se zabývá vývojem inteligentních softwarových systémů ve firmě OPTI Intelligent s.r.o. Publikoval na seminářích včetně mezinárodních i zahraničních a v časopise Automatizace.
Web    

Nové články

Reklama
Reklama
Obrázek ke článku Blockchain & Bitcoin konference

Blockchain & Bitcoin konference

V pátek 19. 5. 2017 se v pražském konferenčním centru Andel’s konala Blockchain & Bitcoin konference. Řada odborníků a podnikatelů v oboru blockchainu a kryptoměn představila možnosti budoucího směřování tohoto oboru. Speakeři většinou rusky mluvící provenience prezentovali řešení svých firem založená na technologii blockchainu.

Obrázek ke článku Malware KONNI se úspěšně skrýval 3 roky. Odhalil ho bezpečnostní tým Cisco Talos

Malware KONNI se úspěšně skrýval 3 roky. Odhalil ho bezpečnostní tým Cisco Talos

Bezpečnostní tým Cisco Talos odhalil celkem 4 kampaně dosud neobjeveného malwaru, který dostal jméno KONNI. Ten se dokázal úspěšně maskovat od roku 2014. Zpočátku se malware zaměřoval pouze na krádeže citlivých dat. Za 3 roky se ale několikrát vyvinul, přičemž jeho současná verze umožňuje útočníkovi z infikovaného počítače nejenom krást data, ale i mapovat stisky na klávesnici, pořizovat screenshoty obrazovky či v zařízení spustit libovolný kód. Pro odvedení pozornosti oběti zasílali útočníci v příloze také obrázek, zprávu a výhružkách severokorejského režimu či kontakty na členy mezinárodních organizací.

loadingtransparent (function() { var po = document.createElement('script'); po.type = 'text/javascript'; po.async = true; po.src = 'https://apis.google.com/js/plusone.js'; var s = document.getElementsByTagName('script')[0]; s.parentNode.insertBefore(po, s); })();
Hostujeme u Českého hostingu       ISSN 1801-1586       ⇡ Nahoru Webtea.cz logo © 20032017 Programujte.com
Zasadilo a pěstuje Webtea.cz, šéfredaktor Lukáš Churý