Analýza a optimalizace procesů 2
 x   TIP: Přetáhni ikonu na hlavní panel pro připnutí webu
Reklama
Reklama

Analýza a optimalizace procesů 2Analýza a optimalizace procesů 2

 
Hledat
Moderní platforma pro vytvoření vašeho nového webu – Wix.com.
Nyní už můžete mít web zdarma.
Vybavení pro Laser Game
Spuštěn Filmový magazín
Laser Game Brno

Analýza a optimalizace procesů 2

Google       Google       17. 11. 2014       6 944×

V minulém díle jste se seznámili s přínosy a základními postupy analýzy a následné optimalizace procesů. V tomto díle se seznámíte s první fází popsaného postupu - předzpracováním dat. Ukážeme si také rozdíl mezi předzpracováním dat statistickými metodami a předzpracováním dat inteligentním systémem.

Reklama
Reklama

Nové verze programů

Některé systémy, které jsem popisoval ve svých článcích na tomto serveru, jsou již nyní zastaralé a proto byly nahrazeny novějšími.

Systém ELTAV, o kterém se zmiňuje tento článek, již není od roku 2015 dodáván. Aktuální informace obsahují mé další články na tomto serveru www.programujte.com v sekci Ostatní. Systém ELTAV byl nahrazen modernějším systémem Opthan, jehož popis je v článku Analyza a optimalizace - Software 2 a Analyza a optimalizace - Software 3 na serveru www.programujte.com a stáhnout si jej můžete stejně jako další programy naší firmy na adrese http://optiintelligent.cz.

Popis systému ELTAV je zachován pro čtenáře, kteří si jej stáhli již dříve.

Úprava dat před zpracováním

Předpokladem pro úspěšnou analýzu procesu je dostatečně velký a kvalitní soubor dat o procesu. V průmyslovém prostředí však nemusí být jednoduché takový soubor získat, data mohou být zatížena náhodnými chybami, mohou být neúplná nebo naopak obsahovat údaje, které nemají na sledovaný výsledek žádný vliv. Výhodou inteligentního systému je, že si zpravidla dokáže poradit i s takovými daty, předběžné statistické předzpracování však může kvalitu analýzy výrazně zlepšit.

Neúplná data

Pokud některá data chybí, máme několik možností:

  • Vyloučit vzory (řádky) s chybějícími hodnotami ze zpracování. Nevýhodou je, že čím je soubor menší, tím méně přesná může být analýza.
  • Vyloučit proměnné (sloupce) s velkým procentem chybějících hodnot ze zpracování. Nesmíme ovšem vyloučit proměnnou, která má podstatný vliv na výsledek
  • Některé veličiny je možné definovat pomocí pravidel. Například kvalita se nemusí zapisovat ručně ale podmínit splněním určitých požadavků, dodavatelsko-odběratelských vztahů a pod. Tuto funkci probereme v některém z příštích dílů.

Demo verze systému ELTAV, popsaný v minulém díle, vyloučí neúplné vzory (řádky) automaticky při čtení souboru. Aby nedocházelo ke zhoršení výsledků analýzy vlivem malého počtu vzorů, poskytuje následující možnost:

Ve funkci Data Kontrola se vám po potvrzení zprávy o kvalitě souboru zobrazí dialog, ve kterém vidíte úplnost dat v procentech. V případě, že některé veličiny nemají potřebný počet údajů, můžete zrušit jejich označení myší nebo zadat požadované procento do okénka dole a tlačítkem Vybrat veličiny označit automaticky. Tlačítkem Čti sloupce pak přečtete pouze zvolené sloupce a tlačítkem Ulož nový soubor uložíte pod jiným jménem. Tím se počet vzorů může zvýšit za cenu menšího počtu sledovaných veličin.

Nadbytečná data

Vstupní veličiny, na kterých závisí výsledek, můžete vybrat pomocí vlastního uvážení ve funkci Data Vstupy. Systém ELTAV si však dokáže bez problémů s nevýznamnými daty poradit, pokud ovšem je soubor dostatečně rozsáhlý. Pro dobrou analýzu však žádná významná veličina v datovém souboru nesmí chybět.

Funkční hodnota

Za funkční hodnotu se v ELTAV považuje poslední hodnota, neurčíte-li jinou proměnnou pomocí funkce Data Výstup.

Příklad 1

V příkladu v adresáři sigm_sum jsou data obsahující logickou závislost neekvivalence, která je pravdivá, pokud logická hodnota x není rovna logické hodnotě y. Tuto funkci budeme používat často, protože je na ní možno ukázat výhody inteligentních metod proti klasickým. Funkci popisuje tabulka:

x y ~(x ≡ y)
0 0 0
0 1 1
1 0 1
1 1 0

Abychom předvedli výše popsané okolnosti, obsahují data v adresáři dále nevýznamnou náhodnou proměnnou rnd.

Při ověření postupujte podle následujícího postupu.

  1. Start ELTAV
  2. Parametry, Otevři, adresář sigm_sum, ctrl.txt
  3. Data, Soubor, data.txt, OK
  4. Data, Vstupy, zrušte rnd, Potvrzení
  5. Zpracování, Učení, - učení proběhlo v pořádku, rnd není relevantní proměnná - OK, OK
  6. Data, Vstupy, vraťte rnd a zrušte y, Potvrzení
  7. Zpracování, Učení - výsledky učení jsou chybné, y je významná veličina a nelze ji odstranit - OK, OK
  8. Parametry, Konec

Statistické předzpracování dat

Statistika není v systému ELTAV primární, přesto některé statistické metody budeme pro úpravu dat před vlastním učením potřebovat.

Základní statistické charakteristiky

Základní statistické informace o souboru získáte v demo verzi ELTAV pomocí funkce Analýza, Přehled. Systém uloží do zvoleného základní statistické charakteristiky každé proměnné.

Příklad 2

  1. Start ELTAV
  2. Data, Soubor, adresář data_sig2, data.txt, Otevřít, OK
  3. Analýza, Přehled, stat.txt, Uložit OK
  4. Parametry, Konec
  5. Zobrazte v poznámkovém bloku stat.txt v adresáři data_sig2.

Význam statistických charakteristik

Uvedené hodnoty charakterizují základní charakteristické vlastnosti vstupních dat a popisují statistické závislosti mezi položkami.

  • výběrový průměr – průměrná hodnota položky v celém souboru
  • výběrová směrodatná odchylka – charakterizuje, jak daleko jsou hodnoty rozloženy kolem průměrné hodnoty, závisí na měřítku veličiny
  • výběrový variační koeficient – velikost odchylky vzhledem k průměrné hodnotě, nezávisí na měřítku
  • výběrový korelační koeficient – určuje těsnost závislosti mezi dvěma veličinami, nezávisí na měřítku
  • výběrový regresní koeficient – určuje skutečnou závislost mezi veličinami, závisí na měřítku

Výběrové statistické charakteristiky závisí na počtu vzorů, čím větší je počet měření, tím vyšší je pravděpodobnost, že získáme přesnější údaje. Podrobnější popis a způsob výpočtu najdete např. v publikaci Rektorys, K. a spolupracovníci.: Přehled užité matematiky.
Údaje v popsaném souboru poskytují pouze rámcové hodnocení testovacích dat a já tuto funkci používám velmi zřídka. Zde ji uvádím pro pochopení dvou následujících funkcí, které naopak mají při přípravě dat pro analýzu nezastupitelnou roli.

Korelace

Korelační koeficient nám říká, jak těsná je závislost mezi proměnnými – blízký 1 znamená přímou úměrnost, blízký -1 znamená nepřímou úměrnost, blízký 0 znamená, že mezi proměnnými není lineární závislost (ale může být nelineární).

Pro správnou interpretaci analýzy je žádoucí, aby analyzovaný soubor neobsahoval žádné dvě veličiny, mezi nimiž je těsná závislost. Například by nebylo vhodné, aby se ve vstupních datech vyskytovala jak naměřená váha v kilogramech, tak stejná veličina v tunách apod. Systém by se přesto naučil z předloženého souboru závislosti, ale vliv vzájemně závislých proměnných by mezi tyto proměnné náhodně rozdělil. To by sice matematicky bylo správné ale pro uživatele matoucí.

Korelaci zjistíme ve funkci Analýza, Korelace. Objeví se dialog, v horní části si můžeme vybrat veličiny, které nás zajímají, a dole minimální hodnotu korelace, která nás zajímá. Po stisknutí tlačítka Potvrzení se zobrazí přehled korelačních koeficientů nebo hlášení Proměnná je nezávislá (tj. korelační koeficient je menší než zadaná hodnota).

Příklad 3:

Vyzkoušejte na předchozích datech a přesvědčte se, že datový soubor v adresáři data_sig2 neobsahuje korelace větší než 0.50 a můžete jej použít pro analýzu.

Odlehlá data

Při velkém počtu měření je možné očekávat, že se 99,7 % hodnot bude pohybovat v rozmezí ± 3  směrodatné odchylky od průměru (podrobnější informace naleznete např. při vyhledání řetězce 3 sigma v Google). Pokud některý údaj tyto hodnoty přesahuje, je nutno ověřit, zda se nejedná o chybu měření. Nelze to však udělat mechanicky, někdy takový nestandardní jev může analýzu naopak zhodnotit.

V systému ELTAV se dají nalézt a vyřadit odlehlá data ve funkci Analýza Odchylky (ukázka v příkladu 5). Vzhledem k potenciálním chybám měření se může zadat i jiný koeficient než 3, pokud je to nezbytně nutné.

Závěrečné příklady

Příklad 4 - nalezení relevantních dat

V adresáři velky_sum jsou připravena data, která ukazují schopnost neuronové sítě najít si samostatně významná data a ignorovat nevýznamná.

V daném případě jsem vstupní hodnoty pro neekvivalenci zatížil 8 dalšími náhodnými proměnnými od -100 do 100. Systém se přesto závislost naučí a dokáže indikovat významné proměnné x a y a 8 nevýznamných náhodných proměnných.

Přesvědčte se podle následujícího postupu:

  1. Start ELTAV
  2. Parametry, Otevři, adresář velky_sum, ctrl.txt, Otevřít
  3. Data, Soubor, Data.txt, Otevřít, OK
  4. Zpracování, Učení - zobrazí se informace, ze souboru se naučil přesně závislost - OK, výpočet je s přesností na tisícíny - OK
  5. Analýza, Zavislosti, Reálná data, Potvrzení, - systém našel významné veličiny x a y, šum je nevýznamný - Návrat
  6. Parametry, Konec

 Příklad 5 - Odlehlá data

V adresáři redukce jsou opět data s logickou funkcí neekvivalence, avšak pro ilustraci obsahují 4 odlehlá data a 4 chyby logické. Ukážeme, že statistickou metodou nalezneme jen odlehlá data ale pomocí inteligentní analýzy také logické chyby.

Postupujte podle následujících bodů:

  1. Start ELTAV
  2. Parametry, Otevři, adresář redukce, ctrl.txt, Otevřít
  3. Data, Soubor, Data.txt, Otevřít, OK
  4. Analýza, Odchylky, Potvrzení - zobrazí se 4 nevyhovující položky - OK
  5. V seznamu vidíme příčinu - pro ekvivalenci mohou být jen logické hodnoty 0, 1. Hodnota 10 je evidentně mimo předpokládané hranice.
  6. Návrat, OK - chybné hodnoty jsou odstraněny, ale zbývají logické chyby, které nebyly nalezeny
  7. Zpracování, Učení - učení odhalilo 4 problémy - OK, OK
  8. Analýza, Nekonzistence, Potvrzení, OK - zobrazí výsledky
  9. Dvojklik myší např. na první řádek - vidíme logickou chybu, neekvivalence má být nepravdivá, viz tabulka výše
  10. OK, Vyber vše (tlačítko dole), Návrat, OK - logické chyby odstraněny
  11. Zpracování, Učení - učení přesné - OK, OK
  12. Parametry, Konec

Cvičení

  1. Zkopírujte si datový soubor v adresáři data_sig2 pod jiným jménem, načtěte do Excelu, zkopírujte sloupec y za něj pod názvem y1 (před neekv) a uložte zpět jako datový soubor oddělený tabulátory. Nalezněte koleraci mezi y a y1.Vyzkoušejte učení a analýzu a přesvědčte se, že výsledky jsou matoucí. (Při čtení dat se objeví informace, že vybrané položky neodpovídají datovému souboru, potvrďte OK.)
  2. Zkopírujte si datový soubor v adresáři redukce pod jiným jménem, přepište si v Excelu nebo poznámkovém bloku některé údaje chybně a chyby nalezněte podle výše uvedeného postupu.

Závěr

V dnešním článku jsme si ukázali, jak připravit datový soubor pro učení vztahů mezi jednotlivými veličinami procesu. Zároveň jsme již ukázali některé výhody inteligentního systému. Příště již budeme využívat připravené soubory k počítačovému učení.

Literatura

Rektorys. K. a spolupracovníci.(1973) Přehled užité matematiky, Praha, ISBN 80-7196-180-9

×Odeslání článku na tvůj Kindle

Zadej svůj Kindle e-mail a my ti pošleme článek na tvůj Kindle.
Musíš mít povolený příjem obsahu do svého Kindle z naší e-mailové adresy kindle@programujte.com.

E-mailová adresa (např. novak@kindle.com):

TIP: Pokud chceš dostávat naše články každé ráno do svého Kindle, koukni do sekce Články do Kindle.

Hlasování bylo ukončeno    
3 hlasy
Google
(fotka) Jaroslav TedaAutor se zabývá vývojem inteligentních softwarových systémů ve firmě OPTI Intelligent s.r.o. Publikoval na seminářích včetně mezinárodních i zahraničních a v časopise Automatizace.
Web    

Nové články

Obrázek ke článku Datafesťak 2018 bude o datech, byznyse a ženách v IT

Datafesťak 2018 bude o datech, byznyse a ženách v IT

Na Univerzitě v Hradci Králové se 23. a 24. listopadu potkají všichni, které zajímá práce s daty. 

Reálné zkušenosti se zpracováním dat budou v prostorách univerzity prezentovat zástupci obchodních i výrobních firem. Potkat tak bude možné představitelé například z Kiwi.com, Crocodille, Dáme Jídlo nebo společnosti Adler. 

Reklama
Reklama
Obrázek ke článku 4 tipy, jak financovat rozvoj start-upu

4 tipy, jak financovat rozvoj start-upu

Možná jste právě jedním ze zakladatelů či manažerů nadějného start-upu 
a aktuálně řešíte, kde sehnat finanční prostředky pro další rozvoj. Zde pro vás máme čtyři tipy.

Obrázek ke článku Virtuální zrcadla změní způsob nakupování v e-shopech

Virtuální zrcadla změní způsob nakupování v e-shopech

Díky pluginu Virtooal.com získávají zákazníci e-shopů možnost si vyzkoušet produkty ve virtuálním světě. E-shopy, které si plugin nainstalují, výrazně snižují množství vráceného zboží, dělají nákupy zábavnějšími, a tím budují lepší vztahy se svými zákazníky. V současnosti lze Virtooal.com využít zejména pro kosmetiku, brýle a šperky, do budoucna půjde také o módu.

Obrázek ke článku Kariérní postup & vyšší plat: Titul MBA ve sféře IT

Kariérní postup & vyšší plat: Titul MBA ve sféře IT

Působíte jako specialista v oblasti IT a aspirujete na povýšení, příp. řídící pozici? Pak se jistě potýkáte nejen s vysokými nároky (potenciálních) zaměstnavatelů, ale i se silnou konkurencí ze strany ostatních uchazečů. Pokud chcete zvýšit své šance na kariérní posun a lepší plat, měli byste vedle technických dovedností ovládat i ty manažerské. Pomoci vám v tomto ohledu může studium MBA se specializací na management IT.

Hostujeme u Českého hostingu       ISSN 1801-1586       ⇡ Nahoru Webtea.cz logo © 20032018 Programujte.com
Zasadilo a pěstuje Webtea.cz, šéfredaktor Lukáš Churý