V minulém díle jste se seznámili s přínosy a základními postupy analýzy a následné optimalizace procesů. V tomto díle se seznámíte s první fází popsaného postupu - předzpracováním dat. Ukážeme si také rozdíl mezi předzpracováním dat statistickými metodami a předzpracováním dat inteligentním systémem.
Nové verze programů
Některé systémy, které jsem popisoval ve svých článcích na tomto serveru, jsou již nyní zastaralé a proto byly nahrazeny novějšími.
Systém ELTAV, o kterém se zmiňuje tento článek, již není od roku 2015 dodáván. Aktuální informace obsahují mé další články na tomto serveru www.programujte.com v sekci Ostatní. Systém ELTAV byl nahrazen modernějším systémem Opthan, jehož popis je v článku Analyza a optimalizace - Software 2 a Analyza a optimalizace - Software 3 na serveru www.programujte.com a stáhnout si jej můžete stejně jako další programy naší firmy na adrese http://optiintelligent.cz.
Popis systému ELTAV je zachován pro čtenáře, kteří si jej stáhli již dříve.
Úprava dat před zpracováním
Předpokladem pro úspěšnou analýzu procesu je dostatečně velký a kvalitní soubor dat o procesu. V průmyslovém prostředí však nemusí být jednoduché takový soubor získat, data mohou být zatížena náhodnými chybami, mohou být neúplná nebo naopak obsahovat údaje, které nemají na sledovaný výsledek žádný vliv. Výhodou inteligentního systému je, že si zpravidla dokáže poradit i s takovými daty, předběžné statistické předzpracování však může kvalitu analýzy výrazně zlepšit.
Neúplná data
Pokud některá data chybí, máme několik možností:
- Vyloučit vzory (řádky) s chybějícími hodnotami ze zpracování. Nevýhodou je, že čím je soubor menší, tím méně přesná může být analýza.
- Vyloučit proměnné (sloupce) s velkým procentem chybějících hodnot ze zpracování. Nesmíme ovšem vyloučit proměnnou, která má podstatný vliv na výsledek
- Některé veličiny je možné definovat pomocí pravidel. Například kvalita se nemusí zapisovat ručně ale podmínit splněním určitých požadavků, dodavatelsko-odběratelských vztahů a pod. Tuto funkci probereme v některém z příštích dílů.
Demo verze systému ELTAV, popsaný v minulém díle, vyloučí neúplné vzory (řádky) automaticky při čtení souboru. Aby nedocházelo ke zhoršení výsledků analýzy vlivem malého počtu vzorů, poskytuje následující možnost:
Ve funkci Data Kontrola se vám po potvrzení zprávy o kvalitě souboru zobrazí dialog, ve kterém vidíte úplnost dat v procentech. V případě, že některé veličiny nemají potřebný počet údajů, můžete zrušit jejich označení myší nebo zadat požadované procento do okénka dole a tlačítkem Vybrat veličiny označit automaticky. Tlačítkem Čti sloupce pak přečtete pouze zvolené sloupce a tlačítkem Ulož nový soubor uložíte pod jiným jménem. Tím se počet vzorů může zvýšit za cenu menšího počtu sledovaných veličin.
Nadbytečná data
Vstupní veličiny, na kterých závisí výsledek, můžete vybrat pomocí vlastního uvážení ve funkci Data Vstupy. Systém ELTAV si však dokáže bez problémů s nevýznamnými daty poradit, pokud ovšem je soubor dostatečně rozsáhlý. Pro dobrou analýzu však žádná významná veličina v datovém souboru nesmí chybět.
Funkční hodnota
Za funkční hodnotu se v ELTAV považuje poslední hodnota, neurčíte-li jinou proměnnou pomocí funkce Data Výstup.
Příklad 1
V příkladu v adresáři sigm_sum jsou data obsahující logickou závislost neekvivalence, která je pravdivá, pokud logická hodnota x není rovna logické hodnotě y. Tuto funkci budeme používat často, protože je na ní možno ukázat výhody inteligentních metod proti klasickým. Funkci popisuje tabulka:
x | y | ~(x ≡ y) |
0 | 0 | 0 |
0 | 1 | 1 |
1 | 0 | 1 |
1 | 1 | 0 |
Abychom předvedli výše popsané okolnosti, obsahují data v adresáři dále nevýznamnou náhodnou proměnnou rnd.
Při ověření postupujte podle následujícího postupu.
- Start ELTAV
- Parametry, Otevři, adresář sigm_sum, ctrl.txt
- Data, Soubor, data.txt, OK
- Data, Vstupy, zrušte rnd, Potvrzení
- Zpracování, Učení, - učení proběhlo v pořádku, rnd není relevantní proměnná - OK, OK
- Data, Vstupy, vraťte rnd a zrušte y, Potvrzení
- Zpracování, Učení - výsledky učení jsou chybné, y je významná veličina a nelze ji odstranit - OK, OK
- Parametry, Konec
Statistické předzpracování dat
Statistika není v systému ELTAV primární, přesto některé statistické metody budeme pro úpravu dat před vlastním učením potřebovat.
Základní statistické charakteristiky
Základní statistické informace o souboru získáte v demo verzi ELTAV pomocí funkce Analýza, Přehled. Systém uloží do zvoleného základní statistické charakteristiky každé proměnné.
Příklad 2
- Start ELTAV
- Data, Soubor, adresář data_sig2, data.txt, Otevřít, OK
- Analýza, Přehled, stat.txt, Uložit OK
- Parametry, Konec
- Zobrazte v poznámkovém bloku stat.txt v adresáři data_sig2.
Význam statistických charakteristik
Uvedené hodnoty charakterizují základní charakteristické vlastnosti vstupních dat a popisují statistické závislosti mezi položkami.
- výběrový průměr – průměrná hodnota položky v celém souboru
- výběrová směrodatná odchylka – charakterizuje, jak daleko jsou hodnoty rozloženy kolem průměrné hodnoty, závisí na měřítku veličiny
- výběrový variační koeficient – velikost odchylky vzhledem k průměrné hodnotě, nezávisí na měřítku
- výběrový korelační koeficient – určuje těsnost závislosti mezi dvěma veličinami, nezávisí na měřítku
- výběrový regresní koeficient – určuje skutečnou závislost mezi veličinami, závisí na měřítku
Výběrové statistické charakteristiky závisí na počtu vzorů, čím větší je počet měření, tím vyšší je pravděpodobnost, že získáme přesnější údaje. Podrobnější popis a způsob výpočtu najdete např. v publikaci Rektorys, K. a spolupracovníci.: Přehled užité matematiky.
Údaje v popsaném souboru poskytují pouze rámcové hodnocení testovacích dat a já tuto funkci používám velmi zřídka. Zde ji uvádím pro pochopení dvou následujících funkcí, které naopak mají při přípravě dat pro analýzu nezastupitelnou roli.
Korelace
Korelační koeficient nám říká, jak těsná je závislost mezi proměnnými – blízký 1 znamená přímou úměrnost, blízký -1 znamená nepřímou úměrnost, blízký 0 znamená, že mezi proměnnými není lineární závislost (ale může být nelineární).
Pro správnou interpretaci analýzy je žádoucí, aby analyzovaný soubor neobsahoval žádné dvě veličiny, mezi nimiž je těsná závislost. Například by nebylo vhodné, aby se ve vstupních datech vyskytovala jak naměřená váha v kilogramech, tak stejná veličina v tunách apod. Systém by se přesto naučil z předloženého souboru závislosti, ale vliv vzájemně závislých proměnných by mezi tyto proměnné náhodně rozdělil. To by sice matematicky bylo správné ale pro uživatele matoucí.
Korelaci zjistíme ve funkci Analýza, Korelace. Objeví se dialog, v horní části si můžeme vybrat veličiny, které nás zajímají, a dole minimální hodnotu korelace, která nás zajímá. Po stisknutí tlačítka Potvrzení se zobrazí přehled korelačních koeficientů nebo hlášení Proměnná je nezávislá (tj. korelační koeficient je menší než zadaná hodnota).
Příklad 3:
Vyzkoušejte na předchozích datech a přesvědčte se, že datový soubor v adresáři data_sig2 neobsahuje korelace větší než 0.50 a můžete jej použít pro analýzu.
Odlehlá data
Při velkém počtu měření je možné očekávat, že se 99,7 % hodnot bude pohybovat v rozmezí ± 3 směrodatné odchylky od průměru (podrobnější informace naleznete např. při vyhledání řetězce 3 sigma v Google). Pokud některý údaj tyto hodnoty přesahuje, je nutno ověřit, zda se nejedná o chybu měření. Nelze to však udělat mechanicky, někdy takový nestandardní jev může analýzu naopak zhodnotit.
V systému ELTAV se dají nalézt a vyřadit odlehlá data ve funkci Analýza Odchylky (ukázka v příkladu 5). Vzhledem k potenciálním chybám měření se může zadat i jiný koeficient než 3, pokud je to nezbytně nutné.
Závěrečné příklady
Příklad 4 - nalezení relevantních dat
V adresáři velky_sum jsou připravena data, která ukazují schopnost neuronové sítě najít si samostatně významná data a ignorovat nevýznamná.
V daném případě jsem vstupní hodnoty pro neekvivalenci zatížil 8 dalšími náhodnými proměnnými od -100 do 100. Systém se přesto závislost naučí a dokáže indikovat významné proměnné x a y a 8 nevýznamných náhodných proměnných.
Přesvědčte se podle následujícího postupu:
- Start ELTAV
- Parametry, Otevři, adresář velky_sum, ctrl.txt, Otevřít
- Data, Soubor, Data.txt, Otevřít, OK
- Zpracování, Učení - zobrazí se informace, ze souboru se naučil přesně závislost - OK, výpočet je s přesností na tisícíny - OK
- Analýza, Zavislosti, Reálná data, Potvrzení, - systém našel významné veličiny x a y, šum je nevýznamný - Návrat
- Parametry, Konec
Příklad 5 - Odlehlá data
V adresáři redukce jsou opět data s logickou funkcí neekvivalence, avšak pro ilustraci obsahují 4 odlehlá data a 4 chyby logické. Ukážeme, že statistickou metodou nalezneme jen odlehlá data ale pomocí inteligentní analýzy také logické chyby.
Postupujte podle následujících bodů:
- Start ELTAV
- Parametry, Otevři, adresář redukce, ctrl.txt, Otevřít
- Data, Soubor, Data.txt, Otevřít, OK
- Analýza, Odchylky, Potvrzení - zobrazí se 4 nevyhovující položky - OK
- V seznamu vidíme příčinu - pro ekvivalenci mohou být jen logické hodnoty 0, 1. Hodnota 10 je evidentně mimo předpokládané hranice.
- Návrat, OK - chybné hodnoty jsou odstraněny, ale zbývají logické chyby, které nebyly nalezeny
- Zpracování, Učení - učení odhalilo 4 problémy - OK, OK
- Analýza, Nekonzistence, Potvrzení, OK - zobrazí výsledky
- Dvojklik myší např. na první řádek - vidíme logickou chybu, neekvivalence má být nepravdivá, viz tabulka výše
- OK, Vyber vše (tlačítko dole), Návrat, OK - logické chyby odstraněny
- Zpracování, Učení - učení přesné - OK, OK
- Parametry, Konec
Cvičení
- Zkopírujte si datový soubor v adresáři data_sig2 pod jiným jménem, načtěte do Excelu, zkopírujte sloupec y za něj pod názvem y1 (před neekv) a uložte zpět jako datový soubor oddělený tabulátory. Nalezněte koleraci mezi y a y1.Vyzkoušejte učení a analýzu a přesvědčte se, že výsledky jsou matoucí. (Při čtení dat se objeví informace, že vybrané položky neodpovídají datovému souboru, potvrďte OK.)
- Zkopírujte si datový soubor v adresáři redukce pod jiným jménem, přepište si v Excelu nebo poznámkovém bloku některé údaje chybně a chyby nalezněte podle výše uvedeného postupu.
Závěr
V dnešním článku jsme si ukázali, jak připravit datový soubor pro učení vztahů mezi jednotlivými veličinami procesu. Zároveň jsme již ukázali některé výhody inteligentního systému. Příště již budeme využívat připravené soubory k počítačovému učení.
Literatura
Rektorys. K. a spolupracovníci.(1973) Přehled užité matematiky, Praha, ISBN 80-7196-180-9