× Aktuálně z oboru

Vychází Game Ready ovladače pro Far Cry 5 [ clanek/2018040603-vychazi-game-ready-ovladace-pro-far-cry-5/ ]
Celá zprávička [ clanek/2018040603-vychazi-game-ready-ovladace-pro-far-cry-5/ ]

Bioinformatika I

[ http://programujte.com/profil/1483-lukas-chury/ ]Google [ https://plus.google.com/101446994797551111026?rel=author ]       [ http://programujte.com/profil/75-martin-zak/ ]Google [ :?rel=author ]       5. 3. 2006       25 762×

Historie a zaměření bioinformatiky
Struktura a funkce DNA
Geny, genomy a buňky

Bioinformatika je nová disciplína, kde by se žádný jedinec neměl cítit zahanbený, jestliže něčemu nerozumí a je fascinován vším okolo sebe. Pokud ovšem neznáte základy, nikdy danou problematiku nepochopíte – to je jeden ze hlavních problémů u bioinformatiky. V následujícím seriálu bych vás chtěl s těmito základy seznámit a případně navést, kde byste mohli pokračovat v případných dalších studiích.


Čemu se budeme věnovat v tomto seriálu

  • Historie a zaměření bioinformatiky
  • Základy molekulární biologie – Organizace živé hmoty – Struktura a funkce DNA – Struktura a funkce proteinů evoluce na úrovni genů a proteinů
  • Data v bioinformatice – Generování dat – Běžné formáty dat
  • Veřejná sekvenční data a přístup k nim
  • Analýza sekvence DNA
  • Analýza sekvencí proteinů
  • Strukturní a funkční data
  • Hodnocení a vyhledávání podobností
  • Jiná data a analýzy
  • Práce s expresními daty
  • Štěpení proteinů a hmotnostní spektra
  • Analýza dat v literatuře

Astrologové hledí do hlubin vesmíru svými dalekohledy, biologové pronikají do nitra živých organismů svými mikroskopy. Biochemici zkoumají přírodní látky a hlavně potom jejich metabolismus, enzymy apod.

Už mnoho let ohrožuje naše kaštany obávaný nepřítel, drobný motýlek – Klíněnka Jírovcová.


Její housenky požírají listy stromů a ty hynou.




Vědci zjistili, že napadené stromy, vysílající volání o pomoc, uvolňují chemické látky, kterými přitahují přirozené hmyzí nepřátele klíněnky, aby je parazitů zbavili. Látky, které stromy uvolňují, jsou ve skutečnosti velice složité směsi sloučenin, chemici museli zjistit jednotlivé látky a určit jejich strukturu. Látky ze směsi je nejprve třeba od sebe oddělit – k tomu s výhodou slouží metoda plynové chromatografie. Směs ve formě plynu prochází tenkou, několik desítek metrů dlouho trubičkou (kolonou), kde se látky ze směsi na ni zachycují, zpomalují se a opouštějí trubičku odděleny jedna od druhé.


Za kolonou vstupují látky do iontového zdroje, proudem elektronů se změní na kladně nabité ionty, ty vlétají do trubice s velmi vysokým vakuem, podle toho, jak dlouho trubicí letí, se stanoví hmotnost jednotlivých látek – říká se tomu hmotnostní spektrometr.


Výsledkem je hmotnostní spektrum, pro každou átku má charakteristický průběh. Určování struktury neznámé sloučeniny je jako detektivní pátrání – její hmotnostní spektrum se nejprve srovná se záznamy v knihovnách známých spekter. Ty dnes obsahují již více než 200 tisíc známých látek. Pokud se nové spektrum v knihovnách nenalezne, struktura zkoumané látky se určuje na základě podobnosti se spektry jiných látek. Vraťme se k výzkumu klíněnky jírovcové. Zjistilo se, že některé kaštany napadené housenkami začnou vylučovat látky, které housenkám nedovolí dozrát a ty ještě před zakuklením hynou. Jedním z největších českých chemiků současnosti je profesor Antonín Holý – jeho největšími úspěchy jsou objevy účinných látek proti virům HIV, způsobujících AIDS, virům žloutenky typu B, ale i mnoha jiným. Vyvinout tyto účinné preparáty znamenalo ovšem projít a chemicky anlyzovat desítky tisíc výchozích látek a z nich vybrat ty s požadovaným účinkem na virové protivníky.


Určují geny celý náš osud?

Historie genetiky začala u nás – v brněnském klášteře sv. Tomáše. Jeho řeholníci byli vzdělaní muži – matematici, fyzikové a zeměpisci. Jedním z nich byl Gregor Johan Mendl. Byl to syn rolníka z Jinčic a v 21 letech vstoupil do kláštera v Brně. Ve Vídni Mendl vystudoval přírodní vědy, věnoval se biologii a astronomii. V Brně také založil a vedl pravidelná meteorologická pozorování. Záhy dostal Mendl od opata nový úkol – nalézt vědecké základy šlechtitelství. Na čem je založena podobnost dlouhých pokolení rostlin i živých tvorů, musejí tu přece existovat nějaké zákonitosti. Testy nakonec prováděl na rostlinách hrachu – ten rychle roste, rychleji se projeví výsledky testů. A výsledek tisíců experimentů? Několik prostých vzorců. Hovoří o rodičovských znacích, které převládají i ustupují. Znaky jsou už předem určeny přítomností v pohlavních buňkách – v genech. Slovo gen se ovšem začalo používat až o půl století později,
Univerzita v anglickém Cambridge – kolej nejsvětější trojice. Působila zde řada slavných postav vědy. Newton tu pokusem určil rychlost zvuku, Maxwell objevil magnetické vlnění a Rutheford rozbil atom. Vraťme se ale o několik desítek let zpět – do 50. let. V té době se tu sešla také tato dvojice: britský fyzik Francis Crick a americký biolog James Watson.



Vědci v mnoha koutech světa se tehdy pokoušeli objevit stavbu molekuly, která je nositelkou dědičných informací. Deoxydybonukleové kyseliny.
Schopná chemička Rosalind Franklinová pořizovala rentgenogramy vznikající při průchodu paprsků X krystalickou molekulou DNA. Z nich Watson s Crickem po mnoha neúspěšných pokusech sestavili nakonec tu správnou strukturu obří molekuly DNA – dvojitou šroubovici. 25. dubna 1953 vyšel článek Watsona a Cricka o modelu DNA v prestižním britském přírodovědeckém časopise Nature. Znamenal přelom a zrod řady nových oborů biologie.



Jakou stavbu tedy má molekula života? Je to jakési točité schodiště, vlastní schody tvoří dva typy dvojic bází. Adenin s thyminem a cytosin s guaninem. Zábradlí schodiště představují střídavě spojené molekuly kyseliny fosforečné a cukru deoxyribosy.

A mezitím u nás v Česku…

Studium i celá biologie tehdy procházely reformou, bojovalo se proti morganismu mendelismu, základem byla teze – život je existence bílkovin. Dědičnost držely bílkoviny, nukleonová kyselina neodpovídala ideologicky, protože nemohla být nadřazena bílkovinám, takže se tehdy učilo, že podstatou života jsou kapky živé hmoty. Naštěstí většina měla i chemii, takže lidi byli učení, aby to nebrali přiliš vážně a v tehdejší době už byla k dispozici literatura o nukleových kyselinách, takže jsme se snažili různými způsoby i do tehdejší biologie nekleovou kyselinu zařadit.
Za objev struktury DNA získali roku 1962 Nobelovu cenu jeho autoři – Moris Wilkin, šéf Rosalind Frenklinové a Crick s Watsonem. Franklinová o 4 roky dříve zemřela.




70.léta

Do celosvětového úsilí o prozkoumání struktury a funkce DNA se zapojili také naši vědci.
„Je to tedy již 30 let, co se na mě obrátil můj kolega docent Vondrejs (nevím, zda-li toto jméno mám poznamenané správně &ndah; poznámka autora) z přírodovědecké fakulty Univerzity Karlovy s tím, že bychom se mohli pokusit zvizualizovat nukleovou kyselinu.


Zřejmě to byla první práce, kde byla v České republice zvizualizována nukleová kyselina. Aby byla vidět, je potřeba velkého vakua, které tehdy na fyzice (UK) bylo a umožnilo nukleovou kyselinu pokovit, čímž se stala viditelnou.“
 – Doc. RNDr. Josef Reischig, CSc.





Struktura DNA byla tedy před 50 lety objasněna. Víme, že molekula DNA se skládá ze čtyř takových základních kamenů, jakýchsi písmen dědičné abecedy a že pořadí písmen v sobě skrývá dědičnou informaci velmi podobně jako psaný text v sobě skrývá informaci, kterou si přečteme. Ale stanovit pořadí těch písmen je poměrně obtížné (dnes už je to jen otázka času a peněz), mnohem těžší je vyznat se ve zjištěné sekvenci. Uvědomte si, že lidský genom (lidská dědičná informace) se skládá ze 3 miliard takových písmen. Přečíst si je znamená přečíst knihovnu o mnoha tisících svazcích.

V jádře každé buňky člověka je genom rozdělen do 23 párů chromozómů, kdyby se konce DNA z jednotlivých chromozomů svázaly dohromady, vznikl by útvar cca 2m dlouhý. A pokud by se veškerá DNA ze 100 triliónů buněk lidského těla opět svázala, dosáhla by ke Slunci a zpět více než 600krát.

Člověk
  • 100 triliónů buněk
  • 23 párů chromozomů
  • celková délka DNA v jádře 1,8 metrů
  • 3 300 000 000 písmen v genomu

Bakterie
  • Mycoplasma genitalium
  • 1 chromozom
  • 580 000 písmen v genomu

Rostlina
  • Arabidopsis thaliana
  • 5 chromozomů
  • 115 400 000 písmen v genomu

Kvasinka
  • Saccharomyces cerevisiae
  • 16 chromozomů
  • 11 200 000 písmen v genomu

Hlístice
  • Caenorhabditis elegans
  • 6 chromozomů
  • 97 000 000 písmen v genomu

Moucha (octomilka)
  • Drosophila melanogasther
  • 5 chromozomů
  • 137 000 000 písmen v genomu

Stanovit pořadí písmen je samozřejmě obtížný úkol – úkol pro biochemiky, ale také informatiky. Jak na to?
Představme si, že velká molekula DNA je představována čárou. Nyní můžeme volit 2 strategie:
  • Můžeme si přesně zamapovat, kde daný (třeba jen několik tisíc písmen dlouhý) úsek leží, takový úsek DNA můžeme izolovat a v něm potom stanovit pořadí písmen a postupně takto dál postupovat.

  • Dnes se ovšem používá jiná strategie. Máme molekulu DNA, kterou bez ladu a skladu rozdělíme na několik malých úseků. Tyto úseky čteme každý zvlášť, nevíme odkud z genomu pocházejí, a počítačovými programy je skládáme dohromady. To urychlilo celou metodiku a vedlo k tomu, že dnes známe dědičnou informaci člověka.

V laboratořích se rozštípané úseky DNA nejprve vloží do bakterií, které fungují jako kopírky. Namnoží miliardy těchto úseků a k jejich stavbě se využije písmen označených odlišnými fluorescenčními značkami. Úseky procházejí tenoučkými kapilárami přístroje zvaného sekvenátor. Čím je úsek kratší, tím rychleji projde. Když dorazí ke konci, laser značky přečte a počítač úseky seřadí.

Již dříve však vědci zjistili pořadí písmen v genomu u jiných organismů. Nejprve u bakterie; viz srovnání o něco výše (člověk, bakterie, rostlina, kvasinka, hlístice, moucha). Ze srovnání vyplývá, že člověk má zhruba 5krát více genů než pivovarské kvasinky, 2krát více genů než červ a 2,5krát více než muška octomilka.

„Zjistilo se, že pro nejjednodušší život stačí těch genů 500 a že i člověk jich má něco okolo 30–35 tisíc, takže podstatně méně, než se myslelo před pár lety. Ukazuje se tedy, že život není tak složitý a tak nepochopitelný, jak si lidi před nedávnem mysleli.“ – Jan Pačes, Ph.D.

Vědci spočítali, že lidský genom má více než 3 miliardy písmen, zjistili však také, že více než ohromujících 95 % písmen nekóduje vůbec nic. Největší část z nekódující DNA tvoří opakující se krátké kousky, které do naší DNA vnesly viry již před miliony let. Překvapující je také skutečnost, že některé rostliny mají více genů než člověk. Rozdíly však mezi lidmi jsou velmi malé. Lidé jsou zvláštní biologický druh a jsou si strašně podobní, mnohem podobnější, než jednotlivé myši mezi sebou. Rozbor genomu dále ukázal, že člověk je z genetického hlediska druhem africké opice, nejméně příbuzní jsme s orangutany, avšak nejbližším příbuzným je šimpanz.

Šimpanz
99 % DNA společné s člověkem

Genom šimpanze se zrovna sekvenuje, ale data ještě nejsou k dispozici. Z předběžných výsledků je zřejmé, že průměrní lidé se od sebe liší více než průměrný šimpanz od průměrného člověka. Rozdíly v genomu jednotlivých lidí činí asi 1 promile (0,01 %). Během vývoje jedince se však můžou objevit další rozdíly, které mohou dosáhnout až 1 %.

Lidský genom a genomy jiných organismů máme tedy přečteny. K čemu nám to ale poslouží v praktických aplikacích? Těch je mnoho, například biochip. Na něm jsou natečkovány všechny lidské geny.


Pomocí tohoto biochipu můžeme sledovat, jak se například jednotlivé geny zapínají a vypínají v chorobných stavech, jak se liší chorobná tkáň od tkáně zdravé, které geny přispívají k různým, např. dědičným chorobám, ale i k nádorovému bujení. Dnes tak lze zjistit, zda-li naši potomci budou mít dědičnou chorobu, která se vyskytla v rodině.

V tomto roce se koná Setkání českých bioinformatiků v Telči – od 31. 3. do 1. 4. 2006.

Bioinformatika

Bioinformatika se zabývá metodami pro shromažďování a analýzu rozsáhlých souborů biologických dat. Jak vlastně vznikla?
V minulosti nastal problém – biolog potřeboval aplikaci, která by řešila jeho problémy a ulehčila mu tak významně práci, ale neměl potřebné programátorské znalosti. Na druhé straně programátor tyto znalosti měl, ale nedokázal se orientovat v problémech biologa – nerozuměl problémům biologie, tak nedokázal naprogramovat aplikaci, která by dané problémy řešila. Zpočátku tak profesi bioinformatika zastávali biologové, kteří se naučili programovat. Až nedávno byla tato profese oficiálně uznána a vznikl obor bioinformatika. Zpočátku jejich plat dosahoval opravdu špičky, dnes už to ale není tak horké – předmět je vyučován na mnohých vysokých školách, či dokonce existují speciální obory pro bioinformatiky.

Bioinformatická data

  • Člověk se skládá asi z 1014 buněk. Každá obsahuje asi 20 000 vesměs stejných párů bazí DNA, které vytvářejí svými kombinacemi kolem 30 000 genů – to bylo zjištěno cca před dvěma až třemi lety, původně se předpokládalo, že jich bude cca 100 000. Každá buňka aktivuje v každé chvíli určitou podmnožinu této sady.
  • Výsledkem je obrovské množství možných stavů buňek, asi tak 230 000 jenom za předpokladu, že geny můžou být pouze aktivovány nebo deaktivovány.
  • Samotné geny u jednotlivých organizmů jsou vybrané sady ze zhruba 41 000 možných sekvencí DNA

Jaká bioinformatická data se sbírají

  • Sekvence DNA a RNA
  • Sekvence proteinů
  • Struktura proteinů
  • Údaje o aktivitě genů – DNA čip, „microarray“
  • Údaje o expresi proteinů – 2D geny + MS (hmotnostní spektrometrie – zjišťuje hodnotu proteinu v nějakém vzorku)
  • Mapy interakcí mezi proteiny a DNA
  • Mapy interakcí mezi proteiny navzájem
  • Literatura


Jakékoliv novinky a informace o bioinformatice naleznete na stránkách popularis [ http://www.popularis.cz/ ] – a NCBI [ http://www.ncbi.com/ ] – pozor, stránky jsou v angličtině!



Buňka

Nyní si povíme něco o základním stavebním prvku v lidském těle – o buňce.
Buňka je základní forma organizace živé hmoty. Uděláme si takový žebříček, kde uvidíte, jak to vše na sebe navazuje a poté si to rozepíšeme.

  • Molekuly/geny/proteiny
  • Proteinové komplexy/membrány
  • Organely a jiné substruktury
  • Buňka
  • Tkáň/pletivo
  • Organismy

Molekuly asi dobře znáte.
Geny jsou úseky DNA – definují například jak vypadají proteiny. Velikost genu je několik tisíc bází DNA.
Proteiny – spojují se a mění chemicky molekuly – říkáme jim taky HW buňky (jsou to buňky, které vykonávají danou práci)
Proteinové komplexy – jsou shluky proteinů, které již můžeme spatřit pod mikroskopem
Membrány – mají na svědomí oddělování buněk od vnějšího prostředí a hlavně různé části buňky navzájem(každá organela má nějakou membranu, která ji dělí od cytoplazmy, což je vnitřní prostředí buňky)
Buňky – spojují se a vytvářejí například kůži, svaly…

Bioinformatik

Jak jsme již na začátku probrali, v minulosti byl problém vytvořit schopnou a efektivní aplikaci pro biology.

Biolog je tedy uživatel, stará se o návrh a interpretaci
Informatik – tvůrce aplikace

A jak jsme se již také dověděli, aplikace byly dříve vyvíjeny biology – dle odhadu 90 % rozšířeného softwaru bylo vytvořeno biology, kteří se naučili programovat.
Výsledek – pro informatiky, kteří rozumí biologii, zůstává hodně práce.

Uděláme si další žebříček, který nám ukáže postup sbírání informací. Berte to s rezervou.

Biolog – sbírá informace formou vzorků z živých organismů.
Biochemik – sbírá informace formou vzorků a zkoumání rozporcovaných organismů.
Bioinformatik – to vše vezme a analyzuje.

Abychom si dokázali, že je bioinformatika mladá, stačí použít Google. Číslo za slovem udává počet relevantních odkazů na zadané hledané slovo.

IN VINO VERITAS – 162 000
VENI VIDI VICI – 132 000

IN VIVO = biolog – 19 100 000
IN VITRO = biochemik – 12 900 000
IN SILICO = bioinformatik – 349 000

Biochemici rozpoznají daný druh bílkoviny (např. inzulín), který vždy obsahuje stejný počet amino kyselin ve stejném vzorku. Vzorec pro bílkovinu může vypadat následovně:

insulin = (30 glycine + 44 alanine + 5 tyrosine + 14 glutamine + …)

Insulin byl objeven v roce 1951, všechny jeho biologické vlastnosti určily biochemici bez toho, aby znali sekvenci, z níž se později podařilo určit, kde je která vlastnost kódovaná apod. Sekvence insulinu vypadá následovně:


Bioinformatik

  • Umí pracovat s velkými datovými soubory
  • Moudrými triky ovláda výkonné počítače
  • V datech hledá zajímavé subsekvence
  • Srovnává podobné sekvence
  • Předpovídá strukturu a funkci genů a proteinů
  • Studuje vývoj sekvencí a organizmů
  • Data a výsledky analýz zobrazuje graficky
  • biologie
  • informatika
  • analýza sekvencí
  • strukturní bioinformatika
  • dynamické modelování
  • analýza obrazu
  • lingvistika
  • neurologie


Způsoby nahlížení na data

KLASICKÝ

směs biologie, chemie, fyziky atd.

MECHANISTICKÝ

živé buňky jsou stroje, které chceme pochopit a ovládat

EVOLUCE A ŽIVOT JAKO HRA

sekvence jsou definiční soubory hráčů

GENETICKÉ INFORMACE JAKO JAZYKY

sekvence se skládají z frází a slov s určitou funkcí

Abych zjednodušil, jak náročné je získat data ze všech těch mnoha písmen, ukážu to na příkladu, který by měl pochopit jakýkoliv člověk.
Představte si obrázek, na kterém je fotka hory a dvou palem. Binární kód takového obrázku vypadá podobně, jako vidíte na následujícím obrázku (je to jen názorná ukázka):


Dokážete vyčíst z tohoto kódu ty dvě palmy a hory? Ne? Tak toto byl názorný příklad, jak je těžké číst z daného úseku DNA. Ze znaků, které na pohled nic neukazují, je nutné vyčíst dané informace, a to poměrně složitou cestou.

Určují tedy geny celý náš život?

Dnes už máme rozluštěn celý lidský genom, máme stanoveny geny, víme, co mnohé geny dělají. Víme, že genomy určují mnohé naše vlastnosti. Ale výchova, prostředí, ve kterém vyrůstáme, někdy i náhoda tyto vlastnosti dotvářejí. Genom neurčuje celý náš osud.

Tímto bych uzavřel pilotní díl úvodu do bioinformatiky. Doufám, že vás probraná tématika alespoň trochu zaujala a rád bych, kdybyste se vyjádřili v komentářích, jak vás dané téma zajímá. Téma bioinformatiky je pro mě téměř nové, ale zaujalo mě natolik, že jsem se rozhodl vás seznámit s tím, co jsem se naučil já. Proto, pokud jsou zde nějaké nepřesnosti, tak je prosím omluvte a/nebo mě kontaktujte emailem a já chyby opravím.
Zdroj: části jsou převzaty z pořadů popularis

Článek stažen z webu Programujte.com [ http://programujte.com/clanek/2006030301-bioinformatika-i/ ].