Rozluštění lidského genomu

20.9.2001

Těžko mohla někomu uniknout zpráva, při níž se mnoha obyvatelům planety zatajil dech - genetická informace člověka byla rozluštěna. Na tomto gigantickém projektu se účastnily stovky vědců mnoha států světa. V USA, které přispěly největší měrou jak prací tak finančními prostředky, je dokončení přirovnáváno k prvnímu přistání člověka na Měsíci. Co tak převratného vlastně vědci dokázali a co z toho pro nás všechny vyplývá?

Lze říci, že teď známe kompletní zápis dědičných vlastností našeho druhu (lidský genom). Ale co je vlastně dědičnost? Každé malé dítě je vám schopné říct - tohle je kočička, tohle je pejsek. Rozeznat dvě kočičky od sebe už vyžaduje větší zkušenost - kočky navzájem jsou si příbuznější než kočka a pes. I děti jsou často podobné svým rodičům. Je tomu tak proto, že potomci získávají po svých předcích sadu vlastností - dědí je. Každá buňka má v sobě uloženou kompletní informaci o vlastnostech celého organismu. Informace je zapsána v molekule DNA (kyseliny deoxyribonukleové), která se skládá ze tří typů stavebních kamenů: kyseliny fosforečné, cukru 2-deoxyribosy a čtyř nukleových bazí (adeninu, thyminu, cytosinu a guaninu - A,T,C,G). Tyto stavební prvky jsou uspořádány do prostorového útvaru, kterému se říká dvojitá šroubovice. Můžeme si ji představit jako stočený žebřík, jehož postranice jsou tvořeny pravidelně se střídajícími zbytky kyseliny fosforečné a 2-deoxyribosy a příčky nukleovými bázemi:

struktura DNA

Každá báze na jednom vlákně má jednoznačně přiřazenou bázi na vlákně protějším - pravidlo komplementarity bází. Adenin tak vždy tvoří pár s thyminem, cytosin s guaninem. Je těžké si představit, že sice obrovská, ale stavebně velmi jednoduchá molekula může být plánem pro vznik celého organismu. Jak by mohl provázek, v němž se bez fantazie a na první pohled nahodile střídají čtyři báze, určit barvu květu růže nebo tvar orlího křídla? A přece tomu tak je - informace je uložena ne v jednotlivých bazích, ale v jejich pořadí (sekvenci) a kombinaci. Díky bádání mnoha vědců dnes víme, že DNA prostřednictvím mRNA (m=messenger =posel, RNA - ribonukleová kyselina, jednovláknová molekula lišící se ve stavebních kamenech od DNA pouze v drobnostech) řídí pořadí aminokyselin v bílkovinách. Bílkoviny zajišťují stavbu a funkci každé buňky a organismu jako celku. Použijeme-li příměru, je DNA podrobný plán, podle kterého bílkoviny - architekti, staví dům (buňku) a město (organismus).

Bílkoviny se skládají z nejrůznějším způsobem seřazených dvaceti různých aminokyselin. Jakým způsobem je možné, aby DNA, ve které se střídají jen čtyři stavební prvky lišící se bázemi A,C,T,G, popsala jednoznačně molekulu bílkoviny tvořenou 20 stavebními kameny - aminokyselinami? Vzpomeneme-li na základy kombinatoriky, vychází, že kdyby jedna aminokyselina byla kódována jednou bází, mohly by se v bílkovinách vyskytovat jen čtyři aminokyseliny. V případě, že jedna aminokyselina by byla kódována dvěma bázemi, už by jich mohlo být 42 = 16, v případě tří bází je to 43 = 64 aminokyselin. V bílkovinách se vyskytuje 20 různých aminokyselin, to znamená, že kombinace 3 bází je pro kód víc než dostatečná. Každou aminokyselinu skutečně určuje trojice bází, z čehož vyplývá, že řada trojic je nadbytečných a tak některým aminokyselinám odpovídá více trojic bází. Dále existují 3 trojice, které nekódují žádnou aminokyselinu. Jejich funkce je neméně důležitá, protože oznamují konec - žádná další aminokyselina se už ke vznikající bílkovině nepřiřazuje.

Lidská DNA měří celkem 1,5 metru, nemůžeme si ovšem představit jediný nepřetržitý provázek - DNA je v každé buňce s výjimkou buněk pohlavních rozdělena do 23 párů chromozomů (jednu sadu chromozomů dědíme od otce, druhou od matky). V pohlavních buňkách je přítomno jen 23 chromozomů - vždy jen jedna sada. Část úseku DNA, v níž je zapsána struktura jedné určité bílkoviny, nazýváme genem. V jedné molekule DNA najdeme genů mnoho a od sebe je oddělují dlouhé úseky, jež nic nekódují. Rozluštění lidského genomu tedy znamená, že známe kompletní strukturu DNA v jádrech lidských buněk, tedy pořadí všech jejích stavebních prvků - jednotlivých bazí adeninu, thyminu, cytosinu a guaninu.

Na základě analýzy genomu byla rozpoznána řada genů , jejichž porucha (změněná struktura) způsobuje různá onemocnění. Vadný gen zpravidla kóduje vadnou bílkovinu, která je pak nefunkční. Existuje však řada nemocí, u kterých se předpokládá genetická podstata, konkrétní gen však známý není. Znalost celého genomu umožní a urychlí identifikaci těchto neznámých genů. Velký přínos znalosti genomu se očekává při studiu tzv. multigenních nemocí - nemocí způsobených poškozenou funkcí několika genů. Příkladem multigenní nemocí, proti které nepříliš úspěšně bojujeme, je rakovina. Během minulých 15 let se zjistilo, že rakovina je způsobena chybnou sekvencí v několika genech - některé podporují vznik nádorů - onkogeny, jiné jejich vznik brzdí - supresory. Dnes je známo 100 onkogenů a 30 supresorů a víme, že je to jen zlomek všech genů způsobujících rakovinu. Nalezení kompletní sady genů účastnících se při vzniku, růstu a potlačování růstu nádorů je příslibem pro pochopení podstaty této nemoci.

Jakmile známe gen nebo geny spojené s nemocí, můžeme je analyzovat a zjistit rozdíly mezi zdravým a nemocným či k nemoci náchylným člověkem. Těchto znalostí můžeme využít v prenatální diagnostice a genetickém poradenství. V případě, že víme, že se v rodině vyskytuje jistá nemoc, lze vyšetřit i zdravé rodinné příslušníky a zjistit u nich predispozici k dané nemoci. Je-li včas rozpoznána, lze často vhodnými opatřeními (dietou, medikamenty) nástupu choroby někdy předejít nebo ho alespoň zpomalit. Tímto způsobem lze vyšetřit i ještě nenarozené děti či spíše plody ve velmi ranném stadiu těhotenství. Bohužel v řadě případů je zatím jediným lékařským doporučením v případě nálezu genetické poruchy potrat. Můžeme však využít metody, zvané preimplatační diagnostika. K oplodnění několika vajíček dojde "ve zkumavce". Zjistíme pak, který z plodů je zdravý a ten pak implantujeme matce do dělohy. Avšak v budoucnosti bude nepochybně možné, právě na základě těchto znalostí, připravit nové, specifické léky, jež budou ovlivňovat přímo podstatu nemoci.

Sekvence lidského genomu je zajímavá z několika hledisek. Je 25x větší než kterýkoli z dříve sekvenovaných genomů jiných druhů a 8x větší než všechny dříve sekvenované genomy dohromady. A, samozřejmě, je to genom našeho vlastního druhu. Není sice ještě plně popsán, zbývá dokončit a zkompletovat řadu úseků, které mohou v detailech dnešní představu změnit, nicméně některé skutečnosti jsou už jasné: Lidský genom neobvykle homogenní. Mezi jednotlivými rasami se podařilo nalézt jen 1,4 milionu odchylek mezi 3 miliardami bází, tedy 0,5 promile. Všichni lidé jsou si tedy mnohem příbuznější než třeba šimpanzi mezi sebou. Celková velikost našeho genomu je zhruba 3,2 gigabází neboli 3,2x109 bází. Představme si, že bychom chtěli celou sekvenci vytisknout. Pro jednoduchost budeme tisknout jen písmena na jednom vlákně (písmena na druhém vlákně si můžeme sami lehce doplnit na základě pravidla komplementarity bází). Budeme-li tisknout bez mezer na běžný formát knihy (zhruba 70 písmen na řádek, 40 řádků na stránku), vytiskneme 2800 písmen na stránku, to je 570 svazků po 500 stranách. Komu se i toto přirovnání zdá nepředstavitelné, vězte, že taková řada knih by zaujala 30 metrů dlouhou polici! Buňka však nemá k dispozici tak dlouhou polici, musí místem velmi šetřit. Celou genetickou informaci je schopna vměstnat do buněčného jádra o velikosti 10-15 mikrometrů. Náš genom je svou velikostí srovnatelný s genomem myši a je 30x větší než genom červa Caenorhabditis elegans.

Porovnáme-li počet nalezených genů u jednotlivých organismů, už tak suverénně nad obyčejným červem nevítězíme. Jen 1,1 - 1,4% z toho obrovského množství informace, které vlastníme, tvoří geny, tedy úseky kódující bílkovinu. Odhaduje se, že genů máme mezi 30.000-40.000, což je zhruba 2x více než má muška octomilka (13.000) nebo červ C.elegans (19.000) Co to znamená - máme se nad tímto zjištěním pohoršovat nebo se stydět za svou nedokonalost a jednoduchost? Nebo spíš žasnout nad tím, jak třetina genů navíc dokáže vybudovat o tolik složitější organismus? Nikdo vám nedá jednoznačnou odpověď. Avšak způsob zpracování informací z genu pro syntézu bílkoviny je u vyšších živočichů mnohem komplexnější, takže některé geny se podílejí na určení struktury více bílkovin.

Geny nejsou po genomu rozprostřeny rovnoměrně. Vyskytují se ve shlucích oddělených nesmírně dlouhými nekódujícími úseky, kterým říkáme pouště. Jak pouště vypadají? Odpověď je ohromující - naše nekódující oblasti jsou v naprosté většině osídleny potomky dávných virů. Ale postupně - nejméně 50%, pravděpodobně však mnohem větší část je tvořena tzv. repetitivními sekvencemi, úseky, které se opakují. Jen malá část repetic je tvořena úseky, kde se opakuje jednoduchý motiv, obvykle dvoupísmenový, např CACACA…. 45% repetic pochází z působení transpozonů, což jsou potomci dávných retrovirů, které se dokázaly včlenit do našeho genomu, množit se v něm a osídlovat nová místa v genomu. Některé transpozony si uchovaly tuto vlastnost do dneška, jiné ji ztratily a délka jejich sekvence odpovídá jen zlomku sekvence plně funkčního transpozonu. Mezi retroviry patří např. Herpes simplex - virus způsobující opar.

Proč máme repetitivních sekvencí tolik? Nevíme - možná si sedají do pouští, tam činnosti genů nepřekážejí a proto nejsou aktivně odstraňovány. Možná nás ale čeká ještě nejedno překvapení . Existují lidské geny (dnes jich je známo zhruba 50), které vznikly odvozením z transpozonů. Jedna skupina velmi úspěšných repetitivnívh sekvencí, zvaných Alu, nám může prospívat usnadňováním syntézy bílkovin. Zbytek nekódujících sekvencí jsou zřejmě ještě starší retroviry, které v našich buňkách existují nesmírně dlouho a jejich genetická informace podlehla tolika změnám, že v nich retrovirovou sekvenci nerozpoznáme. Tyto sekvence mají velký význam pro fylogenetické studie - je to záznam o naší historii. Desetiny procent tvoří tzv. řídící sekvence, jež určují, kde má začít přepis genu, jak často se má gen přepisovat apod. O zbytku, 98,5%, v podstatě nevíme, jakou má funkci. Anglický termín pro tento překvapivě velký, zdánlivě nefunkční zbytek, je "junk", tedy zbytky, odpad. Řada vědců však varuje, že výraz junk je pouze odrazem naší ignorance a nepochopení. V tomto odpadu se stále nacházejí nové geny, jsou tu oblasti, které zapínají a vypínají geny. Repetitivní oblasti (oblasti, kde se monotónně opakují stále tytéž sekvence) jsou důležité pro chování chromozómu jako celku, např. při X-inaktivaci, kdy je jeden ze dvou X chromozómů ženy prakticky celý umlčen a jeho geny se nepřepisují.

Něco z historie 

V poslední čtvrtině 20. století se podařilo rozluštit sekvenci určitých genů a pak i celých genomů (např. 599 virů a viroidů, 31 eubakterií, 7 archebakterií, 1 houba, 2 zvířata a 1 rostlina). V polovině 80. let vznikl nápad zjistit sekvenci genomu našeho vlastního druhu. Už tehdy jeho prosazení nebylo jednoduché, ozývaly se hlasy varující před zneužitím takových znalostí. Nicméně v roce 1990 se projekt HGP (Human Genome Project) rozběhl, zásadním způsobem se na práce účastnilo více než 20 laboratoří celého světa (zejména z USA, Spojeného království, Německa, Francie, Japonska, Israele, Číny, Irska). Tyto laboratoře se z důvodů koordinace své práce sdružili do organizace nazývané Mezinárodní konsorcium pro sekvenování lidského genomu (International Human Genome Sequencing Consortium). V září 1999 do hry vstupuje soukromá americká firma Celera Genomics a obě skupiny ohlašují dokončení práce prakticky současně. Vzpomeneme-li, za jakých podmínek vědci na začátku projektu pracovali, musíme na jejich úsilí a odvahu, se kterou se do práce pustili, pohlížet s úctou. Dnešníma očima nám vybavení tehdejších laboratoří přijde neskutečně chabé. Sekvenátory (přístroje umožňující čtení DNA) vyžadovaly ruční obsluhu, práci mohl vykonávat jen velmi zkušený experimentátor, navíc, kvůli značení vzorků, znalý základů práce s radioaktivitou. Osobní počítače na zpracování výsledků a jejich archivaci neexistovaly. Při plném nasazení byla laboratoř zpravidla vybavená jedním sekvenátorem schopna přečíst 500 bází denně. Dnešní laboratoř připomíná spíš továrnu. Radioaktivní značení bylo nahrazeno fluorescenčím a obsluha se zapojením počítačů výrazně zjednodušila, takže rychlost čtení vzrostla o řád. Leckdy je možné nasadit i stovku sekvenátorů současně.

laboratoře ve Whitehead Institute, Center for Genome Research, Cambridge, Massachusetts. Převzato z časopisu Nature 409, 2001, 867

Jak se čte genom? 

Pomocí enzymů rozštěpíme genomovou DNA na krátké úseky, které vpravíme (zaklonujeme) do malých kruhových DNA běžně se vyskytujících v bakteriální buňce - do plasmidů. Budeme-li postupovat pečlivě, výsledkem naší práce bude knihovna plasmidů. Takovou knihovnu si můžeme představit jako řadu zkumavek, v každé z nich budou bakterie nesoucí plasmid pouze s jedním určitým úsekem lidské DNA. Další zkumavka obsahuje další úsek a celá knihovna kompletní sadu úseků lidské DNA. Každý úsek potom zanalyzujeme na sekvenátoru, přístroji schopném přečíst pořadí jednotlivých bazí vloženého úseku. Abychom nakonec mohli vložené osekvenované úseky uspořádat, je třeba genomovou DNA nastříhat několika různými způsoby. Tak vzniknou překrývající se úseky, které se pak pomocí počítačů vyhledávají a řadí tak jak jdou za sebou. Metodě, kterou jsme právě popsali, se říká "shotgun". Je vhodná k mapování těch částí genomu, jež nemají pravidelnou, opakující se strukturu. Protože právě lidský genom má takových částí velmi mnoho, přistoupili vědci sdružení v Mezinárodním konzorciu pro lidský genom k dvoukrokové analýze. Nejprve zaklonovali poměrně dlouhé úseky (100-200 kb) lidské DNA do jiného typu nosiče než je plasmid - nazývá se BAC (bacterial arteficial chromosome) a získali tak knihovnu BACů. U těchto dlouhých úseků určili jejich vzájemné umístění a potom je zanalyzovali metodou "shotgun"

Co s tím? 

Znalost genomu je nepochybně užitečná, leč je třeba mít na mysli i možné zneužití. Je zřejmé, že biologie se posouvá mezi obory, ve kterých je technicky možné dosáhnout daleko více než dovoluje lidská etika. Teď, když lze získat genetickou informaci od každého jedince, jak zabránit zneužití? Bude možné zamezit přístupu ke genetickým datům zdravotním pojišťovnám nebo zaměstnavatelům? Vzniká tak potřeba vytvoření takových právních norem, aby ke zneužití nemohlo dojít. Aby takové právní normy byly smysluplné a pro veřejnost přijatelné, musí být v souladu s etickým chápáním problému. Když se hlouběji zamyslíme nad problémem, co je vlastně etické, není odpověď jednoduchá. Představme si případ muže, který má určitou genetickou poruchu. Porucha mu umožňuje normální život, pokud se nedostane do velké fyzické zátěže. Třeba o svém handicapu ani neví a uchází se o místo řidiče autobusu. Zaměstnavatel se z DNA testu dozví, že uchazeč poruchou trpí. Je etické ho kvůli tomu nepřijmout? Nebo je etické nechat ho řídit a modlit se, aby nepadl do komatu ve chvíli, kdy poveze autobus plný dětí na prázdniny? Konec konců, zdravotní omezení pro určitá zaměstnání už platí - barvoslepý nemůže být strojvedoucím ani pilotem. V každém případě je tu příslib obrovské práce pro právníky a zákonodárce.

Genom byl tedy zmapován, takže máme vystaráno a můžeme se pohodlně usadit do křesla? Chyba, většina práce nás teprve čeká: nastává tzv. postgenomická éra, období proteomiky. Znalost genomu nám umožní sestavit soubor všech proteinů - proteom. Jednotlivé proteiny je třeba nejen identifikovat , ale i zjistit ve kterém orgánu, tkáni i buněčné oblasti se nacházejí, s jakými dalšími proteiny a jinými molekulami spolupracují a jaká je jejich funce. Pak snad budeme moci říct, že víme, jak funguje buňka.

Diskuse/Aktualizace