LAB 01 - 5.10.2016 DATA a WWW adresy Uvedene subory nestahujte, pokial mate na pocitaci aisa/anxur pristup k datovym suborom pre iv108 v adresari: /home/lexa/teaching/iv108/data ## Za vypracovanie ulohy oznacenej touto znackou vzdy do buducej stredy ziskate 1 bod ku skuske. Riesenia odosielajte e-mailom s kodom predmetu v nazve. - http://www.genome.ucsc.edu/ Stiahnite si mRNA (refMrna.zip) a promotory (upstream2000.zip) Drosophila melanogaster - http://www.geneontology.com/ Stiahnite si asociacne tabulky pre PDB a Arabidopsis thaliana a hierarchiu terminov GO - Stiahnite si zoznam proteinov Arabidopsis (ATH1.fa) a PDB (pdb_90.fa) - Stiahnite si niekolko PDB suborov z http://www.rcsb.org/pdb/ - Stiahnite si program torsions (http://www.bioinf.org.uk/software/torsions/) - Pre niektore operacie preformatujte sekvencie do FASTA so sekvenciou na jednom riadku. Vytvorte subor s nasledovnym obsahom: *** #!/usr/bin/perl $sequence = ""; while($_=){ if($_~=/^>/){ print "$sequence\n"; $sequence = ""; print $_; } else { chop($_); $sequence .= $_; } } print "$sequence\n"; *** pouzite ho prikazom "cat fastafile.fa | perl filename > modifiedfastafile.fa" - vyhladajte protein Arabidopsis, ktory obsahuje sekvenciu MASAQSF Skuste: grep MASAQSF ATH1.fa grep -B2 MASAQSF ATH1.fa man grep (vam vysvetli pouzitie programu grep) - odhadnite pocet proteinov u Arabidopsis, ktore obsahuju sekvenciu SHLQ (pomocou pravdepodobnosti vyskytu jednej aminokyseliny ako 0.05 a skutocnej napr. na adrese http://www.tiem.utk.edu/~gross/bioed/webmodules/aminoacid.htm - spocitajte proteiny u Arabidopsis, ktore obsahuju sekvenciu SHLQ grep -c SHLQ ATH1.fa - vytvorte FASTA subor proteinov u Arabidopsis, ktore obsahuju sekvenciu SHLQ (sikovne pouzity grep alebo perl skript, ktory vytiahne aj hlavicky) - najdite sekvenciu, ktora sa v ATH1.fa nevyskytuje - ## najdite najkratsiu sekvenciu ktora sa v ATH1.fa: - vyskytuje len raz (tzv. shustring = shortest unique string) - nevyskytuje (tzv. shortest non-existent word alebo nullomer) - porovnajte vyskyt lubovolneho retazca nukleotidov v promotorovej a kodujucej casti genomu Drosophila melanogaster. Ktory retazec dlzky 5 najlepsie diskriminuje medzi tymito dvoma skupinami sekvencii? Priklady BIOPIECES read_fasta -n 100 -i /home/lexa/teaching/iv108/data/ATH1.fa | extract_seq -b 1 -e 10 read_fasta -n 100 -i /home/lexa/teaching/iv108/data/ATH1.fa | kmer_freq | max_vals -k FREQ | Priklady PERL - Priklad jednoducheho skriptu -- #!/usr/bin/perl # Toto je poznamka. Predchadzajuci riadok definuje, ktory program bude # skript interpretovat # Specifikovanie $_, STDIN a STDOUT sa moze vynechat, retazce sa bezne # uvadzaju v uvodzovkach, dvojita uvodzovka nizsie umoznuje vlozit premennu print STDOUT 'Give me some input: '; $_ = ; chop($_); # Zbavme sa symbolu EOL (\n) na konci retazca # Perl poskytuje mnozstvo funkcii pre manpulovanie retazcov $l = length($_); print "LENGTH($_) = $l\n"; # if($_=~m/[A-Z]/){ # mohlo by byt napr. uvedene aj if(/[A-Z]/) print "String \"$_\" contains a capital letter\n"; } else { print "String \"$_\" does not contain a capital letter\n"; } -- - Napiste Perl skript, ktory z rozsiahleho FASTA suboru dokaze vytiahnut lubovolny regularny vyraz (simulacia prikazu grep/egrep). - Vylepsite predchadzajuci skript o moznost vratit aj blizke okolie najdeneho vyrazu (+/- 5 AA). Da sa to urobit na prikazovom riadku? - Osetrite v skripte pripady, ked sa vyraz nachadza blizko zaciatku alebo konca proteinu a vlozte na chybajuce miesta symbol '-' - Spocitajte pocet jednotlivych aminokyselin v proteome Arabidopsis thaliana a vysledky vyjadrite percentualne s presnostou na 2 desatinne miesta. - ## Najdite najdlhsi a najkratsi protein v ATH1.fa. Rozdelte mozne dlzky proteinov v Arabidopsis na kvantily po 10 (1-10, 11-20,...). Ktore dlzky sa vyskytuju v proteome najcastejsie? Hodnoty vizualizujte pomocou programu gnuplot