reciprocal_smallest_distance е по двойки алгоритъм orthology който използва подравняване глобалната последователност и максимална вероятност еволюционна разстояние между последователности, за да открие точно ортологове между геноми.
<Силен> Инсталиране От Tarball
Изтеглете и разархивирайте последната версия от GitHub:
CD ~
Curl -L https://github.com/downloads/todddeluca/reciprocal_smallest_distance/reciprocal_smallest_distance-VERSION.tar.gz | Катран xvz
Инсталирайте reciprocal_smallest_distance, като се уверите, за да използвате Python 2.7:
CD reciprocal_smallest_distance-ВЕРСИЯ
питон setup.py инсталиране
<Силен> Използване RSD да намерим Othologs
Следващият пример командите демонстрират основните начини да се движат rsd_search. Всяко извикване на rsd_search изисква се посочват местонахождението на файла последователност FASTA-форматиран за две геноми, наречен запитването и да подлежат геноми. Тяхната цел е произволна, но ако използвате опцията --ids, идентификационните номера трябва да идват от генома на заявката. Можете също така трябва да посочите файл да напиша резултатите от намерените от алгоритъма за RSD Ортолозите. Форматът на изходния файл съдържа една ортолог на ред. Всеки ред съдържа идентификатора на заявка последователност, обект ID последователност, и разстоянието (изчислява чрез codeml) между последователностите. По желание можете да посочите файл, съдържащ документи за самоличност с помощта на опцията --ids. Тогава динара ще Търсене само за ортологове за тези документи за самоличност. Използването --divergence и --evalue, имате възможност да използвате различни прагове от тези по подразбиране.
Получаване на помощ за това как да стартирате rsd_search, rsd_blast, или rsd_format:
rsd_search -Н
rsd_blast -Н
rsd_format -Н
Намери ортологове между всички последователности в геномите на заявки и предмет, като се използва по подразбиране дивергенция и evalue прагове
примери rsd_search -q / геноми / Mycoplasma_genitalium.aa / Mycoplasma_genitalium.aa
--subject-геном = примери / геноми / Mycobacterium_leprae.aa / Mycobacterium_leprae.aa
-О Mycoplasma_genitalium.aa_Mycobacterium_leprae.aa_0.8_1e-5.orthologs.txt
Намери ортологове с помощта на няколко дивергенция и evalue прагове не са по подразбиране
примери rsd_search -q / геноми / Mycoplasma_genitalium.aa / Mycoplasma_genitalium.aa
--subject-геном = примери / геноми / Mycobacterium_leprae.aa / Mycobacterium_leprae.aa
-О Mycoplasma_genitalium.aa_Mycobacterium_leprae.aa.several.orthologs.txt
--de 0.2 1е-20 --de 0.5 0.00001 --de 0.8 0.1
Не е необходимо да файлов формат, FASTA за взрив или изчисли BLAST хитове, защото rsd_search го прави за вас.
Въпреки това, ако планирате да използвате rsd_search няколко пъти за едни и същи геномите, особено за големи геноми, можете да спестите време, като използвате rsd_format да preformatting файлове FASTA и rsd_blast да precomputing взрива хитове. Когато използвате rsd_blast, се уверете, че да се използва --evalue толкова голям, колкото най-големият прага evalue възнамерявате да дам на rsd_search.
Ето как да форматирате чифт FASTA файлове на място:
rsd_format -G примери / геноми / Mycoplasma_genitalium.aa / Mycoplasma_genitalium.aa
rsd_format -G примери / геноми / Mycobacterium_leprae.aa / Mycobacterium_leprae.aa
И тук е как да форматирате FASTA файлове, извеждайки резултатите в друга директория (текущата директория в този случай)
rsd_format -G примери / геноми / Mycoplasma_genitalium.aa / Mycoplasma_genitalium.aa -D.
rsd_format -G примери / геноми / Mycobacterium_leprae.aa / Mycobacterium_leprae.aa -D.
Ето как да се изчисли напред и назад доменните попадения (използвайки evalue по подразбиране):
rsd_blast -v -q примери / геноми / Mycoplasma_genitalium.aa / Mycoplasma_genitalium.aa
--subject-геном = примери / геноми / Mycobacterium_leprae.aa / Mycobacterium_leprae.aa
--forward хитове q_s.hits --reverse хитове s_q.hits
Ето как да се изчисли Преден и заден взрив удари за rsd_search, използвайки геноми, които вече са форматирани за взрива и не-подразбиране evalue а
rsd_blast -v -q Mycoplasma_genitalium.aa
--subject-геном = Mycobacterium_leprae.aa
--forward хитове q_s.hits --reverse хитове s_q.hits
--no-формат --evalue 0.1
Намери ортологове между всички последователности в запитването и подлежат геномите използващи геноми, които вече са форматирани за взрив
rsd_search -q Mycoplasma_genitalium.aa
--subject-геном = Mycobacterium_leprae.aa
-О Mycoplasma_genitalium.aa_Mycobacterium_leprae.aa_0.8_1e-5.orthologs.txt
--no-формат
Намери ортологове между всички последователности в запитването и подлежат геномите използващи хитове, които вече са изчислени. Забележете, че --no-формат е включено, защото след взривните хитове вече са изчислени геномите не е необходимо да бъдат форматирани за взрива.
rsd_search -v --query-геном Mycoplasma_genitalium.aa
--subject-геном = Mycobacterium_leprae.aa
-О Mycoplasma_genitalium.aa_Mycobacterium_leprae.aa.default.orthologs.txt
--forward хитове q_s.hits --reverse хитове s_q.hits --no-формат
Намери ортологове за специфични последователности в генома на заявката. За намиране ортологове за само няколко поредици, използващи --no-доменна кеш може да ускори изчисление. YMMV.
примери rsd_search -q / геноми / Mycoplasma_genitalium.aa / Mycoplasma_genitalium.aa
--subject-геном = примери / геноми / Mycobacterium_leprae.aa / Mycobacterium_leprae.aa
-О примери / Mycoplasma_genitalium.aa_Mycobacterium_leprae.aa_0.8_1e-5.orthologs.txt
--ids примери / Mycoplasma_genitalium.aa.ids.txt --no-доменна кеш
<Силен> изходни формати
Ортолозите могат да бъдат записани в няколко различни формата, използващи --outfmt вариант на rsd_search. Форматът по подразбиране, --outfmt -1, се отнася до --outfmt 3. Вдъхновен от Uniprot DAT файлове, набор от ортологове започва с параметри линия, а след това има 0 или повече ортолог линии, а след това има край линията. На parametes са името на заявката геном, предмет името геном, прагът различия, и праг evalue. Всеки ортолог е на един ред листинг ID на заявка последователност, ID на обект последователност, и максималната вероятност разстояние оценка. Този формат може да представлява ортологове за няколко набора от параметри в един единствен файл, както и набор от показатели, без ортологове. Ето защо е подходящ за използване с rsd_search, когато посочват множество дивергенция и evalue прагове.
Ето един пример, съдържаща 2 комбинации на параметрите, единият от които все още няма ортологове:
PA tLACJO tYEAS7 t0.2 t1e-15
OR tQ74IU0 tA6ZM40 t1.7016
OR tQ74K17 tA6ZKK5 t0.8215
//
PA tMYCGE tMYCHP t0.2 t1e-15
//
Оригиналният формат на RSD, --outfmt 1, се предоставя за обратна съвместимост. Всеки ред съдържа ортолог, представени като ID подлежи последователност, заявка ID последователност, и максималната вероятност разстояние оценка. Тя може да бъде само един-единствен набор от ортологове във файл.
Пример:
A6ZM40 tQ74IU0 t1.7016
A6ZKK5 tQ74K17 t0.8215
Също така е предвидено обратна съвместимост е формат, използван вътрешно от Roundup (http://roundup.hms.harvard.edu/), която е като на оригиналния формат RSD, освен ID колона заявка последователност е преди ID на обект последователност.
Пример:
Q74IU0 tA6ZM40 t1.7016
Q74K17 tA6ZKK5 t0.8215
<силни> Изисквания :
- Python
- NCBI BLAST 02.02.24
- PAML 4.4
- Kalign 2.04
Коментари не е намерена