03. Bash scripting

Practice

Author: Dr. Alejandra Rougon

Creative Commons License
Este trabajo está bajo la licencia Creative Commons Atribución-NonComercial 4.0 Licencia Internacional.

Para esta práctica ve al directorio Analysis que habías creado en la actividad anterior.

Descarga los siguientes archivos y súbelos a tu virtual terminal
Hp1.fasta (este archivo ya lo utilizaste en la actividad anterior)
Hp2.fasta
Hp3.fasta

🚴 Ejercicio 1

En la actividad anterior contestaste las siguientes preguntas para el archivo Hp1.fasta.

a. ¿Cuántos registros tiene el archivo Hp1.fasta?

Para las siguientes tres preguntas analizaremos los identificadores, no las secuencias

b. ¿Cuántos de esos registros son proteínas RxLR? c. ¿Cuántos de esos registros son proteínas ricas en cisteína [cysteine-rich] d. ¿Cuántos de las proteínas RxLR pertenecen a la cepa Emoy2?

  1. Ahora, crea un script en Bash llamado Hp1_TuNombre.sh que conteste las preguntas anteriores. Asegúrate de que use al menos una variable.

🚴 Ejercicio 2

  1. Genera una copia de tu script con el nombre Hploop_TuNombre.sh y modifícalo para que haga una itere sobre los archivos Hp1.fasta, Hp2.fasta y Hp3.fasta para contestar las preguntas del ejercicio 1.

🚴 Ejercicio 3

  1. Si tienes acceso a un cluster de alto rendimiento o a un servidor remoto y tienes tu usuario y contraseña es tiempo de practicar subiendo tu script del ejercicio 2 a tu directorio home del servidor remoto via scp. Conéctate al servidor para verificar que tu archivo está ahí por ssh.

🚴 Ejercicio 4

Hemos realizado una búsqueda de homología utilizando BLAST con los scaffolds de un genoma secuenciado recientemente de un nematodo fitopatógeno contra los cromosomas del organismo modelo Caenorhabditis elegans. Tenemos 6 archivos tabulares con los resultados. Cada uno contiene las secuencias similares [hits] para cada uno de los cromosomas de C. elegans.

blastnCeChr1.tab
blastnCeChr2.tab
blastnCeChr3.tab
blastnCeChr4.tab
blastnCeChr5.tab
blastnCeChrX.tab

Queremos saber cuántos hits obtuvo cada scaffold para cada uno de los cromosomas. Los scaffolds están indicados en la columna 1 y los cromosomas en la columna 2. Para contestar esta pregunta hay que contar para cada scaffold (son 5 scaffolds) ¿cuántas veces aparece en la misma línea de cada uno de los cromosomas?

  1. Escribe un script de Bash que te diga ¿cuántos hits tiene cada scaffold para cada cromosoma (cada archivo contiene un cromosoma diferente).

  2. De nuevo, si tienes acceso a un servidor remoto, practica copiando tu archivo al servidor.


Gracias por completar esta actividad!