02. Comandos de Unix para minería de datos¶
Práctica¶
Autora: Dra. Alejandra Rougon
Este trabajo está bajo la licencia Creative Commons Atribución-NonComercial 4.0 Licencia Internacional.
🚴 Ejercicio 1¶
Ahora es tiempo de practicar lo que has aprendido. Trata de resolver la mayor cantidad de preguntas posible. Generalmente existen varias maneras de resolver cada problema.
Hagamos un poco de minería de datos sobre algunos archivos pequeños. Una vez que hayas aprendido esto podrás trabajar con enormes archivos de datos genómicos.
En tu directorio de inicio (home) crea un nuevo directorio llamado
Exercise1
Crea un nuevo archivo dentro del directorio
Exercise1
convim
llamadoToyPlant.fasta
puedes copiar y pegar el siguiente contenido:
>Plant_1 ACCACCGATACATGCGGTGCGTTGT >Plant_3 CCACTGTGTTCGAGTTGTGATACAG >Plant_3 CCACTGTGTTCGAGTTGTGATACAG >Plant_2 CCAGCATTTGTAGTCACAACGCCGC >Plant_4 TAGAGTTGTACACGCGTTTGTACGA >Plant_4 TAGAGTTGTACACGCGTTTGTACGA >Plant_1 ACCACCGATACATGCGGTGCGTTGT
Visualiza los permisos del archivo
ToyPlants.fasta
Dale permiso de escritura, lectura y ejecución a todos
¿Cuántas líneas tiene el archivo?
¿Cuántos registros tiene el archivo?
¿Cuántos registros únicos tiene el archivo?
Calcula la cantidad total de bases [el tamaño del genoma]
¿Cuántas secuencias contienen la cadena
GATACA
[Las secuencias específicas que pueden tener determinada función o estructura son llamadas motivos o dominios.]Has una copia de ese archivo en
Documents
.En el directorio
Exercise1
crea el siguiente archivo llamadoToyPlant.genes
chr1 height ht-1 100 1000 + (100-150,400-500,900-1000) chr1 height ht-2 100 1000 + (100-150,900-1000) chr1 resist res-1 1500 2000 + (1500-1750,1800-1850,1099-2000) chr1 resist res-2 1500 2000 + (1500-2000) chr2 color color-1 3400 4200 - (3400-3600,4000-4200) chr2 color color-2 3400 4200 - (3400-3550,3800-3900,4000-4200) chr2 color color-3 3400 4200 - (3400-3600,3800-3900,4100-4200) chr3 fruit fru-1 50 800 + (50-400,700-800) chr3 fruit fru-1 1100 1500 + (1100-1200,1450-1500) chr3 smell smell-1 2000 2600 - (2000-2300,2500-2600) chr3 smell smell-2 2000 2600 - (2000-2050,2200-2300,2500-2600) chr4 dev dev-1 3100 3700 - (3100-3500,3600-3700) chr4 dev dev-2 3100 3700 - (3100-3200,3400-3500,3600-3700) chr4 height2 ht2-1 4500 4800 + (4500-4800) chr5 shape shape9-1 200 1000 - (200-450,550-650,800-1000) chr5 shape shape10-1 110 1700 + (110-1400,1500-1700)
¿Cuántos transcritos tiene el archivo? [todas las líneas]
¿Cuántos cromosomas diferentes muestra el archivo? (columna 1; el separador entre columnas es
espacio
)¿Cuántos genes diferentes tiene el genoma? (column 2)
🚴 Ejercicio 2¶
Estamos estudiando algunas proteínas que están involucradas en la patogénesis llamadas efectores, que se encuentran en las secuencias del fitopatógeno Hyaloperonospora arabidopsidis. Queremos saber cuántas de esas secuencias son efectores RxLR (Arginina, cualquier aminoácido, Leucina y Arginina). También queremos saber cuáles son ricas en cisteína y cuáles de esos efectores RxLR pertenecen a la cepa Emoy2.
Por el momento, sólo estaremos buscando las cadenas ‘RxLR’ y ‘cysteine-rich’ dentro de la línea de descripción. Sin embargo, puedes buscar dominios específicos dentro de las secuencias usando otras herramientas para eliminar los saltos de línea y buscar bases o aminoácidos ambiguos. Para convertir el archivo fasta a un formato tabular con cada registro fasta en una sola línea, puedes usar este comando awk -v RS='\n>' -v ORS='\n>' -v OFS='' -F'\n' '{$1=$1 "\t"}1' archivo.fasta
. Después puedes seleccionar la segunda columna y buscar la cadena. Puedes usar un punto .
para encontrar bases o aminoácidos ambiguos. El .
es una expresión regular que representa cualquier carácter. Entonces, en lugar de buscar RxLR
como en la descripción, si buscas en la secuencia, tendrías que usar R.LR
. Para buscar expresiones regulares con grep
tienes que utilizar la opción -E
. Si quieres ver la cadena coloreada en tu búsqueda con grep
puedes usar la opción --color
.
Ve al directorio
Exercise1
y crea un nuevo directorio llamadoAnalysis
Sube el siguiente archivo a tu terminal virtual
Hp1.fasta¿Cuántos registros tiene el archivo
Hp1.fasta
?Para las siguientes tres preguntas analizaremos los identificadores, no las secuencias
¿Cuántos de esos registros son proteínas RxLR?
¿Cuántos de esos registros son proteínas ricas en cisteína [cysteine-rich]
¿Cuántos de las proteínas RxLR pertenecen a la cepa Emoy2?
Gracias por completar esta actividad!