file_name='./rosalind_rna.txt' #パス指定
with open(file_name) as file: #ファイルを'file'として開く
data=file.read() #データを文字列として読み込む
rna=data.replace('T','U') #.replace('','')で置換
print(rna)

問題に正解すると、他の人の答えも見れるので参考にしてみる。

①inputで文字列を入力し、.replace()で変換

s = input()
print(s.replace("T", "U"))

②catでファイルを読み込み、trで変換（terminal）

cat rosalind_rna.txt | tr T U

③むずかしそうなやつ（今はとりあえず放置）

from Bio.Seq import Seq
from Bio.Alphabet import generic_dna
file = open("rosalind_RNA.txt", "r")
dna = Seq(file.read(), generic_dna)
rna = dna.transcribe()
print rna

from sys import argv
from Bio.Seq import Seq
from Bio.Alphabet import generic_dna

print Seq(open(argv[1]).read(), generic_dna).transcribe()

プログラミングはカタカナの専門用語が多くわかりにくいので英語で勉強することに。わからなかった単語をリストアップしておき、単語力増強も行う。

英単語

omnipresent: 普遍的に存在する（=ubiquitous）

immutable: 不変の（⇔mutable: 可変の）

be composed of A: Aで構成される

alongside: （副）横に、並んで、並列して、（前）〜と平行に、〜と一緒に / 協力して

come to be: 〜ようになる（-known as RNA、RNAとして知られるようになる）

in place of A: Aの代わりに

dissipate: 散らす、消す

blueprint: 青写真、設計図、案

ramification: 分岐 / 分枝、（派生的な）結果

2020-05-22

Counting DNA Nucleotid

ROSALIND Python学習記録

バイオインフォマティクスの学習に必要な情報や、問題を提供するサイト

ROSALIND

rosalind.infoで、Pythonを用いたバイオインフォマティクス技能の学習を行う。

f:id:m-yukiyosi:20200522105640p:plain

5つコンテンツがあるが、問題形式で学習するスタイルが好きなので、上段真ん中の"Bioinformatics Stronghold"を選択。

f:id:m-yukiyosi:20200522110006p:plain

まずは一番上のCounting DNA Nucleotidesから。

回答はJupyter Notebook (python 3.7.6)で作成する。

Problem

A string is simply an ordered collection of symbols selected from some alphabet and formed into a word; the length of a string is the number of symbols that it contains.

An example of a length 21 DNA string (whose alphabet contains the symbols 'A', 'C', 'G', and 'T') is "ATGCTTCAGAAAGGTCTTACG."

Given: A DNA string s

of length at most 1000 nt.

Return: Four integers (separated by spaces) counting the respective number of times that the symbols 'A', 'C', 'G', and 'T' occur in s

.
Sample Dataset

AGCTTTTCATTCTGACTGCAACGGGCAATATGTCTCTGTGTGGATTAAAAAAAGAGTGTCTGATAGCAGC

Sample Output

20 12 17 21

与えられた1,000 nt以下の長さのDNA配列のうち、'A','C', 'G', 'T'の下図をそれぞれカウントし、出力せよ。という課題。

"Download dataset"をクリックするとデータのダウンロードが実行され、カウントダウン（5 min）が始まる。

file_name=('./rosalind_dna.txt') #ファイル名の読み込み
file=open(file_name) #データを開く
data=file.read() #読み込み
print(len(data)) #データの文字数
a=data.count('A') #各塩基の出現数を.count()メソッドでカウント
t=data.count('T')
g=data.count('G')
c=data.count('C')
print(a, c, g, t) #出力

992
233 256 261 241

参考

Python3入門テキストファイル読み書きの基礎

【Python】特定の文字や文字列の出現回数を数える（count） | Hbk project

メソッドとかもよくわかっておらず、参考にしたコードのほぼ丸パクリをしたが、使っているとメソッドとはなんぞやとか関数の使い方とかいろいろわかってきそう。

環境設定で問題が発生することもなかったし、1日目にしては上出来。