バイオインフォマティクス奮闘記

農学系大学院の博士課程に進学するも、様々な苦難に遭遇することとなった筆者。運命に逆らおうともがき続けるも、黒塗りの高級車に追突してしまう。フレッドと後輩をかばいすべての責任を負った三浦に対し、車の主、暴力団員谷岡が言い渡した示談の条件とは…。

図形作成あれこれ

できるだけ簡便かつ高画質でできる方法をいくつか見つけたので、備忘録として。

 全体的にSVG変換→パワポに持ち込むという流れが便利。

 

  • RNA二次構造

任意の方法でRNA高次構造を予測し、dot-bracket形式*で出力する。

*Position: 8 ... 34
UUCCGAAGCUCAACGGGAAAAUGAGCU
(((((.[[[[.)))))...]]]]←こういうやつ
Estimated free energy: -15.1 kcal/mol

RNA-fold

http://rna.tbi.univie.ac.at//cgi-bin/RNAWebSuite/RNAfold.cgi

SPOT-RNA 

https://sparks-lab.org/server/spot-rna/

DotKnot

https://dotknot.csse.uwa.edu.au/

 

VARNAというアプリで図形に変換する。

VARNA: Visualization Applet for RNA secondary structure

例)

インプット:

GGUGGCGGCCCCCCCCCCCCGUGAACCCCCAGCCAGCAGGGCCCGCGCAACAUGA

..((((..............[....[[[.))))...]....]]].......

アウトプット:

f:id:m-yukiyosi:20210123133244p:plain

図形を右クリック→Export→任意の形式で保存。

SVGにしてPowerPointに持ち込み、ツールバーの「グラフィック形式」から「図形に変換」を選択すると、編集可能な図形として扱える。

f:id:m-yukiyosi:20210123133952p:plain

画質を損なわずに編集できるのでお勧め。

 

ざっくり四項目からなる。

1. Genbank Accession number取得

2. アミノ酸/塩基配列取得

3. マルチプルアライメント

4. 系統樹作成

 

1. Genbank Accession number取得

ウイルスであればICTVに承認されているウイルスの配列を含めることが重要。

以下を参考に。

https://talk.ictvonline.org/taxonomy/

それぞれの分類群の代表的な種を含めることと、近縁であるが分類学的に確実に離れている分類群のウイルス配列も含める。

何が外群として適しているかは他の論文を参考にする。

 

まずはできるだけAccession numberをエクセル形式で保存している論文を探す。

無ければ他の論文を参考に手作業で集める。

*Accession numberはゲノム、塩基配列アミノ酸配列で三種類ある。アミノ酸でやるときはちゃんとアミノ酸配列のものを収集する(他のが混ざらないように)。

 

2. アミノ酸/塩基配列取得

 ここのツールを使うとAccessionから配列一括取得できるので、つかう。

https://sites.google.com/site/yusukekikuchiwebsite/memo/getncbifasta

*多分ここでつまずく人もいるかと思いますが、頑張ってください。

各データは

Accession→遺伝子の機能→生物名→改行→配列

の順になっているので、"["と"]"をタブに変換し、Excelに持ち込んで生物名と配列のみにする。

" "は"_"に変換しておくとよい。

 

3. マルチプルアライメント

基本的にはMAFFTで行う。

MAFFT alignment and NJ / UPGMA phylogeny

セッティングでアウトプットされる配列の順番とか向きとかをいじれるので、任意で。

 

4. 系統樹作成

SubmitしたらFASTA形式で出力し、MEGAに持ち込んでML法系統樹作成。

簡易的な確認として、MAFFTでそのままNJ法系統樹作成ができる。

いずれの方法でもSVGとして出力できる。

 

  • ゲノム構造