現在の閲覧者数:
まあ、ようするに自分のメモ帳です。
スポンサーサイト
--年--月--日 (--) | 編集 |
上記の広告は1ヶ月以上更新のないブログに表示されています。新しい記事を書く事で広告が消せます。
2011年03月23日 (水) | 編集 |
BAMからunmapped readを抽出
2011年02月03日 (木) | 編集 |
BAMファイルからマッピングされなかったread(fragment)を抽出する方法です。
ここではpaired-endの話をします(自分がpaired-endのデータを扱っているもので)。
paired-end のtemplate(read対)のうち、前の方にマッピングされるreadをleft read,後ろの方に
マッピングされるreadをright readと呼ぶことにします。

 mappingされなかったleft readの抽出
$ samtools view -f 4 -F 264 -S alignment.sam > unmapped_left.sam

 mappingされなかったright readの抽出
$ samtools view -f 8 -F 260 -S alignment.sam > unmapped_right.sam

 left read もright readもmappinguされなかった readの抽出
$ samtools view -f 12 -F 256 -S alignment.sam > unmapped_both.sam

これらのSAMファイルはsamtoolsのmergeコマンドで結合することができます。
VCF
2010年10月13日 (水) | 編集 |
とは多型のcallファイルのフォーマット(Variant Calling Formatの略)だそうです。
GATKなどの出力結果がこのフォーマットになるらしい(?)
2010年10月13日 (水) | 編集 |
データが1列で以下のように並んでいるときに、

  1
  3
  10
  2
  ・
  ・

データの和と平均を求めたいときは

$ awk '{sum += $1} END {print sum, sum/NR}' text.txt

とすると、和,平均の順で表示されます。
2010年10月01日 (金) | 編集 |
肉球compound heterozygote肉球
複合ヘテロ接合体といって、(1対のなかの)2個の染色体で別々の変異が存在する場合のことです。劣性遺伝子疾患の
場合、複合ヘテロ接合体とホモ接合体の人は必ず発症するらしいです。つまり表現型上は劣性ホモ接合と同じに
なるという・・・
plinkの罠
2010年07月28日 (水) | 編集 |
plinkの新しいバージョン(1.07)がリリースされていたので、さっそくFedora 13
サーバでコンパイルしたのだが、以下のようなメッセージが出てしまった。。。

/usr/bin/ld: cannot find -ldl
collect2: ldはステータス1で終了しました

-ldl(libld.so.**)が見つからないなどと言っているが、調べてみるとちゃんと
/lib64にインストールされていた。前のバージョン(1.06)のMakefileと比べてみると
「-static」というオプションが追加されていることが分かった。
このオプションはスタティックリンクでコンパイルするという意味で、これが
ついているとリンカはlib***.aというファイルを探しに行くのだが、あいにくlibldは **.so(ダイナミックリンク用ライブラリ)しかなかった。

ってか普通はダイナミックリンクでコンパイルするものだと思うんだけど、
plinkはなんで突然-staticを付けるようになったのか・・・
条件付きコンパイル
2010年06月23日 (水) | 編集 |
Makefileに

ifdef TEST
・・・
endif

という記述があって、「・・・」の部分を実行したい場合には

$ make TEST=yes

と実行すればOKです。
Exome
2010年06月11日 (金) | 編集 |
"Uncovering the roles of rare variants in common disease through whole-genome sequencing"
(Cirulli ET. and Goldstein DB. 2010; Nat Rev Genet)に載っていたExomeの定義です。
こういうreviewは実にありがたい。まだ新しい技術だと調べるのも大変ですから

exomeはゲノム上の既知のexonの集まりです。exonとはゲノム上のタンパクに翻訳される部分のことです。
exon部分はゲノムのたった1%しかなく、最も容易に機能との関連性を解析できる領域なので、
exomeのみをsequencingすることは形質に関与する多様性(つまりは多型)のほとんどを同定する手法のなかでは
比較的安価な方法です。

あんまりキレイな訳じゃないですが、書いてあることはだいたいこんな感じです。

さらにEndophenotypeについて

中間表現型と訳してあるサイトを見つけました。

遺伝子が関与し疾患と関連性があるがそれ自身は疾患の症状ではない中間的な表現型
を指す。確固たる根拠はないが、疾患自体よりも遺伝的解析において制御しやすい
と言われている。
偽常染色体領域
2010年06月07日 (月) | 編集 |
偽常染色体領域とは、哺乳類のY染色体とX染色体で相同性が残されている領域のことをいうそうです。
この領域ではXとYの間で組み換えも起こるそうですが、詳しいことは調べられていません。。。(もう疲れた)
連鎖と変異
2010年06月02日 (水) | 編集 |
連鎖が強い領域で遺伝的多様性が低くなるのは、以下のようなメカニズムが存在する
からだと言われている。

 selective sweep
有利な変異の起きたハプロタイプはその集団中の頻度を上げようとする
(ホモ接合に持っていこうとする)
このとき、その変異の周辺領域の頻度も上がる
しかし、途中で別の変異や組み換えが起こることもあるので、周辺領域は
完全にホモ接合に固定されるわけではない。

 back ground selection
不利な変異が生じたハプロタイプは子孫には受け継がれない。
連鎖が強い領域ほど失われる多様性のレベルも大きい。