大阪大学医学部 Python会

Now is better than never.

バイオインフォマティクス技術者認定試験2019 解答速報?

2019-12-11(Wed) - Posted by 小川 in 技術ブログ    tag:Bioinformatics tag:検定試験

Contents

    先日受験したバイオインフォマティクス認定試験をあらためて復習して、ついでに解答速報(全然速くない)と備忘録程度の解説を書きました。

    模範解答 (?)

    1 2 3 4 5 6 7 8 9 10
    0 4 4 3 3 2 2 4 1 2 2
    10 2 1 3 3 4 2 4 3 1 3
    20 3 4 2 2 4 1 2 1 4 3
    30 1 1 1 2 1 2 3 4 1 4
    40 3 4 4 3 2 2 3 1 4 1
    50 2 3 3 1 3 4 4 4 2 3
    60 1 3 2 1 1 3 4 4 2 1
    70 1 2 4 4 2 3 4 4 3 3

    (問題番号 = 縦列番号 + 横列番号)

    (2019.12.23 公式解答と全問一致でした。ただ問74は取消になりませんでした。)

    解説

    バイオ(問1-20)

    • 問1:答4:はい
    • 問2:答4:核小体で合成されるのはrRNA。なおさらにリボソームの組み立ても行われる。
    • 問3:答3:G1→S→G2なのでG2で倍になっている。
    • 問4:答3:mRNAにポリAが付加されるのは真核生物。 (注:教科書的には多分そうなのだが、原核生物やミトコンドリアのmRNAでも大抵はポリA鎖が見られるらしい。ただ持たない例もあり、二次的に失われたと考えられている。一方、真核生物でそのような例は知られていない。いずれにせよ一般に正しいとまでは言えないという意味で、選択肢3が正解となる。消去法的に解けるとはいえ、実は難問。)
    • 問5:答2:リボソームの小サブユニットは1種、大サブユニットは真核で3種、原核(真正および古細菌)で2種のrRNAを含む。よって合計4種ないし3種である。
    • 問6:答2:ジスルフィド結合でなくリン酸エステル結合。
    • 問7:答4:引っ掛けに近いが、グリシンの側鎖はHのみである。
    • 問8:答1:1回膜貫通で普通チャネルはできない。
    • 問9:答2:ユビキチンはタンパク質なので糖鎖修飾ではない。
    • 問10:答2:これもちょっとした引っ掛け。解糖系で酸素は消費しない。
    • 問11:答2:はい
    • 問12:答1:はい
    • 問13:答3:ミトコンドリアは母親由来である。
    • 問14:答3:グリセリンはアミノ酸ですらない。Gはグリシン。
    • 問15:答4:プロモータ領域にあるGC含量の高い領域はGCボックスという。LINEはレトロトランスポゾンの一種。問62でも登場。
    • 問16:答2:PCRで変化させるのは溶液組成ではなく温度である。
    • 問17:答4:メタボローム解析とはその名の通り、低分子化合物を主とする代謝産物の網羅的解析である。DNAの配列決定とは無関係。
    • 問18:答3:はい
    • 問19:答1:2,3,4は正しいので消去法で決めることができる。
    • 問20:答3:はい

    インフォマティクス(問21-40)

    • 問21:答3:偶奇を決める演算を問われている。該当するのはXORしかない。
    • 問22:答4:GPGPUの省略前名称を与えてくれており、これが説明と矛盾することは知らなくてもわかる。GPGPUの本当の意味は名前の通りだが、特に現在のカジュアルな深層学習には必須の技術である(そのうち専用プロセッサが主流となれば死語になるかもしれない)。
    • 問23:答2:はい
    • 問24:答2:はい
    • 問25:答4:はい
    • 問26:答1:while中の条件x<A[j]が満たされることは決してない。よってiのループが2からnまで一巡するだけで終了するので、計算量は\(\Theta(n)\)である。
    • 問27:答2:マージソートを知らなくても、\(f(n) = n + 2f(n/2)\) をただ解くだけでよい。\(f(n)=n\log_2 n\) はこの厳密解となるので、計算量オーダーは \(\Theta(n\log n)\) である。
    • 問28:答1:20n個の中の上位n個に入る確率は1/20であり、n依存性は消滅する。
    • 問29:答4:順に辿ると、E < F < G < H になることがわかる。

    • 問30:答3:\({}_5C_{2}=10\)

    • 問31:答1:(i, j)に達する経路は(i-1, j)からと(i, j-1)からの2パターン。AtCoderのD問題以上でも頻出。
    • 問32:答1:SQLはRDB用の言語。
    • 問33:答1:論理演算を注意深く考えれば良い。
    • 問34:答2:はい
    • 問35:答1:-1から2までfを積分すればよいので、原始関数を使うと選択肢1が自動的に出る。
    • 問36:答2:どちらも負の相関があるが、x-yグラフの方がばらついている、つまり相関係数の絶対値が小さい。回帰直線の傾きは関係ない(引っ掛けである)。
    • 問37:答3:勾配ベクトルは軌跡に接し、また等高線に直交する。向きが紛らわしいが、上り方向である。学習時の変分ベクトルは符号を変えて下り方向。
    • 問38:答4:はい
    • 問39:答1:隠れマルコフモデルがクラスタリングに使えるかわからなくても(実際僕は知らない)、2,3,4は明らかにクラスタリングに使えるアルゴリズムである。
    • 問40:答4:訓練用とテスト用が逆である。訓練用のデータはなるべく多く確保したい。

    バイオインフォマティクス(問41-80)

    • 問41:答3:菌種によらず共通に必要な機能は多く存在する。それらを1菌種にまとめるようなことをしてはいけない。
    • 問42:答4:はい
    • 問43:答4:書いているかどうかチェックするだけ。選択肢4のようなことは書いていない。
    • 問44:答3:4塩基分前後にずれたところ(右下と左上)にも直線状プロットがなければならない。
    • 問45:答2:はい
    • 問46:答2:四角が表すのは代謝反応を触媒する酵素である。
    • 問47:答3:はい
    • 問48:答1:一般に次世代シークエンサは繰り返し配列を苦手とする。たとえ反復配列から多くのRNAが転写されていても、そこから「ゲノム上の反復配列」を復元するのは困難と思われる。
    • 問49:答4:シュードノットとは、2度ヘアピンで折り返して元と同じ向きに進むような構造。そもそも2塩基だけで作れるようなものではない。
    • 問50:答1:PAMスコア行列の計算は、まず近縁なタンパク質間の置換回数から変異確率行列(=マルコフ過程遷移行列)を求める。1/100の割合で置換=1PAM。これを行列積で\(n\)乗した遷移行列から、対数オッズスコアを計算したものがPAM\(n\)である。「様々なアミノ酸の物理化学的指標を組み合わせて評価」したものではない。
    • 問51:答2:P(G)は縦および横に足し算するだけ。結果は一致する(一致しなければおかしい)。次にP(T|G)は0.05/0.2=0.25となる。
    • 問52:答3:1文字目Gの出現確率がP(G)=0.2、P(T|G)=0.25、P(C|T)=0.06/0.3=0.2なので、掛け合わせれば0.01が出る。
    • 問53:答3:疎水性アミノ酸は5番目のI(イソロイシン)と10番目のV(バリン)なので、それらが内部に埋もれるものを探して選べばよい。
    • 問54:答1:配列同士を比較すると、残基2と11、3と10のペアがそれぞれセットで変異していることがわかる。よってこれら同士が隣接するものを探して選べばよい。
    • 問55:答3:意味の異なる文字や数字が隣接していても、ルールが明確であればプログラムによる判読は容易である。
    • 問56:答4:はい(見ればわかる)
    • 問57:答4:図中にMainly Beta-Beta Barrelと書かれている。
    • 問58:答4:一概にそのようなことは言えない。一般に立体構造は一次配列よりもよく保存される傾向があり、遠い昔に共通起源を持つタンパク質が分化したものである可能性もよく検討する必要がある。
    • 問59:答2:1,3,4は少なくとも正しいと思われるので、消去法で。
    • 問60:答3:はい
    • 問61:答1:超優性だけでは高々ヘテロ結合になるだけであり、1箇所に何種類もの変異を保持することはできない。
    • 問62:答3:AluはSINEの一種で、レトロトランスポゾンでありながら有効な逆転写酵素を持たない。
    • 問63:答2:機能的制約から、特異な構造を持つタンパク質があってもおかしくない。
    • 問64:答1:連鎖不平衡と遺伝的連鎖は違う場合がある。
    • 問65:答1:はい
    • 問66:答3:新しい枝を追加する場所の選択肢が7通りあるので、15x7=105である。一般には(2n-5)!!となる。
    • 問67:答4:変異が有利に働く場合なので、中立説での説明とは異なる。
    • 問68:答4:はい(何もかも間違い)
    • 問69:答2:はい
    • 問70:答1:自身を活性化するAを抑えるので、「増えることによりさらに増える」ことはない。
    • 問71:答1:はい
    • 問72:答2:通常、DNAメチル化は遺伝子発現の抑制に働く。
    • 問73:答4:終止コドンはTAA、TAGと、TATでなくTGAである。正確に記憶していなくても、3つとも最初の2文字が共通ということはないこと、さらに2文字目と3文字目は両方プリンだったことなど、断片的な情報からも答えられるように作られた問題。

    • 問74:答4?:想定解答はおそらく4と思われるが、それも実は正しい模様(質量分析の情報が構造決定のために用いられる)。すると全選択肢が正しく、正答なしとなる。全員正解扱いの可能性あり。

    • 問75:答2:菌の割合を求めて細菌数に掛ければ各菌ごとの菌密度が求められ、菌Xの密度は試料Aで\(1.0\times 10^5\) 、試料Bで \(0.75\times 10^5\) となる。
    • 問76:答3:知らなくても、エントロピーという言葉がShannonのヒントになっている。
    • 問77:答4:タンパク質間相互作用があってもそれが元の遺伝子にフィードバックされるとは限らないため、一般に完全グラフになるというのは誤り。
    • 問78:答4:タンパク質とmRNAの量比を問題にしているので、直接は無関係な事象である。
    • 問79:答3:ポリクローナル抗体での解析で有意差が無かったのだから、これはおかしい。
    • 問80:答3:ベイジアンネットワーク推定ではループ構造が現れることはない。