ft

MLPシリーズ サポートベクトルマシン

MLPシリーズの「サポートベクトルマシン」を読んだので中身の備忘録。

第一章:2クラス分類問題
ハードマージン、ソフトマージン、双対表現、カーネルによる一般化、ヒンジ損失について。SVMの基礎的な内容。

第二章:多クラス分類問題
1対1方式、1対多方式、ペアワイズカップリング、誤り訂正出力符号など。SVMに限らず、一般の2クラス識別問題に拡張できる話が多い。

第三章:回帰分析
SVRについて。SV回帰のノイズモデルは識別で用いられるノイズモデルと比べてやや特殊なので、回帰においてスパース性を利用したいときはL1正則化を用いることが多い、というのは実情として納得。というかなるほど。

第四章:教師なし学習のためのサポートベクトルマシン
教師なし学習について概説した後、異常検知のための1-class SVMについての紹介。

第五章:カーネル関数
カーネルの基本的性質の紹介から、文字列カーネルやグラフカーネルなどの紹介など。それほどきっちり説明しているわけではないので、カーネルをしっかり勉強したければ赤穂先生の本を併せて読んだ方がよい。

第六章:最適化概論
KKT条件の説明、及び一般的な最適化方法(アクティブセット法と内点法)について解説。これも最適化をしっかり勉強したければ別の本も併せて読んだ方がよい。

第七章:分割法
大規模データセットに対してパラメータ最適化を行うためのSVM特異な最適化方法。またの名をチャンキング法。基本的には、(同時に全データを扱うことはできないので)作業集合の分割と更新を繰り返して最適解への収束を調べる。カーネルSVMのためのSMOアルゴリズムと、線形SVMのためのDCDMアルゴリズムを紹介。(制約条件の違いで、作業集合が2変数になるか1変数になるかの違いが出る)丁寧に数式が書かれていてわかりやすい

第八章:モデル選択と正則化パス追跡
前半はCVについて。後半は、正則化パラメーターCを変化させたときに、双対変数がどのような軌跡をたどるかを求めるアルゴリズムの紹介。(双対変数の最適解をパラメーターCで表現した式を求める) これにより、様々なCを振った条件下で改めてパラメーターを最適化するよりも計算時間が少なくて済む。

第九章:逐次学習
SVMの逐次学習。

第十章:サポートベクトルマシンのソフトウェアと実装
RでのSVMの紹介と、LIBSVMの中身で使われているアルゴリズムについて紹介。LIBSVMを使う以上は、実装について知識を持っておいた方がよいので有用な章。

第十一章:構造化サポートベクトルマシン
(最近出てきた?)出力変数として値ではなく構造(木構造など)を学習するSVM。出力と入力を合わせて結合特徴ベクトルとして学習する。出力変数が膨大な空間になるため同時計算が困難だが、切除平面法と呼ばれる最適化法を利用して学習する。具体的には、空の制約集合からスタートして、現在の制約から違反している順番に出力変数を制約に加えていくというもの。名前をちょくちょく聞くが、よくわかっていなかったので勉強になった。

第十二章:弱ラベル学習のためのサポートベクトルマシン
教師データが完全に与えられていないときのための学習方法。具体的には、半教師あり学習とマルチインスタンス学習(事例の集合に対してクラスのラベルが与えられており、負のラベルを与えられているときはその集合の中身は全て負だが、正のラベルを与えられているときはその集合は正と負を含む、といったケース)について。マルチインスタンス学習は薬剤活性分析で元々使われ始めたらしいが、少々特殊な気がしないでもない。

全体の感想
MLPシリーズ第一期の例にもれず、式展開を丁寧に説明しているためわかりやすく、また構造化SVMなど発展的な事も記載されているため非常に勉強になった。途中で「本書では省略する」が多発するところがあったが、最適化法やカーネルについてまでこの本の中で詳述するわけにはいかないので、仕方のない所が多いと思う。PRMLのサポートベクトルマシンの記述は薄い(本書で言えば、1〜3章の内容を薄めたくらい)し、「サポートベクトルマシン入門」に比べてもわかりやすいし発展的な内容を含むので、SVMを勉強するならまず読んで損はないと思われる。

今日話をした、とある六期生のメモ

・化石が好き、よく発掘に行く、昨日まで3日間化石を発掘しにフィールドワークに行っていた
・化石になっている新種を発見したと思う、記載論文を書きたいが先行研究がイタリア語やフランス語で書かれているから本当に新種かよくわからない、どうしよう
・古生物学のセミナーにはよく潜っていてそこで清家さんと知り合った
・化石の形態情報だけから推測を行うことに限界を感じたのでDNA解析技術を学ぶために生物情報に来た
・一部のクレードに限れば、ゲノム情報から形態情報を推測できるのではないか、それに化石情報を絡めて行きたい こういう研究はまだあまりないのではないか
・ancient DNAとかをやる気はない
・進化にしか興味はない、おそらく岩崎研に行く

これは大物が来たで

こういう学生を受け入れられる研究室が出来てよかったです、と真摯に思いますね

半年

気がついたらもう10月だった。
博士課程も1/6過ぎた事になるが、むしろ大学院生活が半分過ぎたって方がしっくりくるかな。

半年間でやった事

・学振提出(初めての申請書)
・CapR論文submit(初めての筆頭論文submit)
・初めての国際学会英語口頭発表
・共著論文が2本受理
・初めての国際会議運営
・教職の化学実験の単位取得
・画像処理の基本的勉強、メダカのトラッキングシステム大枠完成

・彼女が出来た

次の半年でやりたい事

・CapR論文accept
・メダカトラッキング論文submit
・なんかしら1本共著がsubmitされる気がする
・解析手法に目途をつけ、D2前半にsubmit出来る体勢を整える
・尾田研以外のメダカ研究室とも共同研究をする
・2つ目の研究テーマを決めて手をつけ始める(ただし画像に限る)

・自動車免許を取る
・彼女と幸せに過ごす

とりあえずsubmit目指して頑張ろう。
なお、ただし画像に限ってるのは、まだ画像の勉強不足感があるからです。

京大ジョイントの東大ステージ感想

東大・京大ジョイントコンサートを聞きに京都まで行ってきました。夜行バス往復使用が以前に比べてきつくなりました。年齢を感じます。

参加した東大OBは私一人でした。そう言う意味でも行っておいて良かったですね。
東大は28人中13人が1年生と新歓大成功のようでめでたい。

簡単に感想を。<エール交換>
両団共に練習不足。東大は内声が生っぽかったが、1年生があれだけいると仕方ないかも。<東大ステージ>
六連でのバードの三声のミサの再演。驚くレベルで良くなっていた。非常に見違えた。1年生が半分いたとは思えない。
以前六連の感想を結構辛く書いた(http://d.hatena.ne.jp/fukunagaTsu/20130503/1367596559)のを学指揮が見ていたらしく、相当気にして練習したらしい。合唱と研究の感想ではお世辞は言わない事にしている(本当の事を言わない時はある)けど、本当に良くて、私の知っているここ7年の京大ジョイントで最高の出来だったと思う。

特に、「1年生が増えた以上に声量が出るようになっていた事」が大きいと思う。合同指揮者の先生が「まずは張れ、そして抜け」とか「セカンドはトップに押されるな」みたいなことを仰っていたが、やはり声量が出ていないと客席には聞こえないわけで、まずは聞こえなければ意味はないわけで。それは、人数の問題ではなかったりする。(実際、六連では東大より人数の少ない法政の方が良く聞こえているわけで) 「客席にいる可愛い女の子に届けるつもりで歌え、暗くて見えなければ緑の人(非常口)に聞かせるつもりで歌え」とは1年生の時誰かに言われたけれども、そういう相手に聞かせる気というのはすごい大事ですよね。

あと、学指揮は非常にバードの三声のミサを研究しているな、と思いました。六連の時は全く出来てないと言っても過言ではなかったパート同士の掛け合いや表現が出来ていたし、工夫が見られました。ここまでミサに積極的に取り組んだ学指揮も珍しいし、立派だと思います。

「なんか厳しい言葉をください」とか学指揮に言われましたが、まぁ大体全部本人がわかってるんだろうなぁ、と思います。カウンターのピッチが安定してないとか、テナーの発音が浅いとか、入りが大体乱れてるとか、特にbenedictusのHosannaに入る所はずれずれとかね。でもそんな事言っても仕方ないしなぁー。

あ、2つだけ言う事があった。
1つ目「歌っている時に皆顔が怖い」 2つ目「HPはまともに更新して下さい」

生物情報科学科の進振りガイダンスに参加しました

生物情報科学科の進振りガイダンスに参加してきました。
前日急に参加する事が決まったので、スライドが割と適当でしたが・・。

何を話すべきか迷いましたが、

バイオインフォマティクスが生物学にどのように使われているか」
及び
「生物情報科学科と、生物化学科・情報科学科はどのように異なるか?」
について説明してきました。

先生方の説明の中に、上記の2つについてはほとんどなかった(!)ので、構成的には悪くなかったかな、と思います。(ただ、私の好みの関係で、システム生物学及び合成生物学については触れなかったので、そっち方面を期待して学科ガイダンスを聞きにくれた人を遠ざけてしまったかもしれません、やや反省。)

ガイダンス参加者は全部で25人強くらい、女子は6人くらいでした。ガイダンスレベルではちゃんといるんですね。かりこりもガイダンスでしゃべったので、きっと2人くらいは来てくれるはず(!?)

さて、思った事ですが、もう少し丁寧な説明が必要かな、と思いました。物理学や化学、数学とは違い、バイオインフォマティクスやシステム生物学といった学問が、まだ駒場生に膾炙しているわけではありません。だから、これらの学問がなぜ必要なのか、どういう学問なのか、と言った事を説明しないと、正直良くわからないと思います。「生物と情報を同時に学べるのはうちだけ!」と言っても、「なぜ学ぶ必要があるのか」わからなかった人も多いのではないか、と思いました。

ガイダンスが終わった後、聞きに来てくれた学生何人かと話をしましたが、計数工学科や情報科学科といった数理情報系と迷っている人か、後期教養の統合自然科学科と迷っている人のどちらかでした。生物化学科と迷っている人がいないのは少し意外でした・・。(サンプル数6、7くらいですが)

以下適当な事を書き連ねます。

前者の人には、結局「自分がどこまで生物に興味があるか」次第だと思います。「新しい生命科学」であるとはいえ、講義として実験もやりますし、昔ながらの生物学の講義もあります。研究を進める上では、分子生物学の暗記的な知識、考え方も必要になります。だから、「生命を数式的に記述することに興味がある」人は、現状やや辛いかな、と思います。そう言う方は、どちらかというと統合自然の方が向いているかもしれません。

一方で、「生物情報科学科では、計数工学科や情報科学科に比べて、習う数理的な内容が浅くなるのではないか」と考えている人がいましたが、「それはない」と断言させていただきます。もちろん、専門としない以上、狭くはなります(情報科学科でやるような、ハードウェアやネットワークの講義はありませんし、計数工学科でやるような、回路や信号処理の講義はありません。)が、講義で行われる分野(機械学習とか、アルゴリズム)と言った部分については専門学科と同レベルの講義が展開されています。むしろ、情報科学科は計数工学的な内容がほぼ存在せず、計数工学科は情報科学科的な講義がほぼ存在せず、重要な所を両方学べるという良い点もあります。安心して進学してほしいと思います。

さて、後者については、彼らの考えはざっくり言うと、「今後生物学に数理的な考えが必要になるのはわかるのだが、統合自然科学科で物理を中心に学ぶべきか、生物情報科学科で情報を中心に学ぶべきか迷っている」という事のようです。

これは・・ムズイ・・。

物理学的な考えが生物学に今後もっと入ってくるのは明らかだと思います。今までの生物物理学は、タンパク質の構造に関連する事が多かったように思いますが、今後は種々のオーミクスデータをもとに脳やシステムにおける物理学的特性を理解する研究が進展していくでしょう。私自身、物理がさっぱりぷーで支障をきたしている部分もありますしおすし。

結局、どっちを自分の武器にしたいか、って事かなぁ、と。統合自然に進めば物理学的なアプローチが武器になって、生物情報に進めば情報・統計科学的なアプローチが武器になる、と。良し悪しはないかなぁと思います。


全然関係ないのですが

私が学部生の時に、実験のTAに「学部三年でやる実験なんて何の意味もないんだよ」と言われた事があります。大学院に入ってからも、「学部三年で実験をやったことがあろうが、そんなのは何の意味もない」と言ってくる方がいます。

それが事実であるのならば(多くの人に言われるので、それはある程度事実を含むと思うのですが)、「そのような実験」を課す学科に進学するべきではない、と思います。実験は学部三年の全日午後をぶっつぶすわけですが、「そこで何も学べない」なんて時間の無駄以外の何物でもない、と思います。学ぶ意思があるのならば、別に物理でも情報でも数学でも化学でも何でもいいですけど、「何かを学べる」学科に進学した方が良いと思います。

コールアカデミーの某後輩が生物情報に来てくれることを祈ります♪

ボードゲームナイトの感想

5/1にあったボードゲームナイトに行ってきた。

以下、プレイしたボードゲームの一言感想

1.ワードバスケット
http://jaga-tokyo.com/wordbasket/

しりとりをカードゲーム化したゲーム
メビウスゲームズで売上No.1だけあって、非常にとっかかりやすい。
頭を使わない(?)ので、お酒が入っても出来そうな点が素晴らしい。

2.スコットランドヤード
http://www.mobius-games.co.jp/Ravensburger/ScotlandYard.htm

チームで協力してミスターXを追い詰めるゲーム。
チーム内の推理を逃げる側であるミスターXも聞いているのが面白い所。
推理の中で本命以外の場所にいた人が、「私やる事ないからこの辺うろうろしときますね」とか言って捕まえた時には笑ってしまった。

3.ブラフ
http://www.mobius-games.co.jp/Ravensburger/Bluf.htm

メビウスゲームのゲーム紹介を見てたが、全然別のゲームやん!

4.ディクシット
http://sgrk.blog53.fc2.com/blog-entry-1222.html

プレイしたゲームの中で唯一、頭を使うゲームではなく感性を使うゲームで、個人的には結構面白かった。昔はこの手のゲームは苦手だったが、最近ましになってきた(そこそこ面白い事が言えるようになってきた)気がする。

5.お邪魔もの
http://www.mobius-games.co.jp/Amigo/Saboteur.htm

プレイヤーの中で誰がお邪魔ものかを推理しながら、またチームの皆を出し抜きながら金塊を目指すゲーム。こういう人狼的なゲームは好き。

6.ニムト
http://www.mobius-games.co.jp/Amigo/6nimmt.htm

7並べ拡張版?非常に単純明快なルールでありながら、ハプニング性を伴っていて面白い。10人ニムトはやりすぎでしたね・・。

7.レジスタンス
http://www.tk-game-diary.net/resistance/resistance.html

いわゆる、死なない人狼。個人的な好みもあって、大分面白かった。人狼側だったのもあって、村人がとまどっているのを見るのは中々笑ってしまったw


さて、ボードゲームナイトの感想だが、うーん、多様なゲームを遊べたとはいえ、3時間ボードゲームを遊んだだけで2500円(1ドリンク込み)はちょっと高いかも。一度メンバーが固定されたらずっとそこだけで遊んでるし、客をもっとシャッフルするような仕組みが主催者側に必要かもしれない。時間のかかるボードゲームはやりにくいから、出来るボードゲームに制限もかかるし・・。

色んなボードゲームを知るきっかけには良いと思うけど、最終的にはボードゲームを皆で持ち寄って遊ぶ方がいいなと思った。

東京六連の感想

辛めに。

第0ステージ:エール交換

東大
今年は『大空と』ではなく『ただ一つ』。
文句を言っているOBもいたが、私としてはどちらでもいいと思っている。
(私が生まれる前には、ただ一つだった時もあったしね)
人数が増えた割にはイマイチ声量が出ていないのが気になる。
ピッチが割とgdgd
「双眼の〜」のフレーズをレガートで歌うなら、「友よ友」のあたりはもっとスタッカートを効かせた方が個人的には好みである。

立教
同じく、人数の割に声量が・・。
イントロと本番の速度変化がもっと効いていた方が良いと思った

早稲田
ニゾンで乱れそうにならないでほしい

法政
例年通りピッチが怪しい
指揮者がいないためか、テンポが(音楽的な工夫ではなく)一定ではなくあせる
せめて言葉を大事に。「気象」は特にひどかった。

慶應
表現をつけようと頑張りすぎてやや不自然感はあるが、表現をつけようという意思が伝わってくるので個人的には好み。ところどころピッチがずれたのが残念

明治
全体的にピッチが甘い。
トップの声が結構若くて、「撞くや」で伸ばす所はちょっとどうかと思った


第一ステージ:東大 バードの三声のミサ
Kyrieはかなりきれいだった。が、Gloria以降はちょっとなぁ・・。
エールでもそうだったけど、20人弱人がいるんだったらもっと声量が出ると思うんだけどなぁ・・。ベースは基本的に良かった。ただ、GloriaのAmenはかなり格好いいところなので、そこを上手く決め切れなかった事がちょっと残念。テナーはそもそも発声の方向がおかしくない?軽すぎるというか、能天気に聞こえる。カウンターもそうだったけど、全体的にフレーズ感が薄くて、パート間での掛け合い、というレベルにはまだ到達していない、という印象。バード三声のミサなら、タリススコラーズみたいにプロの音源とかあるんだから是非聞き込んでほしい。

第二ステージ:立教 わが古き日の歌
名演。エールの時とは全く違う声になっていてびっくりした。指揮者の一振り目から空間を支配する素晴らしい演奏でした。特にソロ二人は文句なしに素晴らしい。強いて言えば、最後の方はトップに疲れが見えた事くらいかな。

第三ステージ:早稲田 wase glee over night
人数減りました?なぜワセグリはあぁも毎年子音が飛ばないのか全くの謎。海外の曲を歌っても、何を歌ってるのか(英語でさえ)さっぱりわからない。また、全部似たような感じで歌っちゃうので、多様な海外の曲を歌った事が全く生かされていない。中途半端にはっちゃけるのは別に面白くないので、私は例年風のワセグリの方が好きです。

第四ステージ:法政 修二會讃抄
完全に独自の世界を突っ走っていてもはや感想不能。雰囲気は出ていて良かったんじゃないかなー、くらい。特にソロの人は上手かった。ちょっと揃わなかった所があったけど、むしろあのレベルで揃っている事すら十分レベル高いからなぁ。

第五ステージ:慶應 雨
特に大きな問題があるわけではないと思ったのだけど(強いて言えばfでセカンドがうるさすぎる)、なぜか全く面白くならなかった演奏。よりによってタダタケで立教と比較してしまうので、より音楽的なつまらなさが際立ってしまった印象。理由は私にはわからなかったのだが、他の人から「パートバランスが悪すぎた」という話を聞いた。外声があと1.5倍くらいいた方がよかったらしい。

第六ステージ:明治 三つの時刻・路標のうた
三つの時刻は、立教と並ぶレベルで名演だと思った。路標の歌は、(パンフにも書いてありましたが)この規模で二群合唱をやるのはやはり厳しかったのかな、という印象。よくまとまっていたとは思うのですが、ピアノにかき消されてしまっていたり、fの所ではfに必死で統制がとれていないような印象を受けました。もちろん、十分な聞きごたえでしたが。

しかし、詩の意味がいまいち解釈しづらい・・。

第七ステージ:合同 縄文ラプソディー
選曲大勝利。びっしゃびっしゃしゃびっししししゃあ。
六連合同で細かい統制を聞かせようと思っても、それはまず無理なので、それならもう日本最大の男声合唱団である事を生かしてぶっ飛ばした方が良い。
これ以上ない大迫力でした。お腹いっぱい。

一応個人的な順位を書いておくと

エール
K>R>M>W>T>H
演奏
R>M>H>K>W>T
かな。

若干東大に辛いかもしれない。