論文サマリーまとめ 22年4月～5月

筆者が読んでまとめた一言サマリーを掲載します。本記事で掲載されている図は論文から引用したもので、各トピックの下の方にあるURLをクリックすると元の図を確認することができます。

Meta Reinforcement Learning-Based Lane Change Strategy for Autonomous Vehicles

MAML-based lane change method

https://arxiv.org/pdf/2008.12451.pdf

Pruning CNNs for LiDAR-based Perception in Resource Constrained Environments

CNNにおいて、どのフィルターを剪定(pruning)するかを選択するタスク

Pruning CNNs for LiDAR-based Perception in Resource Constrained Environments Manoj Vemparala - YouTube

MultiCruise: Eco-Lane Selection Strategy with Eco-Cruise Control for Connected and Automated Vehicles

なるべく燃料を抑える制約を付けた車線変更for自動運転・コネクティッドカー

2104.11959.pdf (arxiv.org)

Euro-PVI: Pedestrian Vehicle Interactions in Dense Urban Centers

密集した都市環境における、自車両と歩行者（自転車）の間の複雑な相互作用を捉えるモデルを開発するための、歩行者・自転車の軌跡データセットEuro-PVIを提案

MEASURING THE INTERPRETABILITY OF UNSUPER-VISED REPRESENTATIONS VIA QUANTIZED REVERSEPROBING

自己教師あり手法によって学習された表現をよりよく理解し、特徴付けるため、複数の概念を組み合わせて表現を説明することを可能にする表現解釈可能性の尺度であるReverse probingを提案。 https://openreview.net/forum?id=HFPTzdwN39

Poor Man’s BERT: Smaller and Faster Transformer Models

事前学習済のBERTが持つ12の層を削減することにより、GPU/TPUメモリを削減

結果・どの手法においても12層あるBERTには劣る・4層減らす場合は、Bottom-Layer Droppping以外でそれほど差は出ない・6層削減する場合には最後の6層を消す手法(Top-Layer Dropping)の性能劣化が小さい → 先行研究で、BERTの後ろにある層は目的関数に特化した重みになり、BERTの汎用性は前の層の影響が大きいと言われている。つまり後ろにある層は消してもそれほど劣化しないのではないか？・XLNetの場合、4層減らしたモデルでも12層あるXLNetとほぼ同じ性能が出せる・6層減らしたモデルでは学習時間・推論時間の両方が約半分になる（Table 3）・XLNetは7層に減らしても性能の変化はほとんど無いが、BERTは層を減らすにつれて性能が悪化 → XLNetは層の削減にロバストか（Figure 4）・目的タスクによっては６層減らしても性能が変化しない場合もある（Table 1）

Pre-trainedとfine-tunedモデルにおける、レイヤーごとのコサイン類似度の平均。BERTでは、後ろの層では前の層に比べて変化が大きい（類似度が低い）ことがわかる。一方XLNetでは、前の層の変化が小さいのはBERTと同じだが、後ろの層についても変化が小さい。ただし、12層目だけは大きく変わるという特性をもつ。

高い精度を達成した機械学習モデルを使用したときに、性能の低いデータの重要な部分集合(Slice)を自然言語で説明できる自動Slice発見法(SDMs):Dominoを提案し35%の設定でsliceの正確な名称を生成することに成功。

高い精度を達成した機械学習モデルでは、しばしばデータの重要な部分集合(Sliceと呼ばれている)において系統的な誤りを犯すことがある。高次元入力(画像、音声など)を扱う場合、重要なSliceがラベル付けされていないことが多く、性能の低いSliceを特定することは特に困難である。この問題に対処するため、最近の研究では自動Slice発見法(Slice discovery methods, SDMs)が提案されている。これは、学習されたモデル表現を活用して、モデルのパフォーマンスが低いSliceを入力データから探し出すものである。実務家にとって有用であるためには、これらの方法は、性能が低いsliceと首尾一貫した(すなわち、人間が理解できる概念によって結合された)sliceの両方を特定する必要がある。しかし、これらの基準に関してSDMsを厳密に評価するための定量的評価の枠組みは、現在のところ存在しない。また、これまでの定性的な評価では、SDMsはしばしば支離滅裂なSliceを識別することが示されてきた。本研究では、まず、3つの入力領域(自然画像、医用画像、時系列データ)において、1,235のslice発見設定でSDMsを定量的に比較できる原理的評価フレームワークを設計し、これらの課題を解決します。次に、近年のクロスモーダル表現学習の発展に伴い、クロスモーダル埋め込みと誤差を考慮した混合モデルを用いてcoherent slicesを発見・表現するSDMs、Dominoを発表する。Dominoは、我々のフレームワークで1,235個のスライスのうち36%を正確に識別することができ、これは先行手法に比べて12%ポイントの改善となる。さらに、Dominoは識別したsliceを自然言語で説明できる最初のSDMsであり、35%の設定でsliceの正確な名称を生成することができました。 https://github.com/HazyResearch/domino https://openreview.net/forum?id=FPCMqjI0jXN

What Happens To BERT Embeddings During Fine-tuning?

Fine-tuningがBERTの表現にどのような影響を与えているかを調査。 • What happens to the encoding of linguistic features such as syntactic and semantic roles? Are these preserved, reinforced, or forgotten as the encoder learns a new task? (Section 4) • Where in the model are changes made? Are parameter updates concentrated in a small number of layers or are there changes throughout? (Section 5) • Do these changes generalize or does the newfound behavior only apply to the specific task domain? (Section 6) https://arxiv.org/pdf/2004.14448.pdf

Sparse Instance Activation for Real-Time Instance Segmentation

Instance Activation Maps(IAM)の疎なセットを用いて、情報量の多い物体領域を強調することでリアルタイムインスタンスセグメンテーションを実現。弱教師付き物体位置推定で広く用いられているCAMより着想。

https://arxiv.org/pdf/2203.12827.pdf

Unsupervised neural network models of the ventralvisual stream

自己教師あり学習/教師なし学習のモデルは生物学的妥当性 (biologically plausible)があるとのこと

https://pubmed.ncbi.nlm.nih.gov/33431673/

How Much Position Information Do Convolutional Neural Networks Encode?

CNNは位置情報を畳み込んでいるのではないか？　CNNのpaddingが位置情報の手掛かりとなっているらしい。

https://www.slideshare.net/KazuyukiMiyazawa/how-much-position-information-do-convolutional-neural-networks-encode

StyleNeRF: A Style-based 3D-Aware Generator for High-resolution Image Synthesis

高解像度画像生成ができるNeRF+GAN

第9回全日本コンピュータビジョン勉強会「StyleNeRF: A Style-based 3D Aware Generator for High-resolution Image Synthesis」発表資料 - Speaker Deck

三次元空間のニューラルな表現とNeRF | ALBERT Official Blog (albert2005.co.jp)

https://arxiv.org/abs/2110.08985

Conditional Positional Encodings for Vision Transformers

ViTの位置embeddingをCNNにして局所近傍を畳み込んだ(PEG)モデルを提案

https://arxiv.org/abs/2102.10882

Nothing makes sense in deep learning, except in the light of evolution

DLの成功の説明は、この分野のすべてのアルゴリズムの集団と、それらが時間とともにどのように進化してきたかを見なければならないことを提案。文化的進化。進化生物学。

https://arxiv.org/abs/2205.10320

Intermediate-Task Transfer Learning with Pretrained Models for Natural Language Understanding: When and Why Does It Work?

BERTのような事前学習済みのモデルは、ターゲットタスクで微調整を行う前に、データが豊富な中間タスクでさらにモデルを学習することで、その性能を向上させることができる。本研究では、110の中間目標タスクの組み合わせで事前学習したRoBERTaモデルについて評価検証を実施。

https://arxiv.org/abs/2005.00628

SAYCam: A Large, Longitudinal Audiovisual Dataset Recorded From the Infant’s Perspective

6ヶ月から32ヶ月の乳幼児が、約2年半の間、週2時間程度、頭部装着型カメラを装着して作成した、視点画像と自然音声の書き起こしデータセット

https://psyarxiv.com/fy8zx/

Contrastive Learning with Positive-Negative Frame Mask for Music Representation

Contrastive learningに基づき、音楽の重要な部分とそうでない部分、あるいはノイズの多い部分をマスクすることで、モデルが音楽の重要な部分に集中できるようにした音楽表現学習。Transformer encoderのattention weightを利用して、正負のマスクを得るための非対称モジュールを提案。

https://arxiv.org/pdf/2203.09129.pdf

ECPE-2D: Emotion-Cause Pair Extraction based on Joint Two-Dimensional Representation, Interaction and Prediction

テキスト感情解析の分野では、感情-原因ペア抽出（ECPE）と呼ばれる新しいタスクが登場

https://aclanthology.org/2020.acl-main.288.pdf

https://github.com/NUSTM/ECPE-2D