オムライスの備忘録

数学・統計学・機械学習・プログラミングに関することを記す

【深層学習】PaLM-E

Index

PaLM-E

GPTを超える5600億パラメータを持つ最大規模の大規模言語モデルだったPaLMに, 視覚処理の機構(Vision Transformer)を統合したPaLM-E-562B(5620億パラメータ)をGoogleが発表.

言語と視覚情報を組み合わせ,ロボットの操作や,視覚からの質問応答など,いろんなタスクを解ける.

参考