Index
PaLM-E
GPTを超える5600億パラメータを持つ最大規模の大規模言語モデルだったPaLMに,
視覚処理の機構(Vision Transformer)を統合したPaLM-E-562B(5620億パラメータ)をGoogleが発表.
言語と視覚情報を組み合わせ,ロボットの操作や,視覚からの質問応答など,いろんなタスクを解ける.
言語と視覚情報を組み合わせ,ロボットの操作や,視覚からの質問応答など,いろんなタスクを解ける.
参考
- PaLM-E: An Embodied Multimodal Language Model
- [2023]
- arxiv.org
- palm-e.github.io