Skeleton of Thought: large language models can do parallel decoding

1391 shaares

Filters

Links per page

20 50 100

Skeleton of Thought: large language models can do parallel decoding

Un article sur une méthode de prompt engineering pour réduire la latence d'un LLM en découpant une tâche en sous tâche puis en générant chaque partie indépendamment avant de merge le tout.

L'article est pleins d'exemples concrets en annexes

c-ai · text-ai · prompt-engineering

November 21, 2023 at 23:26:47 UTC * · permalink

https://arxiv.org/pdf/2307.15337.pdf

Filters

Links per page

20 50 100