1343 shaares
Toutes les méthodes de chunking de documents disponibles dans Langchain et LlaMa Index.
Les plus intéressants sont ceux qui se basent sur la structure du document comme le markdown ou le HTML.
Cela n'est néanmoins pas suffisant car on peut perdre le contexte d'un chunk à l'autre. Par exemple, si le deuxième chunk fait référence au sujet du premier mais sans le reformuler.
Dans les techniques plus avancées, on peut noter le Semantic Splitting qui tente de découper les chunk entre les phrases en fonction du moment ou on change de sujet.