1306 shaares
2 results
tagged
scrapping
On a souvent besoin d'extraire le contenu d'une page web et de le convertir en markdown quand on travaille avec des LLMs.
Ce script de 75 lignes de JS utilise Playwright pour convertir n'importe quel site en document markdown
Une lib de scrapping qui utilise GPT pour extraire les informations voulues depuis une page web.
Ça fonctionne assez bien et ça permet de réduire le coût total en faisant un clean sur le HTML.
Un peut spécifier un budget de token et le scrapper s'arrête une fois le budget consommé.