Le but de mon script PHP est (dans un premier temps) d'extraire tous les "href" de toutes les balises <a></a> d'une page HTML quelconque.
Pour cela j'ai écrit ce motif regex :
$masque="<a([^>]*)>([^<]*)</a>";
en faisant comme ça je récupère quasiment tous les <a> mais certains résistent !!
Par exemple celui-la :
<a href="http://truc.bidule"><b>truc.bidule</b></a>
Je vois bien ou est le probleme, mais je ne vois vraiment pas de solution car si je fais ça :
$masque="<a([^>]*)>(.*)</a>";
ce n'est pas satisfaisant non plus...
Bon voila, j'espère que j'ai été assez clair et je remercie d'avance toute personne bien intentionnée qui daignera répondre à ma question
C'est vraiment sympa de ta part de m'aider mais là ça a pas l'air de faire l'affaire...
Le problème c'est que la plupart des pages sur le web ne sont pas valides W3C et de ce fait il arrive qu'il n'y ai pas de " ou de ' autour du href et dans ce cas là : ça marche pas !
Mais de toute façon mon problème se situe juste avant : </a> ...
Toi tu mets (.*) mais si je mets ça : ça déconne ! Je suis obligé de faire un truc du genre ([^<]*), le prob c que si il y a des balises dedans ça déconne aussi En tous cas merci pour ta réponse ça fait plaisir
ben non m'en fout pas, parceque si il y a des balises dans le <a>, il n'est meme pas detecté lors de la recherche, il passe à travers le masque quoi...