Outils de recherche et référencement

Toucouleur · 22-03-2008 10:39:20

J'ai avec les conseils de françois commencé à réétudier post journée habituelle les expressions régulières pour faire de l'extraction d'infos sur certains pages Web.

Mais tout ne marche pas facillement vace ces foutus expressions.

Après avoir passé rien que quelques heures pour comprendre le minimum syndical, j'ai pondu ça :

Code:

$string = file_get_contents($url_to_get_content_from);

function findinside($start, $end, $string) {
        preg_match_all('/' . preg_quote($start, '/') . '([^\.)]+)' . preg_quote($end, '/').'/i', $string, $m);
        return $m[1];
    }
   
    $start = "<b>";
    $end = "</b>";

    $out = findinside($start, $end, $string);

    print_r ($out);

ça fonctionne très bien avec $start (= '') et $end ( ='') qui sont simple.

Mettons que mon texte de départ soit

$string soit :

Code:

<tr>    <td bgcolor=#DDDDDD colspan=10>    <big><b>Info à pomper
            2ième ligne d'info
            alors ?</b></big>
    </td>
</tr>
<tr>
        <td valign="top" align="center">
            <img src="documents\totoula\755990169-g.jpg" border=0 alt="Photo 755990169-g.jpg" title="755990169 : test image">

et que je spécifis plutot dans $start et $end

Code:

$start = '<td bgcolor=#DDDDDD colspan=10>    <big><b>';
$end = '</b></big>
    </td>';

ça ne fonctionne plus du tout.

Vous l'avez compris je cherche à me fabriquer une fonction pour extraire à des endroits b ien précis dans le code des données.

J'ai passé des heures http://osteele.com/tools/rework/ si quelqu'un possède la fonction universelle et qui fonctionne (presque ) à tous les coup, je suis preneur!

fbparis · 22-03-2008 11:16:37

je mettrais plutot /si a la fin de ta regex plutot que /i : si avec les retours a la ligne ca va coincer..

Pour ta regex perso j'aurais plutot vu ca (je pige pas trop la partie entre les preg_quote la) :

Code:

preg_match_all('/' . preg_quote($start, '/') . '(.*?)' . preg_quote($end, '/').'/si', $string, $m);

Derni�re modification par fbparis (22-03-2008 11:53:10)

Siddartha · 22-03-2008 11:59:44

Pkoi pas utiliser les fonctions DOM de php5 plutôt que des expregs relativement complexes ?

C'est quand même dingue de faire compliqué quand on peut faire simple

Code:

$url = 'http://www.tonsuperdnsaparser.com/Airport/airportDetails.jsp?airportCode='.$getIata;
echo $url;
$dom = new Domdocument();
@$dom->loadHTMLFile($url);

for ($i=0;$i<15;$i++ ){
  echo $i . "->" . $dom->getElementsByTagName('b')->item($i)->textContent ."<br />";
}

le $i = 15 est juste un exemple puisque j'avais compté les b et seuls les 15 premiers m'intéressait dans ce cas. Si ensuite, la donnée que tu cherches est dans le 3 eme du DOM, ben :

Code:

$iata_tmp = $dom->getElementsByTagName('b')->item('3')->textContent;

Et probleme réglé en 5 lignes de codes.
Et ca marche pour tout élèment présent dans le dom !!
Je comprends pas pourquoi vous vous faites chier encore avec des expregs !

fbparis · 22-03-2008 12:02:57

Ouais mais comme tu l'as dit Sid c'est du PHP 5... Et ya encore pas mal de sites qui n'ont pas migré.

Siddartha · 22-03-2008 12:27:16

Bah tlm a php5 non now ?
Et en particulier Toucouleur ! ;-)

Toucouleur · 22-03-2008 14:48:18

Siddartha a �crit:
Bah tlm a php5 non now ?
Et en particulier Toucouleur ! ;-)

merci à vous 2, c'est vrai que ta solution est pas mal Sid, mais dans mon contexte, je veux vraiment quelque chose de très personnalisable pour aller chercher ce que bon me semble en spécifiant les balises avant et arrière.

function findinside($start, $end, $string) {
preg_match_all('/' . preg_quote($start, '/') . '(.*?)' . preg_quote($end, '/').'/si', $string, $m);
return $m[1];
}

$start = "<td bgcolor=#DDDDDD colspan=10><big>";
$end = "</big></td>";

dans le même exemple qu'indiqué plus haut, là typiquement l'extraction fonctionne pas

ça fonctionne pour

Code:

    $start = "<td bgcolor=#DDDDDD colspan=10>";
    $end = "</td>";

mais pas pour

Code:

$start = "<td bgcolor=#DDDDDD colspan=10><big><b>";
    $end = "</b></big></td>";

j'imagine que mon problème vient que des espaces sont placés entre les différentes balises ?

edit : non ça vient pas des espaces c pas simple ces foutus expressions reg. :r(

Toucouleur · 22-03-2008 18:47:46

Re

J'ai un peu de mal à le faire fonctionner, car les Xquery que j'obtiens sont mal foutus pour être reexploité comme tel, mais je ne doute pas que des Twenga et cie ont utilisé ce type de technique pour te scrapper ton catalogue en un rien de temps : http://twit88.com/blog/2007/11/19/solve … generator/

pour mon pb, pour la solution à partir de la piste donnée par Sid, ça me donne ceci :

Code:

$dom = new Domdocument();
@$dom->loadHTMLFile($url_to_get_content_from);
$xpath = new DOMXPath($dom);


$big = $xpath->evaluate("//td/big/b");

echo $big->length;

echo "<hr />";

for ($i = 0; $i < $big->length; $i++) {
echo $big->item($i)->textContent . '<br  />';

}

A moi un Twenga bis

klelugi · 22-03-2008 19:02:43

Wow impressionant de simplicité en effet

Merci pour la méthode Sid ^^

Siddartha · 22-03-2008 22:45:57

Ben voila 5 lignes de code et des tera octets de données prêts à être insérer dans vos bdd et website ;-)

appollo · 23-03-2008 09:04:11

Effectivement j'ai testé le bout de code de site ca marche très bien et ca ma donnée une idée thank's

easyguy · 23-03-2008 09:24:18

Ouais et Sid en a déjà parlé y a ... quelques mois ... c'est bien de suivre les gars

Derni�re modification par easyguy (23-03-2008 09:24:34)

Toucouleur · 23-03-2008 10:11:20

Kk1 utilise ou exploite Slovent pour les XQuery ? http://twit88.com/blog/2007/11/19/solve … generator/ ?

Toucouleur · 24-03-2008 17:39:15

Je me répond à moi même : ce con de Firefox (PC ou Mac) corriges toutes structures HTML qui est dans son rendu HTML. du coup quand vous scrappez un vieux site tout pourri avec des tableaux, pensez à virer les trucs qui ne vous servent à rien du genre Tbody.

Laissez tombez Solvent et cie, j'ai enfin compris tout le potentiel de Firebug

J'ai dis déjà merci Sid ?

salemioche · 03-10-2017 08:26:21

Inusable regexp

Outils de recherche et référencement

#1 22-03-2008 10:39:20

Extraction texte en fonction de balise HTML avec Preg_match_all

Code:

Code:

Code:

#2 22-03-2008 11:16:37

Re: Extraction texte en fonction de balise HTML avec Preg_match_all

Code:

#3 22-03-2008 11:59:44

Re: Extraction texte en fonction de balise HTML avec Preg_match_all

Code:

Code:

#4 22-03-2008 12:02:57

Re: Extraction texte en fonction de balise HTML avec Preg_match_all

#5 22-03-2008 12:27:16

Re: Extraction texte en fonction de balise HTML avec Preg_match_all

#6 22-03-2008 14:48:18

Re: Extraction texte en fonction de balise HTML avec Preg_match_all

Siddartha a �crit:

Code:

Code:

#7 22-03-2008 18:47:46

Re: Extraction texte en fonction de balise HTML avec Preg_match_all

Code:

#8 22-03-2008 19:02:43

Re: Extraction texte en fonction de balise HTML avec Preg_match_all

#9 22-03-2008 22:45:57

Re: Extraction texte en fonction de balise HTML avec Preg_match_all

#10 23-03-2008 09:04:11

Re: Extraction texte en fonction de balise HTML avec Preg_match_all

#11 23-03-2008 09:24:18

Re: Extraction texte en fonction de balise HTML avec Preg_match_all

#12 23-03-2008 10:11:20

Re: Extraction texte en fonction de balise HTML avec Preg_match_all

#13 24-03-2008 17:39:15

Re: Extraction texte en fonction de balise HTML avec Preg_match_all

#14 03-10-2017 08:26:21

Re: Extraction texte en fonction de balise HTML avec Preg_match_all

Pied de page des forums