----- Original Message ----
> From: indalinea <
indalinea@...>
> To:
perl-es@yahoogroups.com
> Sent: Wednesday, April 15, 2009 11:53:26 AM
> Subject: Re: [PERL-es] Eliminar el codigo hml
>
> Lo he encontrado....
>
> $content=~ s/<(?:[^>'"]*|(['"]).*?\1)*>//gs;
Si no me equivoco, esto va a eliminar cosas del tipo "<foo>Hola que tal</foo>",
que no es lo que quieres
En cualquier caso, usar una expresion regular para esto es un metodo que te va a
fallar con cierta frecuencia, porque tendras falsos positivos. La solucion buena
es usar un parser como HTML::Parser.
Otra solucion es emplear un navegador de texto como lynx o w3m que te permitiran
formatear el HTML como texto. La idea es grabar la cadena en un fichero temporal
y luego procesarla con alguna de estas utilidades:
my ($fn, $fh) = File::Temp->...;
print $fh $content;
close $fh;
open my $w3m, '|-', 'w3m', '-dump', $fn or die...
my $out = <$w3m>;
close $out or die ...;
- Salva
>
> gracias...
>
>
> lamaneta escribió:
> >
> >
> > Si tengo una variable que contiene el codigo completo html de una web,
> > es posible eliminar todas las etiquetas y dejar solo texto ...?
> >
> > Ramon Ortiz
> >
> >
>
>
>
> ------------------------------------
>
> Mails de la lista:
> Para enviar mensages:
perl-es@onelist.com
> Para suscribirse:
perl-es-subscribe@onelist.com
> Para borrarse:
perl-es-unsubscribe@onelist.com
> Para hablar conmigo:
perl-es-owner@onelist.com
>
> Web de la lista:
>
http://www.onelist.com/community/perl-esYahoo! Groups Links
>
>
>