#!/usr/bin/perl use HTML::Entities; $doctype = "\n"; $filestring = ""; foreach (<>) { ## SOME REGEXS TO STRIP OUT west HTML chomp; $filestring = $filestring . $_; } #print $filestring; $filestring =~ s/\.htm//g; $filestring =~ s///g; $filestring =~ s/<\/span>//g; #$filestring =~ s/<(SPAN|IMG|td|tr|table)[^>]+>//g; ## now remove styles $filestring =~ s/.+<\/style>//g; $filestring =~ s/]+>//g; $filestring =~ s#

##g; ## try and deal with footnotes #$filestring =~ s/\[FN(\d+)\]/^{$1<\/sup>/g;
#$filestring =~ s/FN(\d+)\./^{$1<\/sup>/g;
#$filestring =~ s/]+>//g;
#$filestring =~ s/<\/a>//g;

## put in anchors for original pages breaks
#$filestring =~ s/\*(\d\d?)<\/b>/<\/a>/g;

$filestring =~ s#<(p|div|h2|h3|h1)\b[^>]+>#<$1>#g;
$filestring =~ s##\n#g;
$filestring =~ s#
#\n#g;
$filestring =~ s# ##g;
$filestring =~ s#
#\n\n#g;
$filestring =~ s##\n#g;
$filestring =~ s##\n#g;
$filestring =~ s##\n#g;
$filestring =~ s##\n#g;
$filestring =~ s##\n#g;
$filestring =~ s##\n\n#g;
$filestring =~ s##\n\n#g;
$filestring =~ s#]+)>#\n\n#g;
$filestring =~ s#dtd">>#dtd">\n#g;
$filestring =~ s#Untitled\sDocument##g;
$filestring =~ s#]+>##g;
$filestring =~ s#<\?xml\b[^>]+>##g;
$filestring =~ s#]+>##g;
$filestring =~ s###g;
$filestring =~ s##\n#g;
$filestring =~ s##\n#g;

print $doctype;
print $filestring;}}