HTMLからテキスト抽出をするシェルスクリプト。
JavaScriptや複数コメントについては、これだけでは除去できないので、まじめにやるためにはparserを用意する必要があります。
#!/bin/sh
wget -O a.txt http://example.com/
sed 's/<.*>//g' a.txt
wget -O a.txt http://example.com/
sed 's/<.*>//g' a.txt
「詳解 シェルスクリプト」や「UNIXシェルスクリプトハンドブック」などで勉強してみると良いでしょう。
関連書籍: