HTMLからテキスト抽出

HTMLからテキスト抽出をするシェルスクリプト。

JavaScriptや複数コメントについては、これだけでは除去できないので、まじめにやるためにはparserを用意する必要があります。

#!/bin/sh
wget -O a.txt http://example.com/
sed 's/<.*>//g' a.txt

詳解 シェルスクリプト」や「UNIXシェルスクリプトハンドブック」などで勉強してみると良いでしょう。

関連書籍:

同じタグの記事: bash
同じタグの記事: shell script
同じカテゴリの記事: Linux
関連書籍: bash