文字列から数字だけ抽出「numExtract」の解説
今回は、文字列から数字だけ抽出するサブルーチンを解説していきます。
HTMLソースを操作する中で文字列から数字だけ抽出したいと思うことは多々あります。
そういった場合にこちらのサブルーチンが非常に役立ちます。
例えば、競合サイトの金額のチェックをしたいと考え競合サイトから情報を収集する際に、以下のようなHTMLのソースだった場合どのように金額だけ抽出しますか?
一番手っ取り早いのは、pタグをinnerTextプロパティでテキストを抽出させた後に、抽出した列全体に置換で「円」を削除する方法です。
他にもRightやLen関数を利用して「円」を削除する方法があります。
では以下の場合どうでしょうか?
<p>B商品の価格は214,521円</p>
文章の文言も違えば金額の桁数も違います。
このようなことは多々あるので、そういったときに文字列から数字だけ抽出するサブルーチンを作成しておけば、非常に簡単に数字だけ抽出することができます。
文字列から数字だけ抽出するサブルーチン
Function numExtract(strValue As String) As String
Dim i As Integer
For i = 1 To Len(strValue)
oneTxt = Mid(strValue, i, 1)
If oneTxt Like "[0-9]" Then: numExtract = numExtract & oneTxt
Next i
End Function
文字列から数字だけ抽出するマクロ
Sub sample()
'テストページをIEで表示
Call ieView(objIE, "http://www.vba-ie.net/code/test4.html")
For Each objTag In objIE.document.getElementsByTagName("p")
If InStr(objTag.outerHTML, "円") > 0 Then
Debug.Print numExtract(objTag.innerHTML)
End If
Next
End Sub
実行結果
214521
今回は、値を取得するために戻り値が必要となりますのでfunctionマクロで対応しています。
引数は以下の1つが設定されています。
引数名 | データ型 | 内容 | 値の事例 | 初期値 | 省略 |
---|---|---|---|---|---|
strValue | String | チェックする文字列 | "A商品の価格は4,521円" | × |
「strValue」は必須項目です。
数字だけを抽出する対象の文字列を指定してください。
それでは、1つずつコードを見ていきましょう。
For i = 1 To Len(strValue)
(省略)
Next i
文字列のチェックは1文字ずつチェックしていきます。
ここでは、「For~Nextステートメント」で対象の文字列の文字数分だけチェックしています。
oneTxt = Mid(strValue, i, 1)
こちらでは、Mid関数を利用して、文字を1文字抽出しています。
If oneTxt Like "[0-9]" Then: numExtract = numExtract & oneTxt
そして、正規表現[0-9]を用いて対象の1文字が数字かどうかチェックしています。
数字の場合は、numExtract変数に結合させ、数字の集合体を形成していきます。
こちらをループ処理で行うことで、数字だけ抽出されます。
尚、こちらの「IF~Thenステートメント」は省略形で記述されていますので、ご注意ください。
また、こちらは1つだけ欠点があります。
以下の場合どのようになるでしょうか?
<p>商品2の価格は214,521円</p>
結果は以下のようになり正しい金額を抽出できません。
実行結果
2214521
このように欠点を理解した上で、利用していけば対応策はいくらでもあるので、何でもかんでもサブルーチンに頼らず臨機応変に対応してください。
次の記事: VBAでIE操作に役立つ正規表現でデータを抽出 >>
近田 伸矢, 植木 悠二, 上田 寛
IEのデータ収集&自動操作のプログラミング本はこの1冊だけ!IEの起動やポップアップウィンドウ、表示を制御する基本的なコードはもちろん、テキストボックスやラジオボタン、表、ハイパーリンクなどのHTML部品を制御する方法など、自動操作に欠かせないノウハウを丁寧に解説。