C++ - UTF-8 文字列から部分文字列を抽出！

Updated: 2014-10-05 00:20

C++ で UTF-8 の文字列から部分文字列を抽出する方法についての記録です。
前回の「C++ - UTF-8 文字列の文字数をカウント！」の応用です。

（C++ にそれほど精通している訳でもありません。ご承知おきください）

0. 前提条件

Linux Mint 17 での作業を想定。
g++(c++) のバージョンは 4.8.2

1. UTF-8 について

UTF-8 について詳細に説明はしないが、UTF-8 の仕様では１バイト目の先頭からの連続するビット数(1 となっているビットの連続数）で１文字のバイト数が決まるということを理解しておく。
さらに、このことから以下のように定義されていることも理解しておく。（参照・ RFC 3629 ）

１バイト目： 0x00 〜 0x7f → 1 バイト
１バイト目： 0xc2 〜 0xdf → 2 バイト
１バイト目： 0xe0 〜 0xef → 3 バイト
１バイト目： 0xf0 〜 0xf7 → 4 バイト
１バイト目： 0xf8 〜 0xfb → 5 バイト
１バイト目： 0xfc 〜 0xfd → 6 バイト

2. C++ ソースコード作成

実際には、５、６バイトの文字は使用しないかも知れないが、実装しておいた。
また、当てはまらない文字があれば、それは０バイトで計算するようにしている。

File: SubStrUtf8.cpp

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
#include <iostream>
#include <string.h>

using namespace std;

/*
 * [CLASS] Proc
 */
class Proc
{
    int cntByte(unsigned char);           // Count bytes

public:
    char* subStr(const char*, int, int);  // Get substring
};

/*
 * Get substring
 */
char* Proc::subStr(const char *cStr, int iStart, int iLength)
{
    static char cRes[1024];
    char* pRes = cRes;
    int i = 0, iPos = 0;
    int iByte;

    while (cStr[i] != '\0') {
        iByte = cntByte(cStr[i]);
        if (iStart <= iPos && iPos < iStart + iLength) {
            memcpy(pRes, (cStr + i), iByte);
            pRes += iByte;
        }
        i += iByte;
        iPos++;
    }
    *pRes = '\0';

    return cRes;
}

/*
 * Count bytes
 */
int Proc::cntByte(unsigned char cChar)
{
   int iByte;

   if ((cChar >= 0x00) && (cChar <= 0x7f)) {
       iByte = 1;
   } else if ((cChar >= 0xc2) && (cChar <= 0xdf)) {
       iByte = 2;
   } else if ((cChar >= 0xe0) && (cChar <= 0xef)) {
       iByte = 3;
   } else if ((cChar >= 0xf0) && (cChar <= 0xf7)) {
       iByte = 4;
   } else if ((cChar >= 0xf8) && (cChar <= 0xfb)) {
       iByte = 5;
   } else if ((cChar >= 0xfc) && (cChar <= 0xfd)) {
       iByte = 6;
   } else {
       iByte = 0;
   }

   return iByte;
}

/*
 * Execution
 */
int main(){
    const char* cStr = "ｺﾚﾊ 部分文字列取得の TEST です。";
    char* cRes;

    try {
        Proc objMain;
        cRes = objMain.subStr(cStr, 2, 13);
        cout << "* " << cStr << "\n"
             << "  => " << cRes << endl;
    } catch (const char* e) {
        cerr << "[EXCEPTION] " << e << endl;
        return 1;
    }
    return 0;
}

Gist - C++ source code to get substrings of UTF-8.

3. コンパイル

作成した C++ ソースコードをコンパイルする。

# g++ -Wall -O2 -o SubStrUtf8 SubStrUtf8.cpp

何も出力されなければ成功。

4. 動作確認

以下のようにして実行してみる。
指定位置・長さの部分文字列が抽出されることを確認する。

* ｺﾚﾊ 部分文字列取得の TEST です。
  => ﾊ 部分文字列取得の TE

5. 参考サイト

RFC 3629

C, C++ 等で文字列を多用する場合に役立ちそうな話題でした。

以上。

Twitter Facebook Tumblr LinkedIn

mk-mode.com

C++ - UTF-8 文字列から部分文字列を抽出！

0. 前提条件

1. UTF-8 について

2. C++ ソースコード作成

3. コンパイル

4. 動作確認

5. 参考サイト

Sponsored Link

Comments

You May Also Enjoy

2024年1月 - OS・ブラウザ別アクセス状況！ (2024-02-01)

2023年12月 - OS・ブラウザ別アクセス状況！（＆新年のご挨拶） (2024-01-01)

Debian 12 (bookworm) - Web サーバ Nginx で SSL 接続！ (2023-12-21)

Debian 12 (bookworm) - Web サーバ Nginx 構築（Nginx 公式リポジトリ使用）！ (2023-12-13)