Oracle Varchar2 から非 ascii 文字を検索して削除する

Question

さらに

質問

Oracle Varchar2 から非 ascii 文字を検索して削除する

現在、Oracleデータベースの1つをUTF8に移行していますが、4000バイトのvarchar制限に近いレコードがいくつか見つかりました。これらのレコードを移行しようとすると、マルチバイトUF8文字になる文字が含まれているため失敗します。 PL/SQL内でこれらの文字が何であるかを確認し、変更または削除したいのです。

私がやりたいのは、：

SELECT REGEXP_REPLACE(COLUMN,'[^[:ascii:]],'')

をしたいのですが、Oracleは[:ascii:]文字クラスを実装していません。

私がしたいことをする簡単な方法はありますか？

FerranB

編集された質問 12日 2月 2010 в 10:23

プログラミング

regex

oracle

ascii

Robb Smith

29日 7月 2011 в 10:42

さらに

ASCIISTR関数を使用してUnicodeを \ nnnの形式の文字に変換する場合は、 REGEXP_REPLACEを使用して、これらの文字を削除できます。..

UPDATE table SET field = REGEXP_REPLACE(ASCIISTR(field), '\\[[:xdigit:]]{4}', '')

.whereフィールドとテーブルはそれぞれフィールドとテーブル名です。.

23

0

Yuri Tkachenko

19日 11月 2015 в 8:08

さらに

これでうまくいくと思います。

SELECT REGEXP_REPLACE(COLUMN, '[^[:print:]]', '')

Yuri Tkachenko

編集した答え 21日 6月 2016 в 12:03

22

0

Francisco Hayoz

14日 8月 2013 в 2:34

さらに

制作コードにはお勧めしませんが、理にかなっていて機能しているようです。

SELECT REGEXP_REPLACE(COLUMN,'[^' || CHR(1) || '-' || CHR(127) || '],'')

9

0

解決策・回答

Jeff Dwight

9日 9月 2010 в 9:34

さらに

selectは次のサンプルのように見える場合があります。

select nvalue from table
where length(asciistr(nvalue))!=length(nvalue)  
order by nvalue;

EL Yusubov

編集した答え 12日 12月 2012 в 8:20

4

0

Sajid

19日 1月 2012 в 6:32

さらに

以下も機能します。

select dump(a,1016), a from (
SELECT REGEXP_REPLACE (
          CONVERT (
             '3735844533120%$03  ',
             'US7ASCII',
             'WE8ISO8859P1'),
          '[^!@/\.,;:<>#$%&()_=[:alnum:][:blank:]]') a
  FROM DUAL);

3

0

Matt McGurie

9日 8月 2011 в 8:47

さらに

ここで答えを見つけました。

http://www.squaredba.com/remove-non-ascii-characters-from-a-column-255.html。

CREATE OR REPLACE FUNCTION O1DW.RECTIFY_NON_ASCII(INPUT_STR IN VARCHAR2)
RETURN VARCHAR2
IS
str VARCHAR2(2000);
act number :=0;
cnt number :=0;
askey number :=0;
OUTPUT_STR VARCHAR2(2000);
begin
str:=’^'||TO_CHAR(INPUT_STR)||’^';
cnt:=length(str);
for i in 1 .. cnt loop
askey :=0;
select ascii(substr(str,i,1)) into askey
from dual;
if askey < 32 or askey >=127 then
str :=’^'||REPLACE(str, CHR(askey),”);
end if;
end loop;
OUTPUT_STR := trim(ltrim(rtrim(trim(str),’^'),’^'));
RETURN (OUTPUT_STR);
end;
/

次に、これを実行してデータを更新します。

update o1dw.rate_ipselect_p_20110505
set NCANI = RECTIFY_NON_ASCII(NCANI);

2

0

Kok-Yan Lo

24日 4月 2012 в 2:27

さらに

以下を試してください。

-- To detect
select 1 from dual
where regexp_like(trim('xx test text æ¸¬è© ¦ “xmx” number²'),'['||chr(128)||'-'||chr(255)||']','in')

-- To strip out
select regexp_replace(trim('xx test text æ¸¬è© ¦ “xmxmx” number²'),'['||chr(128)||'-'||chr(255)||']','',1,0,'in')
from dual

Josh Darnell

編集した答え 24日 4月 2012 в 3:03

2

0

Gary Myers

10日 2月 2010 в 10:29

さらに

同じような問題があり、それについてブログに書いたこちら。私はアルファ数字の正規表現から始めて、それから私が好きないくつかの基本的な句読点を追加した：

select dump(a,1016), a, b
from
 (select regexp_replace(COLUMN,'[[:alnum:]/''%()> -.:=;[]','') a,
         COLUMN b
  from TABLE)
where a is not null
order by a;

utl_raw.cast_to_varchar2で使用できる置換したい16進文字を出すために、1016バリアントでdumpを使用しました。

2

0

Shardul Dhanorkar

22日 11月 2016 в 10:55

さらに

次のようなものを試して、非ascii文字を含む列を検索できます。

select * from your_table where your_col <> asciistr(your_col);

1

0

elwood

31日 10月 2015 в 9:51

さらに

いつでもご利用ください。

regexp_like(column, '[A-Z]')

Oracleのregexpエンジンは、Latin-1範囲の特定の文字にも一致します。これは、Ä-> A、Ö-> O、&#220などのASCII文字に似ているすべての文字に適用されます;-> Uなど.つまり、[A-Z]は、たとえばPerlなどの他の環境から知っているものではありません。

正規表現をいじる代わりに、文字セットアップグレードの前にNVARCHAR2データ型に変更してみてください。

別のアプローチ:データベースにヨーロッパの文字が含まれている場合(つまり、フィールドの内容の一部を削除する代わりに、SOUNDEX関数を試すことができます。ラテン-1)文字のみ。または、Latin-1の範囲の文字を、類似した外観のASCII文字に変換する関数を作成するだけです。

-å => a。 -ä => a。 -ö => o。

もちろん、UTF-8に変換したときに4000バイトを超えるテキストブロックのみ。

0

Alex S

23日 4月 2014 в 12:04

さらに

フランシスコ・ハヨズによる答えは最高です。 sqlが実行できる場合は、pl / sql関数を使用しないでください。

これがOracle 11.2.03の簡単なテストです。

select s
     , regexp_replace(s,'[^'||chr(1)||'-'||chr(127)||']','') "rep ^1-127"
     , dump(regexp_replace(s,'['||chr(127)||'-'||chr(225)||']','')) "rep 127-255"
from (
select listagg(c, '') within group (order by c) s
  from (select 127+level l,chr(127+level) c from dual connect by level < 129))

そして「rep 127-255」です。

Typ = 1 Len = 30:226,227,228,229,230,231,232,233,234,235,236,237,238,239,240,241,242,243,245,246,242,242

つまり、何らかの理由で、このバージョンのOracleはchar(226)以上を置き換えません。 '[' || chr(127)|| '-' || chr(225)|| ']を使用して、望ましい結果が得られます。他の文字を置き換える必要がある場合は、上記の正規表現に追加するか、ネストされた置換を使用します| regexp_replace置換が異なる場合は ''(null string)を使用します。

demongolem

編集した答え 23日 4月 2014 в 12:32

0

Mohan

4日 8月 2015 в 10:17

さらに

これを行うと、機能します。

trim(replace(ntwk_slctor_key_txt, chr(0), ''))

josliber

編集した答え 4日 8月 2015 в 10:31

-2

0

user5531447

5日 11月 2015 в 11:20

さらに

私はこの質問に答えるのに少し遅れていますが、最近同じ問題がありました(人々はあらゆる種類のものをひもに切り貼りし、それが何であるかを常に知っているわけではありません)。以下は、単純なキャラクターホワイトリストのアプローチです。

SELECT est.clients_ref
  ,TRANSLATE (
              est.clients_ref
             ,   'abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ01234567890#$%^&*()_+-={}|[]:";<>?,./'
              || REPLACE (
                          TRANSLATE (
                                     est.clients_ref
                                    ,'abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ01234567890#$%^&*()_+-={}|[]:";<>?,./'
                                    ,'~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~'
                                    )
                         ,'~'
                         )
             ,'abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ01234567890#$%^&*()_+-={}|[]:";<>?,./'
             )
      clean_ref

FROM edms_staging_table est。

Bowdzone

編集した答え 6日 11月 2015 в 8:25

-3

0