Cara terbaik untuk strip tanda baca dari sebuah string

Jawaban edit 9 Oktober 2019 в 12:54

SparkAndShine

14 Mei 2016 в 1:57

Lebih

Untuk kenyamanan penggunaan, saya meringkas catatan striping tanda baca dari sebuah string di kedua Python 2 dan Python 3. Silakan lihat jawaban lain untuk keterangan rinci.

Python 2

import string

s = "string. With. Punctuation?"
table = string.maketrans("","")
new_s = s.translate(table, string.punctuation)      # Output: string without punctuation

Python 3

import string

s = "string. With. Punctuation?"
table = str.maketrans(dict.fromkeys(string.punctuation))  # OR {key: None for key in string.punctuation}
new_s = s.translate(table)                          # Output: string without punctuation

SparkAndShine

64

S.Lott

5 November 2008 в 5:41

Lebih

Saya biasanya menggunakan sesuatu seperti ini:

>>> s = "string. With. Punctuation?" # Sample string
>>> import string
>>> for c in string.punctuation:
...     s= s.replace(c,"")
...
>>> s
'string With Punctuation'

27

Jawaban edit 7 Oktober 2019 в 5:46

Björn Lindqvist

1 September 2011 в 9:29

Lebih

string.tanda baca adalah ASCII hanya! Yang lebih benar (tetapi juga jauh lebih lambat) cara adalah dengan menggunakan unicodedata modul:

# -*- coding: utf-8 -*-
from unicodedata import category
s = u'String — with -  «punctation »...'
s = ''.join(ch for ch in s if category(ch)[0] != 'P')
print 'stripped', s

Anda dapat menggeneralisasi dan strip lainnya jenis karakter serta:

''.join(ch for ch in s if category(ch)[0] != 'SP')

Hal ini juga akan strip karakter seperti~*+§$ yang mungkin atau mungkin tidak menjadi "tanda baca" tergantung pada satu's point of view.

Björn Lindqvist

24

Vinko Vrsalovic

5 November 2008 в 5:39

Lebih

Tidak selalu yang sederhana, tapi dengan cara yang berbeda, jika anda lebih akrab dengan re keluarga.

import re, string
s = "string. With. Punctuation?" # Sample string 
out = re.sub('[%s]' % re.escape(string.punctuation), '', s)

21

Martijn Pieters

2 September 2013 в 9:57

Lebih

Untuk Python 3 str atau Python 2 unicode nilai-nilai, str.translate() hanya membutuhkan kamus; codepoints (bilangan bulat) yang tampak dalam pemetaan itu dan apa-apa yang dipetakan ke None dihapus.

Untuk menghapus (beberapa?) tanda baca kemudian, gunakan:

import string

remove_punct_map = dict.fromkeys(map(ord, string.punctuation))
s.translate(remove_punct_map)

The dict.fromkeys() metode kelas membuat hal sepele untuk membuat pemetaan, pengaturan semua nilai ke None berdasarkan urutan tombol.

Untuk menghapus semua tanda baca, tidak hanya ASCII tanda baca, meja anda perlu untuk menjadi sedikit lebih besar; lihat J. F. Sebastian's answer (Python versi 3):

import unicodedata
import sys

remove_punct_map = dict.fromkeys(i for i in range(sys.maxunicode)
                                 if unicodedata.category(chr(i)).startswith('P'))

12

Jawaban edit 15 Juli 2018 в 8:17

Zach

6 Oktober 2016 в 4:46

Lebih

string.tanda baca merindukan banyak tanda baca yang lazim digunakan dalam dunia nyata. Bagaimana solusi yang bekerja untuk non-ASCII tanda baca?

import regex
s = u"string. With. Some・Really Weird、Non？ASCII。 「（Punctuation）」?"
remove = regex.compile(ur'[\p{C}|\p{M}|\p{P}|\p{S}|\p{Z}]+', regex.UNICODE)
remove.sub(u" ", s).strip()

Secara pribadi, saya percaya ini adalah cara terbaik untuk menghapus tanda baca dari sebuah string di Python karena:

Menghilangkan semua Unicode tanda baca
It's mudah dimodifikasi, misalnya, anda dapat menghapus \{S} jika anda ingin menghapus tanda baca, tapi menjaga simbol-simbol seperti $.
Anda bisa mendapatkan benar-benar spesifik tentang apa yang anda inginkan untuk menjaga dan apa yang ingin anda hapus, misalnya \{Pd} hanya akan menghapus tanda hubung.
Ini regex juga menormalkan spasi. Itu peta tab, tombol kembali, dan keanehan lainnya di nice, satu spasi.

Ini menggunakan Unicode karakter sifat, yang anda dapat membaca lebih lanjut tentang di Wikipedia.

Peter Mortensen

12

Jawaban edit 15 Juli 2018 в 8:15

Blairg23

18 Juni 2016 в 6:38

Lebih

Aku ingin't melihat jawaban ini belum. Hanya menggunakan regex; ini akan menghapus semua karakter selain karakter kata (\w) dan jumlah karakter (\d), diikuti oleh karakter spasi (s):

import re
s = "string. With. Punctuation?" # Sample string 
out = re.sub(ur'[^\w\d\s]+', '', s)

Peter Mortensen

8

Tim P

21 Maret 2016 в 2:46

Lebih

Berikut ini's one-liner untuk Python 3.5:

import string
"l*ots! o(f. p@u)n[c}t]u[a'ti\"on#$^?/".translate(str.maketrans({a:None for a in string.punctuation}))

8

Dr.Tautology

22 September 2015 в 2:30

Lebih

Berikut adalah fungsi yang saya tulis. It's sangat tidak efisien, tetapi sederhana dan anda dapat menambahkan atau menghapus tanda baca yang anda inginkan:

def stripPunc(wordList):
    """Strips punctuation from list of words"""
    puncList = [".",";",":","!","?","/","\\",",","#","@","$","&",")","(","\""]
    for punc in puncList:
        for word in wordList:
            wordList=[word.replace(punc,'') for word in wordList]
    return wordList

6

David Vuong

5 Juli 2011 в 4:30

Lebih

Ini mungkin tidak menjadi solusi terbaik namun ini adalah bagaimana saya melakukannya.

import string
f = lambda x: ''.join([i for i in x if i not in string.punctuation])

6

krinker

7 Mei 2018 в 1:42

Lebih

Hanya sebagai update, saya menulis ulang @Brian contoh di Python 3 dan membuat perubahan untuk itu untuk bergerak regex menyusun langkah dalam fungsi. Saya pikir di sini adalah waktu untuk setiap langkah yang diperlukan untuk membuat fungsi kerja. Mungkin anda menggunakan komputasi terdistribusi dan dapat't memiliki regex objek bersama antara pekerja dan harus memiliki kembali.kompilasi langkah pada setiap pekerja. Juga, saya penasaran untuk waktu dua implementasi yang berbeda dari maketrans untuk Python 3

table = str.maketrans({key: None for key in string.punctuation})

vs

table = str.maketrans('', '', string.punctuation)

Plus saya menambahkan metode lain untuk menggunakan set, di mana saya mengambil keuntungan dari persimpangan fungsi untuk mengurangi jumlah iterasi.

Ini adalah kode lengkap:

import re, string, timeit

s = "string. With. Punctuation"

def test_set(s):
    exclude = set(string.punctuation)
    return ''.join(ch for ch in s if ch not in exclude)

def test_set2(s):
    _punctuation = set(string.punctuation)
    for punct in set(s).intersection(_punctuation):
        s = s.replace(punct, ' ')
    return ' '.join(s.split())

def test_re(s):  # From Vinko's solution, with fix.
    regex = re.compile('[%s]' % re.escape(string.punctuation))
    return regex.sub('', s)

def test_trans(s):
    table = str.maketrans({key: None for key in string.punctuation})
    return s.translate(table)

def test_trans2(s):
    table = str.maketrans('', '', string.punctuation)
    return(s.translate(table))

def test_repl(s):  # From S.Lott's solution
    for c in string.punctuation:
        s=s.replace(c,"")
    return s

print("sets      :",timeit.Timer('f(s)', 'from __main__ import s,test_set as f').timeit(1000000))
print("sets2      :",timeit.Timer('f(s)', 'from __main__ import s,test_set2 as f').timeit(1000000))
print("regex     :",timeit.Timer('f(s)', 'from __main__ import s,test_re as f').timeit(1000000))
print("translate :",timeit.Timer('f(s)', 'from __main__ import s,test_trans as f').timeit(1000000))
print("translate2 :",timeit.Timer('f(s)', 'from __main__ import s,test_trans2 as f').timeit(1000000))
print("replace   :",timeit.Timer('f(s)', 'from __main__ import s,test_repl as f').timeit(1000000))

Ini adalah hasil saya:

sets      : 3.1830138750374317
sets2      : 2.189873124472797
regex     : 7.142953420989215
translate : 4.243278483860195
translate2 : 2.427158243022859
replace   : 4.579746678471565

5

Pablo Rodriguez Bertorello

24 Agustus 2016 в 5:43

Lebih

>>> s = "string. With. Punctuation?"
>>> s = re.sub(r'[^\w\s]','',s)
>>> re.split(r'\s*', s)

['string', 'With', 'Punctuation']

ngub05

30 November 2016 в 10:29

Lebih

Berikut ini's solusi tanpa regex.

import string

input_text = "!where??and!!or$$then:)"
punctuation_replacer = string.maketrans(string.punctuation, ' '*len(string.punctuation))    
print ' '.join(input_text.translate(punctuation_replacer).split()).strip()

output>> where and or then

Menggantikan tanda baca dengan spasi
Mengganti beberapa spasi di antara kata-kata dengan spasi tunggal
Menghapus spasi tambahan, jika ada dengan strip()

Haythem HADHAB

2 Februari 2017 в 9:48

Lebih

import re
s = "string. With. Punctuation?" # Sample string 
out = re.sub(r'[^a-zA-Z0-9\s]', '', s)

Dom Grey

17 Oktober 2015 в 11:03

Lebih

One-liner mungkin bisa membantu dalam tidak terlalu ketat kasus:

''.join([c for c in s if c.isalnum() or c.isspace()])

3

Animeartistfromhell7

2 Januari 2017 в 8:56

Lebih

#FIRST METHOD
#Storing all punctuations in a variable    
punctuation='!?,.:;"\')(_-'
newstring='' #Creating empty string
word=raw_input("Enter string: ")
for i in word:
     if(i not in punctuation):
                  newstring+=i
print "The string without punctuation is",newstring

#SECOND METHOD
word=raw_input("Enter string: ")
punctuation='!?,.:;"\')(_-'
newstring=word.translate(None,punctuation)
print "The string without punctuation is",newstring

#Output for both methods
Enter string: hello! welcome -to_python(programming.language)??,
The string without punctuation is: hello welcome topythonprogramminglanguage

2

Isayas Wakgari Kelbessa

4 Januari 2017 в 11:09

Lebih

with open('one.txt','r')as myFile:

    str1=myFile.read()

    print(str1)

    punctuation = ['(', ')', '?', ':', ';', ',', '.', '!', '/', '"', "'"] 

for i in punctuation:

        str1 = str1.replace(i," ") 
        myList=[]
        myList.extend(str1.split(" "))
print (str1) 
for i in myList:

    print(i,end='\n')
    print ("____________")

2

Related communities 6

Python Indonesia

25 972 pengguna

Programmer Python Indonesia. Group ini dikelola oleh sejumlah admin. Baca pesan tersemat / pinned message: https://t.me/pythonID/217588

Indonesian Python Warriors

1 564 pengguna

Di grup ini tidak ada kewajiban untuk menggunakan username dan foto. Yang tidak boleh adalah spamming. Gak boleh baper, kalau nanya yang bener, eror jangan difoto pake HP, gunakan screenshot, code copas ke dpaste.org lalu share link ke sini.

Python-ID Jogja

947 pengguna

Python Newbie Indonesia

471 pengguna

Peraturan grup Python Newbie 🌻Dilarang spam 🌻Dilarang menggunakan bahasa kasar 🌻Dilarang beriklan di grup tanpa seizin admin Beberapa video dasar python dapat diliat melalui channel youtube juan aditya Jangan lupa untuk subscribe ya🙏

BASIC PYTHON INDONESIA

351 pengguna

PythonWealth Indonesia 🇮🇩

14 pengguna

Terdaftar 4 minggu yang lalu

Tambahkan pertanyaan

Kategori

Semua

Teknologi

Budaya / Rekreasi

Kehidupan / Seni

Ilmu Pengetahuan

Profesional

Bisnis

Pengguna

Semua

Baru

Populer

1

Ксения Комарова

2

Артур «Апер»

3

Viktor Malyutin

Viktor Malyutin

5

Syahputra Zhedenk