Bagaimana anda menghapus duplikat dari daftar sementara menjaga ketertiban?

Jawaban edit 22 Desember 2017 в 8:36

Raymond Hettinger

3 Oktober 2016 в 3:47

Lebih

Di Python 2.7, cara baru menghapus duplikat dari iterable sambil menjaga dalam urutan asli adalah:

>>> from collections import OrderedDict
>>> list(OrderedDict.fromkeys('abracadabra'))
['a', 'b', 'r', 'c', 'd']

Di Python 3.5, yang OrderedDict memiliki implementasi C. Saya timing menunjukkan bahwa sekarang ini adalah investasi tercepat dan terpendek dari berbagai pendekatan untuk Python 3.5.

Di Python 3.6, biasa dict menjadi terurut dan kompak. (Fitur ini berlaku untuk CPython dan Mount tapi mungkin tidak hadir dalam implementasi lainnya). Yang memberi kita baru cara tercepat deduping sementara tetap mempertahankan urutan:

>>> list(dict.fromkeys('abracadabra'))
['a', 'b', 'r', 'c', 'd']

Di Python 3.7, biasa dict dijamin untuk kedua memerintahkan seluruh implementasi. Jadi, terpendek dan tercepat solusinya adalah:

>>> list(dict.fromkeys('abracadabra'))
['a', 'b', 'r', 'c', 'd']

Respon ke @max: Setelah anda pindah ke 3.6 3.7 dan gunakan secara teratur dict bukan OrderedDict, anda dapat't benar-benar mengalahkan kinerja dengan cara lain. Kamus padat dan mudah mengkonversi ke daftar dengan hampir tidak ada biaya overhead. Daftar target pra-ukuran untuk len(d) yang menyimpan semua mengubah ukuran yang terjadi dalam daftar pemahaman. Juga, karena kunci internal daftar padat, menyalin pointer adalah sekitar hampir secepat daftar copy.

Raymond Hettinger

97

dansalmo

13 April 2013 в 5:32

Lebih

sequence = ['1', '2', '3', '3', '6', '4', '5', '6']
unique = []
[unique.append(item) for item in sequence if item not in unique]

unik → ['1', '2', '3', '6', '4', '5']

42

Jawaban edit 7 Desember 2018 в 7:32

Alexander

18 Agustus 2017 в 12:35

Lebih

Bukan untuk menendang kuda mati (pertanyaan ini sangat lama dan sudah memiliki banyak jawaban yang baik), tetapi di sini adalah sebuah solusi menggunakan panda yang cukup cepat dalam banyak keadaan dan mati mudah digunakan.

import pandas as pd

my_list = [0, 1, 2, 3, 4, 1, 2, 3, 5]

>>> pd.Series(my_list).drop_duplicates().tolist()
# Output:
# [0, 1, 2, 3, 4, 5]

Alexander

26

Rafał Dowgird

26 Januari 2009 в 3:47

Lebih

from itertools import groupby
[ key for key,_ in groupby(sortedList)]

Daftar doesn't bahkan harus diurutkan*, dengan kondisi yang cukup adalah bahwa nilai-nilai yang sama yang dikelompokkan bersama-sama.

Edit: saya berasumsi bahwa "menjaga ketertiban" berarti bahwa daftar ini benar-benar memerintahkan. Jika hal ini tidak terjadi, maka solusi dari MizardX adalah salah satu yang tepat.

Edit: Ini namun cara yang paling elegan untuk "kompres duplikat berturut-elemen menjadi satu elemen".

23

shamrock

27 Mei 2013 в 9:37

Lebih

Saya pikir jika anda ingin menjaga ketertiban,

anda dapat mencoba ini:

list1 = ['b','c','d','b','c','a','a']    
list2 = list(set(list1))    
list2.sort(key=list1.index)    
print list2

ATAU demikian pula anda dapat melakukan ini:

list1 = ['b','c','d','b','c','a','a']  
list2 = sorted(set(list1),key=list1.index)  
print list2

Anda juga dapat melakukan ini:

list1 = ['b','c','d','b','c','a','a']    
list2 = []    
for i in list1:    
    if not i in list2:  
        list2.append(i)`    
print list2

Ini juga dapat ditulis seperti ini:

list1 = ['b','c','d','b','c','a','a']    
list2 = []    
[list2.append(i) for i in list1 if not i in list2]    
print list2

22

Jawaban edit 17 November 2018 в 11:38

timgeb

2 Maret 2018 в 8:23

Lebih

Di Python 3.7 dan di atas, kamus dijamin untuk mengingat kunci penyisipan order. Jawaban untuk ini pertanyaan yang merangkum keadaan sekarang.

The OrderedDict solusi sehingga menjadi usang dan tanpa impor setiap pernyataan yang kita dapat hanya masalah:

>>> lst = [1, 2, 1, 3, 3, 2, 4]
>>> list(dict.fromkeys(lst))
[1, 2, 3, 4]

timgeb

14

Jawaban edit 9 April 2018 в 9:16

MSeifert

10 Januari 2017 в 7:55

Lebih

Hanya untuk menambahkan yang lain (sangat performant) pelaksanaan seperti fungsi dari modul eksternal¹: iteration_utilities.unique_everseen:

>>> from iteration_utilities import unique_everseen
>>> lst = [1,1,1,2,3,2,2,2,1,3,4]

>>> list(unique_everseen(lst))
[1, 2, 3, 4]

Timing

Saya melakukan beberapa timing (Python 3.6) dan ini menunjukkan bahwa itu's lebih cepat dari semua alternatif lain saya diuji, termasuk OrderedDict.fromkeys, f7 dan more_itertools.unique_everseen:

%matplotlib notebook

from iteration_utilities import unique_everseen
from collections import OrderedDict
from more_itertools import unique_everseen as mi_unique_everseen

def f7(seq):
    seen = set()
    seen_add = seen.add
    return [x for x in seq if not (x in seen or seen_add(x))]

def iteration_utilities_unique_everseen(seq):
    return list(unique_everseen(seq))

def more_itertools_unique_everseen(seq):
    return list(mi_unique_everseen(seq))

def odict(seq):
    return list(OrderedDict.fromkeys(seq))

from simple_benchmark import benchmark

b = benchmark([f7, iteration_utilities_unique_everseen, more_itertools_unique_everseen, odict],
              {2**i: list(range(2**i)) for i in range(1, 20)},
              'list size (no duplicates)')
b.plot()

Dan hanya untuk memastikan saya juga melakukan tes dengan lebih duplikat hanya untuk memeriksa apakah itu membuat perbedaan:

import random

b = benchmark([f7, iteration_utilities_unique_everseen, more_itertools_unique_everseen, odict],
              {2**i: [random.randint(0, 2**(i-1)) for _ in range(2**i)] for i in range(1, 20)},
              'list size (lots of duplicates)')
b.plot()

Dan salah satu yang hanya mengandung satu nilai:

b = benchmark([f7, iteration_utilities_unique_everseen, more_itertools_unique_everseen, odict],
              {2**i: [1]*(2**i) for i in range(1, 20)},
              'list size (only duplicates)')
b.plot()

Dalam semua kasus ini iteration_utilities.unique_everseen fungsi adalah yang tercepat (di komputer saya).

Ini iteration_utilities.unique_everseen fungsi juga dapat menangani unhashable nilai-nilai yang di input (namun dengan sebuah O(n*n) kinerja bukan O(n) kinerja ketika nilai-nilai yang hashable).

>>> lst = [{1}, {1}, {2}, {1}, {3}]

>>> list(unique_everseen(lst))
[{1}, {2}, {3}]

¹ Disclaimer: saya'm penulis dari paket itu.

MSeifert

11

abarnert

9 Oktober 2013 в 6:27

Lebih

Untuk yang lain sangat terlambat jawaban lain yang sangat lama pertanyaan:

The itertools resep memiliki fungsi yang melakukan hal ini, menggunakan melihat set teknik, tetapi:

Menangani standar kunci fungsi.
Tidak menggunakan pantas hacks.
Mengoptimalkan loop dengan pra-binding dilihat.tambahkan bukan melihat itu sampai N kali. (f7 juga melakukan hal ini, tetapi beberapa versi don't.)
Mengoptimalkan lingkaran dengan menggunakan ifilterfalse, sehingga anda hanya perlu loop atas unsur-unsur yang unik dalam Python, bukan semua dari mereka. (Anda masih iterate melalui semua dari mereka dalam ifilterfalse, tentu saja, tapi itu's di C, dan jauh lebih cepat.)

Itu benar-benar lebih cepat dari f7? Hal ini tergantung pada data anda, sehingga anda'll harus menguji dan melihat. Jika anda ingin daftar di akhir, f7 menggunakan listcomp, dan ada's tidak ada cara untuk melakukan itu di sini. (Anda dapat langsung menambahkan bukan hasil a'ing, atau anda dapat memberi makan generator ke dalamdaftar` fungsi, tapi tak satu pun dapat secepat LIST_APPEND dalam listcomp.) Pada setiap tingkat, biasanya, memeras keluar beberapa mikrodetik tidak akan menjadi penting bisa mudah dimengerti, dapat digunakan kembali, sudah ditulis dengan fungsi yang doesn't membutuhkan DSU bila anda ingin menghias.

Seperti dengan semua resep,'s juga tersedia di lebih-iterools.

Jika anda hanya ingin tidak adakunci kasus, anda dapat menyederhanakan hal seperti:

def unique(iterable):
    seen = set()
    seen_add = seen.add
    for element in itertools.ifilterfalse(seen.__contains__, iterable):
        seen_add(element)
        yield element

11

zmk

21 Agustus 2011 в 8:04

Lebih

Untuk tidak hashable jenis (misalnya, klik disini untuk daftar), berdasarkan MizardX's:

def f7_noHash(seq)
    seen = set()
    return [ x for x in seq if str( x ) not in seen and not seen.add( str( x ) )]

6

ely

10 September 2013 в 9:40

Lebih

Pinjaman rekursif ide yang digunakan dalam definining Haskell's inti fungsi untuk daftar, ini akan menjadi pendekatan rekursif:

def unique(lst):
    return [] if lst==[] else [lst[0]] + unique(filter(lambda x: x!= lst[0], lst[1:]))

misalnya:

In [118]: unique([1,5,1,1,4,3,4])
Out[118]: [1, 5, 4, 3]

Aku mencoba untuk tumbuh ukuran data dan melihat sub-linear time-kompleksitas (tidak definitif, tetapi menunjukkan ini harus baik untuk data normal).

In [122]: %timeit unique(np.random.randint(5, size=(1)))
10000 loops, best of 3: 25.3 us per loop

In [123]: %timeit unique(np.random.randint(5, size=(10)))
10000 loops, best of 3: 42.9 us per loop

In [124]: %timeit unique(np.random.randint(5, size=(100)))
10000 loops, best of 3: 132 us per loop

In [125]: %timeit unique(np.random.randint(5, size=(1000)))
1000 loops, best of 3: 1.05 ms per loop

In [126]: %timeit unique(np.random.randint(5, size=(10000)))
100 loops, best of 3: 11 ms per loop

Saya juga berpikir itu's menarik ini bisa dengan mudah digeneralisasi untuk keunikan dengan operasi lainnya. Seperti ini:

import operator
def unique(lst, cmp_op=operator.ne):
    return [] if lst==[] else [lst[0]] + unique(filter(lambda x: cmp_op(x, lst[0]), lst[1:]), cmp_op)

Misalnya, anda bisa lulus dalam fungsi yang menggunakan konsep pembulatan yang sama integer seolah-olah itu adalah "kesetaraan" untuk keunikan keperluan, seperti ini:

def test_round(x,y):
    return round(x) != round(y)

kemudian yang unik(some_list, test_round) akan memberikan unsur unik dari daftar di mana keunikan tidak lagi dimaksudkan tradisional kesetaraan (yang tersirat dengan menggunakan apapun yang ditetapkan atau berbasis dict-kunci berbasis pendekatan untuk masalah ini), tetapi bukan dimaksudkan untuk mengambil hanya elemen pertama yang putaran ke K untuk masing-masing kemungkinan bilangan bulat K sehingga unsur-unsur yang mungkin bulat, misalnya:

In [6]: unique([1.2, 5, 1.9, 1.1, 4.2, 3, 4.8], test_round)
Out[6]: [1.2, 5, 1.9, 4.2, 3]

3

Sergey M Nikitin

27 April 2015 в 2:47

Lebih

5 x lebih cepat mengurangi varian tapi lebih canggih

>>> l = [5, 6, 6, 1, 1, 2, 2, 3, 4]
>>> reduce(lambda r, v: v in r[1] and r or (r[0].append(v) or r[1].add(v)) or r, l, ([], set()))[0]
[5, 6, 1, 2, 3, 4]

Penjelasan:

default = (list(), set())
# use list to keep order
# use set to make lookup faster

def reducer(result, item):
    if item not in result[1]:
        result[0].append(item)
        result[1].add(item)
    return result

>>> reduce(reducer, l, default)[0]
[5, 6, 1, 2, 3, 4]

3

Zhifeng Hu

7 November 2012 в 3:21

Lebih

Anda dapat referensi daftar pemahaman seperti yang sedang dibangun oleh simbol '_[1]'.
sebagai contoh, berikut fungsi unik-ifies daftar dari elemen-elemen tanpa mengubah urutan mereka dengan referensi daftar pemahaman.

def unique(my_list): 
    return [x for x in my_list if x not in locals()['_[1]']]

Demo:

l1 = [1, 2, 3, 4, 1, 2, 3, 4, 5]
l2 = [x for x in l1 if x not in locals()['_[1]']]
print l2

Output:

[1, 2, 3, 4, 5]

2

Saurabh Hirani

9 Oktober 2011 в 2:16

Lebih

MizardX's memberikan jawaban yang baik koleksi dari beberapa pendekatan.

Ini adalah apa yang saya datang dengan sambil berpikir keras:

mylist = [x for i,x in enumerate(mylist) if x not in mylist[i+1:]]

2

kylie.a

7 November 2014 в 5:02

Lebih

l = [1,2,2,3,3,...]
n = []
n.extend(ele for ele in l if ele not in set(n))

Generator ekspresi yang menggunakan O(1) melihat dari satu set untuk menentukan apakah atau tidak untuk memasukkan sebuah elemen dalam daftar baru.

dominecf

2 Oktober 2013 в 11:23

Lebih

Relatif efektif dengan pendekatan _sorted_ a numpy array:

b = np.array([1,3,3, 8, 12, 12,12])    
numpy.hstack([b[0], [x[0] for x in zip(b[1:], b[:-1]) if x[0]!=x[1]]])

Output:

array([ 1,  3,  8, 12])

25 April 2014 в 1:28

Lebih

Anda bisa melakukan semacam jelek daftar pemahaman hack.

[l[i] for i in range(len(l)) if l.index(l[i]) == i]

Ilya Prokin

16 Mei 2015 в 11:05

Lebih

Sederhana rekursif solusi:

def uniquefy_list(a):
    return uniquefy_list(a[1:]) if a[0] in a[1:] else [a[0]]+uniquefy_list(a[1:]) if len(a)>1 else [a[0]]

Rob Murray

27 Januari 2016 в 1:08

Lebih

Solusi tanpa menggunakan modul impor atau set:

text = "ask not what your country can do for you ask what you can do for your country"
sentence = text.split(" ")
noduplicates = [(sentence[i]) for i in range (0,len(sentence)) if sentence[i] not in sentence[:i]]
print(noduplicates)

Memberikan output:

['ask', 'not', 'what', 'your', 'country', 'can', 'do', 'for', 'you']

Related communities 6

Python Indonesia

25 972 pengguna

Programmer Python Indonesia. Group ini dikelola oleh sejumlah admin. Baca pesan tersemat / pinned message: https://t.me/pythonID/217588

Indonesian Python Warriors

1 564 pengguna

Di grup ini tidak ada kewajiban untuk menggunakan username dan foto. Yang tidak boleh adalah spamming. Gak boleh baper, kalau nanya yang bener, eror jangan difoto pake HP, gunakan screenshot, code copas ke dpaste.org lalu share link ke sini.

Python-ID Jogja

947 pengguna

Python Newbie Indonesia

471 pengguna

Peraturan grup Python Newbie 🌻Dilarang spam 🌻Dilarang menggunakan bahasa kasar 🌻Dilarang beriklan di grup tanpa seizin admin Beberapa video dasar python dapat diliat melalui channel youtube juan aditya Jangan lupa untuk subscribe ya🙏

BASIC PYTHON INDONESIA

351 pengguna

PythonWealth Indonesia 🇮🇩

14 pengguna

Tambahkan pertanyaan

Kategori

Semua

Teknologi

Budaya / Rekreasi

Kehidupan / Seni

Ilmu Pengetahuan

Profesional

Bisnis

Pengguna

Semua

Baru

Populer

Terdaftar 1 bulan yang lalu

Ксения Комарова

2

Артур «Апер»

3

Viktor Malyutin

4

Viktor Malyutin

5

Syahputra Zhedenk