¿Cómo puedo (o puedo) hacer SELECT DISTINCT en varias columnas?

Question

Más

Question

¿Cómo puedo (o puedo) hacer SELECT DISTINCT en varias columnas?

Necesito recuperar todas las filas de una tabla en la que 2 columnas combinadas son todas diferentes. Por lo tanto, quiero todas las ventas que no tienen otras ventas que ocurrieron en el mismo día por el mismo precio. Las ventas que son únicas basadas en el día y el precio se actualizarán a un estado activo.

Así que estoy pensando:

UPDATE sales
SET status = 'ACTIVE'
WHERE id IN (SELECT DISTINCT (saleprice, saledate), id, count(id)
             FROM sales
             HAVING count = 1)

Pero me duele el cerebro para ir más lejos.

Erwin Brandstetter

Pregunta editada 22º agosto 2014 в 12:07

sql

Solution / Answer

28º septiembre 2012 в 12:50

Más

Si juntas las respuestas hasta ahora, las limpias y las mejoras, llegarías a esta consulta superior:

UPDATE sales
SET    status = 'ACTIVE'
WHERE  (saleprice, saledate) IN (
    SELECT saleprice, saledate
    FROM   sales
    GROUP  BY saleprice, saledate
    HAVING count(*) = 1 
    );

Que es mucho más rápida que cualquiera de ellas. Supera el rendimiento de la respuesta actualmente aceptada por un factor de 10 a 15 (en mis pruebas en PostgreSQL 8.4 y 9.1).

Pero esto todavía está lejos de ser óptimo. Utilice un NOT EXISTS (anti-)semi-join para un rendimiento aún mejor. EXISTS` es un SQL estándar, ha existido desde siempre (al menos desde PostgreSQL 7.2, mucho antes de que se hiciera esta pregunta) y se ajusta perfectamente a los requisitos presentados:

UPDATE sales s
SET    status = 'ACTIVE'
WHERE  NOT EXISTS (
   SELECT FROM sales s1                     -- SELECT list can be empty for EXISTS
   WHERE  s.saleprice = s1.saleprice
   AND    s.saledate  = s1.saledate
   AND    s.id <> s1.id                     -- except for row itself
   )
AND    s.status IS DISTINCT FROM 'ACTIVE';  -- avoid empty updates. see below

db<>fiddle here Old SQL Fiddle

Clave única para identificar la fila

Si no tiene una clave primaria o única para la tabla (id en el ejemplo), puede sustituirla por la columna del sistema ctid para el propósito de esta consulta (pero no para otros propósitos):

   AND    s1.ctid <> s.ctid

Toda tabla debe tener una clave primaria. Añade una si aún no la tienes. Sugiero una columna serial o una IDENTITY en Postgres 10+.

Relacionado:

¿Cómo es esto más rápido?

La subconsulta en el anti-semi-join EXISTS puede dejar de evaluarse tan pronto como se encuentre el primer duplicado (no tiene sentido seguir buscando). Para una tabla base con pocos duplicados esto es sólo ligeramente más eficiente. Con muchos duplicados esto se vuelve mucho más eficiente.

Excluir las actualizaciones vacías

Para las filas que ya tienen estado = 'ACTIVO'esta actualización no cambiaría nada, pero aún así insertaría una nueva versión de fila a coste completo (se aplican excepciones menores). Normalmente, usted no quiere esto. Añada otra condiciónWHERE` como la demostrada arriba para evitar esto y hacerlo aún más rápido:

Si status está definido NOT NULL, puede simplificar a:

AND status <> 'ACTIVE';

Sutil diferencia en el manejo de NULL

Esta consulta (a diferencia de la respuesta actualmente aceptada por Joel) no trata los valores NULL como iguales. Las siguientes dos filas para (saleprice, saledate) se calificarían como "distintas" (aunque parezcan idénticas al ojo humano):

(123, NULL)
(123, NULL)

También pasa en un índice único y en casi cualquier otro lugar, ya que los valores NULL no se comparan igual según el estándar SQL. Ver:

https://stackoverflow.com/questions/8289100/create-unique-constraint-with-null-columns/8289253#8289253

Por otro lado, GROUP BY, DISTINCT o DISTINCT ON () tratan los valores NULL como iguales. Utilice un estilo de consulta adecuado en función de lo que quiera conseguir. También puede utilizar esta consulta más rápida con IS NOT DISTINCT FROM en lugar de = para cualquiera o todas las comparaciones para que los valores NULL sean iguales. Más:

https://stackoverflow.com/questions/26769454/how-to-delete-duplicate-rows-without-unique-identifier/26773018#26773018

Si todas las columnas que se comparan están definidas como NOT NULL, no hay lugar para el desacuerdo.

Erwin Brandstetter

Respuesta editada 7º mayo 2019 в 10:31

a free online environment to experiment with SQL and other code

dbfiddle.uk

330

0

Christian Berg

10º septiembre 2008 в 4:17

Más

El problema con su consulta es que cuando se utiliza una cláusula GROUP BY (que esencialmente hace utilizando distinct) sólo puede utilizar las columnas que agrupa por o funciones de agregación. No puedes usar la columna id porque hay valores potencialmente diferentes. En tu caso siempre hay un solo valor debido a la cláusula HAVING, pero la mayoría de los RDBMS no son lo suficientemente inteligentes como para reconocer eso.

Sin embargo, esto debería funcionar (y no necesita un join):

UPDATE sales
SET status='ACTIVE'
WHERE id IN (
  SELECT MIN(id) FROM sales
  GROUP BY saleprice, saledate
  HAVING COUNT(id) = 1
)

También podría utilizar MAX o AVG en lugar de MIN, sólo es importante utilizar una función que devuelva el valor de la columna si sólo hay una fila coincidente.

23

0

Comunidades relacionadas 4

PostgreSQL

941 usuarios

Bienvenidos a este grupo PostgreSQLes, este es un grupo que trata temas sobre PostgreSQL en idioma español, aquí podrás preguntar y responder sobre este fabuloso motor de base de datos. #PostgreSQL, #Telegram, #Grupo, #Database, #SQL, #Store, #Procedure.

Abrir telegram

SQL

852 usuarios

Grupo para gente seria e interesada en el lenguaje SQL. También NoSQL. Como medida para evitar el SPAM, para unirse a este grupo es necesario rellenar un Captcha. https://telegram.me/joinchat/AGFygUDuqou03Lr4jixWbA https://telegram.me/esequele

259 usuarios

5 usuarios

Comunidad Cubana de PostgreSQL

Abrir telegram

Añadir pregunta

Categorías

Todo

Tecnología

Cultura / Recreación

Vida / Artes

Ciencia

Profesional

Negocios

Usuarios

Todo

Nuevo

Popular

1

Ксения Комарова

Registrado hace 3 semanas

2

Артур «Апер»

Registrado hace 2 meses

3

Viktor Malyutin

Registrado hace 2 meses

4

Viktor Malyutin

Registrado hace 2 meses

5

Syahputra Zhedenk

Registrado hace 2 meses

¿Tiene alguna pregunta? Añádela en el sitio y obtén una respuesta al instante

es.kzen.dev

Joel Coehoorn · Accepted Answer · 2008-09-10T15:36:09+00:00

SELECT DISTINCT a,b,c FROM t

...es equivalente a..:

SELECT a,b,c FROM t GROUP BY a,b,c

Es una buena idea acostumbrarse a la sintaxis GROUP BY, ya que es más potente.

Para su consulta, yo'lo haría así:

UPDATE sales
SET status='ACTIVE'
WHERE id IN
(
    SELECT id
    FROM sales S
    INNER JOIN
    (
        SELECT saleprice, saledate
        FROM sales
        GROUP BY saleprice, saledate
        HAVING COUNT(*) = 1 
    ) T
    ON S.saleprice=T.saleprice AND s.saledate=T.saledate
 )