Как сравнить два столбца в двух разных фреймах данных в pyspark

спросил: 26 ноября 2017 в 04:38 в: python

Я хочу сравнить "pitid" в одном dataframe1 с "pitid" другого dataframe2 и хочу извлечь строки, отсутствующие в dataframe1.

dataframe1:

 | id|marks|name|      pitid|
+---+-----+----+-----------+
|  1|    1|  FR| 1496875194|
|  2|    1|  US| -744211593|
|  5|    2|  DE|-1433680238|
|  4|    1|  DE| -366408878|
|  3|    3|  DE|  526286357|
+---+-----+----+-----------+

dataframe2:

| id|marks|name|      pitid|
+---+-----+----+-----------+
|  1|    1|  FR| 1496875194|
|  7|    9|  HY| -816101137|
|  6|    5|  FE| 1044793796|
|  2|    1|  US| -744211593|
|  5|    2|  DE|-1433680238|
|  4|    1|  DE| -366408878|
|  3|    3|  DE|  526286357|
+---+-----+----+-----------+

ожидаемый результат:

|  7|    9|  HY| -816101137|
|  6|    5|  FE| 1044793796|


0 ответов