Я строю веб-скребок для новостей о безопасности, но ссылки дублируются

n3m0linux спросил: 14 ноября 2017 в 06:23 в: python

Я создаю веб-скребок для очистки нескольких веб-сайтов, чтобы мне не приходилось напрямую посещать веб-сайт.

В настоящее время у меня возникают проблемы с дублированными URL-адресами, скрипт выполняет то, что я хочу , но ссылки дублируются, и я не хочу этого.

Вот мой код:

def HackerNews():
hackerNews = ['https://www.darkreading.com/attacks-breaches.asp','https://www.darkreading.com/application-security.asp',
           'https://www.darkreading.com/vulnerabilities-threats.asp', 'https://www.darkreading.com/endpoint-security.asp',
           'https://www.darkreading.com/IoT.asp','https://www.darkreading.com/vulnerabilities-threats.asp'
           ]
keywords = ["bitcoin", "bit", "BTC", "Bit", "Security","Attack", "Breach","Cyber",
"Ransomware","Botnet","Worm","Hacked","Hack","Hackers","Flaw", "Risk","Danger" ]for link in hackerNews:
   request = urllib2.Request(link)
   request.add_header('User-Agent', 'Mozilla 5.0')
   websitecontent = urllib2.urlopen(request).read()
   soup = BeautifulSoup(websitecontent, 'html.parser')   headers = soup.findAll('header', {'class' : 'strong medium'})   for h in headers:
       a = h.find("a")       for keyword in keywords:
           if keyword in a["title"]:
               print("Title: " + a["title"] + " \nLink: " "https://darkreading.com" + a["href"])HackerNews()

Вот пример вывода:

Название: Комплекты Android Ransomware на подъеме в темной сети
Ссылка: https://darkreading.com/mobile/android-ransomware-kits-on-the-rise-in-the-dark-web- / d / d-id / 1330591

Название: Биткойн-майнер NiceHash взломан, возможно потеряв $ 62 миллиона в BitcoinLink: https://darkreading.com/cloud/bitcoin-miner-nicehash-hacked-possbly-losing - 62 миллиона долларов в биткойнах / d / d-id / 1330585

Название: Биткойн-майнер NiceHash взломан, возможно потеряв 62 миллиона долларов в BitcoinLink: https://darkreading.com/cloud/bitcoin-miner -nicehash-hacked-возможно-теряет- $ 62 миллиона в биткойнах / d / d-id / 1330585

Название: Биткойн-майнер NiceHash Hacked, возможно, теряет $ 62 миллиона в BitcoinLink: https:// darkreadi ng.com/cloud/bitcoin-miner-nicehash-hacked-possbly-losing-$62-million-in-bitcoin/d/d-id/1330585

Название: Uber использовал для выплаты $ 100K Bugount , Silence Florida Hacker: ReportLink: https://darkreading.com/attacks-breaches/uber-used-$100k-bug-bounty-to-pay-silence-florida-hacker-report/d/d-id/1330584

0 ответов