AI写代码我用kimi生成了一个爬虫去下载了1000PDF文档

kimi的回答：

我已经阅读了您供应的网址中的HTML代码内容。
这个页面是《Orthomolecular News Service》的新闻发布索引页面，列出了不同年份和月份的新闻标题。
这些新闻紧张关注营养、康健、医学和公共卫生话题，特殊是关于维生素和补充剂的利用。

页面列出了从2024年4月22日到2005年3月23日的新闻发布，每条新闻都有对应的卷号、期号、发布日期和主题。
例如，最新的新闻发布是关于纪念Burt Berkson博士的逝世，而其他的新闻发布则涵盖了间歇性禁食、心脏协会对间歇性禁食研究的不负任务的新闻发布、NAD+和烟酸在龟龄和康健中的浸染等主题。

此外，页面还供应了订阅《Orthomolecular Medicine News Service (OMNS)》的选项，以便通过电子邮件吸收最新的新闻发布。

AI写代码我用kimi生成了一个爬虫去下载了1000PDF文档

如果您有关于这些新闻发布或该网站的详细问题，请见告我，我会尽力帮助您

从kimi的回答来看，kimi彷佛是学习了这个网站的内容，我的本意是要让kimi学习这个网站的html构造，然后供应代码下载PDF

kimi的回答：

要下载一个网站上所有PDF文件，您须要利用Python的一些库，如requests来处理网络要乞降BeautifulSoup来解析HTML内容。
以下是一个大略的Python脚本示例，它考试测验找到所有具有PDF后缀的<a>标签，并下载相应的文件。

请把稳，这个脚本假定所有的PDF链接都是直接链接到PDF文件的HTTP URL。
如果链接是通过JavaScript动态天生的，或者在点击时重定向到PDF文件，那么可能须要更繁芜的方法来处理。

此外，由于我不能实际实行代码或确认链接的有效性，以下代码可能须要根据您的详细需求进行调度：

kimi供应了下载的思路，果真和我之前想的一样，kimi还不能智能到学习html的构造，然后根据我的须要去下载想要的东西

kimi供应的代码如下：

import requestsfrom bs4 import BeautifulSoupimport os# 网址url = "http://orthomolecular.org/resources/omns/index.shtml"# 发送HTTP要求response = requests.get(url)response.raise_for_status() # 如果要求失落败，将抛出非常# 解析HTML内容soup = BeautifulSoup(response.text, 'html.parser')# 找到所有的链接links = soup.find_all('a', href=True)# 用于存储PDF文件的目录pdf_directory = 'pdf_files'if not os.path.exists(pdf_directory): os.makedirs(pdf_directory)# 遍历所有的链接，下载PDF文件for link in links: href = link['href'] if href.lower().endswith('.pdf'): # 完全的PDF文件URL pdf_url = url + '/' + href if href.startswith('/') else href # 从URL中提取文件名 filename = os.path.basename(pdf_url) # 下载PDF文件 with open(os.path.join(pdf_directory, filename), 'wb') as f: pdf_response = requests.get(pdf_url) pdf_response.raise_for_status() # 如果要求失落败，将抛出非常 f.write(pdf_response.content) print(f"Downloaded {filename}")print("All PDFs have been downloaded.")

从代码看，Kimi是提取了</a>下所有的href元素并下载。
查看这个网站的HTML代码，可以看到href不但包括pdf的，还包括链接跳转到其他shtml。
而我们的需求是下载pdf文件

连续提需求，让kimi只下载pdf

import requestsfrom bs4 import BeautifulSoupimport os# 目标网址url = "http://orthomolecular.org/resources/omns/index.shtml"# 发送HTTP要求，获取网页内容response = requests.get(url)response.raise_for_status() # 确保要求成功# 利用BeautifulSoup解析HTML内容soup = BeautifulSoup(response.text, 'html.parser')# 查找所有的<a>标签a_tags = soup.find_all('a', href=True)# 用于存储PDF文件的目录pdf_directory = 'pdf_files'if not os.path.exists(pdf_directory): os.makedirs(pdf_directory)# 遍历所有的<a>标签for tag in a_tags: href = tag['href'] if href.lower().endswith('.pdf'): # 完全的PDF文件URL pdf_url = href # 假设所有的PDF链接都是绝对路径 # 从URL中提取文件名 filename = os.path.basename(pdf_url) # 构建完全的文件保存路径 file_path = os.path.join(pdf_directory, filename) try: # 发送要求，下载PDF文件 pdf_response = requests.get(pdf_url, stream=True) pdf_response.raise_for_status() # 确保要求成功 with open(file_path, 'wb') as f: for chunk in pdf_response.iter_content(chunk_size=8192): f.write(chunk) print(f"Downloaded {filename}") except Exception as e: print(f"Failed to download {pdf_url}, error: {e}")print("Finished downloading PDFs.")

可以看到上面的代码已经增加了功能，过滤了href中不因此pdf结尾的。
只下载pdf结尾的。
代码运行。
也知足了我们的需求。
该网站1000+个PDF文件成功下载

-----------连续优化-----------

那么这个功能还能连续优化么，转换下思路，如果我把这个网站的HTML代码保存成txt文档，然后让kimi去学习这个文档，然后根据我的哀求来下载。
这个方法是否可行？

1 首先我将网站的源代码保存成txt文档，然后上传给kimi

2 供应完全的提示词

供应的代码如下

import requestsfrom bs4 import BeautifulSoupimport osimport refrom urllib.parse import urljoin# 目标网页的URLurl = '你的目标网页URL'# 伪装成浏览器的headersheaders = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}# 发送HTTP要求response = requests.get(url, headers=headers)response.raise_for_status() # 如果要求失落败，将抛出非常# 利用BeautifulSoup解析HTML内容soup = BeautifulSoup(response.text, 'html.parser')# 查找所有的a标签，提取href属性links = soup.find_all('a', href=True)# 正则表达式匹配PDF链接pdf_pattern = re.compile(r'\.pdf', re.IGNORECASE)# 存储所有PDF的链接pdf_links = [urljoin(url, link['href']) for link in links if pdf_pattern.search(link['href'])]# 下载PDF文档for pdf_link in pdf_links: # 发送要求下载PDF pdf_response = requests.get(pdf_link, headers=headers) pdf_response.raise_for_status() # 从链接中提取PDF文件名 filename = re.findall(r'/([\w_-]+(\.\w+))$', pdf_link)[0][0] # 写入文件系统 with open(filename, 'wb') as f: f.write(pdf_response.content) print(f'Downloaded {filename}')print('All PDFs have been downloaded.')

这个代码比较完善了，根据我的提示词，kimi供应了header数据的组装。
避免被认为是爬虫。

总结：

本日考试测验让kimi变身一个爬虫工程师，但是结果还是有遗憾，kimi现在还不具备剖析网站的功能。
但是如果你能准确的见告kimi，详细要爬哪些内容，爬虫的条件是什么。
kimi还是能很好的完成事情

每期AI知识网

AI写代码我用kimi生成了一个爬虫去下载了1000PDF文档

ai插画渐变玩起来若何怎么样AI模拟真人情感配音

光彩MagicOS80迎来双喜第四波进级再次来袭Magic6获推新版本