关于 PyCharm 一些实用小技巧
1. 生成及调用 requirements 文件
打开pycharm的terminal,只要到 requirements.txt 所在的目录下,使用如下命令 ,就能在当前的 python 环境中导入所有需要的包:pip install -r requirements.txt
同样,在我们的程序中,如何生成 requirements.txt 文件呢,使用如下命令即可:
pip freeze>requirements.txt
2. 爬虫中生僻字乱码问题
网页中本身使用到的编码方式(utf8, gbk, gb2312)是不会对实际提取到的内容造成影响,但是使用爬虫抓取到的中文文本若涉及生僻字可能会出现乱码情况。
解决方式:
- 使用 utf8 进行网页的开发(需要有网站管理员权限)
- 爬虫开发中进行编码(本文的方法)
re = requests.get(url, headers = header)
re.encoding = 'GBK' # 根据实际网页编码进行更改
print(re.text)
3. 使用 BeautifulSoup 时缺乏 lxml 解析器且无法安装
在 termux 中使用 ubuntu 容器,pip3 install lxml
安装失败,缺乏组件,直接使用包管理工具apt命令无法正常安装
解决方案:
直接安装定制包 apt-get install python3-lxml -y
参考termux selenium-webdriver #2149
pip install lxml 失败
启用python自带http服务器
python -m http.server 8001 # 8001是端口号
Comments | NOTHING