Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

一个epoch运行时间过长 #10

Open
s20163081161 opened this issue Jun 4, 2020 · 18 comments
Open

一个epoch运行时间过长 #10

s20163081161 opened this issue Jun 4, 2020 · 18 comments

Comments

@s20163081161
Copy link

@layumi 郑博士你好,请问一个epoch得运行多长时间,我这里运行了一个多小时,都没运行完??是真的需要运行这么久,还是出错了??

@daiguangzhao
Copy link

建议你不要用train+virtual,你把这个条件删了,就使用默认条件中真实数据集中的train就行.

@layumi
Copy link
Owner

layumi commented Jun 7, 2020

@s20163081161 你好,有虚拟数据集的话,一个epoch就比较慢,,
@daiguangzhao 感谢。不过,只用真实数据集结果会低一些,,

@Kang9779
Copy link

@layumi 郑博士你好,请问一个epoch得运行多长时间,我这里运行了一个多小时,都没运行完??是真的需要运行这么久,还是出错了??

我也是运行了73min,一个epoch。。。

@Kang9779
Copy link

@layumi 郑博士你好,请问一个epoch得运行多长时间,我这里运行了一个多小时,都没运行完??是真的需要运行这么久,还是出错了??

最后你跑完模型了吗?

@s20163081161
Copy link
Author

s20163081161 commented Jun 15, 2020 via email

@Kang9779
Copy link

train+virtual没跑完,train的跑完了

train跑完花了多久呀?

@s20163081161
Copy link
Author

s20163081161 commented Jun 15, 2020 via email

@Kang9779
Copy link

Kang9779 commented Jun 15, 2020

2天

哎,搞不懂为啥这么慢,我用那个参考的person-reid的模型跑几个小时就出来了。

@s20163081161
Copy link
Author

建议你不要用train+virtual,你把这个条件删了,就使用默认条件中真实数据集中的train就行.

您好,请问你跑测试集,最后的mAP和rank@1是多少?

@lylinyang
Copy link

lylinyang commented Nov 10, 2020

建议你不要用train+virtual,你把这个条件删了,就使用默认条件中真实数据集中的train就行.

您好,请问你跑测试集,最后的mAP和rank@1是多少?

您这边跑出来了吗?我这里按训练参数跑完traivirtual的80个epoch之后指标很低:Rank@1:0.004301 Rank@5:0.032258 Rank@10:0.055914
mAP:0.004358

@s20163081161
Copy link
Author

s20163081161 commented Nov 10, 2020 via email

@lylinyang
Copy link

我也很低,没整明白

---原始邮件--- 发件人: "Yang Lin"<[email protected]> 发送时间: 2020年11月10日(周二) 晚上8:11 收件人: "layumi/AICIty-reID-2020"<[email protected]>; 抄送: "Mention"<[email protected]>;"s20163081161"<[email protected]>; 主题: Re: [layumi/AICIty-reID-2020] 一个epoch运行时间过长 (#10) 建议你不要用train+virtual,你把这个条件删了,就使用默认条件中真实数据集中的train就行. 您好,请问你跑测试集,最后的mAP和rank@1是多少? 您这边跑出来了吗?我这里按训练参数跑完traivirtual的80个epoch之后指标很低:Rank@1:0.004301 Rank@5:0.032258 Rank@10:0.055914 mAP:0.004358 — You are receiving this because you were mentioned. Reply to this email directly, view it on GitHub, or unsubscribe.

@layumi 郑博您有什么指导意见嘛?您当时自测Validate Model的指标大概是多少呀?我们应该从哪里入手debug?似乎大家都没有得到合理的mAP,是不是需要Fine-tune Model之后才能测得比较合理的指标?

@layumi
Copy link
Owner

layumi commented Nov 10, 2020

@kangzhang0709
因为数据量大(是Market好几倍了,我记得超过10个market了)所以跑一个epoch的时间差不多一小时。我也是训练2天吧。
特别是AICity的virtual data 很多。

因为我有的实验都是跑一周的,,所以我都习惯了。。。

@layumi
Copy link
Owner

layumi commented Nov 10, 2020

@lylinyang
我感觉你的结果确实不太对。。

  1. 你有试过测试 中间epoch的模型么?
  2. 你跑 https://github.com/layumi/Person_reID_baseline_pytorch 这个person reid的代码结果是正常的么?
  3. 测试的数据集,有没有按照文件夹(一个文件夹一个id)来排列?
  4. 我不知道aicity的测试集 现在是不是可以upload,你也可以upload一个结果看看。

@lylinyang
Copy link

@lylinyang
我感觉你的结果确实不太对。。

  1. 你有试过测试 中间epoch的模型么?
  2. 你跑 https://github.com/layumi/Person_reID_baseline_pytorch 这个person reid的代码结果是正常的么?
  3. 测试的数据集,有没有按照文件夹(一个文件夹一个id)来排列?
  4. 我不知道aicity的测试集 现在是不是可以upload,你也可以upload一个结果看看。

感谢您耐心解答,
1:我试过了用中间的epoch结果更低一些。请您帮看下我每次epoch结果和您训练时候的数值上是否大致一致?:
Epoch1/79:train Loss: 0.0099 Acc: 0.9818
Epoch6779:train Loss: 0.0006 Acc: 0.9998
Epoch79/79:train Loss: 0.0006 Acc: 0.9998
Best epoch: 67 Best Train Loss: 0.000575

3:测试集和训练集都是按照一个id一个文件夹排列的,例如./gallery/(id)/.jpg ./query/(id)/.jpg,train和virtual也同上,只有train+virtual的目录结构是train+virtual/(train或virtual)/(id)/*.jpg, 其中gallery包含个333ID\36935张图片,query包含78ID\465张图片,train包含255个ID\26781张图片,vitual包含1362个ID\192150张图片。您看是否是正确?
4:目前还是可以upload的,所以顺便想请教下您submit_result_multimodel.py里的两个路径test_dir和crop_dir应该怎么构建?好像脚本里没有涉及呢。
2:我尝试后反馈您。

@layumi
Copy link
Owner

layumi commented Nov 11, 2020

  1. 这证明你训练集已经拟合了
  2. 嗯,我粗看了一下,应该是对的。
  3. 你可以不用管crop_dir 这是我用detectron 重新把测试集的车又重新crop了。你可以把对应的代码注释掉。
    test_dir 其实很简单 因为id是未知的,所以把下载到的测试 query 文件夹 和gallery 文件夹 直接放一个大文件夹下就好了。

@lhbsww
Copy link

lhbsww commented May 14, 2022

@s20163081161 你好,请问你跑完了吗,现在还有训练的模型吗,可以提供一下吗,[email protected],感谢

@daiguangzhao
Copy link

daiguangzhao commented May 15, 2022 via email

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

6 participants