
- 1 : 2025/08/17(日) 01:42:17.406 ID:WXyYmi.0z
- 教えてくれぇ~
- 2 : 2025/08/17(日) 01:42:48.969 ID:WXyYmi.0z
- webスクレイピングしてたらあまりにも重くなりすぎて辛い
- 3 : 2025/08/17(日) 01:43:47.056 ID:WXyYmi.0z
- 様子を見るにひとつのタブに使用させることが出来るメモリが最大で10GBみたいなんやがそれ以上使わせる方法あるか?
- 4 : 2025/08/17(日) 01:44:15.686 ID:WXyYmi.0z
- せっかくメモリ32gbにしたのに活かしきれてない
- 5 : 2025/08/17(日) 01:45:01.496 ID:sejBZf2pz
- ワイは Firefox 使ってスクレイピングしたで
- 6 : 2025/08/17(日) 01:46:16.736 ID:WXyYmi.0z
- >>5
firefoxやとソフトが対応しないんや - 7 : 2025/08/17(日) 01:46:18.454 ID:uKYfxGgqN
- 定期的に再起動すりゃええやん
要はメモリーリークしてるってことやろ? - 9 : 2025/08/17(日) 01:47:37.383 ID:WXyYmi.0z
- >>7
再起動すると今まで取得したやつが全部消えるから無理や - 12 : 2025/08/17(日) 01:48:21.305 ID:uKYfxGgqN
- >>9
取得って何を? - 8 : 2025/08/17(日) 01:46:46.796 ID:dLWLIpXuP
- 詳しくないけどそらくいの規模のwebスクレイピングってブラウザでやることじゃないんやないの
- 13 : 2025/08/17(日) 01:48:41.338 ID:WXyYmi.0z
- >>8
そうやけど対応するソフトがないんや
唯一Chrome拡張機能があるからそれつかってるけど
Xのタイムラインから画像だけを抽出したいんや - 19 : 2025/08/17(日) 01:50:36.939 ID:uKYfxGgqN
- >>13
X詳しないけどuntil:date使って擬似的に途中から再開できるんやないの - 24 : 2025/08/17(日) 01:53:51.052 ID:WXyYmi.0z
- >>19
無理やね
ワイがフォローしてる絵師サーチBANされてる絵師ばっかりやからタイムラインから取得しないとダメや
検索欄使えん - 10 : 2025/08/17(日) 01:48:11.443 ID:JmrD4LgH7
- 4GB程度しか持てへんと思うで?
そもそもプロセスの制限なんやから無理やろ - 11 : 2025/08/17(日) 01:48:12.023 ID:sejBZf2pz
- ツイッターみたいにスクロールでどんどん読み込んでいくようなもんスクレイピングしたいんやろ?
ヘッドレスでやってもダメか - 16 : 2025/08/17(日) 01:49:34.562 ID:WXyYmi.0z
- >>11
無理やね - 14 : 2025/08/17(日) 01:49:03.755 ID:nuTzs.Fl1
- 配列に要素追加しまくるJavaScript書いて動かす
- 15 : 2025/08/17(日) 01:49:25.688 ID:JmrD4LgH7
- どっかにデータ移さなあかんと思うでその場合
- 17 : 2025/08/17(日) 01:49:42.669 ID:sejBZf2pz
- 昔FBをスクレイピングした時にSelenium(python)+ Firefoxで10GB以上いけた気がするんだよな
- 18 : 2025/08/17(日) 01:50:00.823 ID:g.WBCQ6xl
- 一回でやる必要ないだろ
どうせ自動なんだから細かく検索の日付範囲変えて取得すればいいだけ - 21 : 2025/08/17(日) 01:52:49.516 ID:WXyYmi.0z
- >>18
それがXの仕様で特定の日付のタイムランを見れないようにされてるんや - 25 : 2025/08/17(日) 01:54:27.826 ID:uKYfxGgqN
- >>21
じゃあもうCookie引っこ抜いてAPI直接叩くとかじゃないと無理なんちゃう - 20 : 2025/08/17(日) 01:51:34.612 ID:sejBZf2pz
- ああ、そうだ思い出した
スクレイプ済みの要素はJavaScript で消していったりしたわ - 22 : 2025/08/17(日) 01:52:52.372 ID:dLWLIpXuP
- 仮に10GB制限突破できてもどちらにしても定期的に開放せなアカンのちゃう?
それの周期伸びるだけな気がするけどどうなん? - 23 : 2025/08/17(日) 01:53:49.384 ID:eB4KDiGyK
- 情報小出しにするんやないで
何をやりたいのか詳細を書くんやで - 28 : 2025/08/17(日) 01:56:48.150 ID:WXyYmi.0z
- >>23
ほなら書くでまずワイはフォローしてるアカウントの投稿した画像を出来ればリアルタイムで取得したい
やけど対応するソフトやスクリプトが見当たらない
せやから1週間事に手動でChrome拡張機能使ってタイムラインから毎回手作業で取得してた
せやけどデータが膨大になってきて手に負えなくなってきたということや
- 26 : 2025/08/17(日) 01:54:50.810 ID:7dwlHVGF/
- オクトパースつかえ
- 27 : 2025/08/17(日) 01:56:40.409 ID:sejBZf2pz
- Xなら日付指定でいけるやろ、と思ったけどイーロン後にAPIの仕様も変わったからブラウザ上でひたすらスクロールしか方法ないんかもな
SeleniumとJavaScript は使えるんか? - 32 : 2025/08/17(日) 02:00:00.793 ID:WXyYmi.0z
- >>27
seleniumは今初めて知ったわ
パッと見た感じ行けそう
コーディングはchatGPTに何とかしてもらうわ - 29 : 2025/08/17(日) 01:56:55.296 ID:hGW/ETny6
- Selenium使えよ
- 30 : 2025/08/17(日) 01:58:11.550 ID:hGW/ETny6
- Xってスクロールしたら上の方のコンポーネントは消えるようになってなかったっけ
それでもメモリ足りなくなるんか - 31 : 2025/08/17(日) 01:59:17.285 ID:WXyYmi.0z
- >>30
なんかあまりにも重すぎて動作が追いついてないみたいなんよな - 33 : 2025/08/17(日) 02:00:45.007 ID:dLWLIpXuP
- 調べとるけどなんで重いのか分からんわ
CPUがボトルネックになっとらんか - 34 : 2025/08/17(日) 02:01:28.738 ID:uKYfxGgqN
- いやseleniumもブラウザ動かしとるだけやからメモリ問題は解決せんと思うんやが
- 35 : 2025/08/17(日) 02:01:40.492 ID:WXyYmi.0z
- ただBOT判定されてアカウント消えるのだけは嫌やなあ
- 36 : 2025/08/17(日) 02:02:04.442 ID:sejBZf2pz
- コーディングはGPTだけでは完結しないと思うわ
自分でhtml見て、CSSセレクタ使って要素抜き取りが必要になるはず - 37 : 2025/08/17(日) 02:03:01.486 ID:WXyYmi.0z
- >>36
実はコーディングやった事ないんよな



コメント