como termina un job

Aqui seria interesante postular el modelo matematico y ver como encaja la curva. El caso es que esta semana hemos pillado a la vez dos terminaciones de jobs, que estaban calculados mas o menos para el verano. Ya lo he contado antes: un job no acaba de golpe sino que decae en lo que parece una exponencial, que depende de tiempos de caducidad y de duracion de las workunits. Cuando detectamos el modo de terminacion comenzamos a mandar cada seis horas una segunda copia de los trabajos que no han terminado, eso ayuda un poco. Si os fijais con lupa, se puede apreciar un poco despues de la medianoche del lunes y del viernes. No obstante, sigue siendo cierto que un trabajo de unas 20000 workunits tarda dos dias en terminar, eso haria mas apropiada la Grid que BOINC para los trabajos "cortos", digamos de hasta 64Kcpus. o Kprocesos.
20 comentarios
Manu -
Haber si nos dais la sorpresa "para reyes" algunos pensamos que es el camino de mejorar el sistema de calculo en grid,mencionar que hoy probe en cierta web el calculo con gpu y despues de 3 trabajos intensivos de 8 horas cada uno y 20 megas de archivo de salida salieron 17000 creditos,mas los correspondientes de ibercivis,pues el calculo con gpu se suma como una tarea mas por grafica.
Saludos
Alejandro Rivero -
enric -
Rafael Rodriguez -
luis -
manu -
Carlos J. Gil Bellosta -
Supongo que el problema del "decaimiento exponencial" tiene que ver con el hecho de que hay ordenadores que no terminan sus tareas. Y que esto es así porque a lo mejor, las últimas se han mandado a ordenadores que están desconectados y que, por lo tanto, son incapaces de rematar su labor a tiempo.
No sé si podría implementarse un sistema de manera que cuando hubiese muchas tareas pendientes (carga de trabajo para un periodo largo) fuese más probable enviarles tareas a ordenadores que operen de manera más o menos esporádica y reservar los "remates" (cuando queden pocas tareas pendientes) a esos ordenadores que históricamente están conectados de manera más continua. Así disminuiría la probabilidad de que quedasen trabajos atrapados en ordenadores no operativos.
Y BOINC funcionaría, como dices arriba, de manera más similar a un GRID.
Un saludo,
Carlos J. Gil Bellosta
Alejandro Rivero -
luis -
Victor -
adjunto un ejemplo del mensaje que me dan al reintentarlo
30/10/2009 8:35:59 Internet access OK - project servers may be temporarily down.
30/10/2009 8:54:36 ibercivis Started upload of molecula3058238_1t39_finalScreening_28-09-24-35-25_0_0
30/10/2009 8:54:39 ibercivis Temporarily failed upload of molecula3058238_1t39_finalScreening_28-09-24-35-25_0_0: HTTP error
30/10/2009 8:54:39 ibercivis Backing off 3 hr 10 min 56 sec on upload of molecula3058238_1t39_finalScreening_28-09-24-35-25_0_0
30/10/2009 9:34:47 ibercivis Started upload of molecula305781_1t39_finalScreening_28-09-20-34-32_0_0
30/10/2009 9:34:48 ibercivis Temporarily failed upload of molecula305781_1t39_finalScreening_28-09-20-34-32_0_0: HTTP error
30/10/2009 9:34:48 ibercivis Backing off 2 hr 11 min 17 sec on upload of molecula305781_1t39_finalScreening_28-09-20-34-32_0_0
cosubaru -
Victor -
llevo un par de dias con problemas a la hora de enviar trabajos y tambien pero menos a la hora de recibirlos me pasa sobre todo con trabajos de docking. Ahora mismo tengo mas de una docena de trabajos terminados y no los envia
Un saludo
Morly -
Cazamarcianos -
LLevo un tiempo que he notado una bajada importante en mis estadisticas de Ibercivis.
Investigando por si era un problema de mis ordenadores, he descubierto que llevais unos dias que, me imagino que por error, puntuais las unidades de docking a 0.5 creditos, creo que 6 veces por debajo de lo normal.
Un saludo
Jose.
Cazamarcianos -
Un saludo
Jose.
METEORSWARM -
01/10/2009 12:08:27 ibercivis Started download of 1bm7_gridmaps.7z
01/10/2009 12:08:27 ibercivis Started download of ZINC09505531.7z
01/10/2009 12:08:28 ibercivis Finished download of ZINC09505531.7z
01/10/2009 12:08:28 ibercivis Started download of job_ZINC09505531.xml
01/10/2009 12:08:29 ibercivis Finished download of job_ZINC09505531.xml
01/10/2009 12:08:29 ibercivis Started download of ZINC09505534.7z
01/10/2009 12:08:30 ibercivis Finished download of ZINC09505534.7z
01/10/2009 12:08:30 ibercivis Started download of job_ZINC09505534.xml
01/10/2009 12:08:32 ibercivis Finished download of job_ZINC09505534.xml
01/10/2009 12:08:32 ibercivis Started download of ZINC09505537.7z
01/10/2009 12:08:33 ibercivis Finished download of ZINC09505537.7z
01/10/2009 12:08:33 ibercivis Started download of job_ZINC09505537.xml
01/10/2009 12:08:34 ibercivis Finished download of job_ZINC09505537.xml
01/10/2009 12:08:34 ibercivis Started download of ZINC09505539.7z
01/10/2009 12:08:35 ibercivis Finished download of ZINC09505539.7z
01/10/2009 12:08:35 ibercivis Started download of job_ZINC09505539.xml
01/10/2009 12:08:37 ibercivis Finished download of job_ZINC09505539.xml
01/10/2009 12:08:58 ibercivis Finished download of 1bm7_gridmaps.7z
01/10/2009 12:08:58 ibercivis [error] File 1bm7_gridmaps.7z has wrong size: expected 10362741, got 10301098
01/10/2009 12:08:58 ibercivis [error] Checksum or signature error for 1bm7_gridmaps.7z
Cazamarcianos -
Esto ya lo comenté hace tiempo y no se si en su día verificasteis si había un problema con esto.
Hay un ordenador, el 91733, que aparentemente es antiguo y poco potente, pero esta entregando cientos de tareas, solo de neurosim, en un día. Pero lo raro es que cada tarea la procesa en 3 minutos cuando lo normal es de mas de 30.
El ordenador:
http://registro.ibercivis.es/show_host_detail.php?hostid=91733
Ejemplo de las tareas:
http://registro.ibercivis.es/results.php?hostid=91733&offset=200
Deberíais de comprobar si los resultados de esas tareas son correctos, porque puede ser que el programa no procese la tarea pero si genere el algoritmo de validación, con lo que, si es asi, tendréis un montón de valores erróneos.
Un saludo
Jose.
METEORSWARM -
Esperemos que con algo mas de tiempo se desarrollen estas nuevas capacidades y las vayamos implementando.
Llevo dias recibiendo solo tareas de prueba y muchas de ellas no se descargan completas o presentan fallos en las descargas de expected number 2214 and have 0,cant rename file,etc
Saludos
METEORWARM -
luis -
Un saludo