Bienvenido: Ingresar
location: Diferencias para "Vision/ProyectosVision/RobotVision2012"
Diferencias entre las revisiones 48 y 117 (abarca 69 versiones)
Versión 48 con fecha 2012-05-03 14:06:03
Tamaño: 9096
Editor: Jaarac
Comentario:
Versión 117 con fecha 2012-07-02 18:07:58
Tamaño: 37304
Editor: Jaarac
Comentario:
Los textos eliminados se marcan así. Los textos añadidos se marcan así.
Línea 4: Línea 4:
Línea 8: Línea 9:
== Tareas ==
 * --(experimentos con pirámides espaciales)--
 * usar el detector de transiciones con NGAUSS=64, 128 y 256
 * buscar implementaciones y evaluar descriptores RGBD
 * ver algunos descriptores de colores

Línea 10: Línea 18:
 * Aumentar los conjuntos de datos con la versión espejada de las imágenes  * --(Aumentar los conjuntos de datos con la versión espejada de las imágenes)--
Línea 34: Línea 42:

El dataset está compuesto por 3 conjuntos de entrenamiento, denominados training[1,2,3], los cuales cuentan con 2667, 2532 y 1913 imágenes rgb y de profundidad respectivamente. La media de estos 3 conjuntos es 2371, este sería el máximo score a lograr en promedio cuando testeamos sobre los 3 conjuntos.

Las imágenes corresponden a las habitaciones

[[Vision/ProyectosVision/RobotVision2012/Imagenes | Comparación de los set]]
Línea 35: Línea 50:
 * En training1 el recorrido del robot es contrario al caso de training[23].
 * Las imágenes de training3 son tomadas de noche
Línea 36: Línea 54:
[[attachment:training1_rgb_69.jpg|{{attachment:training1_rgb_69.jpg|rgb_69|width=100}}]]
[[attachment:training1_rgb_71.jpg|{{attachment:training1_rgb_71.jpg|rgb_71|width=100}}]]
[[attachment:training1_rgb_73.jpg|{{attachment:training1_rgb_73.jpg|rgb_73|width=100}}]]
[[attachment:training1_rgb_75.jpg|{{attachment:training1_rgb_75.jpg|rgb_75|width=100}}]]
[[attachment:training1_rgb_69.jpg|{{attachment:training1_rgb_69.jpg|rgb_69|width=200}}]]
[[attachment:training1_rgb_71.jpg|{{attachment:training1_rgb_71.jpg|rgb_71|width=200}}]]
[[attachment:training1_rgb_73.jpg|{{attachment:training1_rgb_73.jpg|rgb_73|width=200}}]]
[[attachment:training1_rgb_75.jpg|{{attachment:training1_rgb_75.jpg|rgb_75|width=200}}]]
Línea 41: Línea 59:
[[attachment:training2_rgb_93.jpg|{{attachment:training2_rgb_93.jpg|rgb_93|width=100}}]]
[[attachment:training2_rgb_95.jpg|{{attachment:training2_rgb_95.jpg|rgb_95|width=100}}]]
[[attachment:training2_rgb_97.jpg|{{attachment:training2_rgb_97.jpg|rgb_97|width=100}}]]
[[attachment:training2_rgb_99.jpg|{{attachment:training2_rgb_99.jpg|rgb_99|width=100}}]]
[[attachment:training2_rgb_93.jpg|{{attachment:training2_rgb_93.jpg|rgb_93|width=200}}]]
[[attachment:training2_rgb_95.jpg|{{attachment:training2_rgb_95.jpg|rgb_95|width=200}}]]
[[attachment:training2_rgb_97.jpg|{{attachment:training2_rgb_97.jpg|rgb_97|width=200}}]]
[[attachment:training2_rgb_99.jpg|{{attachment:training2_rgb_99.jpg|rgb_99|width=200}}]]
Línea 46: Línea 64:
[[attachment:training3_rgb_60.jpg|{{attachment:training3_rgb_60.jpg|rgb_60|width=100}}]]
[[attachment:training3_rgb_62.jpg|{{attachment:training3_rgb_62.jpg|rgb_62|width=100}}]]
[[attachment:training3_rgb_64.jpg|{{attachment:training3_rgb_64.jpg|rgb_64|width=100}}]]
[[attachment:training3_rgb_66.jpg|{{attachment:training3_rgb_66.jpg|rgb_66|width=100}}]]
[[attachment:training3_rgb_60.jpg|{{attachment:training3_rgb_60.jpg|rgb_60|width=200}}]]
[[attachment:training3_rgb_62.jpg|{{attachment:training3_rgb_62.jpg|rgb_62|width=200}}]]
[[attachment:training3_rgb_64.jpg|{{attachment:training3_rgb_64.jpg|rgb_64|width=200}}]]
[[attachment:training3_rgb_66.jpg|{{attachment:training3_rgb_66.jpg|rgb_66|width=200}}]]
Línea 113: Línea 131:
 * Descriptores: SIFT sobre grilla regular (DSIFT de vlfeat), patchs 32x32, paso=8, L2-norm., D=128  * Descriptores: SIFT sobre grilla regular (DSIFT de vlfeat), patchs 32x32, paso=8, L2-norm., D=128, 5 escalas, factor=0.707
Línea 153: Línea 171:
Se realiza una prueba con distintos valores de DSIFT_STEP (8 y 16) y aumento el conjunto de entrenamiento haciendo un flip left-right de las imágenes antes de calcular DSIFT. Flip=0, indica sin aumentar el conjunto; Flip=1 indica aumentando el conjunto de entrenamiento con las imágenes flipeadas.
Al final de este experimento se muestra la configuración que resulta más apropiada.
Línea 170: Línea 190:
||||<rowstyle="font-weight: bold;"> Avg. || 603 || 866 || 863 || 903 || 984 || 1059 || 1071 || 1123 || |||| Avg. || 603 || 866 || 863 || 903 || 984 || 1059 || 1071 || 1123 ||
Línea 179: Línea 199:
||||<rowstyle="font-weight: bold;"> Avg. || 632 || 791 || 877 || 864 || 913 || 938 || 1009 || 1025 || |||| Avg. || 632 || 791 || 877 || 864 || 913 || 938 || 1009 || 1025 ||
Línea 186: Línea 206:
|| Tr. || Te. || 8 || 16 || 32 || 64 || 128 || 256 || 512 || 1024 ||
|| 1,2 || 3 || -357 || -105 || 45 || 59 || 185 || 199 || 233 || 411 ||
|| 2,3 || 1 || 1569 || 1703 || 1787 || 1795 || 1887 || 1949 || 1995 || 1999 ||
|| 3,1 || 2 || 1666 || 1880 || 2018 || 2076 || 2142 || 2182 || 2182 || 2190 ||
||||<rowstyle="font-weight: bold;"> Avg. || 959 || 1159 || 1283 || 1310 || 1405 || 1443 || 1470 || 1533 ||
|| Tr. || Te. || 8 || 16 || 32 || 64 || 128 || '''256''' || 512 || 1024 ||
|| 1,2 || 3 || -357 || -105 || 45 || 59 || 185 || '''199''' || 233 || 411 ||
|| 2,3 || 1 || 1569 || 1703 || 1787 || 1795 || 1887 || '''1949''' || 1995 || 1999 ||
|| 3,1 || 2 || 1666 || 1880 || 2018 || 2076 || 2142 || '''2182''' || 2182 || 2190 ||
|||| Avg. || 959 || 1159 || 1283 || 1310 || 1405 || '''1443''' || 1470 || 1533 ||
Línea 199: Línea 219:
||||<rowstyle="font-weight: bold;"> Avg. || 959 || 1135 || 1223 || 1269 || 1405 || 1393 || 1453 || 1474 || |||| Avg. || 959 || 1135 || 1223 || 1269 || 1405 || 1393 || 1453 || 1474 ||
Línea 204: Línea 224:

== 4 mayo 2012 ==
=== Experimento 1 ===
Se prueba oscureciendo las imágenes de entrenamiento del clasificador. El oscurecimiento se realiza multiplicando las intensidades de los pixeles de las imágenes por un factor menor a 1. Se probo con factores de 0.33 y 0.5. En este experimento no se actualizó el modelo .gmm con los nuevos descriptores con flip y oscurecidos.
==== Configuración ====

 * SGD LBD=1e-4, 20 iteraciones, 256 Gaussianas, DSIFT step=8, flip=1

 * Using ''argmax'' for classification

==== Resultados ====

|||| NGAUSS=256 |||||| srange ||
|| Tr. || Te. || 1.0 || 0.33 || 0.5 ||
|| 1,2 || 3 || 199 || 229 || 221 ||
|| 2,3 || 1 || 1949 || 1949 || 1945 ||
|| 3,1 || 2 || 2182 || 2180 || 2180 ||
|||| Avg. || 1443 || 1452 || 1449 ||

== 5 mayo 2012 ==
=== Experimento 1 ===
Se prueba oscureciendo las imágenes de entrenamiento del clasificador. El oscurecimiento se realiza multiplicando las intensidades de los pixeles de las imágenes por un factor menor a 1. Se probo con factores de 0.33 y 0.5. En este experimento si se actualizó el modelo .gmm con los nuevos descriptores generados con flip y con oscurecimiento.
==== Configuración ====

 * SGD LBD=1e-4, 20 iteraciones, 256 Gaussianas, DSIFT step=8, flip=1

 * Using ''argmax'' for classification

==== Resultados ====

|||| NGAUSS=256 |||||| srange ||
|| Tr. || Te. || 1.0 || 0.1 || 0.33 || 0.5 ||
|| 1,2 || 3 || 199 || 187 || 195 || 171 ||
|| 2,3 || 1 || 1949 || 1975 || 1945 || 1965 ||
|| 3,1 || 2 || 2182 || 2154 || 2166 || 2180 ||
|||| Avg. || 1443 || 1439 || 1435 || 1439 ||

== 7 mayo 2012 ==
=== Experimento 1 ===
Se prueba utilizando feature augmentation. En este experimento si se actualizó el modelo .gmm con los descriptores generados con flip de las imágenes.
Con aug=1 o aug=0 se indica el uso o no de feature augmentation respectivamente.
==== Configuración ====

 * SGD LBD=1e-4, 20 iteraciones, 64 Gaussianas, DSIFT step=8, flip=[0,1]

 * Using ''argmax'' for classification

==== Resultados ====

|||| NGAUSS=64 |||| flip=0 |||| flip=1 ||
|| Tr. || Te. || aug=0|| aug=1 || aug=0|| aug=1 ||
|| 1,2 || 3 || 77 || 87 || 257 || 33 ||
|| 2,3 || 1 || 1173 || 1207 || 1801 || 1783 ||
|| 3,1 || 2 || 1440 || 1528 || 2080 || 2014 ||
|||| Avg. || 897 || 941 || 1379 || 1277 ||

 * Comparación usando en ambos casos imágenes de entrenamiento originales y flipeadas, pero en el primer caso entrenando el modelo .gmm solo en las imágenes originales (gmm_flip=0) y en el segundo caso utilizando las imágenes originales y las flipeadas (gmm_flip=1). No se usó feature augmentation.

|||| NGAUSS=64 |||| flip=1 ||
|| Tr. || Te. || gmm_flip=0 || gmm_flip=1 ||
|| 1,2 || 3 || 59 || 257 ||
|| 2,3 || 1 || 1795 || 1801 ||
|| 3,1 || 2 || 2076 || 2080 ||
|||| Avg. || 1310 || 1379 ||

== 8 mayo 2012 ==
=== Experimento 1 ===
Se prueba utilizando feature augmentation. En este experimento si se actualizó el modelo .gmm con los descriptores generados con flip de las imágenes.
Con aug=1 o aug=0 se indica el uso o no de feature augmentation respectivamente.
==== Configuración ====

 * SGD LBD=1e-4, 20 iteraciones, 128 Gaussianas, DSIFT step=8, flip=[0,1]

 * Using ''argmax'' for classification

==== Resultados ====

|||| NGAUSS=128 |||| flip=0 |||| flip=1 ||
|| Tr. || Te. || aug=0 || aug=1 || aug=0|| aug=1 ||
|| 1,2 || 3 || 191 || 115 || 195 || 39 ||
|| 2,3 || 1 || 1189 || 1255 || 1887 || 1905 ||
|| 3,1 || 2 || 1582 || 1618 || 2132 || 2098 ||
|||| Avg. || 987 || 996 || 1405 || 1347 ||

== 9 mayo 2012 ==
=== Experimento 1 ===
Se prueba utilizando pirámides espaciales. Las configuraciones usadas son "sp1x1,lsf=0,gsf=0" (spyr=0), "sp1x1,sp1x3,lsf=0,gsf=0" (spyr=1) y "sp1x1,sp1x3,lsf=0.33,gsf=0.33" (spyr=2).
==== Configuración ====

 * SGD LBD=1e-4, 20 iteraciones, 64 Gaussianas, DSIFT step=8, flip=[0,1]

 * Using ''argmax'' for classification

==== Resultados ====

|||| NGAUSS=64 |||||| flip=0 |||||| flip=1 ||
|| Tr. || Te. || spyr=0 || spyr=1 || spyr=2 || spyr=0 || spyr=1 || spyr=2||
|| 1,2 || 3 || 77 || -413 || -41 || 257 || -458 || 201 ||
|| 2,3 || 1 || 1173 || 1123 || 1029 || 1801 || 1773 || 1791 ||
|| 3,1 || 2 || 1440 || 1412 || 1358 || 2080 || 2078 || 2084 ||
|||| Avg. || 897 || 707 || 782 || 1379 || 1122 || 1359 ||

== 11 mayo 2012 ==
=== Experimento 1 ===
Se prueba utilizando opponent SIFT. El software utilizado para calcular los descriptores es [[http://koen.me/research/colordescriptors|colorDescriptor]]. Estos cálculos se realizaron sobre la notebook de jaarac, por eso pueden variar con los que se calcularon antes.
==== Configuración ====
 * Descriptor: OPP_SIFT, step=16, sampling_scale=1.6

 * SGD LBD=1e-4; 20 iteraciones; 16, 32 y 64 Gaussianas; flip=0

 * Using ''argmax'' for classification

==== Resultados ====

|||| OPPSIFT |||||| flip=0 ||
|| Tr. || Te. || 16 || 32 || 64 ||
|| 1,2 || 3 || -231 || -173 || -17 ||
|| 2,3 || 1 || 1161 || 1217 || 1221 ||
|| 3,1 || 2 || 1538 || 1598 || 1664 ||
|||| Avg. || 823 || 881 || 956 ||

=== Experimento 2 ===
Se evaluó el detector de transiciones y distintas formas de realizar la clasificación. Con el detector de transiciones no se obtuvieron mejoras, así que los datos no fueron subidos.
==== Configuración ====
 * Los resultados mostrados son promedios sobre los scores obtenidos para las 3 configuraciones de conjuntos posibles para valores de 64, 128 y 256 gaussianas.
 * Descriptor: DSIFT, step=8

 * SGD LBD=1e-4; 20 iteraciones; Gaussianas; flip=0


==== Resultados ====
 * Aplicando un umbral a la diferencia entre el mayor y el segundo mayor score para decidir si clasificamos o no. La clasificación posterior se realizó con argmax. Solamente se muestran umbrales hasta 0.9, porque para umbrales menores los scores son muy bajos. El umbral 0.0 sería el baseline, o sea siempre clasificamos.

||umbral||0.0 ||0.1 ||0.2 ||0.3 ||0.4 ||0.5 ||0.6 ||0.7 ||0.8 ||0.9 ||
||avg ||979.556||1035.44||1072||1095.78||'''1103.44'''||1102.67||1088.56||1058.56||1021.11||972.111||

 * Utilizando un umbral sobre el mayor score de clasificación, para decidir cuando clasificar. Luego se elige la clase del mayor score.

||umbral||-1.0 ||-0.9 ||-0.8 ||-0.7 ||-0.6 ||-0.5 ||-0.4 ||-0.3 ||-0.2 ||-0.1 ||0.0 ||0.1 ||0.2 ||
||avg ||980.444||983.778||996.667||1019.56||1051.67||1095.89||1136.56||1172.44||'''1185'''||1166.78||1120.44||1056.67||979.444||

 * Utilizando un umbral sobre abs(max_score)/(max_score - secondmax_score) para decidir cuando clasificar.

||umbral||0.6 ||0.7 ||0.8 ||0.9 ||1.0 ||1.1 ||1.2 ||1.3 ||1.4 ||1.5 ||1.6 ||1.7 ||1.8 ||1.9 ||2.0||
||avg ||1050||1123||'''1139'''||'''1139'''||1137||1131||1128||1123||1120||1118||1111.44||1107||1103||1101||1099||

== 18 mayo 2012 ==
=== Experimento 1 ===
Se prueba utilizando el detector de transiciones, pero se generan nuevos conjuntos de entrenamiento a partir de los originales (feature_packer, feature_sampler).
==== Configuración ====
 * Descriptor: DSIFT, step=8, ;SGD LBD=1e-4, 20 iteraciones; 64, 128 y 256 Gaussianas; flip=0

 * Entrenando cls (lbd=1e-4) y td (lbd=1e-2,1e-3,1e-4) sobre training1 y training2. Entrenando cls+td (lbd=1e-2,1e-3,1e-4) sobre los nuevos conjuntos training1 y training2 generados con probabilidad P de sacar un descriptor de la imagen original. Se usaron probabilidades P = 0.3, 0.5, 0.66, 0.75 . El detector de transiciones se uso con thr = 0.7, 0.8, 0.9 .

 * Using ''argmax'' for classification

==== Resultados ====
Resultados para las condiciones que resultaron más favorables, esto es:
 * cls_sgd_lbd = 1e-4
 * td_sgd_lbd = 1e-2
 * cls+td_sgd_lbd = 1e-2
 * P = 0.75
 * thr = 0.8

||||set conf |||||| BL |||||| with TD, P=0.75, thr=0.8 ||
|| Tr. || Te. || 64 || 128 || 256 || 64 || 128 || 256 ||
|| 1,2 || 3 || 77 || 191 || 253 || 51 || 175 || 241 ||
|| 2,3 || 1 || 1173 || 1189 || 1267 || 1151 || 1181 || 1271 ||
|| 3,1 || 2 || 1440 || 1582 || 1644 || 1418 || 1554 || 1632 ||
|||| Avg. || 897 || 987 || 1055 || 873 || 970 || 1048 ||

Resultados para otras condiciones:
 * cls_sgd_lbd = 1e-4
 * td_sgd_lbd = 1e-4
 * cls+td_sgd_lbd = 1e-4
 * P = 0.75
 * thr = 0.8

||||set conf |||||| BL |||||| with TD, P=0.75, thr=0.8 ||
|| Tr. || Te. || 64 || 128 || 256 || 64 || 128 || 256 ||
|| 1,2 || 3 || 77 || 191 || 253 || -43 || 79 || 165 ||
|| 2,3 || 1 || 1173 || 1189 || 1267 || 1187 || 1075 || 1121 ||
|| 3,1 || 2 || 1440 || 1582 || 1644 || 1266 || 1424 || 1540 ||
|||| Avg. || 897 || 987 || 1055 || 803 || 859 || 942 ||

En el siguiente archivo están todos los resultados. Los archivos *_with_td.txt contienen los resultados usando TD y los otros archivos el baseline. Hay un archivo para cada configuración de conjuntos de training y test. Las datos están organizados de la siguiente forma:
||P||ngauss||cls_lbd||td_lbd||td_thr||cls+td_lbd||score||

[[attachment:results_18_mayo_2012.tar.gz|results_18_mayo_2012.tar.gz]]

== 29 mayo 2012 ==
=== Experimento 1 ===
Se realizan nuevamente los experimentos porque hubo errores con las etiquetas entregadas por los organizadores. También se muestran los resultados usando SIFT sobre las imágenes de profundidad.
==== Configuración ====
 * Descriptor RGB: DSIFT, step=8, image_presc=1, dsift_fs=0.707, dsift_ns=5

 * Descriptor Depth: DSIFT, step=8, image_presc=0.5, dsift_fs=0.707, dsift_ns=5

 * SGD LBD=1e-4, 20 iteraciones; 64, 128 y 256 Gaussianas; flip=0

 * Using ''argmax'' for classification

==== Resultados ====

||||set conf |||||| RGB |||||| Depth |||||| Late fusion w=0.5 ||
|| Tr. || Te. || 64 || 128 || 256 || 64 || 128 || 256 || 64 || 128 || 256 ||
|| 1,2 || 3 || 77 || 191 || 253 || 23 || 159 || 349 || 433 || 599 || 681 ||
|| 2,3 || 1 || 1189 || 1199 || 1285 || 431 || 465 || 541 || 1031 || 1089 || 1069 ||
|| 3,1 || 2 || 1462 || 1592 || 1648 || 1108 || 1206 || 1226 || 1772 || 1822 || 1862 ||
|||| Avg. || 909 || 994 || 1062 || 521 || 610 || 705 || 1079 || 1170 || 1204 ||

== 30 mayo 2012 ==
=== Experimento 1 ===
Resultados usando SIFT sobre las imágenes de profundidad usando image_presc=0.5 e image_presc=1.0.
==== Configuración ====
 * Descriptor Depth: DSIFT, step=8, image_presc=[0.5, 1.0], dsift_fs=0.707, dsift_ns=5

 * SGD LBD=1e-4, 20 iteraciones; 64, 128, 256 y 512 Gaussianas; flip=0

 * Using ''argmax'' for classification

==== Resultados ====

||||set conf |||||||| image_presc=0.5 |||||||| image_presc=1.0 ||
|| Tr. || Te. || 64 || 128 || 256 || 512 || 64 || 128 || 256 || 512 ||
|| 1,2 || 3 || 23 || 159 || 349 || || -335 || 7 || 203 || 309 ||
|| 2,3 || 1 || 431 || 465 || 541 || || 465 || 571 || 609 || 617 ||
|| 3,1 || 2 || 1108 || 1206 || 1226 || || 1116 || 1194 || 1226 || 1272 ||
|||| Avg. || 521 || 610 || 705 || || 415 || 591 || 679 || 733 ||

=== Experimento 2 ===
Late fusion sobre RGB y Depth. Comparación usando image_presc=[0.5,1.0]
==== Configuración ====
 * Descriptor RGB: DSIFT, step=8, image_presc=1, dsift_fs=0.707, dsift_ns=5

 * Descriptor Depth: DSIFT, step=8, image_presc=[0.5,1.0], dsift_fs=0.707, dsift_ns=5

 * SGD LBD=1e-4, 20 iteraciones; 64, 128 y 256 Gaussianas; flip=0

 * Using ''argmax'' for classification

 * Late fusion: w=0.5

==== Resultados ====

||||set conf |||||||| Late fusion image_presc=0.5 w=0.5 |||||||| Late fusion image_presc=1.0 w=0.5||
|| Tr. || Te. || 64 || 128 || 256 || 512 || 64 || 128 || 256 || 512 ||
|| 1,2 || 3 || 433 || 599 || 681 || || 249 || 527 || 687 || 685 ||
|| 2,3 || 1 || 1031 || 1089 || 1069 || || 1041 || 1083 || 1103 || 1091 ||
|| 3,1 || 2 || 1772 || 1822 || 1862 || || 1766 || 1828 || 1890 || 1850 ||
|||| Avg. || 1079 || 1170 || 1204 || || 1018 || 1146 || 1227 || 1209 ||

== 31 mayo 2012 ==
=== Experimento 1 ===
Resultados usando SIFT sobre las imágenes de profundidad usando step=4 y step=8.
==== Configuración ====
 * Descriptor Depth: DSIFT, step=[4,8], image_presc=0.5, dsift_fs=0.707, dsift_ns=5

 * SGD LBD=1e-4, 20 iteraciones; 256 Gaussianas; flip=0

 * Using ''argmax'' for classification

==== Resultados ====

||||<tablestyle="width: 40%"> set conf || step=8 || step=4 ||
|| Tr. || Te. || 256 || 256 ||
|| 1,2 || 3 || 349 || 357 ||
|| 2,3 || 1 || 541 || 573 ||
|| 3,1 || 2 || 1226 || 1266 ||
|||| Avg. || 705 || 732 ||

=== Experimento 2 ===
Late fusion sobre RGB y Depth. Comparación usando step=[4,8] para las imágenes de profundidad.
==== Configuración ====
 * Descriptor RGB: DSIFT, step=8, image_presc=1, dsift_fs=0.707, dsift_ns=5

 * Descriptor Depth: DSIFT, step=[4,8], image_presc=0.5, dsift_fs=0.707, dsift_ns=5

 * SGD LBD=1e-4, 20 iteraciones; 256 Gaussianas; flip=0

 * Using ''argmax'' for classification

 * Late fusion: w=0.5

==== Resultados ====

||||<tablestyle="width: 40%"> set conf ||Late fusion step=4||Late fusion step=8||
|| Tr. || Te. ||256 ||256 ||
|| 1,2 || 3 ||755 || 681 ||
|| 2,3 || 1 ||1113 ||1069 ||
|| 3,1 || 2 ||1878 ||1862 ||
|||| Avg. ||1249 ||1204 ||

== 1 junio 2012 ==
=== Experimento 1 ===
Late fusion sobre RGB y Depth ambos con flip=1.
==== Configuración ====
 * Descriptor RGB: DSIFT, step=8, image_presc=1, dsift_fs=0.707, dsift_ns=5

 * Descriptor Depth: DSIFT, step=4, image_presc=0.5, dsift_fs=0.707, dsift_ns=5

 * SGD LBD=1e-4, 20 iteraciones; 256, 512 y 1024 Gaussianas; flip=1

 * Late fusion: w=0.5

==== Resultados usando argmax ====

||||set conf |||||| RGB ||||||Depth ||||||LF w=0.5 ||
|| Tr. || Te. || 256 || 512 || 1024 || 256 || 512 || 1024 || 256 || 512 || 1024 ||
|| 1,2 || 3 || 239 || 269 || 339 || 511 || 489 || 609 || 757 || 815 || 921 ||
|| 2,3 || 1 || 2013 || 1991 || 2019 || 1403 || 1429 || 1461 || 1985 || 1981 || 1997 ||
|| 3,1 || 2 || 2174 || 2182 || 2186 || 1548 || 1564 || 1598 || 2096 || 2098 || 2116 ||
|||| Avg. || 1475 || 1481 || 1515 || 1154 || 1161 || 1223 || 1613 || 1631 || 1678 ||

==== Resultados usando un thr y no argmax ====
 * Se utilizó un thresold para decidir si se clasifica o no. Se muestra con argmax para comparar.

|||| set conf ||||||argmax |||||| thr=-0.4 |||||| '''thr=-0.5''' |||||| thr=-0.6 ||
|| Tr. || Te. || 256 || 512 || 1024 || 256 || 512 || 1024 || 256 || 512 || 1024 || 256 || 512 || 1024 ||
|| 1,2 || 3 || 757 || 815 || 921 || 868 || 927 || 989 || 897 || 968 || 1054 || 896 || 947 || 1047 ||
|| 2,3 || 1 || 1985 || 1981 || 1997 || 1990 || 2002 || 1998 || 2014 || 2015 || 2001 || 2010 || 1997 || 2003 ||
|| 3,1 || 2 || 2096 || 2098 || 2116 || 2076 || 2084 || 2116 || 2096 || 2102 || 2115 || 2094 || 2096 || 2114 ||
|||| Avg. || 1613 || 1631 || 1678 || 1645 || 1671 || 1701 || '''1669''' || '''1695''' || '''1723''' || 1667 || 1680 || 1721 ||

== 4 junio 2012 ==
=== Experimento 1 ===
Comparación DSIFT sobre imágenes RGB usando step=[4,8] y image_presc=[0.5,1.0] con flip=1.
==== Configuración ====
 * Descriptor RGB: DSIFT, step=[4,8], image_presc=[0.5,1.0], dsift_fs=0.707, dsift_ns=5

 * SGD LBD=1e-4, 20 iteraciones; 256, 512 y 1024 Gaussianas; flip=1

 * Using ''argmax'' for classification

==== Resultados usando argmax ====

||||set conf |||||| step=4, img_presc=0.5 |||||| step=8, img_presc=1.0 ||
|| Tr. || Te. || 256 || 512 || 1024 || 256 || 512 || 1024 ||
|| 1,2 || 3 || 275 || 411 || 491 || 239 || 269 || 339 ||
|| 2,3 || 1 || 1941 || 1945 || 1969 || 2013 || 1991 || 2019 ||
|| 3,1 || 2 || 2150 || 2158 || 2154 || 2174 || 2182 || 2186 ||
|||| Avg. || 1455 || '''1505''' || '''1538''' || '''1475''' || 1481 || 1515 ||

=== Experimento 2 ===
Late fusion sobre RGB y Depth ambos con flip=1.
==== Configuración ====
 * Descriptor RGB: DSIFT, step=4, image_presc=0.5, dsift_fs=0.707, dsift_ns=5

 * Descriptor Depth: DSIFT, step=4, image_presc=0.5, dsift_fs=0.707, dsift_ns=5

 * SGD LBD=1e-4, 20 iteraciones; 256, 512 y 1024 Gaussianas; flip=1

 * Late fusion: w=0.5

==== Resultados usando argmax ====

||||set conf |||||| RGB ||||||Depth ||||||LF w=0.5 ||
|| Tr. || Te. || 256 || 512 || 1024 || 256 || 512 || 1024 || 256 || 512 || 1024 ||
|| 1,2 || 3 || 275 || 411 || 491 || 511 || 489 || 609 || 835 || 897 || 965 ||
|| 2,3 || 1 || 1941 || 1945 || 1969 || 1403 || 1429 || 1461 || 1947 || 1961 || 1941 ||
|| 3,1 || 2 || 2150 || 2158 || 2154 || 1548 || 1564 || 1598 || 2050 || 2078 || 2094 ||
|||| Avg. || 1455 || 1505 || 1538 || 1154 || 1161 || 1223 || '''1611''' || '''1645''' || '''1667''' ||

==== Resultados usando un thr y no argmax ====
 * Se utilizó un thresold para decidir si se clasifica o no. Se muestra con argmax para comparar.

|||| set conf ||||||argmax |||||| '''thr=-0.5''' ||
|| Tr. || Te. || 256 || 512 || 1024 || 256 || 512 || 1024 ||
|| 1,2 || 3 || 835 || 897 || 965 || 959 || 1084 || 1107 ||
|| 2,3 || 1 || 1947 || 1961 || 1941 || 1969 || 1997 || 1958 ||
|| 3,1 || 2 || 2050 || 2078 || 2094 || 2042 || 2074 || 2101 ||
|||| Avg. || 1611 || 1645 || 1667 || '''1657''' || '''1718''' || '''1722''' ||

== 13 junio 2012 ==
=== Experimento 1 ===
Resultados para la tarea 2. Se proponen cuatro variantes todas ellas basadas en la segmentación temporal de las secuencias de imágenes utilizando el producto punto entre vectores de fisher. El producto punto entre vectores de fisher es una buena medida de similitud entre imágenes. El procedimiento para segmentar fue: se agarra el primer vector y se empieza a calcular el producto punto de este primer vector con los vectores siguientes en la secuencia temporal, cuando ese producto supera un threshold se obtiene un segmento. Luego se elige nuevamente como primer vector el siguiente de la secuencia y se realiza nuevamente el procedimiento descripto anteriormente.

Para calcular los segmentos se utilizaron los vectores de fisher obtenidos de las imágenes de RGB debido a que con estas se obtenían en promedio segmentos más largos en comparación con los obtenidos usando los ifv de imágenes de profundidad.
==== Configuración ====
 * Descriptor RGB: DSIFT, step=4, image_presc=0.5, dsift_fs=0.707, dsift_ns=5

 * Descriptor Depth: DSIFT, step=4, image_presc=0.5, dsift_fs=0.707, dsift_ns=5

 * SGD LBD=1e-4, 20 iteraciones; 1024 Gaussianas; flip=1

 * Late fusion: w=0.5

 * Se prueban 4 configuraciones, MV (mayor votación), MS (mayor score), MC (mayor confidencialidad) y MST (mayor score y threshold).
  * MV: calculamos la moda del segmento, luego asignamos esa clase a todo el segmento
  * MS: buscamos el score máximo de todo el segmento para cualquier clase y luego asignamos la clase de ese score a toda la secuencia
  * MC: buscamos la clase con más confidencialidad en todo el segmento y luego asignamos esa clase a toda la secuencia
  * MST: buscamos el score máximo de todo el segmento para cualquier clase y pero luego asignamos la clase de ese score a toda la secuencia solo en caso de que ese score esté por encima de un threshold
  * La confidencialidad se calculo como la diferencia entre el score más grande y el segundo score más grande.

==== Resultados ====
|| || bl ||0.0 ||0.05||0.075||0.1 ||0.125 ||0.2 ||0.3 ||0.4 ||0.5 ||0.6 ||0.7 ||0.8 ||0.9 ||0.95 ||
||MV ||1722||1628||1688||1727 ||1790 ||'''1818'''||1778||1796 ||1775||1793||1792||1776||1774 ||1772||1774 ||
||MS ||1722||1337||1578||1594 ||1627 ||1699 ||1671||1658 ||1681||1737||1751||1773||'''1783'''||1777||1774 ||
||MC ||1722||1521||1758||1763 ||'''1849'''||1825 ||1808||1812 ||1791||1771||1781||1774||1782 ||1778||1775 ||
||MST -0.4||1722||1401||1650||1641 ||1704 ||1708 ||1694||1677 ||1686||1706||1738||1771||1798 ||1799||'''1800'''||
||MST -0.5||1722||1393||1683||1663 ||1715 ||1735 ||1725||1712 ||1755||1778||1798||1811||'''1833'''||1828||1825 ||
||MST -0.6||1722||1395||1692||1683 ||1745 ||1767 ||1764||1739 ||1767||1791||1811||1813||'''1824'''||1819||1816 ||
||MST -0.7||1722||1376||1670||1673 ||1714 ||1725 ||1729||1704 ||1740||1772||1779||1790||'''1799'''||1793||1790 ||
||MCT -0.4||1722||1525||1823||1798 ||'''1885'''||'''1885'''||1838||1871 ||1836||1827||1817||1811||1809 ||1804||1801 ||
||MCT -0.5||1722||1525||1806||1783 ||'''1867'''||1845 ||1833||1851 ||1827||1830||1829||1832||1835 ||1829||1827 ||
||MCT -0.6||1722||1521||1785||1761 ||'''1849'''||1823 ||1816||1827 ||1816||1802||1814||1815||1824 ||1821||1818 ||
||MVT -0.4||1722||1758||1800||1787 ||1842 ||'''1908'''||1875||1895 ||1871||1861||1848||1825||1812 ||1804||1801 ||
||MVT -0.5||1722||1690||1751||1758 ||1820 ||'''1877'''||1832||'''1875'''||1834||1846||1841||1834||1827 ||1823||1825 ||
||MVT -0.6||1722||1654||1718||1758 ||1809 ||'''1853'''||1822||1842 ||1834||1833||1832||1815||1817 ||1815||1816 ||
||mean_len||1 ||31 || || ||11 || ||8 ||5.4 ||4.0 ||2.9 ||2.1 ||1.6 ||1.2 ||1.02||1.01 ||
||n_seg ||2370||77 || || ||213 || ||315 ||440 ||590 ||804 ||1115||1505||2054 ||2317||2359 ||

=== Experimento 2 ===
Igual que en experimento 1, pero usando los vectores de fisher calculados sobre las imágenes de depth para realizar la segmentación.
==== Resultados ====
|| || bl ||0.0 ||0.05||0.075 ||0.1 ||0.125||0.2 ||0.3 || 0.4||0.5 ||0.6 ||0.7 ||0.8 ||
||MV ||1722||1479||1773||1787 ||'''1820'''||1788 ||1792||1795||1783||1773 ||1774||1774||1774 ||
||MS ||1722||1196||1762||1654 ||1670 ||1643 ||1701||1763||1768||'''1778'''||1775||1774||1774 ||
||MC ||1722||1303||1817||1875 ||'''1873'''||1801 ||1805||1783||1770||1781 ||1774||1774||1774 ||
||MST -0.4 ||1722||1278||1698||1714 ||1685 ||1659 ||1687||1743||1781||1799 ||1797||1800||'''1801'''||
||MST -0.5 ||1722||1276||1720||1743 ||1733 ||1704 ||1755||1802||1816||'''1829'''||1825||1826||1826 ||
||MST -0.6 ||1722||1269||1737||1775 ||1763 ||1734 ||1769||1818||1812||'''1819'''||1815||1817||1817 ||
||MST -0.7 ||1722||1243||1716||1735 ||1733 ||1683 ||1749||1786||1786||'''1794'''||1790||1792||1792 ||
||MCT -0.4 ||1722||1311||1843||1904 ||'''1919'''||1834 ||1842||1822||1803||1805 ||1801||1801||1801 ||
||MCT -0.5 ||1722||1311||1834||1892 ||'''1906'''||1837 ||1849||1845||1824||1832 ||1826||1826||1826 ||
||MCT -0.6 ||1722||1301||1819||1882 ||'''1888'''||1816 ||1832||822 ||1812||1825 ||1818||1817||1817 ||
||MCT -0.7 ||1722||1303||1816||'''1877'''||1875 ||1802 ||1813||1795||1786||1798 ||1791||1790||1790 ||
||MVT -0.4 ||1722||1529||1852||1846 ||'''1888'''||1849 ||1860||1843||1815||1804 ||1803||1802||1801 ||
||MVT -0.5 ||1722||1496||1809||1827 ||'''1858'''||1833 ||1851||1863||1827||1822 ||1826||1826||1826 ||
||MVT -0.6 ||1722||1505||1787||1800 ||'''1841'''||1807 ||1836||1839||1819||1814 ||1818||1817||1817 ||
||MVT -0.7 ||1722||1481||1795||1796 ||'''1816'''||1780 ||1793||1809||1796||1787 ||1791||1790||1790 ||
||mean_len ||1 ||36 ||10.4|| 8.20 ||6.86 || 5.90||3.88||2.17||1.39||1.12 ||1.04||1.01||1.00 ||
||n_seg ||2370||66 ||227 || 289 ||345 || 402 ||611 ||1090||1703||2120 ||2282||2347||2364 ||

=== Experimento 3 ===
Igual que en experimento 1 y 2, pero usando el promedio del producto punto de los vectores de fisher calculados sobre las imágenes de rgb y depth para realizar la segmentación.
==== Resultados ====
|| || bl ||0.0 ||0.05||0.075||0.1 ||0.125||0.2 ||0.3 || 0.4||0.5 ||0.6 ||0.7 ||0.8 ||
||MV ||1722||1545||1719||1780 ||1775||1768 ||'''1825'''||1790||1795||1789||1775||1774||1774||
||MS ||1722||1305||1552||1644 ||1655||1664 ||1691||1693||1758||1766||'''1778'''||'''1778'''||1774||
||MC ||1722||1392||1790||1793 ||1839||'''1853''' ||1821||1813||1772||1790||1773||1777||1774||
||MST -0.4 ||1722||1371||1638||1653 ||1689||1703 ||1684||1675||1724||1766||1792||1800||'''1801'''||
||MST -0.5 ||1722||1370||1655||1687 ||1735||1749 ||1724||1741||1789||1809||1823||1830||'''1826'''||
||MST -0.6 ||1722|| || || || || || || || || || || || ||
||MST -0.7 ||1722|| || || || || || || || || || || || ||
||MCT -0.4 ||1722||1395||1829||1832 ||1885||'''1902'''||1876||1848||1828||1822 || || || ||
||MCT -0.5 ||1722|| || ||1816 ||1858||'''1878''' ||1860||1848|| || || || || ||
||MCT -0.6 ||1722|| || ||1794 ||1843||'''1856''' ||1835||1834|| || || || || ||
||MCT -0.7 ||1722|| || ||1793 ||1839||'''1853''' ||1824||1821|| || || || || ||
||MVT -0.4 ||1722|| || ||1830 ||'''1900'''||1856 ||1896||1866|| || || || || ||
||MVT -0.5 ||1722|| || ||1814 ||1858||1821 ||'''1877'''||1842|||| || || || ||
||MVT -0.6 ||1722|| || || || || || || || || || || || ||
||MVT -0.7 ||1722|| || || || || || || || || || || || ||
||mean_len ||1 || || || || || || || || || || || || ||
||n_seg ||2370|| || || || || || || || || || || || ||

=== Versión final ===

'''Task 2 #1''': MCT, classification threshold=-0.4, segmentation (on DEPTH) threshold=0.1
<<BR>>
'''Task 2 #2''': MVT, classification threshold=-0.4, segmentation (on DEPTH) threshold=0.1

== 2 julio 2012 ==
=== Tiempos de Cálculo ===
 * Entrenamiento del clasificador
  * Realizado sobre los conjuntos training[123]
  * Num. muestras = 14224
  * Tiempo total rgb = 39 min 11 seg
  * Tiempo total depth = 48 min 47 seg

Robot Vision 2012

Experimentos realizados para la 4º edición de la competencia 'Robot Vision Challenge - ImageCLEF'.

Robot Vision 2012 Web Site

Tareas

  • experimentos con pirámides espaciales

  • usar el detector de transiciones con NGAUSS=64, 128 y 256
  • buscar implementaciones y evaluar descriptores RGBD
  • ver algunos descriptores de colores

Cosas que vamos a tener que probar

Datasets

El dataset está compuesto por 3 conjuntos de entrenamiento, denominados training[1,2,3], los cuales cuentan con 2667, 2532 y 1913 imágenes rgb y de profundidad respectivamente. La media de estos 3 conjuntos es 2371, este sería el máximo score a lograr en promedio cuando testeamos sobre los 3 conjuntos.

Las imágenes corresponden a las habitaciones

Comparación de los set

Imágenes de ejemplo

  • En training1 el recorrido del robot es contrario al caso de training[23].
  • Las imágenes de training3 son tomadas de noche

Training1

rgb_69 rgb_71 rgb_73 rgb_75

Training2

rgb_93 rgb_95 rgb_97 rgb_99

Training3

rgb_60 rgb_62 rgb_64 rgb_66

Repositorio con los scripts para replicar los experimentos

hg clone https://proyectos.ciii.frc.utn.edu.ar/hg/robot_vision_2012

Estructura de directorios

  • RobotVision2012/DS_..._DSIFT_.../
    • trainingX/

      trainingX.log

      trainingX_lr/

      trainingX_lr.log

      _PCA_/

      • subspace.dat

        subspace.log

        80D/

        • trainingX/

          trainingX.log

          trainingX_lr/

          trainingX_lr.log

          _GMM_/

          • u64.gmm

            u64/

            • IFV.../

              • trainingX/

                trainingX.log

                trainingX_lr/

                trainingX_lr.log

                _SGD_tr12_te3_/

                • hinge_20_1e-4/

                  • Corridor.lin

                  hinge_20_1e-4.training3

                  hinge_20_1e-4.log

25 abril 2012

Experimento 1

Configuración

  • Descriptores: SIFT sobre grilla regular (DSIFT de vlfeat), patchs 32x32, paso=8, L2-norm., D=128, 5 escalas, factor=0.707
  • PCA: subespacio aprendido sobre training1+training2+training3, D=80
  • GMM: aprendido sobre training1+training2+training3, para N = 8, 16 y 32

  • IFV: gradientes resp. medias y varianzas, alpha=0.5, pnorm=2.0
  • SGD: hinge loss, 20, 50 y 100 iteraciones, lambda = 1e-2, 1e-3 y 1e-4, training sobre training1 y testeando sobre training2. La clasificación se realizo con argmax.

Resultados

20 iteraciones

50 iteraciones

100 iteraciones

lambda\ngauss

8

16

32

8

16

32

8

16

32

1e-3

1382

1334

1414

1376

1352

1426

1382

1356

1422

1e-4

1462

1422

1466

1462

1400

1478

1462

1396

1476

1e-5

1318

1402

1444

1358

1368

1394

1378

1384

1322

experimento_1_25_abril_2012.txt

26 abril 2012

Experimento 1

Configuración

  • Igual que el experimento anterior, pero se agrego 64 gaussianas.
  • SGD: hinge loss, 20 iteraciones, lambda = 1e-4, training sobre training1 o training2 y testeando siempre sobre training3. La clasificación se realizo con argmax y con thr=-0.1.

Resultados

20 iteraciones, argmax, train1

20 iteraciones, thr=-0.1, train1

20 iteraciones, argmax, train2

20 iteraciones, thr=-0.1, train2

l\ng

8

16

32

64

8

16

32

64

8

16

32

64

8

16

32

64

1e-4

-405

-153

-127

-161

194

362

355

399

-361

-87

1

35

226

421

471

553

experimento_1_train1_val3_argmax_26_abril_2012.txt experimento_1_train1_val3_-0.1_26_abril_2012.txt experimento_1_train2_val3_argmax_26_abril_2012.txt experimento_1_train2_val3_-0.1_26_abril_2012.txt

3 mayo 2012

Experimento 1

Se realiza una prueba con distintos valores de DSIFT_STEP (8 y 16) y aumento el conjunto de entrenamiento haciendo un flip left-right de las imágenes antes de calcular DSIFT. Flip=0, indica sin aumentar el conjunto; Flip=1 indica aumentando el conjunto de entrenamiento con las imágenes flipeadas. Al final de este experimento se muestra la configuración que resulta más apropiada.

Configuración

  • SGD LBD=1e-4, 20 iteraciones
  • Using argmax for classification

Resultados

Flip=0
  • DSIFT step=8

NGAUSS

Tr.

Te.

8

16

32

64

128

256

512

1024

1,2

3

-289

29

59

79

185

267

319

445

2,3

1

935

1195

1141

1173

1183

1251

1225

1293

3,1

2

1162

1374

1390

1456

1584

1658

1668

1632

Avg.

603

866

863

903

984

1059

1071

1123

  • DSIFT step=16

NGAUSS

Tr.

Te.

8

16

32

64

128

256

512

1024

1,2

3

-161

-9

19

25

225

191

299

371

2,3

1

897

1129

1221

1143

1101

1095

1175

1179

3,1

2

1160

1252

1392

1424

1412

1528

1552

1524

Avg.

632

791

877

864

913

938

1009

1025

Flip=1
  • DSIFT step=8

NGAUSS

Tr.

Te.

8

16

32

64

128

256

512

1024

1,2

3

-357

-105

45

59

185

199

233

411

2,3

1

1569

1703

1787

1795

1887

1949

1995

1999

3,1

2

1666

1880

2018

2076

2142

2182

2182

2190

Avg.

959

1159

1283

1310

1405

1443

1470

1533

  • DSIFT step=16

NGAUSS

Tr.

Te.

8

16

32

64

128

256

512

1024

1,2

3

-211

11

31

-15

233

149

263

373

2,3

1

1447

1651

1693

1791

1857

1901

1945

1909

3,1

2

1642

1744

1944

2032

2126

2128

2150

2140

Avg.

959

1135

1223

1269

1405

1393

1453

1474

results_3_de_mayo_2012.tar.gz

  • Configuración: 256 Gaussianas, DSIFT step=8, flip=1

4 mayo 2012

Experimento 1

Se prueba oscureciendo las imágenes de entrenamiento del clasificador. El oscurecimiento se realiza multiplicando las intensidades de los pixeles de las imágenes por un factor menor a 1. Se probo con factores de 0.33 y 0.5. En este experimento no se actualizó el modelo .gmm con los nuevos descriptores con flip y oscurecidos.

Configuración

  • SGD LBD=1e-4, 20 iteraciones, 256 Gaussianas, DSIFT step=8, flip=1
  • Using argmax for classification

Resultados

NGAUSS=256

srange

Tr.

Te.

1.0

0.33

0.5

1,2

3

199

229

221

2,3

1

1949

1949

1945

3,1

2

2182

2180

2180

Avg.

1443

1452

1449

5 mayo 2012

Experimento 1

Se prueba oscureciendo las imágenes de entrenamiento del clasificador. El oscurecimiento se realiza multiplicando las intensidades de los pixeles de las imágenes por un factor menor a 1. Se probo con factores de 0.33 y 0.5. En este experimento si se actualizó el modelo .gmm con los nuevos descriptores generados con flip y con oscurecimiento.

Configuración

  • SGD LBD=1e-4, 20 iteraciones, 256 Gaussianas, DSIFT step=8, flip=1
  • Using argmax for classification

Resultados

NGAUSS=256

srange

Tr.

Te.

1.0

0.1

0.33

0.5

1,2

3

199

187

195

171

2,3

1

1949

1975

1945

1965

3,1

2

2182

2154

2166

2180

Avg.

1443

1439

1435

1439

7 mayo 2012

Experimento 1

Se prueba utilizando feature augmentation. En este experimento si se actualizó el modelo .gmm con los descriptores generados con flip de las imágenes. Con aug=1 o aug=0 se indica el uso o no de feature augmentation respectivamente.

Configuración

  • SGD LBD=1e-4, 20 iteraciones, 64 Gaussianas, DSIFT step=8, flip=[0,1]
  • Using argmax for classification

Resultados

NGAUSS=64

flip=0

flip=1

Tr.

Te.

aug=0

aug=1

aug=0

aug=1

1,2

3

77

87

257

33

2,3

1

1173

1207

1801

1783

3,1

2

1440

1528

2080

2014

Avg.

897

941

1379

1277

  • Comparación usando en ambos casos imágenes de entrenamiento originales y flipeadas, pero en el primer caso entrenando el modelo .gmm solo en las imágenes originales (gmm_flip=0) y en el segundo caso utilizando las imágenes originales y las flipeadas (gmm_flip=1). No se usó feature augmentation.

NGAUSS=64

flip=1

Tr.

Te.

gmm_flip=0

gmm_flip=1

1,2

3

59

257

2,3

1

1795

1801

3,1

2

2076

2080

Avg.

1310

1379

8 mayo 2012

Experimento 1

Se prueba utilizando feature augmentation. En este experimento si se actualizó el modelo .gmm con los descriptores generados con flip de las imágenes. Con aug=1 o aug=0 se indica el uso o no de feature augmentation respectivamente.

Configuración

  • SGD LBD=1e-4, 20 iteraciones, 128 Gaussianas, DSIFT step=8, flip=[0,1]
  • Using argmax for classification

Resultados

NGAUSS=128

flip=0

flip=1

Tr.

Te.

aug=0

aug=1

aug=0

aug=1

1,2

3

191

115

195

39

2,3

1

1189

1255

1887

1905

3,1

2

1582

1618

2132

2098

Avg.

987

996

1405

1347

9 mayo 2012

Experimento 1

Se prueba utilizando pirámides espaciales. Las configuraciones usadas son "sp1x1,lsf=0,gsf=0" (spyr=0), "sp1x1,sp1x3,lsf=0,gsf=0" (spyr=1) y "sp1x1,sp1x3,lsf=0.33,gsf=0.33" (spyr=2).

Configuración

  • SGD LBD=1e-4, 20 iteraciones, 64 Gaussianas, DSIFT step=8, flip=[0,1]
  • Using argmax for classification

Resultados

NGAUSS=64

flip=0

flip=1

Tr.

Te.

spyr=0

spyr=1

spyr=2

spyr=0

spyr=1

spyr=2

1,2

3

77

-413

-41

257

-458

201

2,3

1

1173

1123

1029

1801

1773

1791

3,1

2

1440

1412

1358

2080

2078

2084

Avg.

897

707

782

1379

1122

1359

11 mayo 2012

Experimento 1

Se prueba utilizando opponent SIFT. El software utilizado para calcular los descriptores es colorDescriptor. Estos cálculos se realizaron sobre la notebook de jaarac, por eso pueden variar con los que se calcularon antes.

Configuración

  • Descriptor: OPP_SIFT, step=16, sampling_scale=1.6
  • SGD LBD=1e-4; 20 iteraciones; 16, 32 y 64 Gaussianas; flip=0
  • Using argmax for classification

Resultados

OPPSIFT

flip=0

Tr.

Te.

16

32

64

1,2

3

-231

-173

-17

2,3

1

1161

1217

1221

3,1

2

1538

1598

1664

Avg.

823

881

956

Experimento 2

Se evaluó el detector de transiciones y distintas formas de realizar la clasificación. Con el detector de transiciones no se obtuvieron mejoras, así que los datos no fueron subidos.

Configuración

  • Los resultados mostrados son promedios sobre los scores obtenidos para las 3 configuraciones de conjuntos posibles para valores de 64, 128 y 256 gaussianas.
  • Descriptor: DSIFT, step=8
  • SGD LBD=1e-4; 20 iteraciones; Gaussianas; flip=0

Resultados

  • Aplicando un umbral a la diferencia entre el mayor y el segundo mayor score para decidir si clasificamos o no. La clasificación posterior se realizó con argmax. Solamente se muestran umbrales hasta 0.9, porque para umbrales menores los scores son muy bajos. El umbral 0.0 sería el baseline, o sea siempre clasificamos.

umbral

0.0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

avg

979.556

1035.44

1072

1095.78

1103.44

1102.67

1088.56

1058.56

1021.11

972.111

  • Utilizando un umbral sobre el mayor score de clasificación, para decidir cuando clasificar. Luego se elige la clase del mayor score.

umbral

-1.0

-0.9

-0.8

-0.7

-0.6

-0.5

-0.4

-0.3

-0.2

-0.1

0.0

0.1

0.2

avg

980.444

983.778

996.667

1019.56

1051.67

1095.89

1136.56

1172.44

1185

1166.78

1120.44

1056.67

979.444

  • Utilizando un umbral sobre abs(max_score)/(max_score - secondmax_score) para decidir cuando clasificar.

umbral

0.6

0.7

0.8

0.9

1.0

1.1

1.2

1.3

1.4

1.5

1.6

1.7

1.8

1.9

2.0

avg

1050

1123

1139

1139

1137

1131

1128

1123

1120

1118

1111.44

1107

1103

1101

1099

18 mayo 2012

Experimento 1

Se prueba utilizando el detector de transiciones, pero se generan nuevos conjuntos de entrenamiento a partir de los originales (feature_packer, feature_sampler).

Configuración

  • Descriptor: DSIFT, step=8, ;SGD LBD=1e-4, 20 iteraciones; 64, 128 y 256 Gaussianas; flip=0
  • Entrenando cls (lbd=1e-4) y td (lbd=1e-2,1e-3,1e-4) sobre training1 y training2. Entrenando cls+td (lbd=1e-2,1e-3,1e-4) sobre los nuevos conjuntos training1 y training2 generados con probabilidad P de sacar un descriptor de la imagen original. Se usaron probabilidades P = 0.3, 0.5, 0.66, 0.75 . El detector de transiciones se uso con thr = 0.7, 0.8, 0.9 .
  • Using argmax for classification

Resultados

Resultados para las condiciones que resultaron más favorables, esto es:

  • cls_sgd_lbd = 1e-4
  • td_sgd_lbd = 1e-2
  • cls+td_sgd_lbd = 1e-2
  • P = 0.75
  • thr = 0.8

set conf

BL

with TD, P=0.75, thr=0.8

Tr.

Te.

64

128

256

64

128

256

1,2

3

77

191

253

51

175

241

2,3

1

1173

1189

1267

1151

1181

1271

3,1

2

1440

1582

1644

1418

1554

1632

Avg.

897

987

1055

873

970

1048

Resultados para otras condiciones:

  • cls_sgd_lbd = 1e-4
  • td_sgd_lbd = 1e-4
  • cls+td_sgd_lbd = 1e-4
  • P = 0.75
  • thr = 0.8

set conf

BL

with TD, P=0.75, thr=0.8

Tr.

Te.

64

128

256

64

128

256

1,2

3

77

191

253

-43

79

165

2,3

1

1173

1189

1267

1187

1075

1121

3,1

2

1440

1582

1644

1266

1424

1540

Avg.

897

987

1055

803

859

942

En el siguiente archivo están todos los resultados. Los archivos *_with_td.txt contienen los resultados usando TD y los otros archivos el baseline. Hay un archivo para cada configuración de conjuntos de training y test. Las datos están organizados de la siguiente forma:

P

ngauss

cls_lbd

td_lbd

td_thr

cls+td_lbd

score

results_18_mayo_2012.tar.gz

29 mayo 2012

Experimento 1

Se realizan nuevamente los experimentos porque hubo errores con las etiquetas entregadas por los organizadores. También se muestran los resultados usando SIFT sobre las imágenes de profundidad.

Configuración

  • Descriptor RGB: DSIFT, step=8, image_presc=1, dsift_fs=0.707, dsift_ns=5
  • Descriptor Depth: DSIFT, step=8, image_presc=0.5, dsift_fs=0.707, dsift_ns=5
  • SGD LBD=1e-4, 20 iteraciones; 64, 128 y 256 Gaussianas; flip=0
  • Using argmax for classification

Resultados

set conf

RGB

Depth

Late fusion w=0.5

Tr.

Te.

64

128

256

64

128

256

64

128

256

1,2

3

77

191

253

23

159

349

433

599

681

2,3

1

1189

1199

1285

431

465

541

1031

1089

1069

3,1

2

1462

1592

1648

1108

1206

1226

1772

1822

1862

Avg.

909

994

1062

521

610

705

1079

1170

1204

30 mayo 2012

Experimento 1

Resultados usando SIFT sobre las imágenes de profundidad usando image_presc=0.5 e image_presc=1.0.

Configuración

  • Descriptor Depth: DSIFT, step=8, image_presc=[0.5, 1.0], dsift_fs=0.707, dsift_ns=5
  • SGD LBD=1e-4, 20 iteraciones; 64, 128, 256 y 512 Gaussianas; flip=0
  • Using argmax for classification

Resultados

set conf

image_presc=0.5

image_presc=1.0

Tr.

Te.

64

128

256

512

64

128

256

512

1,2

3

23

159

349

-335

7

203

309

2,3

1

431

465

541

465

571

609

617

3,1

2

1108

1206

1226

1116

1194

1226

1272

Avg.

521

610

705

415

591

679

733

Experimento 2

Late fusion sobre RGB y Depth. Comparación usando image_presc=[0.5,1.0]

Configuración

  • Descriptor RGB: DSIFT, step=8, image_presc=1, dsift_fs=0.707, dsift_ns=5
  • Descriptor Depth: DSIFT, step=8, image_presc=[0.5,1.0], dsift_fs=0.707, dsift_ns=5
  • SGD LBD=1e-4, 20 iteraciones; 64, 128 y 256 Gaussianas; flip=0
  • Using argmax for classification

  • Late fusion: w=0.5

Resultados

set conf

Late fusion image_presc=0.5 w=0.5

Late fusion image_presc=1.0 w=0.5

Tr.

Te.

64

128

256

512

64

128

256

512

1,2

3

433

599

681

249

527

687

685

2,3

1

1031

1089

1069

1041

1083

1103

1091

3,1

2

1772

1822

1862

1766

1828

1890

1850

Avg.

1079

1170

1204

1018

1146

1227

1209

31 mayo 2012

Experimento 1

Resultados usando SIFT sobre las imágenes de profundidad usando step=4 y step=8.

Configuración

  • Descriptor Depth: DSIFT, step=[4,8], image_presc=0.5, dsift_fs=0.707, dsift_ns=5
  • SGD LBD=1e-4, 20 iteraciones; 256 Gaussianas; flip=0
  • Using argmax for classification

Resultados

set conf

step=8

step=4

Tr.

Te.

256

256

1,2

3

349

357

2,3

1

541

573

3,1

2

1226

1266

Avg.

705

732

Experimento 2

Late fusion sobre RGB y Depth. Comparación usando step=[4,8] para las imágenes de profundidad.

Configuración

  • Descriptor RGB: DSIFT, step=8, image_presc=1, dsift_fs=0.707, dsift_ns=5
  • Descriptor Depth: DSIFT, step=[4,8], image_presc=0.5, dsift_fs=0.707, dsift_ns=5
  • SGD LBD=1e-4, 20 iteraciones; 256 Gaussianas; flip=0
  • Using argmax for classification

  • Late fusion: w=0.5

Resultados

set conf

Late fusion step=4

Late fusion step=8

Tr.

Te.

256

256

1,2

3

755

681

2,3

1

1113

1069

3,1

2

1878

1862

Avg.

1249

1204

1 junio 2012

Experimento 1

Late fusion sobre RGB y Depth ambos con flip=1.

Configuración

  • Descriptor RGB: DSIFT, step=8, image_presc=1, dsift_fs=0.707, dsift_ns=5
  • Descriptor Depth: DSIFT, step=4, image_presc=0.5, dsift_fs=0.707, dsift_ns=5
  • SGD LBD=1e-4, 20 iteraciones; 256, 512 y 1024 Gaussianas; flip=1
  • Late fusion: w=0.5

Resultados usando argmax

set conf

RGB

Depth

LF w=0.5

Tr.

Te.

256

512

1024

256

512

1024

256

512

1024

1,2

3

239

269

339

511

489

609

757

815

921

2,3

1

2013

1991

2019

1403

1429

1461

1985

1981

1997

3,1

2

2174

2182

2186

1548

1564

1598

2096

2098

2116

Avg.

1475

1481

1515

1154

1161

1223

1613

1631

1678

Resultados usando un thr y no argmax

  • Se utilizó un thresold para decidir si se clasifica o no. Se muestra con argmax para comparar.

set conf

argmax

thr=-0.4

thr=-0.5

thr=-0.6

Tr.

Te.

256

512

1024

256

512

1024

256

512

1024

256

512

1024

1,2

3

757

815

921

868

927

989

897

968

1054

896

947

1047

2,3

1

1985

1981

1997

1990

2002

1998

2014

2015

2001

2010

1997

2003

3,1

2

2096

2098

2116

2076

2084

2116

2096

2102

2115

2094

2096

2114

Avg.

1613

1631

1678

1645

1671

1701

1669

1695

1723

1667

1680

1721

4 junio 2012

Experimento 1

Comparación DSIFT sobre imágenes RGB usando step=[4,8] y image_presc=[0.5,1.0] con flip=1.

Configuración

  • Descriptor RGB: DSIFT, step=[4,8], image_presc=[0.5,1.0], dsift_fs=0.707, dsift_ns=5
  • SGD LBD=1e-4, 20 iteraciones; 256, 512 y 1024 Gaussianas; flip=1
  • Using argmax for classification

Resultados usando argmax

set conf

step=4, img_presc=0.5

step=8, img_presc=1.0

Tr.

Te.

256

512

1024

256

512

1024

1,2

3

275

411

491

239

269

339

2,3

1

1941

1945

1969

2013

1991

2019

3,1

2

2150

2158

2154

2174

2182

2186

Avg.

1455

1505

1538

1475

1481

1515

Experimento 2

Late fusion sobre RGB y Depth ambos con flip=1.

Configuración

  • Descriptor RGB: DSIFT, step=4, image_presc=0.5, dsift_fs=0.707, dsift_ns=5
  • Descriptor Depth: DSIFT, step=4, image_presc=0.5, dsift_fs=0.707, dsift_ns=5
  • SGD LBD=1e-4, 20 iteraciones; 256, 512 y 1024 Gaussianas; flip=1
  • Late fusion: w=0.5

Resultados usando argmax

set conf

RGB

Depth

LF w=0.5

Tr.

Te.

256

512

1024

256

512

1024

256

512

1024

1,2

3

275

411

491

511

489

609

835

897

965

2,3

1

1941

1945

1969

1403

1429

1461

1947

1961

1941

3,1

2

2150

2158

2154

1548

1564

1598

2050

2078

2094

Avg.

1455

1505

1538

1154

1161

1223

1611

1645

1667

Resultados usando un thr y no argmax

  • Se utilizó un thresold para decidir si se clasifica o no. Se muestra con argmax para comparar.

set conf

argmax

thr=-0.5

Tr.

Te.

256

512

1024

256

512

1024

1,2

3

835

897

965

959

1084

1107

2,3

1

1947

1961

1941

1969

1997

1958

3,1

2

2050

2078

2094

2042

2074

2101

Avg.

1611

1645

1667

1657

1718

1722

13 junio 2012

Experimento 1

Resultados para la tarea 2. Se proponen cuatro variantes todas ellas basadas en la segmentación temporal de las secuencias de imágenes utilizando el producto punto entre vectores de fisher. El producto punto entre vectores de fisher es una buena medida de similitud entre imágenes. El procedimiento para segmentar fue: se agarra el primer vector y se empieza a calcular el producto punto de este primer vector con los vectores siguientes en la secuencia temporal, cuando ese producto supera un threshold se obtiene un segmento. Luego se elige nuevamente como primer vector el siguiente de la secuencia y se realiza nuevamente el procedimiento descripto anteriormente.

Para calcular los segmentos se utilizaron los vectores de fisher obtenidos de las imágenes de RGB debido a que con estas se obtenían en promedio segmentos más largos en comparación con los obtenidos usando los ifv de imágenes de profundidad.

Configuración

  • Descriptor RGB: DSIFT, step=4, image_presc=0.5, dsift_fs=0.707, dsift_ns=5
  • Descriptor Depth: DSIFT, step=4, image_presc=0.5, dsift_fs=0.707, dsift_ns=5
  • SGD LBD=1e-4, 20 iteraciones; 1024 Gaussianas; flip=1
  • Late fusion: w=0.5
  • Se prueban 4 configuraciones, MV (mayor votación), MS (mayor score), MC (mayor confidencialidad) y MST (mayor score y threshold).
    • MV: calculamos la moda del segmento, luego asignamos esa clase a todo el segmento
    • MS: buscamos el score máximo de todo el segmento para cualquier clase y luego asignamos la clase de ese score a toda la secuencia
    • MC: buscamos la clase con más confidencialidad en todo el segmento y luego asignamos esa clase a toda la secuencia
    • MST: buscamos el score máximo de todo el segmento para cualquier clase y pero luego asignamos la clase de ese score a toda la secuencia solo en caso de que ese score esté por encima de un threshold
    • La confidencialidad se calculo como la diferencia entre el score más grande y el segundo score más grande.

Resultados

bl

0.0

0.05

0.075

0.1

0.125

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

0.95

MV

1722

1628

1688

1727

1790

1818

1778

1796

1775

1793

1792

1776

1774

1772

1774

MS

1722

1337

1578

1594

1627

1699

1671

1658

1681

1737

1751

1773

1783

1777

1774

MC

1722

1521

1758

1763

1849

1825

1808

1812

1791

1771

1781

1774

1782

1778

1775

MST -0.4

1722

1401

1650

1641

1704

1708

1694

1677

1686

1706

1738

1771

1798

1799

1800

MST -0.5

1722

1393

1683

1663

1715

1735

1725

1712

1755

1778

1798

1811

1833

1828

1825

MST -0.6

1722

1395

1692

1683

1745

1767

1764

1739

1767

1791

1811

1813

1824

1819

1816

MST -0.7

1722

1376

1670

1673

1714

1725

1729

1704

1740

1772

1779

1790

1799

1793

1790

MCT -0.4

1722

1525

1823

1798

1885

1885

1838

1871

1836

1827

1817

1811

1809

1804

1801

MCT -0.5

1722

1525

1806

1783

1867

1845

1833

1851

1827

1830

1829

1832

1835

1829

1827

MCT -0.6

1722

1521

1785

1761

1849

1823

1816

1827

1816

1802

1814

1815

1824

1821

1818

MVT -0.4

1722

1758

1800

1787

1842

1908

1875

1895

1871

1861

1848

1825

1812

1804

1801

MVT -0.5

1722

1690

1751

1758

1820

1877

1832

1875

1834

1846

1841

1834

1827

1823

1825

MVT -0.6

1722

1654

1718

1758

1809

1853

1822

1842

1834

1833

1832

1815

1817

1815

1816

mean_len

1

31

11

8

5.4

4.0

2.9

2.1

1.6

1.2

1.02

1.01

n_seg

2370

77

213

315

440

590

804

1115

1505

2054

2317

2359

Experimento 2

Igual que en experimento 1, pero usando los vectores de fisher calculados sobre las imágenes de depth para realizar la segmentación.

Resultados

bl

0.0

0.05

0.075

0.1

0.125

0.2

0.3

0.4

0.5

0.6

0.7

0.8

MV

1722

1479

1773

1787

1820

1788

1792

1795

1783

1773

1774

1774

1774

MS

1722

1196

1762

1654

1670

1643

1701

1763

1768

1778

1775

1774

1774

MC

1722

1303

1817

1875

1873

1801

1805

1783

1770

1781

1774

1774

1774

MST -0.4

1722

1278

1698

1714

1685

1659

1687

1743

1781

1799

1797

1800

1801

MST -0.5

1722

1276

1720

1743

1733

1704

1755

1802

1816

1829

1825

1826

1826

MST -0.6

1722

1269

1737

1775

1763

1734

1769

1818

1812

1819

1815

1817

1817

MST -0.7

1722

1243

1716

1735

1733

1683

1749

1786

1786

1794

1790

1792

1792

MCT -0.4

1722

1311

1843

1904

1919

1834

1842

1822

1803

1805

1801

1801

1801

MCT -0.5

1722

1311

1834

1892

1906

1837

1849

1845

1824

1832

1826

1826

1826

MCT -0.6

1722

1301

1819

1882

1888

1816

1832

822

1812

1825

1818

1817

1817

MCT -0.7

1722

1303

1816

1877

1875

1802

1813

1795

1786

1798

1791

1790

1790

MVT -0.4

1722

1529

1852

1846

1888

1849

1860

1843

1815

1804

1803

1802

1801

MVT -0.5

1722

1496

1809

1827

1858

1833

1851

1863

1827

1822

1826

1826

1826

MVT -0.6

1722

1505

1787

1800

1841

1807

1836

1839

1819

1814

1818

1817

1817

MVT -0.7

1722

1481

1795

1796

1816

1780

1793

1809

1796

1787

1791

1790

1790

mean_len

1

36

10.4

8.20

6.86

5.90

3.88

2.17

1.39

1.12

1.04

1.01

1.00

n_seg

2370

66

227

289

345

402

611

1090

1703

2120

2282

2347

2364

Experimento 3

Igual que en experimento 1 y 2, pero usando el promedio del producto punto de los vectores de fisher calculados sobre las imágenes de rgb y depth para realizar la segmentación.

Resultados

bl

0.0

0.05

0.075

0.1

0.125

0.2

0.3

0.4

0.5

0.6

0.7

0.8

MV

1722

1545

1719

1780

1775

1768

1825

1790

1795

1789

1775

1774

1774

MS

1722

1305

1552

1644

1655

1664

1691

1693

1758

1766

1778

1778

1774

MC

1722

1392

1790

1793

1839

1853

1821

1813

1772

1790

1773

1777

1774

MST -0.4

1722

1371

1638

1653

1689

1703

1684

1675

1724

1766

1792

1800

1801

MST -0.5

1722

1370

1655

1687

1735

1749

1724

1741

1789

1809

1823

1830

1826

MST -0.6

1722

MST -0.7

1722

MCT -0.4

1722

1395

1829

1832

1885

1902

1876

1848

1828

1822

MCT -0.5

1722

1816

1858

1878

1860

1848

MCT -0.6

1722

1794

1843

1856

1835

1834

MCT -0.7

1722

1793

1839

1853

1824

1821

MVT -0.4

1722

1830

1900

1856

1896

1866

MVT -0.5

1722

1814

1858

1821

1877

1842

MVT -0.6

1722

MVT -0.7

1722

mean_len

1

n_seg

2370

Versión final

Task 2 #1: MCT, classification threshold=-0.4, segmentation (on DEPTH) threshold=0.1
Task 2 #2: MVT, classification threshold=-0.4, segmentation (on DEPTH) threshold=0.1

2 julio 2012

Tiempos de Cálculo

  • Entrenamiento del clasificador
    • Realizado sobre los conjuntos training[123]
    • Num. muestras = 14224
    • Tiempo total rgb = 39 min 11 seg
    • Tiempo total depth = 48 min 47 seg

None: Vision/ProyectosVision/RobotVision2012 (última edición 2013-08-10 22:52:45 efectuada por Jaarac)